Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises.
L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et l’accompagnement au changement.
Au cours de ce stage, vous vous plongerez dans le nouveau paradigme de l'index de recherche différentiable [1] (DSI), une approche révolutionnaire qui a montré des résultats prometteurs dans la redéfinition du paysage de l'indexation et de la recherche de documents. Le paradigme DSI exploite la puissance des modèles de langage de grande taille (LLM) pour encoder un corpus entier de documents dans les paramètres du modèle, éliminant ainsi le besoin d'index externes et ouvrant de nouvelles voies pour une recherche efficace et évolutive. [1, 2, 3]
Votre objectif principal pendant ce stage sera d'explorer en profondeur le paradigme DSI et d'étudier les améliorations potentielles pour accroître son efficacité et son évolutivité. Voici quelques exemples de pistes de recherche que vous pourriez suivre :
1. Génération d'identifiants de documents (DocID): Vous vous pencherez sur diverses méthodes de génération de DocID, les identifiants uniques attribués à chaque document du corpus. Cela implique l'exploration de différentes techniques pour encoder la sémantique et les relations des documents dans les DocID, dans le but d'améliorer la précision et l'efficacité de la recherche. [5,8]
2. Scaling pour des milliards de documents : Un défi crucial dans la recherche d'informations est la mise à l'échelle de l'index pour prendre en charge des ensembles de données massifs contenant des milliards de documents. Vous étudierez des approches innovantes pour adapter le paradigme DSI à la gestion de corpus à grande échelle, en veillant à ce que le modèle de recherche reste efficace et performant même avec des ensembles de données massifs. [6,9]
3. Mises à jour incrémentielles des connaissances: La capacité de mettre à jour les connaissances du LLM sans nécessiter un réentraînement complet est essentielle pour s'adapter aux corpus dynamiques et intégrer de nouvelles informations. Vous explorerez diverses méthodes de mise à jour incrémentielles des connaissances, permettant au modèle DSI de s'adapter de manière transparente aux nouveaux documents et à l'évolution des besoins en information. [7,10]
4. Mémorisation et overfitting : Analysez comment différentes représentations de DocID, telles que atomic token ou semantically structured identifiers, influencent les tendances à la mémorisation et à l’overfitting d'un modèle DSI. Étudiez les taux de mémorisation et les capacités de généralisation pour divers types de DocID afin de comprendre leur impact sur les performances du modèle. Votre objectif sera de développer des stratégies pour atténuer le surajustement et garantir la capacité de généralisation du modèle. [4]
Les connaissances que vous acquerrez au cours de ce stage seront utilisées pour améliorer les applications de génération augmentée par la recherche (RAG) chez Artefact, dans le but de développer des méthodes de bout en bout plus efficaces et plus robustes pour le RAG.
Le profil recherché pour ce poste est le suivant :
Références
[1] Y. Tay et al., ‘Transformer Memory as a Differentiable Search Index’, Advances in Neural Information Processing Systems, vol. 35, pp. 21831–21843, Dec. 2022, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2022/hash/892840a6123b5ec99ebaab8be1530fba-Abstract-Conference.html
[2] X. Chen, Y. Liu, B. He, L. Sun, and Y. Sun, ‘Understanding Differential Search Index for Text Retrieval’, in Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada: Association for Computational Linguistics, 2023, pp. 10701–10717. doi: 10.18653/v1/2023.findings-acl.681.
[3] S. Rajput et al., ‘Recommender Systems with Generative Retrieval’, Advances in Neural Information Processing Systems, vol. 36, pp. 10299–10315, Dec. 2023, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2023/hash/20dcab0f14046a5c6b02b61da9f13229-Abstract-Conference.html
[4] K. Tirumala, A. Markosyan, L. Zettlemoyer, and A. Aghajanyan, ‘Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models’, Advances in Neural Information Processing Systems, vol. 35, pp. 38274–38290, Dec. 2022, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2022/hash/fa0509f4dab6807e2cb465715bf2d249-Abstract-Conference.html
[5] W. Sun et al., ‘Learning to Tokenize for Generative Retrieval’, Advances in Neural Information Processing Systems, vol. 36, pp. 46345–46361, Dec. 2023, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2023/hash/91228b942a4528cdae031c1b68b127e8-Abstract-Conference.html
[6] R. Pradeep et al., ‘How Does Generative Retrieval Scale to Millions of Passages?’, in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 1305–1321. doi: 10.18653/v1/2023.emnlp-main.83.
[7] V. Kishore, C. Wan, J. Lovelace, Y. Artzi, and K. Q. Weinberger, ‘IncDSI: Incrementally Updatable Document Retrieval’, in Proceedings of the 40th International Conference on Machine Learning, PMLR, Jul. 2023, pp. 17122–17134. Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.mlr.press/v202/kishore23a.html
[8] Z. Wang, Y. Zhou, Y. Tu, and Z. Dou, ‘NOVO: Learnable and Interpretable Document Identifiers for Model-Based IR’, in Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, in CIKM ’23. New York, NY, USA: Association for Computing Machinery, Oct. 2023, pp. 2656–2665. doi: 10.1145/3583780.3614993.
[9] H. Zeng, C. Luo, B. Jin, S. M. Sarwar, T. Wei, and H. Zamani, ‘Scalable and Effective Generative Information Retrieval’, in Proceedings of the ACM Web Conference 2024, in WWW ’24. New York, NY, USA: Association for Computing Machinery, May 2024, pp. 1441–1452. doi: 10.1145/3589334.3645477.
[10] S. V. Mehta et al., ‘DSI++: Updating Transformer Memory with New Documents’, in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 8198–8213. doi: 10.18653/v1/2023.emnlp-main.510. https://zbib.org/3f9d7722884f42fbb9a29bd01672665b
Offre de stage de recherche de master d’une durée de 4 à 6 mois, débutant au printemps 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. Vous aurez accès à des données réelles et serez confronté à des cas concrets (qui seront précisées en début de stage). Ce stage aura lieu au sein du centre de recherche d’Artefact et pourra ensuite être continué en thèse CIFRE.