Stage Recherche - Explorer les Frontières de la Recherche d'Information Générative

Stage
Paris
Salaire : Non spécifié
Télétravail fréquent
Postuler

Artefact
Artefact

Cette offre vous tente ?

Postuler
Questions et réponses sur l'offre

Le poste

Descriptif du poste

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée  en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises.  

L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit  de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles  garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et l’accompagnement au changement.

Sujet

Au cours de ce stage, vous vous plongerez dans le nouveau paradigme de l'index de recherche différentiable [1] (DSI), une approche révolutionnaire qui a montré des résultats prometteurs dans la redéfinition du paysage de l'indexation et de la recherche de documents. Le paradigme DSI exploite la puissance des modèles de langage de grande taille (LLM) pour encoder un corpus entier de documents dans les paramètres du modèle, éliminant ainsi le besoin d'index externes et ouvrant de nouvelles voies pour une recherche efficace et évolutive. [1, 2, 3]

Objectif de la Recherche:

Votre objectif principal pendant ce stage sera d'explorer en profondeur le paradigme DSI et d'étudier les améliorations potentielles pour accroître son efficacité et son évolutivité. Voici quelques exemples de pistes de recherche que vous pourriez suivre :

1. Génération d'identifiants de documents (DocID): Vous vous pencherez sur diverses méthodes de génération de DocID, les identifiants uniques attribués à chaque document du corpus. Cela implique l'exploration de différentes techniques pour encoder la sémantique et les relations des documents dans les DocID, dans le but d'améliorer la précision et l'efficacité de la recherche. [5,8]

2. Scaling pour des milliards de documents : Un défi crucial dans la recherche d'informations est la mise à l'échelle de l'index pour prendre en charge des ensembles de données massifs contenant des milliards de documents. Vous étudierez des approches innovantes pour adapter le paradigme DSI à la gestion de corpus à grande échelle, en veillant à ce que le modèle de recherche reste efficace et performant même avec des ensembles de données massifs. [6,9]

3. Mises à jour incrémentielles des connaissances: La capacité de mettre à jour les connaissances du LLM sans nécessiter un réentraînement complet est essentielle pour s'adapter aux corpus dynamiques et intégrer de nouvelles informations. Vous explorerez diverses méthodes de mise à jour incrémentielles des connaissances, permettant au modèle DSI de s'adapter de manière transparente aux nouveaux documents et à l'évolution des besoins en information. [7,10]

4. Mémorisation et overfitting : Analysez comment différentes représentations de DocID, telles que atomic token ou semantically structured identifiers, influencent les tendances à la mémorisation et à l’overfitting d'un modèle DSI. Étudiez les taux de mémorisation et les capacités de généralisation pour divers types de DocID afin de comprendre leur impact sur les performances du modèle. Votre objectif sera de développer des stratégies pour atténuer le surajustement et garantir la capacité de généralisation du modèle. [4]

Les connaissances que vous acquerrez au cours de ce stage seront utilisées pour améliorer les applications de génération augmentée par la recherche (RAG) chez Artefact, dans le but de développer des méthodes de bout en bout plus efficaces et plus robustes pour le RAG.

Pré-requis

Le profil recherché pour ce poste est le suivant :

  • BAC+5 : Formation en machine learning/statistiques/informatique au sein d’une université ou école d’ingénieur
  • Stage de fin d’études
  • Date de début : printemps 2025
  • Durée : 4 à 6 mois

Références 

 [1] Y. Tay et al., ‘Transformer Memory as a Differentiable Search Index’, Advances in Neural Information Processing Systems, vol. 35, pp. 21831–21843, Dec. 2022, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2022/hash/892840a6123b5ec99ebaab8be1530fba-Abstract-Conference.html

[2] X. Chen, Y. Liu, B. He, L. Sun, and Y. Sun, ‘Understanding Differential Search Index for Text Retrieval’, in Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada: Association for Computational Linguistics, 2023, pp. 10701–10717. doi: 10.18653/v1/2023.findings-acl.681.

[3] S. Rajput et al., ‘Recommender Systems with Generative Retrieval’, Advances in Neural Information Processing Systems, vol. 36, pp. 10299–10315, Dec. 2023, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2023/hash/20dcab0f14046a5c6b02b61da9f13229-Abstract-Conference.html

[4] K. Tirumala, A. Markosyan, L. Zettlemoyer, and A. Aghajanyan, ‘Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models’, Advances in Neural Information Processing Systems, vol. 35, pp. 38274–38290, Dec. 2022, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2022/hash/fa0509f4dab6807e2cb465715bf2d249-Abstract-Conference.html

[5] W. Sun et al., ‘Learning to Tokenize for Generative Retrieval’, Advances in Neural Information Processing Systems, vol. 36, pp. 46345–46361, Dec. 2023, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2023/hash/91228b942a4528cdae031c1b68b127e8-Abstract-Conference.html

[6] R. Pradeep et al., ‘How Does Generative Retrieval Scale to Millions of Passages?’, in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 1305–1321. doi: 10.18653/v1/2023.emnlp-main.83.

[7] V. Kishore, C. Wan, J. Lovelace, Y. Artzi, and K. Q. Weinberger, ‘IncDSI: Incrementally Updatable Document Retrieval’, in Proceedings of the 40th International Conference on Machine Learning, PMLR, Jul. 2023, pp. 17122–17134. Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.mlr.press/v202/kishore23a.html

[8] Z. Wang, Y. Zhou, Y. Tu, and Z. Dou, ‘NOVO: Learnable and Interpretable Document Identifiers for Model-Based IR’, in Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, in CIKM ’23. New York, NY, USA: Association for Computing Machinery, Oct. 2023, pp. 2656–2665. doi: 10.1145/3583780.3614993.

[9] H. Zeng, C. Luo, B. Jin, S. M. Sarwar, T. Wei, and H. Zamani, ‘Scalable and Effective Generative Information Retrieval’, in Proceedings of the ACM Web Conference 2024, in WWW ’24. New York, NY, USA: Association for Computing Machinery, May 2024, pp. 1441–1452. doi: 10.1145/3589334.3645477.

[10] S. V. Mehta et al., ‘DSI++: Updating Transformer Memory with New Documents’, in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 8198–8213. doi: 10.18653/v1/2023.emnlp-main.510. https://zbib.org/3f9d7722884f42fbb9a29bd01672665b

Offre de stage de recherche de master d’une durée de 4 à 6 mois, débutant au printemps 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. Vous aurez accès à des données réelles et serez confronté à des cas concrets (qui seront précisées en début de stage). Ce stage aura lieu au sein du centre de recherche d’Artefact et pourra ensuite être continué en thèse CIFRE.

Envie d’en savoir plus ?

Postuler