Le télétravail est-il possible pour ce poste ?

Le télétravail est autorisé pour ce poste.

Quel est le type de contrat pour ce poste ?

Le contrat pour ce poste est de type {contract_type}.

Stage Recherche - Explorer les Frontières de la Recherche d'Information Générative - Artefact

Cette offre n’est plus disponible.

Artefact

Stage Recherche - Explorer les Frontières de la Recherche d'Information Générative

Stage

Paris

Salaire : Non spécifié

Télétravail fréquent

il y a 3 mois

Artefact

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises.

L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et l’accompagnement au changement.

Sujet

Au cours de ce stage, vous vous plongerez dans le nouveau paradigme de l'index de recherche différentiable [1] (DSI), une approche révolutionnaire qui a montré des résultats prometteurs dans la redéfinition du paysage de l'indexation et de la recherche de documents. Le paradigme DSI exploite la puissance des modèles de langage de grande taille (LLM) pour encoder un corpus entier de documents dans les paramètres du modèle, éliminant ainsi le besoin d'index externes et ouvrant de nouvelles voies pour une recherche efficace et évolutive. [1, 2, 3]

Objectif de la Recherche:

Votre objectif principal pendant ce stage sera d'explorer en profondeur le paradigme DSI et d'étudier les améliorations potentielles pour accroître son efficacité et son évolutivité. Voici quelques exemples de pistes de recherche que vous pourriez suivre :

1. Génération d'identifiants de documents (DocID): Vous vous pencherez sur diverses méthodes de génération de DocID, les identifiants uniques attribués à chaque document du corpus. Cela implique l'exploration de différentes techniques pour encoder la sémantique et les relations des documents dans les DocID, dans le but d'améliorer la précision et l'efficacité de la recherche. [5,8]

2. Scaling pour des milliards de documents : Un défi crucial dans la recherche d'informations est la mise à l'échelle de l'index pour prendre en charge des ensembles de données massifs contenant des milliards de documents. Vous étudierez des approches innovantes pour adapter le paradigme DSI à la gestion de corpus à grande échelle, en veillant à ce que le modèle de recherche reste efficace et performant même avec des ensembles de données massifs. [6,9]

3. Mises à jour incrémentielles des connaissances: La capacité de mettre à jour les connaissances du LLM sans nécessiter un réentraînement complet est essentielle pour s'adapter aux corpus dynamiques et intégrer de nouvelles informations. Vous explorerez diverses méthodes de mise à jour incrémentielles des connaissances, permettant au modèle DSI de s'adapter de manière transparente aux nouveaux documents et à l'évolution des besoins en information. [7,10]

4. Mémorisation et overfitting : Analysez comment différentes représentations de DocID, telles que atomic token ou semantically structured identifiers, influencent les tendances à la mémorisation et à l’overfitting d'un modèle DSI. Étudiez les taux de mémorisation et les capacités de généralisation pour divers types de DocID afin de comprendre leur impact sur les performances du modèle. Votre objectif sera de développer des stratégies pour atténuer le surajustement et garantir la capacité de généralisation du modèle. [4]

Les connaissances que vous acquerrez au cours de ce stage seront utilisées pour améliorer les applications de génération augmentée par la recherche (RAG) chez Artefact, dans le but de développer des méthodes de bout en bout plus efficaces et plus robustes pour le RAG.

Pré-requis

Le profil recherché pour ce poste est le suivant :

BAC+5 : Formation en machine learning/statistiques/informatique au sein d’une université ou école d’ingénieur
Stage de fin d’études
Date de début : printemps 2025
Durée : 4 à 6 mois

Références

[1] Y. Tay et al., ‘Transformer Memory as a Differentiable Search Index’, Advances in Neural Information Processing Systems, vol. 35, pp. 21831–21843, Dec. 2022, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2022/hash/892840a6123b5ec99ebaab8be1530fba-Abstract-Conference.html

[2] X. Chen, Y. Liu, B. He, L. Sun, and Y. Sun, ‘Understanding Differential Search Index for Text Retrieval’, in Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada: Association for Computational Linguistics, 2023, pp. 10701–10717. doi: 10.18653/v1/2023.findings-acl.681.

[3] S. Rajput et al., ‘Recommender Systems with Generative Retrieval’, Advances in Neural Information Processing Systems, vol. 36, pp. 10299–10315, Dec. 2023, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2023/hash/20dcab0f14046a5c6b02b61da9f13229-Abstract-Conference.html

[4] K. Tirumala, A. Markosyan, L. Zettlemoyer, and A. Aghajanyan, ‘Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models’, Advances in Neural Information Processing Systems, vol. 35, pp. 38274–38290, Dec. 2022, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2022/hash/fa0509f4dab6807e2cb465715bf2d249-Abstract-Conference.html

[5] W. Sun et al., ‘Learning to Tokenize for Generative Retrieval’, Advances in Neural Information Processing Systems, vol. 36, pp. 46345–46361, Dec. 2023, Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/2023/hash/91228b942a4528cdae031c1b68b127e8-Abstract-Conference.html

[6] R. Pradeep et al., ‘How Does Generative Retrieval Scale to Millions of Passages?’, in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 1305–1321. doi: 10.18653/v1/2023.emnlp-main.83.

[7] V. Kishore, C. Wan, J. Lovelace, Y. Artzi, and K. Q. Weinberger, ‘IncDSI: Incrementally Updatable Document Retrieval’, in Proceedings of the 40th International Conference on Machine Learning, PMLR, Jul. 2023, pp. 17122–17134. Accessed: Nov. 21, 2024. [Online]. Available: https://proceedings.mlr.press/v202/kishore23a.html

[8] Z. Wang, Y. Zhou, Y. Tu, and Z. Dou, ‘NOVO: Learnable and Interpretable Document Identifiers for Model-Based IR’, in Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, in CIKM ’23. New York, NY, USA: Association for Computing Machinery, Oct. 2023, pp. 2656–2665. doi: 10.1145/3583780.3614993.

[9] H. Zeng, C. Luo, B. Jin, S. M. Sarwar, T. Wei, and H. Zamani, ‘Scalable and Effective Generative Information Retrieval’, in Proceedings of the ACM Web Conference 2024, in WWW ’24. New York, NY, USA: Association for Computing Machinery, May 2024, pp. 1441–1452. doi: 10.1145/3589334.3645477.

[10] S. V. Mehta et al., ‘DSI++: Updating Transformer Memory with New Documents’, in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, H. Bouamor, J. Pino, and K. Bali, Eds., Singapore: Association for Computational Linguistics, Dec. 2023, pp. 8198–8213. doi: 10.18653/v1/2023.emnlp-main.510. https://zbib.org/3f9d7722884f42fbb9a29bd01672665b

Offre de stage de recherche de master d’une durée de 4 à 6 mois, débutant au printemps 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. Vous aurez accès à des données réelles et serez confronté à des cas concrets (qui seront précisées en début de stage). Ce stage aura lieu au sein du centre de recherche d’Artefact et pourra ensuite être continué en thèse CIFRE.

Envie d’en savoir plus ?

Rencontrez Emmanuel, Directeur du centre de recherche

Découvrez l'entreprise

Explorez la vitrine de l’entreprise ou suivez-la pour savoir si elle vous correspond vraiment !

Explorer l’entreprise

Ils sont sociables

L'entreprise

Artefact

Intelligence artificielle / Machine Learning, Digital Marketing / Data Marketing

1500 collaborateurs

Créée en 2014

Âge moyen : 27 ans

Chiffre d'affaires : 152M€

Turnover : 6%

41%

59%

Qui sont-ils ?

Artefact est une société française spécialisée dans le déploiement de technologies d’IA et de solutions data dont la mission est d’accélérer l’adoption des données et de l’IA afin d’avoir un impact positif sur les individus et les organisations.

La raison d’être d’Artefact “We accelerate data and AI adoption to positively impact people and organizations” s’inscrit dans une vision plus large que l’entreprise souhaite porter en façonnant un futur dans lequel l’IA est non seulement un outil puissant, éthique et transparent mais également adapté aux besoins des individus et des entreprises.

Forts de dix ans d’expérience, plus de 1000 entreprises internationales ont accordé leur confiance à Artefact depuis sa création. Couvrant l’Europe, l’Asie, l’Amérique du Nord, l’Amérique Latine et l’Afrique grâce à notre implantation locale dans 27 bureaux, nous travaillons avec des marques internationales de premier rang, telles que Orange, Samsung, L’Oréal, ou Sanofi à travers le monde.

Les avantages salariés

Entre 1-2 jours de télétravail
RTT / Jour de repos
Participation
Aide à la garde d’enfant, Crèche...
Salle de sport dans les locaux
Parking à vélo

Voir tous les avantages

Le lieu de travail

19 Rue Richer, 75009 Paris, France

Besoin de plus d’infos ?

Vie d’entreprise, ambiance, réalisations... On a encore plein de choses à vous dire !

Découvrir

Stage Recherche - Explorer les Frontières de la Recherche d'Information Générative

Cette offre vous tente ?

Le poste

Descriptif du poste

Sujet

Objectif de la Recherche:

Pré-requis

Envie d’en savoir plus ?

Rencontrez Emmanuel, Directeur du centre de recherche

Rencontrez Miriam, Data Engineer