Stage : Sémantique pour améliorer la recherche et réduire les coûts des LLM

Résumé du poste
Stage
Paris
Salaire : Non spécifié
Télétravail fréquent
Compétences & expertises
Contenu généré
Référencement
Définition des objectifs
Sql
Postuler

Artefact
Artefact

Cette offre vous tente ?

Postuler
Questions et réponses sur l'offre

Le poste

Descriptif du poste

Contexte:

Ce stage de recherche chez Artefact débutera au printemps 2025. Le stagiaire intégrera le Centre de Recherche d’Artefact, une équipe passionnée de 15 experts dédiée à la recherche scientifique et à l’optimisation des modèles de machine learning pour les rendre plus transparents, robustes et contrôlables. Dans cet environnement stimulant, le stagiaire aura l’opportunité de s’immerger dans l’écosystème dynamique du conseil, en recueillant des informations précieuses auprès des clients et en se familiarisant avec leurs défis spécifiques. Par ailleurs, il bénéficiera du soutien de la division Data Science d’Artefact, qui rassemble près de 100 spécialistes experts en modélisation, en traduction des problématiques métiers en solutions de machine learning et en déploiement de ces solutions en production. Ses contributions enrichiront l’expertise d’Artefact et se concrétiseront par une démarche de communication externe visant à publier un livre blanc d’ici la fin du stage.

 

Présentation d’Artefact :

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée  en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises.  

L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit  de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles  garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et l’accompagnement au changement.

 

Sujet et Objectifs du stage :

Dans un environnement où les entreprises reposent sur les données, l'ontologie, la modélisation sémantique et les graphes de connaissances se révèlent être des outils essentiels pour organiser et intégrer l'information. Les ontologies représentent formellement le savoir d'un domaine en définissant les concepts et leurs relations, offrant ainsi un vocabulaire commun et un cadre structuré pour intégrer des données variées. Par ailleurs, la modélisation sémantique permet de donner un sens aux données, facilitant leur interprétation et leur utilisation. Enfin, les graphes de connaissances modélisent les informations sous forme de nœuds et de liens, en s'appuyant souvent sur une ontologie servant de schéma, ce qui permet d'unifier facilement des sources diverses.

Ces méthodes aident les entreprises à bâtir des bases solides en données et connaissances. Le cadre sémantique ainsi créé facilite l'utilisation de la génération augmentée par récupération (RAG) par les grands modèles de langage (LLMs), rendant ces systèmes plus efficaces, rentables et durables.

Bien que prometteuses, ces techniques restent peu répandues. Ce stage vise donc à explorer et évaluer leur application concrète en entreprise.

Objectifs: 

  • Identifier et comparer les outils de modélisation sémantique, en analysant leurs avantages et limites.
  • Mener des entretiens avec des partenaires industriels pour évaluer l'adoption, relever les défis et mesurer la valeur de ces méthodes.
  • Comparer l'efficacité de la RAG sur des données modélisées via ontologies et graphes de connaissances par rapport à des structures traditionnelles.
  • Proposer un cadre pour déterminer la meilleure approche globale de modélisation

Pré-requis: 

  • En formation dans une grande école de commerce et/ou d’ingénieur, tu bénéficies d’un niveau bac +4/5.
  • Date de début :  printemps 2025
  • Durée : 5 à 6 mois
  • Lieu du stage : Artefact France, 19 Rue Richer, 75009 Paris

Références: 

  • D. Allemang and J. Sequeda, "Increasing the LLM Accuracy for Question Answering: Ontologies to the Rescue!" arXiv preprint, arXiv:2405.11706, May 2024. Available: https://doi.org/10.48550/arXiv.2405.11706
  • J. Sequeda, D. Allemang, and B. Jacob, "A Benchmark to Understand the Role of Knowledge Graphs on Large Language Model's Accuracy for Question Answering on Enterprise SQL Databases, https://arxiv.org/abs/2311.07509
  • Gao, Yunfan, et al. "Retrieval-Augmented Generation for Large Language Models: A Survey." arXiv preprint https://arxiv.org/abs/2312.10997 (2024).
  • Lewis, Patrick, et al. "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." arXiv preprint arXiv:2005.11401 (2020).
  • M. J. Kim, L. Grinsztajn, and G. Varoquaux, "CARTE: Pretraining and Transfer for Tabular Learning." https://arxiv.org/abs/2402.16785 
  • Chen, Lihu, and Gaël Varoquaux. What Is the Role of Small Models in the LLM Era: A Survey. https://arxiv.org/abs/2402.16785

 

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres
Postuler