Au sein des équipes informatiques, le département Digital Lab réalise des projets digitaux et travaille en étroite collaboration avec les métiers.
Le stage se déroule dans le cadre d’un projet innovant visant à développer un algorithme de Retrieval-Augmented Generation (RAG) : il s’agit de tirer pleinement parti des LLM généralistes en leur présentant les éléments pertinents pour générer une réponse précise. En particulier, cette approche permet d’exploiter des données de nature confidentielle et des données récentes qui n’ont pas été explorées lors de l’entraînement du modèle.
Le stagiaire participera aux différentes étapes du développement d’un algorithme de RAG sur des données de natures diverses : texte, images, tableaux de données. Les grandes étapes identifiées sont les suivantes :
Alimentation d’une base de données documentaire : parsing / chunking des documents, traitement des images et des tableaux.
Recherche des éléments de réponse pertinents à l’aide de méthodes de NLP (notamment des modèles d’embedding et de reranking).
Prompt engineering : guidage du modèle de langage pour éviter le hors-sujet et améliorer la qualité de la génération.
Traitement des images et des tableaux : étude des Vision-Language Models (VLM) et conception d’une méthode de RAG sur des données mixtes (texte et image).
Fonction d’évaluation : déterminer une méthodologie d’évaluation qui permette de comparer l’apport des différentes solutions afin de pouvoir choisir la plus pertinente.
Formation supérieure (Bac +4/5), d’une école d’ingénieur, de cycle universitaire, d’un IEP
Programmation Python : capacité à écrire et maintenir un code lisible et organisé (classes, méthodes).
Machine learning et traitement du langage naturel (NLP) : compréhension du fonctionnement des LLM / VLM et des modèles d’embedding.
Familiarité avec Git comme outil de versionnage le code.
Anglais : bonne compréhension écrite
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.
Voir toutes les offres