Contexte du poste :
Au cœur d’une équipe de recherche innovante, tu participeras à des travaux de pointe en modélisation des données techniques et en intelligence artificielle, avec un focus sur le traitement du langage naturel (NLP). L’objectif est de développer des modèles basés sur des Large Language Models (LLM) pour formaliser des comportements complexes à partir de documents techniques tels que des standards, des datasheets, et des données terrains.
Ce projet stratégique nécessite la constitution de datasets de haute qualité, permettant l’entraînement de modèles NLP performants capables de répondre à des requêtes en mode « Question & Answer » ou d’extraire des informations clés.
Mission :
Tu seras responsable de la collecte, du traitement et de la structuration de données techniques en vue d’entraîner des modèles LLM. Tes principales missions incluront :
Collection et organisation des documents : Développer un script Python pour collecter automatiquement des données techniques issues de standards, de datasheets, et d’autres sources pertinentes.
Préparation et segmentation des données : Analyser les données collectées et les segmenter en « input » et « label » selon les besoins spécifiques des tâches NLP.
Structuration et formatage des datasets : Organiser les données dans des formats compatibles avec les frameworks d’apprentissage machine, notamment sous forme de dictionnaires Python.
Formation : Diplôme d’ingénieur ou master en data science, intelligence artificielle, ou domaine connexe.
Compétences techniques :
Maîtrise de Python.
Connaissance des librairies de deep learning (TensorFlow, PyTorch, Hugging Face).
Expérience avec les outils de traitement et de manipulation de données (Pandas, NumPy).
Qualités recherchées :
Rigueur et méthode dans la préparation des données.
Capacité à collaborer avec une équipe pluridisciplinaire.
Intérêt pour le traitement du langage naturel et la recherche appliquée.
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.