Stage (6 mois) - Data Scientist F/H - Paris

Résumé du poste
Stage(6 mois)
Paris
Salaire : Non spécifié
Début : 31 mars 2025
Télétravail non autorisé
Expérience : < 6 mois
Éducation : Bac +5 / Master
Compétences & expertises
Contenu généré
Plateforme gcp
Python
Postuler

Groupe BPCE
Groupe BPCE

Cette offre vous tente ?

Postuler
Questions et réponses sur l'offre

Le poste

Descriptif du poste

Vos missions au sein de l'équipe

Rejoignez BPCE en tant que Data Scientist pour un stage de 6 mois à partir d'avril 2025 !

Les missions c'est important, l'équipe et l'environnement aussi … !

Dans le cadre de notre recherche sur les modèles de langage larges (LLM), nous cherchons à créer des modèles de langue de petite taille afin qu'ils puissent être déployés sur des unités centrales de traitement (CPU). Ce projet vise à explorer des techniques de fine-tuning et de pré-entraînement continu pour optimiser ces modèles tout en minimisant la perte de performance.

Le pôle Data Science utilise de manière croissante l'IA générative dans ses projets. Cependant des problématiques de cout et de disponibilité de ressources peuvent se présenter. Son ambition est de pouvoir, à travers cette recherche, déployer un LLM adapté au langage de l'assurance de personnes pouvant être efficacement déployé sur CPU, en limitant les pertes de performance. En tant que stagiaire du pôle Data Science, votre rôle sera de nous aider à développer ce type de modèles.

Concrètement votre quotidien ? en collaboration avec votre tuteur, vous :

  • Explorez l'état de l'art sur les techniques de fine tuning et de continuous pre-training (Unsloth, Qlora, quantisation) ainsi que sur les méthodes d'alignement potentielles (DPO) ;
  • Créez le jeu de données pour le fine tuning sur P100 ou pour le continuous pre-training, en fonction de la disponibilité des L4. Une partie des données est déjà rassemblée, mais complétez-la si nécessaire ;
  • Choisissez le ou les modèles à fine tuner selon vos critères de performance et d'application ;
  • Réalisez le fine tuning du modèle, puis procédez au continuous pre-training et/ou à DPO si cela est possible. Cette étape se déroulera sur notre plateforme GCP à l'aide des GPUs P100 et/ou L4 ;
  • Testez le merging de LLMs via Merge Kit et évaluez les performances obtenues ;
  • Effectuez une possible quantisation si le modèle est de type 7B ;
  • Restituez les résultats techniques à l'équipe DS concernant les différents états de l'art et les résultats obtenus.


Profil recherché

Vous préparez un niveau d'études en 3ème année d'école ingénieur avec une dominante en IA dans le domaine de l'informatique.

Pour réussir votre mission, vous :

  • Maîtrisez Python de manière efficace pour vos projets ;
  • Possédez une bonne connaissance des algorithmes de Deep Learning, en particulier ceux appliqués aux LLM ;
  • Développez une compréhension des pratiques de déploiement et/ou de calcul sur GPU, car cela serait apprécié ;
  • Etes à l'aise pour communiquer sur des sujets techniques, en partageant vos idées et en échangeant avec vos collègues ;
  • Appréciez de vous documenter avec la lecture d'articles de recherche et de posts afin de trouver, comprendre et recenser des méthodes, tout en synthétisant l'information.

Vous êtes curieux et intéressé par les problématiques actuelles d'intelligence artificielle et possédez une appétence pour la recherche.

Saurez-vous relever le challenge ? N'attendez plus, rejoignez-nous !

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres
Postuler