Stage de 6 mois à compter du 01/03/2025
Le stage se découpera en trois grandes phases :
1. Recherche et conception du modèle à faible précision :
Étudier l’état de l’art des modèles à faible précision (binarisation, quantification extrême) et des architectures compatibles.
Identifier les configurations optimales pour un modèle de type Mamba2 utilisant une précision de 1,58 bit.
Proposer une architecture qui tire parti de cette faible précision pour réduire l’utilisation mémoire tout en assurant une convergence stable durant l’entraînement.
Livrable : un rapport de conception technique détaillant les choix d’architecture, les contraintes d’entraînement à faible précision et les hyperparamètres utilisés.
2. Développement et entraînement du modèle :
Implémenter un pipeline d’entraînement en utilisant des frameworks adaptés (PyTorch) et les outils nécessaires pour gérer la faible précision (arithmétique customisée, simulateurs de précision).
Entraîner le modèle sur un large jeu de données bilingue français/anglais.
Effectuer des itérations pour optimiser la convergence du modèle, en ajustant les hyperparamètres et les techniques de régularisation spécifiques aux architectures à faible précision.
Livrable : un code Python structuré permettant d’entraîner le modèle à précision 1,58 bit ainsi que les checkpoints et logs d’entraînement
3. Évaluation des performances et validation :
Évaluer le modèle sur des tâches de génération de texte, en utilisant des métriques standard telles que BLEU, perplexité, mais également de nouvelles approches de type jugement par LLM, etc.
Comparer les performances du modèle nativement quantifié à celles de modèles de précision standard (16 et 32 bits).
Analyser les compromis entre performance linguistique et consommation mémoire/énergie, en tenant compte des applications industrielles potentielles.
Livrable : un rapport final avec une analyse comparative et des recommandations d’utilisation.
Voici le profil idéal de notre futur.e stagiaire :
Étudiant(e) en dernière année de Master ou d’École d’Ingénieurs avec une spécialisation en Data Science, Machine Learning ou NLP.
Solides compétences en Python et expérience avec des frameworks de Deep Learning (PyTorch, Accelerate, Transformers, etc.).
Connaissances des techniques d’entraînement à faible précision ou intérêt pour les architectures de modèles conventionnelles.
Esprit analytique, curiosité et envie de travailler sur des projets de recherche appliquée.