Contexte :
L'image captioning génère des descriptions textuelles pour des images, reliant vision et langage, avec des applications en accessibilité et recherche d'images. Pour améliorer les performances des modèles, la data augmentation multimodale crée des variations textuelles et visuelles, enrichissant les données et renforçant la robustesse des réseaux.
Objectif du stage :
L'objectif principal de ce stage est d'explorer et de développer des méthodes innovantes de data augmentation multimodale pour améliorer la robustesse des modèles de captioning d'images. Le stagiaire sera amené à :
1. Étudier et identifier les approches existantes de data augmentation dans les domaines de la vision et du langage.
2. Concevoir des méthodes de data augmentation multimodale : cela inclut, par exemple, la génération de variations de descriptions textuelles pour une même image, l'ajout de bruit ou de modifications visuelles dans les images, et l'adaptation des techniques de fusion multimodale pour exploiter ces nouvelles données.
3. Implémenter et tester les méthodes proposées en utilisant des modèles d'image captioning de pointe.
4. Évaluer l'impact des augmentations multimodales sur les performances des modèles, à travers des métriques standard en image captioning
•Étudiant-e en dernière année d'ingénierie, informatique, ou discipline connexe avec une spécialisation en vision par ordinateur, machine learning ou NLP.
•Connaissance des réseaux de neurones et de la vision par ordinateur, idéalement avec une première expérience en traitement du langage naturel.
•Compétences en programmation (Python, PyTorch/TensorFlow) et en manipulation de données multimodales.
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.
Évry-Courcouronnes