Votre rôle est d’effectuer un travail de thèse sur la compression vidéo basée réseaux de neurones à basse complexité
Contexte global et problématique du sujet
La quantité de vidéos échangée sur Internet ne cesse d’augmenter et de nouveaux formats de vidéos émergent régulièrement. Les outils de compression évoluent pour véhiculer ces contenus sur les réseaux, offrant un débit toujours plus faible tout en garantissant une bonne qualité.
Depuis plusieurs années, des systèmes de compression basés réseaux de neurones ont émergé. Ils remplacent l’ensemble encodeur-décodeur (codec) par un réseau de neurones (auto-encodeur) générique, appris sur un large ensemble de vidéos afin de faire face à la variété des contenus et formats. Ces auto-encodeurs rivalisent avec les meilleurs codecs conventionnels. Ils présentent cependant une complexité de décodage trop importante, limitant leur utilisation.
Il est possible de remplacer un auto-encodeur générique par un réseau de neurones uniquement (sur-)adapté à l’image à compresser. On apprend alors un petit réseau de neurones lors de la compression de chaque image, qui permettra ensuite de décompresser l’image. Un codec basé sur-adaptation (Cool-chic) est développé par Orange et d’autres acteurs. Il démontre des performances de codage d’image au niveau des auto-encodeurs tout en étant 1000 fois moins complexe. Des premiers travaux ont été entrepris pour étendre Cool-chic à la compression de vidéo.
Objectif scientifique - résultats et verrous à lever
L’objectif de la thèse est d’améliorer l’exploitation des redondances temporelles dans un codec vidéo neuronal basé sur la sur-adaptation.Les codecs basés sur-adaptation rencontrent des difficultés pour exploiter les redondances temporelles. Ils reposent sur une analyse de mouvement puis une prédiction temporelle afin d’identifier les zones redondantes dans les images successives d’une vidéo. Une des pistes envisagées pour la thèse est d’améliorer ce processus, via une meilleure analyse de mouvement permettant une meilleure prédiction temporelle. Également, de nouvelles architectures de réseaux de neurones permettent d’enlever les redondances temporelles sans analyse du mouvement.
Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste
Compétences en traitement du signal et intelligence artificielle
Appétence pour le traitement d’image vidéo
Programmation : Python, C++, bash etc.
Experience en deep learning : framework PyTorch, Tensorflow, jax
Formation demandée (master, diplôme d’ingénieur, doctorat, domaine scientifique et technique …)
Master recherche ou école d’ingénieur
Expériences souhaitées (stages, …)
Expériences dans le domaine de l’image et machine learning dans le domaine multimédia
Références de l’offre
Les groupes de standardisation ISO/MPEG & ITU-T ont conçus des normes successives (AVC, HEVC et VVC) depuis plusieurs décennies, raffinant un même paradigme de compression “ conventionnel “. Une nouvelle norme sera finalisée à l’horizon 2030.
Les codecs basés sur la sur-adaptation possèdent un décodeur unique, propre à chaque image qui doit ainsi être transmis en même temps que le signal compressé. Ce signal auxiliaire est de nature différente du domaine image habituel, puisqu’il s’agit de paramètres de réseaux de neurones. On veillera à améliorer sa transmission, en essayant de mutualiser des éléments de réseaux de neurones successifs composant une vidéo.La complexité du système devra rester faible pour garantir un impact énergétique limité quel que soit le terminal visé.