Stage recherche - Classification précoce de séries temporelles F/H

Stage(6 mois)
Châtillon
Salaire : Non spécifié
Télétravail non autorisé
Expérience : < 6 mois
Éducation : Bac +5 / Master
Postuler

Orange
Orange

Cette offre vous tente ?

Postuler
Questions et réponses sur l'offre

Le poste

Descriptif du poste

“Vous vous rêvez bâtisseur, construisez un nouvel algorithme de ML pour analyser les séries temporelles” et rejoignez nous ! Bruno, manager

Dans ce stage, nous nous intéresserons à la classification précoce de séries temporelles, où des séries sont observées au fur et à mesure, et dont l’objectif est de déclencher les prédictions de classe avant que les séries observées ne soient complètes. D’un côté la collecte de plus d’information permet souvent d’obtenir une meilleure prédiction, mais attendre peut poser des problèmes importants (pannes, sécurité, …). Il s’agit donc d’’optimiser le compromis entre la qualité des prédictions et leur précocité. Pour ce faire, on dispose d’une matrice de coût de mauvaise classification et d’un coût d’attente.
Dans ce contexte, Orange a réalisé une étude comparative extensive des principales approches de la littérature [1], une librairie python a également été open sourcée [2]. Le but de ce stage de recherche est de mettre au point de nouveaux algorithmes en raffinant deux approches de la littérature, parmi les plus performantes :
1 - CALIMERA [3] est une approche dite non-myope, qui estime l’espérance de coût pour les instants futurs et qui déclenche sa prédiction lorsque l’espérance de coût est minimale à l’instant courant. Cette approche est inspirée de [4] et a pour originalité de se baser sur un modèle de régression pour choisir les moments de déclenchement. Dans ce stage, nous tenterons d’améliorer cette approche de deux manières : (i) en posant un problème de régression différent ; (ii) en raffinent le calcul d’espérance grâce au parcours complet de la matrice de coût de mauvaise classification.
2 - STOPING RULE [5] est une fonction de déclenchement définie a priori, qui comporte trois termes pondérés par des hyperparamètres : (i) la probabilité de la classe la plus probable ; (ii) l’écart de probabilité entre les deux classes les plus probables ; (iii) la proportion de la série visible à l’instant courant. Dans ce stage, nous tenterons d’améliorer cette approche en l’informant du coût de mauvaise classification et du coût d’attente.  
La rédaction d’un article scientifique sera envisagée si les résultats expérimentaux sont probants.

“Rejoignez une équipe passionnée, solidaire et dynamique basée sur un campus à l’américaine et des installations derniers cris”, Bruno, manager


Profil recherché


Profil souhaité :
BAC + 5, Master informatique et/ou statistiques ou école d'ingénieur.
Intérêt pour la recherche et pour les aspects applicatifs et théoriques du sujet.

Compétences :
Les connaissances en Python et Scikit-learn sont indispensables.
Des connaissances minimales en statistiques, mathématiques et/ou apprentissage statistique sont indispensables.

Bibliographie
[1] Renault, Aurélien, et al. "Early Classification of Time Series: Taxonomy and Benchmark.", 2024
[2] Renault, Aurélien, et al. "ml_edm package: a Python toolkit for Machine Learning based Early Decision Making.", 2024
[3] Bilski, Jakub Michal, and Agnieszka Jastrzebska. "CALIMERA: A new early time series classification method." Information Processing & Management, 2023
[4] Achenchabe, Youssef, et al. "Early classification of time series: Cost-based optimization criterion and algorithms." Machine Learning, 2021
[5] Mori, Usue, et al. "Early classification of time series by simultaneously optimizing the accuracy and earliness." IEEE transactions on neural networks and learning systems, 2017

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres
Postuler