Stage Recherche - Scoring modèles à base d'arbres

Job summary
Internship
Paris
Salary: Not specified
A few days at home
Skills & expertise
Generated content
Referencing
Goal setting
Apply

Artefact
Artefact

Interested in this job?

Apply
Questions and answers about the job

The position

Job description

Contexte

Offre de stage de recherche de master d’une durée de 4 à 6 mois, débutant au printemps 2025. Ce document liste les possibles directions pour le stage, qui seront ajustées au fil du stage. Vous aurez accès à des données réelles et sera confronté à des cas concrets (qui seront précisées en début de stage). Ce stage aura lieu au sein du pôle Data Science (DS) d’Artefact et du centre de recherche d’Artefact. Vous serez encadré(e) à la fois par un data scientist du pôle DS mais aussi par un doctorant.

Présentation d’Artefact 

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée  en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises. L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace. Nos 1000 employés allient leurs compétences pluridisciplinaires au profit  de l’innovation business des entreprises. Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles  garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et l’accompagnement au changement.

Sujet :

Intégré au sein du centre de recherche et du pôle DS, vous réaliserez à la fois une mission de conseil en tant que data scientist, et aurez des jours dédiée à des travaux de recherche en tant que chercheur. L’équilibre visé est une moitié du temps en mission et une moitié en recherche, et les sujets traités en missions seront liés à vos travaux de recherche. La thématique centrale étant le scoring de clients (par exemple pour de la détection de fraude ou de l’appétence d’un consommateur à faire une action donnée).

Les objectifs sont multiples. Le but est pour le stagiaire de monter en compétence sur la partie conseil en data (bonnes pratiques de code, analyse du besoin clients, démarches de gestion de projet en mission…).

De plus, il sera demandé au stagiaire de consacrer une partie de son temps à développer sa démarche scientifique. La finalité est de permettre au stagiaire de produire de nouveaux outils permettant d’améliorer les performances des modèles utilisés en missions ou bien de remédier à des problématiques qu’il/elle aura rencontré(e) en mission. Un premier axe de recherche proposée est l’étude des modèles de ML à base de règles [1]. L’intérêt de ces modèles est d’avoir des performances similaires à des modèles état de l’art à base d'arbres [2] (du type XGBoost) mais en étant plus explicable (on se soustrait au côté “black box”).

Les principaux objectifs sont les suivants :

  • Onboarding sur mission DS
  • Adaptation au cadre du conseil : bonnes pratiques de code et analyse de missions

Participation à une mission DS

  • Prise en main du sujet concernant les modèles à base d’arbres pour le scoring. État de l’art sur les modèles à bases de règles avec boosting ou non (voir [1], [3] et [4])
  • Participation à un package open source sur des modèles à bases de règles.

Pré-requis

  • BAC+4/BAC+5 : Formation en machine learning/statistiques au sein d’une université ou école d’ingénieur
  • Stage de deuxième partie de césure, stage de fin de M1 ou stage de fin d’études
  • Date de début : printemps 2025
  • Durée : 4 à 6 mois

Candidature

Pour candidater, veuillez envoyer votre CV par e-mail à aline.cortes@artefact.com.

Références

[1] Dembczyński, K., Kotłowski, W. and Słowiński, R., 2010. ENDER: a statistical framework for boosting decision rules. Data Mining and Knowledge Discovery, 21, pp.52-90.

[2] Grinsztajn, L., Oyallon, E. and Varoquaux, G., 2022. Why do tree-based models still outperform deep learning on typical tabular data?. Advances in neural information processing systems, 35, pp.507-520.

[3] Bénard, C., Biau, G., Da Veiga, S. and Scornet, E., 2021, March. Interpretable random forests via rule extraction. In International Conference on Artificial Intelligence and Statistics (pp. 937-945). PMLR.

[4] Yang, F., Le Bodic, P., Kamp, M. and Boley, M., 2024, April. Orthogonal Gradient Boosting for Simpler Additive Rule Ensembles. In International Conference on Artificial Intelligence and Statistics (pp. 1117-1125). PMLR.

 

Want to know more?

These job openings might interest you!

These companies are also recruiting for the position of “Données/Business Intelligence”.

Apply