Cette offre n’est plus disponible.

Stagiaire Data Scientist

Résumé du poste
Stage(6 mois)
Paris
Salaire : Non spécifié
Début : 31 décembre 2024
Télétravail fréquent
Expérience : < 6 mois
Éducation : Bac +5 / Master
Compétences & expertises
Contenu généré
Mathématiques
Travail d'équipe
Intégration de technologies
Git
Dataiku
+5

namR
namR

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

CONTEXTE :

Chez namR, nous avons développé une base de données unique qui permet de caractériser tous les bâtiments de France – soit 34 millions de bâtiments – du point de vue de leur morphologie (mesures du bâtiment, matériaux de toiture etc.), et du point de vue de chacun des axes de potentiel écologique, de développement et de transformation des bâtiments (sur ces 3 axes : réduction de carbone, résilience face au changement climatique, et de développement harmonieux avec la nature).
Toutes ces données, appelées attributs, sont produites à partir de notre datalake (la Data Library) puis consolidées et massifiées par du machine learning et/ou de la computer vision. Elles sont ensuite stockées dans notre base de données.
L’implémentation des attributs dans la base de données et le contrôle de leur qualité est la mission de l’équipe Data, qui regroupe les Data Scientists et Data Analysts.

Dans cette équipe, les Data Scientists sont en charge de compléter les données de notre datalake en construisant des pipelines de Machine Learning. En particulier, l’équipe Data Science Géo, dans laquelle ce stage prend place, cherche à exploiter la composante géospatiale des données utilisées pour renforcer et adapter des algorithmes de Machine Learning prédictifs classiques.

En rejoignant notre équipe Data Science - Geomatique, tu auras les missions suivantes:

  • Développer, améliorer et comparer des modèles de machine learning (Random Forest, XGBoost, lightGBM, etc) pour enrichir notre base de données : prédiction de la valeur de biens, de la consommation énergétique, du mode d’occupation des bâtiments, etc ;

  • Analyser, traiter et nettoyer des datasets volumineux en vue de l’intégration de nouvelles données dans notre base - en particulier pour récupérer de nouveaux labels pour entraîner nos modèles de ML ;

  • Identifier et intégrer de nouvelles variables à utiliser pour améliorer le pouvoir prédictif de nos algorithmes (feature engineering), notamment en prenant en compte la composante géospatiale de nos attributs ;

  • Développer de nouvelles fonctionnalités pour nos outils internes d’analyses ML (détection d’outliers, feature selection, error analysis, etc);

  • Industrialiser ces nouvelles fonctionnalités (intégration à notre repo interne, création d’un notebook ou d’un outil interne pour rendre ces nouvelles fonctionnalités accessibles à toute l’équipe);

  • Participer à l’implémentation de nouvelles solutions ML Ops pour monitorer nos algorithmes de prédiction;

  • Travailler avec l’équipe computer vision et NLP sur des projets communs mêlant géomatique, imagerie et analyse textuelle ;

  • Visualiser et analyser nos données d’un point de vue géographique en vue d’évaluation qualité ;

  • Présenter régulièrement ses avancées et résultats au reste de l’équipe.


Profil recherché

Ta formation :

Tu es en dernière année de Master ou Ecole d’ingénieurs en Data Science / Statistiques / Mathématiques / Mathématiques Appliquées et tu recherches un stage de fin d’études de six mois.

Stack technique / compétences requises :

  • Solide background en mathématiques et statistiques ;

  • Bonne maîtrise de langages de programmation (en particulier en Python et en SQL);

  • Connaissances théoriques et pratiques en Machine Learning : méthodes supervisées (Simple OLS, Random Forest, XGBoost, LightGBM, etc) et non supervisées (DBScan, K-Nearest Neighbors, etc) ;

  • Connaissances théoriques et pratiques en analyse de données : interprétations des métriques, évaluation de modèles, test statistiques (khi-2, ANOVA, Pearson, etc), visualisation de données, évaluation de l’importance de features dans les modèles (permutation, LIME, SHAP).

Les technologies souhaitables :

  • PostgreSQL ;

  • Dataiku ;

  • Expérience de travail collaboratif sur un repo partagé (git, bonnes pratiques de codes, tests unitaires, CI/CD, etc.) ;

  • Des connaissances ou une expérience avec des outils de MLOps serait un plus ;

  • Une expérience de manipulation de données géo-localisées et de leur écosystème (PostGIS, Shapely, QGIS, etc.) serait un véritable plus.

Tes qualités humaines :

  • Curieux-se ;

  • Esprit d’équipe ;

  • Rigoureux-se ;

  • Proactif-ve ;

  • Bon-nne communicant-e.

Tu as envie de rejoindre une équipe dynamique et innovante pour participer à un projet à impact ambitieux ? Postule !


Déroulement des entretiens

  1. Test en ligne

  2. Entretien avec Team Lead Geo Data Scientist et Tech Lead Geo Data Scientist Leads

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres