Nous recherchons un(e) Lead Data Engineer pour prendre en charge la conception et la gestion de notre infrastructure de données. Vous serez responsable du développement de modèles de données évolutifs et performants. Vous superviserez nos pipelines ETL, les processus d’ingestion de données et collaborerez étroitement avec les data scientists pour garantir une intégration fluide de leurs modèles d’apprentissage automatique en production. Vous jouerez également un rôle clé dans la définition de l’infrastructure nécessaire à l’ingestion de données hétérogènes, aux processus d’entraînement des modèles ML et aux pratiques de ML Ops, en veillant à ce que les pipelines, le monitoring et l’automatisation soient en place.
Responsabilités clés :
Diriger la conception et l’optimisation des modèles de données et de l’infrastructure pour prendre en charge le traitement de données à grande échelle.
Superviser et gérer l’architecture de la couche de données, actuellement basée sur Cube.dev et MongoDB, avec pour objectif d’évaluer et de potentiellement migrer vers un système basé sur SQL (par ex. PostgreSQL) pour améliorer les performances.
Gérer les données géospatiales, en garantissant une gestion efficace des données basées sur la localisation pour l’analyse, le stockage et la visualisation.
Construire et maintenir des pipelines ETL robustes et des flux d’ingestion de données qui assurent une haute disponibilité, fiabilité et performance des systèmes de données.
Collaborer avec l’équipe de data science pour intégrer les modèles d’apprentissage automatique dans les environnements de production, en mettant l’accent sur le déploiement efficace des modèles, leur surveillance et leur itération.
Concevoir et implémenter une infrastructure ML Ops pour prendre en charge l’entraînement, l’expérimentation et le déploiement des modèles, incluant le suivi, la versioning et l’évolutivité des processus d’entraînement.
Définir et appliquer les meilleures pratiques en matière de gouvernance des données, en garantissant leur sécurité, leur qualité et leur conformité.
Évaluer et adopter de nouveaux outils et technologies pour améliorer le traitement des données, en mettant l’accent sur l’ingestion en temps réel et une infrastructure ML évolutive.
Fournir un leadership stratégique pour façonner l’avenir de notre architecture de données, en veillant à ce qu’elle s’aligne avec les objectifs de durabilité et d’analyses à fort impact de l’entreprise.
Compétences et Expériences Requises :
Solide expérience en ingénierie des données, incluant la conception et la gestion d’architectures de données, de pipelines ETL et de processus d’ingestion de données.
Expertise dans les bases de données NoSQL (par ex. MongoDB), avec une expérience ou des connaissances démontrées dans la transition vers ou l’optimisation de systèmes SQL (par ex. PostgreSQL, MySQL) pour des performances accrues.
Bonne compréhension de la gestion des données géospatiales et capacité à manipuler efficacement des ensembles de données basés sur la localisation (par ex. PostGIS, GeoJSON ou autres outils géospatiaux).
Maîtrise approfondie des services AWS et des infrastructures cloud pour la gestion de grands ensembles de données et la création de pipelines de données.
Expérience avec les pratiques de ML Ops : mise en place de pipelines pour l’entraînement de modèles de machine learning, gestion des infrastructures pour l’expérimentation ML, et automatisation du déploiement et du suivi des modèles en production.
Familiarité avec des plateformes ML (par ex. Kubeflow, SageMaker ou similaires) et expérience dans l’intégration de workflows ML dans des environnements de production.
Compétence avec des frameworks et outils de traitement des données comme Apache Airflow ou équivalents.
Excellentes compétences en programmation, notamment en Python, TypeScript ou Java.
Excellentes compétences en leadership et en communication, avec la capacité de collaborer avec des équipes pluridisciplinaires.
Pourquoi Nous Rejoindre ?
Prenez un rôle clé dans la définition de l’avenir de l’agriculture durable grâce à une infrastructure de données à la pointe de la technologie.
Rejoignez une équipe d’innovateurs passionnés travaillant sur des problématiques concrètes et impactantes.
Contribuez à une entreprise guidée par sa mission, axée sur la réduction de l’utilisation des pesticides et l’amélioration de la durabilité écologique grâce aux données.