Nous recherchons un.e ingénieur de la donnée (Data Engineer) passionné.e, avec une spécialisation en MLOps (Machine Learning Operations), pour rejoindre notre équipe dédiée à la conception, l’intégration et au déploiement des données massives au sein de l’Environnement de Données de Santé (EDS) de l’AP-HP. Votre rôle sera crucial pour garantir que les données sont mises à disposition de manière sécurisée et optimisée pour divers projets de recherche, de pilotage stratégique et d’aide à la décision au niveau du siège de l’AP-HP.
En tant qu’expert.e en MLOps, vous assurerez également la robustesse, la reproductibilité et l’évolutivité des modèles de machine learning, en étroite collaboration avec l’équipe Data Science.
Vous interviendrez sur l’ensemble du cycle de vie des données, de leur ingestion à leur exploitation, tout en participant à l’industrialisation des processus sur notre infrastructure Kubernetes.
Votre quotidien sera rythmé par des missions variées, parmi lesquelles :
- Conception et développement de solutions de traitement de données
- Intégration d’algorithmes ML/Deep Learning
- Optimisation de la performance dans un contexte Big Data
- Sécurisation et conformité
- Maintenance opérationnelle
- Documentation technique et utilisateur
- Contribution à la communauté Open Source
- Conception d’outils d’annotation de données médicales
- Veille technologique et transfert de compétences
Diplôme : École d’ingénieur, informatique, data science, ou domaine connexe. (Bac +5)
Niveau d’expérience : Minimum 5 ans d’expérience en tant que Data Engineer, avec une spécialisation en MLOps et une expérience significative dans des environnements Big Data.
Compétences requises :
- Développement logiciel : Très bonne maitrise des langages de programmation Python et Scala. Également des langages de “scripting” comme Bash.
- Gestion des pipelines de données : Capacité à concevoir, développer et optimiser des pipelines de traitement de données à grande échelle, en utilisant des technologies comme Apache Spark, Polars, ou équivalent.
- Infrastructure et DevOps : Expérience avec des environnements on-premise (et optionnellement Cloud) et des outils DevOps (Docker, Kubernetes, Terraform) pour le déploiement et la gestion des infrastructures.
- Gestion et exploitation des bases de données/des systèmes de stockage : Maîtrise des solutions de stockage et gestion des bases de données (Hive, Hbase, Solr, Kafka, PostgreSQL, S3, etc.), adaptées à des données structurées et non structurées. Très bonne maitrise également des langages associés comme SQL, Lucene, etc.
- Backend/API : Connaissance des architectures backends/API et des solutions associées comme Spring Boot, Fast API, etc.
- Intégration et déploiement de modèles ML/AI
- Sécurisation des données et conformité
- Gestion de projet en méthodologie Agile
- Documentation technique et fonctionnelle
- Veille technologique
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.
Voir toutes les offres