L’AP-HP est un centre hospitalier universitaire à dimension européenne mondialement reconnu.
Ses 38 hôpitaux accueillent chaque année 10 millions de patients : en consultation, en urgence, lors d’hospitalisations programmées ou en hospitalisation à domicile.
Elle assure un service public de santé pour tous, 24h/24, et c’est pour elle à la fois un devoir et une fierté.
L’AP-HP est le premier employeur d’Ile de-France : 95 000 personnes – médecins, chercheurs, paramédicaux, personnels administratifs et ouvriers – y travaillent. http://www.aphp.fr
Le pôle Innovation & données de la Direction des Services Numériques (DSN) de l’AP-HP, constitué d’environ 120 personnes réparties dans 8 entités (services), propose une offre de services structurée autour de :
- L’innovation numérique : une équipe composée de chefs de produits, chefs de projet, développeurs, devops, UX/UI et scrum master, porte le développement de projets numériques et de services en ligne, dont l’espace patient de l’AP-HP, sous un format inspiré du modèle des « startup d’Etat » (https://labnum-dsn.aphp.fr/) ; - L’entrepôt de données de santé de l’AP-HP (EDS AP-HP) (https://eds.aphp.fr/) : l’éthique, la science et la qualité sont les lignes directrices des équipes qui structurent et enrichissent au quotidien une offre de services portant sur l’usage secondaire des données de santé. Sont notamment proposés des appuis aux porteurs de projets, une infrastructure sécurisée et adaptative, des produits d’intégration, de visualisation, d’exploration et de traitement des données ou encore des bibliothèques scientifiques et algorithmes mis en open source. Ces différents services permettent de répondre aux besoins des professionnels, dans le cadre de leurs travaux de recherche ou de pilotage de l’activité ;
- La bio-informatique : la plateforme AP-HP MOABI met à disposition des expertises et des outils déployés auprès des services de génétique de l’AP-HP. Une offre de services bio-informatique externe est également proposée au travers de la plateforme SeqOIA de séquençage génomique à très haut débit, dans le cadre du plan gouvernemental France Médecine Génomique 2025, (https://laboratoire-seqoia.fr/) ;
- Des maladies rares : la banque nationale de données maladies rares (BNDMR), projet national confié à l’AP-HP dans le cadre du Plan National Maladies Rares (https://www.bndmr.fr/).
Les données massives de l’Entrepôt de Données de Santé (EDS) contiennent de très nombreuses informations d’intérêt pour améliorer les connaissances médicales et optimiser le système de santé, mais celles-ci sont souvent présentes de manière diffuse (i.e. l’information est déduite à partir de nombreuses données) et non-structurée (i.e. sous la forme de textes, d’images, de signaux). Il apparaît nécessaire de pré-traiter les données à large échelle et à l’aide d’algorithmes de data science dédiés avant de pouvoir répondre aux questions posées par les utilisateurs de l’EDS. De nombreux algorithmes de Natural Language Processing (NLP) sont en particulier développés, validés et mis en production pour rendre possible l’exploitation des dizaines de millions de comptes rendus cliniques présents dans l’EDS (par exemple la détection automatique du layout des PDF, la pseudonymisation des textes, l’extraction de variables structurées à partir des textes, l’entraînement de modèles de machine learning à large échelle, etc.).
L’équipe Data Science a pour objectif de faciliter l’analyse de l’Entrepôt de Données de Santé (EDS), principale base de données de santé hébergée au sein de la plateforme Données Massives de l’AP-HP. Elle contient aujourd’hui les données médicales de plus de 11 millions de patients (40 millions de dossiers médicaux, plus de 30 millions de diagnostics, 300 millions de résultats de laboratoires).
L’équipe développe des bibliothèques scientifiques Open Source et des algorithmes qui transforment les données afin de faciliter leur exploitation par les utilisateurs finaux (enrichissement des données par traitement automatique du langage, qualification automatique de la qualité de certaines données, pseudonymisation, constitution de librairies permettant de définir des variables épidémiologiques à partir des données du système d’information clinique, etc.). L’équipe science des données développe également de nombreux partenariats avec organismes de recherche afin de développer l’offre de service en Machine Learning/Deep Learning au sein du Pôle.
Au sein de l’équipe data science, vous aurez pour mission de développer, valider et maintenir des algorithmes et bibliothèques logicielles scientifiques facilitant l’exploitation des données issues du système d’information clinique à des fins de recherche et de pilotage. Vous pourrez en particulier vous concentrer le traitement automatique du langage permettant de transformer les données textuelles de l’EDS en données structurées directement exploitables. Vous serez également impliqué dans un projet national « PARTAGES » (https://www.health-data-hub.fr/actualites/democratiser-lia-generative-en-sante-letat-travers-france-2030-selectionne-le-projet) de développement d’un LLM français et médical, et d’adaptation/validation de celui-ci sur des cas d’usages spécifiques. Les développements que vous réaliserez seront diffusés au sein de la communauté de recherche de l’AP-HP afin d’être utilisés par les chercheurs pouvant en bénéficier. Vous consoliderez une communauté d’utilisateurs et de contributeurs intéressés par ces outils. Vous serez amené.e à contribuer à des articles scientifiques valorisant d’un point de vue académique ces différents travaux.
Vos missions pourront également concerner plus directement des travaux de recherche mobilisant des analyses de données. Ces travaux se font en étroite collaboration avec les experts métier au travers de groupes de travail. Parmi les domaines d’application (liste non exhaustive) figurent l’oncologie, la psychiatrie, les interactions médicamenteuses, le diabète, le suivi épidémiologique et la médecine interne.
Des objectifs annuels précis seront établis en lien avec la/le responsable hiérarchique.
MISSIONS PRINCIPALES
Consolidation de l’expression de besoin « traitement automatique du langage » avec les équipes de recherche et de pilotage de l’EDS. Implication dans le projet PARTAGES via le développement d’un LLM médical et/ou son utilisation dans des cas d’usages cliniques concrets.
Développement, validation et maintenance de bibliothèques logicielles scientifiques écrites en Python facilitant l’analyse des données de l’EDS
Développement/Déploiement de modèles de machine learning (ML) pour pré-traiter les données
Rédaction la documentation technique ainsi que la documentation utilisateur
Développement de partenariats académiques
Contribution à l’écriture d’articles scientifiques
MISSIONS PONCTUELLES OU SPECIFIQUES (liste non exhaustive)
Support utilisateur
Formation au traitement automatique du langage
Conseil interne
Avez un diplôme d’ingénieur ou équivalent (bac+5, master 2) en data science ;
Adhérez aux valeurs du service public et vous êtes passionné.e par le domaine de la santé ;
Expertise en traitement automatiques des langues (NLP), utilisation et entraînement de modèles de langue.
Expertise en statistiques
Expertise en analyse de bases de données (SQL)
Expertise en développement de modèles de machine learning (Tensorflow, Pytorch etc.)
Expertise en calcul distribué et en data management (Spark, etc.)
Expertise en développement Python/R
Expertise en déploiement de modèles statistiques/de machine learning
Des qualités d’autonomie, de flexibilité et de responsabilité
Curieux, dynamique et créatif, avec une réelle envie de faire preuve d’innovation
Esprit d’équipe et la volonté de prendre part à une aventure collective
Sens de l’écoute, du résultat et de la qualité
Entretien téléphonique rapide
Puis demi journée sur site (3h) d’entretiens techniques