Data scientist - NLP sur documents médicaux

CDD / Temporaire(12 à 24 mois)
Salaire : Non spécifié
Début : 31 octobre 2024
Télétravail occasionnel
Expérience : > 1 an
Éducation : Bac +5 / Master

APHP DSN
APHP DSN

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Aperçu rapide

Vous trouverez de nombreux détails de cette offre ci dessous. Pour résumer, en vous engageant sur ce poste vous allez:

  • Être impliqué sur un projet de recherche dénommé GRO2M visant à travailler sur l’amélioration des parcours de soins chirurgicaux urgents

  • Travailler avec l’équipe Data Science de l’AP-HP et le bloc des urgences de la Pitié-Salpêtrière

  • Développer des outils de NLP dédiés à l’extraction de multiples variables médicales dans les comptes-rendus d’hospitalisation des patients de l’AP-HP

Présentation de l’Entrepôt des Données de Santé de l’AP-HP

Les données massives de l’Entrepôt de Données de Santé (EDS) contiennent de très nombreuses informations d’intérêt pour améliorer les connaissances médicales et optimiser le système de santé, mais celles-ci sont souvent présentes de manière diffuse (i.e. l’information est déduite à partir de nombreuses données) et non-structurée (i.e. sous la forme de textes, d’images, de signaux). Il apparaît nécessaire de pré-traiter les données à large échelle et à l’aide d’algorithmes de data science dédiés avant de pouvoir répondre aux questions posées par les utilisateurs de l’EDS. Dans l’équipe Data Science, de nombreux algorithmes de Natural Language Processing (NLP) sont en particulier développés, validés et mis en production pour rendre possible l’exploitation des dizaines de millions de comptes rendus cliniques présents dans l’EDS (par exemple la détection automatique du layout des PDFla pseudonymisation des textesl’extraction de variables structurées à partir des textesl’entraînement de modèles de machine learning à large échelle, etc.).

Vos missions

Au sein de l’équipe Data Science, et en étroite collaboration avec le consortium GRO2M et l’équipe d’anesthésie-réanimation / bloc opératoire des urgences de la Pitié-Salpêtrière (voir plus bas pour un descriptif de ces entités), vous aurez pour mission de développer, valider et mettre à disposition des algorithmes de NLP destinés à extraire les nombreuses variables nécessaires au projet GRO2M pour construire le dataset souhaité. Vous pourrez compter sur les expertises data science combinées des équipes de l’EDS AP-HP et de CentraleSupelec pour mener à bien ce projet, tandis que les échanges avec le personnel médical seront extrêmement réguliers. Préalablement, vous travaillerez sur les données structurées du projet afin i) d’en extraire les variables disponibles et ii) de déterminer lesquelles vont nécessiter une extraction dans les comptes-rendus médicaux.

Vous pourrez reprendre les travaux initiés depuis fin 2020 consistant à développer et maintenir des bibliothèques scientifiques adaptées au contexte spécifique de l’EDS. Vous pourrez être amené à contribuer à des articles scientifiques valorisant d’un point de vue académique ces différents travaux.

Selon l’avancée prévisible du projet, vous serez amené à collaborer sur les problématiques de chainage des données acquises à celles du SNDS, ainsi qu’au développement des algorithmes de priorisation des parcours chirurgicaux. Des objectifs mensuels précis seront établis en lien avec la/le responsable hiérarchique.

En résumé:

  • Consolidation de l’expression de besoin « traitement automatique du langage » avec l’équipe de recherche;

  • Développement de modèles à base de règles et de machine learning (ML) pour extraire des variables médicales dans les comptes-rendus médicaux afin de les structurer ;

  • Enrichissement de bibliothèques de traitement et d’analyse de données développées par l’équipe ;

  • Contribution à l’écriture d’articles scientifiques ;

L’équipe Data Science

L’équipe Data Science a pour objectif de faciliter l’analyse des données issues de l’Entrepôt de Données de Santé (EDS), principale base de données de santé hébergée au sein de la plateforme Données Massives de l’AP-HP. Elle contient aujourd’hui les données médicales de plus de 11 millions de patients (40 millions de dossiers médicaux, plus de 30 millions de diagnostics, 300 millions de résultats de laboratoires).

L’équipe développe des bibliothèques scientifiques Open Source et des algorithmes qui transforment les données afin de faciliter leur exploitation par les utilisateurs finaux (enrichissement des données par traitement automatique du langage, qualification automatique de la qualité de certaines données, pseudonymisation, constitution de librairies permettant de définir des variables épidémiologiques à partir des données du système d’information clinique, etc.). L’équipe science des données développe également de nombreux partenariats avec organismes de recherche afin de développer l’offre de service en Machine Learning/Deep Learning au sein du Pôle.

L’Equipe GRO2M / Anesthésie-Réanimation Pitié-Salpétrière - Bloc des urgences

Le groupe GRO2M (Groupe de Recherche en Optimisation et management des Opérations Médicales) est porté par le Pr. RAUX et le Dr. BOTREL, anesthésistes-réanimateurs à la Pitié Salpêtrière. Ce CHU accueille l’un des principaux blocs opératoires urgents de l’AP-HP, en termes de nombre de patients traités et de complexité / de la vaste étendue des actes chirurgicaux réalisés. Ce projet part du constat qu’il nous faut optimiser les soins chirurgicaux urgents car fréquents et couteux, en définissant au mieux et selon les caractéristiques patients / chirurgicales / réanimatoires / matérielles au bloc opératoire, les parcours de soins pré-per-post opératoires. Les problématiques rencontrées dans ce cadre sont médicales (priorisation des actes en allant au-delà des stricts intitulés chirurgicaux, évaluation des parcours de soins, rôle AR-MPO), mais également médico-économiques, SHS (vécu patient, qualité de vie au travail des soignants) et d’ingénierie des organisations. C’est le pourquoi d’un consortium rassemblant ces compétences et auquel ce poste de data scientist sera rattaché : Centre Léon Bérard à Lyon (médico-économique), Université de Nantes (SHS / QVT), CentraleSupélec et Mines St Etienne (data science, ingénierie des organisations).

Le projet de recherche GRO2M

Selon les dernières statistiques de santé de l’OCDE, le ratio des dépenses de santé par rapport au PIB a atteint 12,2 % en France. Par rapport à une moyenne de 9,7 % dans les pays de l’OCDE, les dépenses de santé en France sont parmi les plus élevées au monde. En outre, dans ce contexte de demande croissante, due au vieillissement de la population et à l’augmentation des maladies chroniques, et de pénurie de personnel médical, les hôpitaux français sont contraints non seulement de limiter les dépenses, mais aussi de veiller au bien-être du personnel et d’améliorer la satisfaction des patients en maintenant des services de santé de haute qualité.

En tant que tel, le système de santé doit être repensé et transformé afin de tirer parti du volume croissant de données réelles disponibles dans les hôpitaux et des nouvelles technologies, pour développer une approche de prise de décision axée sur les données et centrée sur le patient, qui contribue à une gestion plus efficace et efficiente des ressources limitées des hôpitaux tout en améliorant la qualité de vie au travail du personnel médical et la qualité des soins.

L’objectif global du projet GRO2M est de proposer un jumeau numérique des parcours de soins chirurgicaux urgents. Celui-ci permettra d’améliorer la régulation de ces actes chirurgicaux, en définissant les délais de prise en charge / les parcours post-opératoires à privilégier / les outcomes médicaux, médico-économiques et vécu de prise en charge – QVT selon les patients admis / les chirurgies attendues / l’occupation des salles opératoires et des services d’hospitalisation d’aval. Ce projet revêt une dimension de recherche académique, mais également opérationnelle / applicable / d’amélioration des prises en charge patients très forte.


Profil recherché

Savoir-faire requis

  • Expertise en développement Python ;

  • Expertise en statistiques ;

  • Expertise en analyse de bases de données, familiarité avec le framework Spark ;

  • Modèles de machine learning, en particulier pour l’analyse automatique de textes (NLP) ;

Connaissances associées

  • Problématiques fonctionnelles hospitalières (structures, processus) et des métiers de la santé (dont la recherche sur données et la recherche clinique) ;

  • Modélisation de systèmes complexes

  • Capacité à lire la littérature scientifique et à contribuer à des articles scientifiques

  • Connaissance de la recherche clinique

  • Expérience en recherche appréciée

Qualités requises

  • Des qualités d’autonomie, de flexibilité et de responsabilité

  • Un bon sens de l’organisation du travail et des priorités

  • Curieux, dynamique et créatif, avec une réelle envie de faire preuve d’innovation

  • Esprit d’équipe et la volonté de prendre part à une aventure collective

  • Sens de l’écoute, du résultat et de la qualité

Prérequis / Formation

Diplôme d’ingénieur, Doctorat ou M2 en mathématique appliqué ou équivalent avec spécialisation sur les enjeux de traitement de données massives (Big Data) / ML / NLP / AI / Data Science


Déroulement des entretiens

  • Entretien téléphonique rapide

  • Puis demi journée sur site (3h) d’entretiens techniques

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.