Nous recrutons un ou une Data Scientist pour travailler sur un projet médico-scientifique dans le domaine de la diabétologie au sein de l’Entrepôt de Données de Santé (EDS) de l’AP-HP. L’EDS est une base de données hébergeant les dossiers médicaux informatisés de millions de patients suivis dans les 38 hôpitaux de l’AP-HP. Ces données peuvent être structurées (pathologies, traitements, procédures, biologies hospitalières, démographie, etc) ou non structurées (comptes-rendus d’hospitalisation, prescriptions, notes de consultation, etc).
Nous travaillons sur le diabète, dans le cadre d’une collaboration long terme entre l’équipe Inria Soda, le Centre de pharmacoépidémiologie de l’AP-HP et l’équipe Inserm Immunity & Metabolism of Diabetes pour construire une cohorte qui a vocation à être utilisée dans le cadre de plusieurs projets de recherche menés au sein de notre consortium. Le poste se trouve sur deux sites : au département de santé publique de l’AP-HP (hôpital de la Pitié-Salpêtrière) et dans l’équipe de data science de l’AP-HP (campus Picpus). C’est une opportunité de travailler sur les données aux contacts des experts qui les produisent.
Nous avons accès à l’une des plus larges cohortes de patients diabétiques d’Europe (>1.5M de patients), et avons développé des pipelines de Natural Language Processing (NLP) pour extraire des entités depuis les compte-rendus médicaux et les lier à des référentiels. Nous avons extrait des données biologiques, des constantes vitales, des comorbidités et des traitements. Nous travaillons actuellement sur des sujets d’extraction des données, ainsi que des études rétrospectives utilisant les données générées pour répondre à des questions médico-scientifiques en diabétologie (trajectoires de complications, impact des stratégies thérapeutiques, etc).
Le ou la Data Scientist sera amené-e à travailler sur tous les aspects de la data science, et à collaborer avec des experts en santé, machine learning et épidémiologie. Nous utilisons principalement Python, SQL et Spark, ainsi que des packages open-source développés à l’AP-HP (eds-scikit et eds-nlp)
Quelques références vers des travaux et perspectives du projet
Inflammation et trajectoire de risque de complications chez le diabétique
Trajectoire du risque de complications et réponses thérapeutiques dans le diabète de type 2
Missions principales
Extraction et visualisation de données structurées ou textuelles
Réalisation d’études de faisabilité et de projets de recherche sur le diabète
Développement et validation d’algorithmes de NLP pour extraire de l’information depuis les comptes rendus médicaux
Implémentation et évaluation de modèles de survie et de risques compétitifs
Développement d’algorithmes pronostics pour la prédiction de complications
Contribution à l’écriture d’articles scientifiques
Idéalement …
Une première expérience en data science / machine learning
Un M2 de mathématiques, informatique, machine learning, biostatistiques ou équivalent
Une expertise en statistiques et machine learning
Une expertise en manipulations de données (SQL, pandas)
Une expertise en Python et connaissance des meilleures pratiques de développement de code
Une excellente capacité à collaborer entre plusieurs équipes, et à vulgariser des concepts à des non-experts
Et en bonus …
Expérience en santé publique ou en épidémiologie
Expérience avec les données de santé de vie réelle
Expérience en NLP (named entity recognition, entity linking)
Expérience avec des outils de calcul distribué (Spark)
Note importante : nous recrutons des personnes pas des postes
Si après la lecture de cette description de poste, vous pensez que vous n’avez pas tous les prérequis mais qu’elle correspond à là où vous voudriez être dans votre prochaine position, nous vous encourageons à postuler !
Entretien visio, ~30 minutes
Test technique