Data scientist - PASSAGE

CDD / Temporaire(12 à 36 mois)
Salaire : Non spécifié
Début : 30 septembre 2024
Télétravail occasionnel
Expérience : > 2 ans
Éducation : Bac +5 / Master

APHP DSN
APHP DSN

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Présentation de l’Entrepôt des Données de Santé de l’AP-HP et de la Chaire AIRACLES

L’Entrepôt des Données de Santé (EDS) de l’AP-HP centralise les données collectées dans le cadre du soin à l’AP-HP pour les mettre à disposition de projets de recherche ou de projets visant à améliorer le pilotage de l’activité hospitalière. Les données de l’EDS sont massives (+ de 8 millions de patients, 39 hôpitaux), variées (données de biologie, de parcours de soin, comptes rendus cliniques, imagerie, etc.) et mises à jour quotidiennement. L’analyse de l’EDS est riche d’opportunités mais présente également des défis importants (données présentes sous forme non-structurée, biais de collecte, etc.).

La Chaire en Intelligence Artificielle AI-RACLES créée en 2020 et co-portée par Etienne Audureau (AP-HP), Thomas Guyet (INRIA), Laurent Le Brusquet et Arthur Tenenhaus (CentraleSupélec), vise à exploiter les données massives de l’EDS de l’AP-HP afin de mener des travaux de recherche centrés sur l’exploration du concept de vulnérabilité en santé, qu’elle soit liée au vieillissement ou à des pathologies comme le cancer ou la COVID-19. Autour de cette thématique de recherche applicative, la Chaire AI-RACLES s’appuie sur l’encadrement de doctorants et post-doctorants pour développer un programme de recherche en 3 axes principaux et 1 axe transversal en lien direct avec des thèmes de recherche technologique : 

-         Axe 1 – Intégration de données hétérogènes à un temps donné et/ou issues du suivi longitudinal, incluant des données de nature clinique, biologique, textuelles (compte-rendus d’hospitalisation, imagerie, anatomopathologique etc.)

-         Axe 2 – Identification de phénotypes de fragilité et trajectoires de soins impliquant la conduite d’analyses non supervisées (représentation du patient et identification de profils et trajectoires typiques)

-         Axe 3 – Construction et intégration d’outils prédictifs utiles à la pratique clinique impliquant la conduite d’analyses supervisées s’appuyant des approches de deep/machine learning

ACTIVITES (description du poste)

Mieux comprendre les parcours de soins des patients âgés atteints de cancer : le projet PASSAGE

PASSAGE : Parcours de soins et inégalités de prise en charge chez les sujets âgés atteints de cancer : typologie, déterminants et impact sur le pronostic (PArcours de Soins chez les Sujet AGés atteints de cancer)

L’objectif principal du projet PASSAGE est d’évaluer les parcours de soins hospitaliers des patients âgés atteints de cancer pris en charge à l’AP-HP en évaluant les éléments clés de ces parcours sur le plan gériatrique et thérapeutique. La caractérisation de ces “trajectoires” permettra d’identifier les profils les plus vulnérables et d’éventuelles disparités de recours aux soins afin d’aider à optimiser la prise en charge des patients âgés atteints de cancer. Ce projet collaboratif réalisé dans le cadre de la Chaire en IA AIRACLES associe des épidémiologistes, des médecins spécialisés en onco-gériatrie, des ingénieurs et chercheurs en intelligence artificielle issus de l’AP-HP, INSERM, INRIA et CentraleSupelec.

Le projet PASSAGE fait en pratique suite au projet ELCAPA-EDS qui avait permis d’apparier les données issues de l’EDS APHP à celles d’une large cohorte de sujets âgés atteints de cancer. PASSAGE vise à étendre les analyses de trajectoires de soins à une population plus large de patients âgés atteints de cancer suivis à l’AP-HP, en dehors du périmètre des patients inclus dans la cohorte ELCAPA. L’objectif principal de cette étude est de réaliser une typologie des trajectoires de soins hospitaliers des patients âgés atteints de cancer, d’identifier leurs déterminants et d’évaluer leur association avec la survie des patients. Les objectifs secondaires portent sur certains éléments clés des parcours de soin en onco-gériatrie, incluant des modalités de prise en charge gériatriques (Evaluation Gériatrique Approfondie et consultations gériatriques de suivi) et thérapeutiques (chirurgie, chimiothérapie et radiothérapie), afin d’étudier 1) la fréquence et les modalités de ces prises en charge et les profils de patients y ayant accès, et 2) leur effet causal sur le déclin fonctionnel, les ré-hospitalisations et la survie, en tenant compte de l’état de fragilité du patient.

La population ciblée concerne près de 100,000 patients :

-         Âgés de 70 ans ou plus,

-         Ayant eu un diagnostic de cancer incident,

-         Lors d’une hospitalisation à l’AP-HP entre le 01/08/2017 et le 31/07/2023.

Les algorithmes de data science à l’Entrepôt des Données de Santé

Les données massives de l’Entrepôt de Données de Santé (EDS) contiennent de très nombreuses informations d’intérêt pour améliorer les connaissances médicales et optimiser le système de santé, mais celles-ci sont souvent présentes de manière diffuse (l’information est déduite à partir de nombreuses données) et non-structurée (sous la forme de textes, d’images, de signaux). Il apparaît nécessaire de pré-traiter les données à large échelle et à l’aide d’algorithmes de data science dédiés avant de pouvoir répondre aux questions posées par les utilisateurs de l’EDS. De nombreux algorithmes de Natural Language Processing (NLP) sont en particulier développés, validés et mis en production pour rendre possible l’exploitation des dizaines de millions de comptes rendus cliniques présents dans l’EDS (par exemple la détection automatique du layout des PDF, la pseudonymisation des textes, l’extraction de variables structurées à partir des textes, l’entraînement de modèles de machine learning à large échelle, etc.).

Les équipes

Le poste est à mi-temps entre l’Unité de Recherche Clinique (URC) de l’Hôpital Henri Mondor (Créteil) et l’équipe Data Science du Pôle Innovation et Données de la Direction des Services Numériques (Paris XIIème arrondissement). L’URC accompagne les projets de recherche menés sur l’EDS, en fournissant un accompagnement technico-réglementaire et une expertise méthodologique, biostatistique et épidémiologique. L’équipe Data Science développe et valide des algorithmes de pré-traitement des données massives.

Votre mission

Vous travaillerez étroitement avec l’équipe de recherche composée d’épidémiologistes, biostatisticiens, ingénieurs, médecins cliniciens gériatres et oncologues. Vous développerez des algorithmes NLP pour détecter, dans les millions de comptes rendus cliniques de l’EDS, les variables d’intérêt du projet PASSAGE, incluant données de traitement, évaluation de la fragilité du sujet âgé dans ses différentes dimensions (autonomie, mobilité, nutrition, fonctions cognitives, humeur, etc.), sévérité du cancer et autres antécédents. Vous explorerez la base de données pour générer ou vérifier des hypothèses, pour mieux décrire les parcours patients, etc. Les développements réalisés seront publiés en open source permettant ainsi de co-construire des communs numériques dédiés à la recherche en gériatrie et oncologie. Le poste peut éventuellement prendre la forme d’une thèse de science, suivant le profil et le projet du candidat.


Profil recherché

Savoir-faire requis

·        Expertise en développement Python ;

·        Expertise en statistiques ;

·        Expertise en analyse de bases de données, familiarité avec le framework Spark ;

·        Modèles de machine learning, en particulier pour l’analyse automatique de textes (NLP) ;

·        Esprit d’équipe, communication, ouverture d’esprit, créativité, curiosité, transdisciplinarité

·        Être autonome, avoir un bon sens de l’organisation du travail et des priorités

Connaissances associées

·        Problématiques fonctionnelles hospitalières (structures, processus) et des métiers de la santé (dont la recherche sur données et la recherche clinique) ;

·        Modélisation de systèmes complexes

·        Capacité à lire la littérature scientifique et à contribuer à des articles scientifiques

·        Standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, SnomedCT, LOINC…)

·        Connaissance de la recherche clinique

·        Expérience en recherche appréciée

QUALITES REQUISES

·        Des qualités d’autonomie, de flexibilité et de responsabilité

·        Curieux, dynamique et créatif, avec une réelle envie de faire preuve d’innovation

·        Esprit d’équipe et la volonté de prendre part à une aventure collective

·        Sens de l’écoute, du résultat et de la qualité

PREREQUIS/FORMATION

Diplôme d’ingénieur, Doctorat ou M2 en mathématique appliqué ou équivalent avec spécialisation sur les enjeux de traitement de données massives (Big Data) / ML / NLP / AI / Data Science


Déroulement des entretiens

  • Entretien téléphonique rapide

  • Puis demi journée sur site (3h) d’entretiens techniques

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.