Data Scientist - Développement logiciel et NLP

Résumé du poste
CDD / Temporaire(24 mois)
Paris
Salaire : Non spécifié
Télétravail occasionnel
Expérience : > 3 ans
Éducation : > Bac +5 / Doctorat
Compétences & expertises
Contenu généré
Rédaction technique
Bioinformatique
Analyse statistique
Droit et éthique des soins de santé
Créativité et innovation
+10

APHP DSN
APHP DSN

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

L’AP-HP

L’AP-HP est un centre hospitalier universitaire à dimension européenne mondialement reconnu.

Ses 38 hôpitaux accueillent chaque année 10 millions de patients : en consultation, en urgence, lors d’hospitalisations programmées ou en hospitalisation à domicile.

Elle assure un service public de santé pour tous, 24h/24, et c’est pour elle à la fois un devoir et une fierté.

L’AP-HP est le premier employeur d’Ile de-France : 95 000 personnes – médecins, chercheurs, paramédicaux, personnels administratifs et ouvriers – y travaillent. http://www.aphp.fr

Le pôle Innovation & Données

Le pôle Innovation & données de la Direction des Services Numériques (DSN) de l’AP-HP, constitué d’environ 120 personnes réparties dans 8 entités (services), propose une offre de services structurée autour de :

- L’innovation numérique : une équipe composée de chefs de produits, chefs de projet, développeurs, devops, UX/UI et scrum master, porte le développement de projets numériques et de services en ligne, dont l’espace patient de l’AP-HP, sous un format inspiré du modèle des « startup d’Etat » (https://labnum-dsn.aphp.fr/) ; - L’entrepôt de données de santé de l’AP-HP (EDS AP-HP) (https://eds.aphp.fr/) : l’éthique, la science et la qualité sont les lignes directrices des équipes qui structurent et enrichissent au quotidien une offre de services portant sur l’usage secondaire des données de santé. Sont notamment proposés des appuis aux porteurs de projets, une infrastructure sécurisée et adaptative, des produits d’intégration, de visualisation, d’exploration et de traitement des données ou encore des bibliothèques scientifiques et algorithmes mis en open source. Ces différents services permettent de répondre aux besoins des professionnels, dans le cadre de leurs travaux de recherche ou de pilotage de l’activité ;

- La bio-informatique : la plateforme AP-HP MOABI met à disposition des expertises et des outils déployés auprès des services de génétique de l’AP-HP. Une offre de services bio-informatique externe est également proposée au travers de la plateforme SeqOIA de séquençage génomique à très haut débit, dans le cadre du plan gouvernemental France Médecine Génomique 2025, (https://laboratoire-seqoia.fr/) ;

- Des maladies rares : la banque nationale de données maladies rares (BNDMR), projet national confié à l’AP-HP dans le cadre du Plan National Maladies Rares (https://www.bndmr.fr/).

L’Entrepôt de Données de Santé (EDS)

Les données massives de l’Entrepôt de Données de Santé (EDS) contiennent de très nombreuses informations d’intérêt pour améliorer les connaissances médicales et optimiser le système de santé, mais celles-ci sont souvent présentes de manière diffuse (i.e. l’information est déduite à partir de nombreuses données) et non-structurée (i.e. sous la forme de textes, d’images, de signaux). Il apparaît nécessaire de pré-traiter les données à large échelle et à l’aide d’algorithmes de data science dédiés avant de pouvoir répondre aux questions posées par les utilisateurs de l’EDS. De nombreux algorithmes de Natural Language Processing (NLP) sont en particulier développés, validés et mis en production pour rendre possible l’exploitation des dizaines de millions de comptes rendus cliniques présents dans l’EDS (par exemple la détection automatique du layout des PDF, la pseudonymisation des textes, l’extraction de variables structurées à partir des textes, l’entraînement de modèles de machine learning à large échelle, etc.).

L’équipe Data Science

L’équipe Data Science a pour objectif de faciliter l’analyse de l’Entrepôt de Données de Santé (EDS), principale base de données de santé hébergée au sein de la plateforme Données Massives de l’AP-HP. Elle contient aujourd’hui les données médicales de plus de 11 millions de patients (40 millions de dossiers médicaux, plus de 30 millions de diagnostics, 300 millions de résultats de laboratoires).

L’équipe développe des bibliothèques scientifiques Open Source et des algorithmes qui transforment les données afin de faciliter leur exploitation par les utilisateurs finaux (enrichissement des données par traitement automatique du langage, qualification automatique de la qualité de certaines données, pseudonymisation, constitution de librairies permettant de définir des variables épidémiologiques à partir des données du système d’information clinique, etc.). L’équipe science des données développe également de nombreux partenariats avec organismes de recherche afin de développer l’offre de service en Machine Learning/Deep Learning au sein du Pôle.

Votre mission

Au sein de l’équipe data science, vous aurez pour mission de développer, valider et maintenir des algorithmes et bibliothèques logicielles scientifiques facilitant l’exploitation des données issues du système d’information clinique à des fins de recherche et de pilotage. Vous pourrez en particulier vous concentrer le traitement automatique du langage permettant de transformer les données textuelles de l’EDS en données structurées directement exploitables. Vous serez également impliqué dans un projet national « PARTAGES » (https://www.health-data-hub.fr/actualites/democratiser-lia-generative-en-sante-letat-travers-france-2030-selectionne-le-projet) de développement d’un LLM français et médical, et d’adaptation/validation de celui-ci sur des cas d’usages spécifiques. Les développements que vous réaliserez seront diffusés au sein de la communauté de recherche de l’AP-HP afin d’être utilisés par les chercheurs pouvant en bénéficier. Vous consoliderez une communauté d’utilisateurs et de contributeurs intéressés par ces outils. Vous serez amené.e à contribuer à des articles scientifiques valorisant d’un point de vue académique ces différents travaux.

Vos missions pourront également concerner plus directement des travaux de recherche mobilisant des analyses de données. Ces travaux se font en étroite collaboration avec les experts métier au travers de groupes de travail. Parmi les domaines d’application (liste non exhaustive) figurent l’oncologie, la psychiatrie, les interactions médicamenteuses, le diabète, le suivi épidémiologique et la médecine interne.

Des objectifs annuels précis seront établis en lien avec la/le responsable hiérarchique.

MISSIONS PRINCIPALES

  • Consolidation de l’expression de besoin « traitement automatique du langage » avec les équipes de recherche et de pilotage de l’EDS. Implication dans le projet PARTAGES via le développement d’un LLM médical et/ou son utilisation dans des cas d’usages cliniques concrets.

  • Développement, validation et maintenance de bibliothèques logicielles scientifiques écrites en Python facilitant l’analyse des données de l’EDS

  • Développement/Déploiement de modèles de machine learning (ML) pour pré-traiter les données

  • Rédaction la documentation technique ainsi que la documentation utilisateur

  • Développement de partenariats académiques

  • Contribution à l’écriture d’articles scientifiques

MISSIONS PONCTUELLES OU SPECIFIQUES (liste non exhaustive)

  • Support utilisateur

  • Formation au traitement automatique du langage

  • Conseil interne


Profil recherché

Idéalement, vous…

  • Avez un diplôme d’ingénieur ou équivalent (bac+5, master 2) en data science ;

  • Adhérez aux valeurs du service public et vous êtes passionné.e par le domaine de la santé ;

…et vous avez un savoir faire dans plusieurs de ces domaines

  • Expertise en traitement automatiques des langues (NLP), utilisation et entraînement de modèles de langue.

  • Expertise en statistiques

  • Expertise en analyse de bases de données (SQL)

  • Expertise en développement de modèles de machine learning (Tensorflow, Pytorch etc.)

  • Expertise en calcul distribué et en data management (Spark, etc.)

  • Expertise en développement Python/R

  • Expertise en déploiement de modèles statistiques/de machine learning

Et humainement ?

  • Des qualités d’autonomie, de flexibilité et de responsabilité

  • Curieux, dynamique et créatif, avec une réelle envie de faire preuve d’innovation

  • Esprit d’équipe et la volonté de prendre part à une aventure collective

  • Sens de l’écoute, du résultat et de la qualité


Déroulement des entretiens

  • Entretien téléphonique rapide

  • Puis demi journée sur site (3h) d’entretiens techniques

Envie d’en savoir plus ?