Dans le contexte d’une forte augmentation des demandes d’exploitation des données de la BNDMR, des accès permanents au Système National des Données de Santé (SNDS) et au Programme de médicalisation des systèmes d’information (PMSI national), et de la perspective d’appariement de cette base aux données de l’Assurance Maladie, La BNDMR cherche à renforcer son équipe data afin de :
- Harmoniser et d’industrialiser ses process de préparation et d’exploitation des données de la BNDMR à des fins d’analyses statistiques ;
- Renforcer ses capacités à répondre aux projets et demandes d’analyse émanant des différents partenaires ; et
- Développer une cellule d’expertise sur les données du SNDS et du PMSI pour les maladies rares.
Ainsi, nous recherchons un.e data scientist/ingénieur statisticien avec une compétence et une expérience avérée en en traitement de données pour assurer les missions suivantes :
- Participer à l’amélioration continue des scripts d’extraction, de préparation et de transformation des données de la BNDMR pour les analyses statistiques ;
- Produire des statistiques descriptives et restituer des résultats sous forme graphique ;
- Participer à l’élaboration des protocoles d’études et aux choix méthodologiques (design, objectifs, critère de jugement, population d’étude, plan d’analyse statistique…). ;
- Réaliser des analyses statistiques en lien avec des projets internes ou en partenariat avec des laboratoires publics/privés ;
- Réaliser des analyses statistiques sur des bases de données complexes auxquelles la BNDMR sera appariée (SNDS, EDS, PMSI)
SAVOIR FAIRE REQUIS
- Maîtrise indispensable des outils d’analyse de données (R et/ou Python) ;
- Maîtrise indispensable des systèmes de gestion des bases de données relationnelles (SGBDR PostgreSQL) ;
- Expérience avérée du travail collaboratif et reproductible (Gitlab) ;
- Expérience avérée en techniques de data management (manipulation de plusieurs sources, chainage, typage automatique des variables, gestion des libellés, bibliothèque de formats, sous-populations, gestion des données manquantes …) ;
- Expérience avérée en méthodes statistiques appliquées aux sciences de la vie (descriptives, univariées, multivariées, régression linéaire, régression logistique, modèles de survie, …) ;
- Expérience avérée dans la manipulation des données afin de repérer des évènements dans des grands volumes de data, des séries temporelles et si possible, dans un environnement de données de santé ;
- Connaissance des méthodes statistiques multivariées : PCA, PLS/PLS multi bloc, analyse longitudinale, analyse canonique généralisée, méthode de sélection des variables (lasso, réseau élastique, importance de la variable en projection) ;
- Maîtrise des méthodes d’apprentissage automatique (Random Forest, Naive Bayes Classifier, SVM…) serait un plus ;
- La connaissance des bases de données du SNDS (SNIIRAM, PMSI, EGB …) serait un plus ;
- Intérêt pour les études épidémiologiques ;
CONNAISSANCES ASSOCIEES
- Sensibilité aux pratiques régies par le RGPD et des orientations et doctrines CNIL sur la protection des données de santé ;
- Bon niveau d’anglais (oral et écrit)
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.