Nous travaillons depuis plusieurs années avec R, langage open source de traitement de données et de statistique, pour l’analyse PMSI.
Nous partageons aujourd’hui notre retour d’expérience sur l’utilisation de R pour l’analyse des PMSI.
Raison #1 : R est adapté aux analyses PMSI
Principales caractéristiques de R :
# importation optimisée de fichiers textes structurés
# manipulation très fluide et naturelle de structures de données. R a été conçu spécifiquement pour la manipulation de données.
# toutes les fonctions statistiques et de manipulations de données existent nativement dans R
# de très nombreuses fonctions graphiques et de visualisation de données sont intégrées à R pour produire automatiquement des histogrammes, des courbes, des camemberts, des boîtes à moustache, etc…
# génération de rapports dynamiques
# très rapidement opérationnel.
En quelques heures, un professionnel du PMSI peut réaliser des comptages (nombre de RUM, nombre moyen de RUM par RSS, DMS, …) et quelques requêtes simples (nombre moyen d’actes CCAM par séjour et GHM, ratio de séjours avec un code CIM-10 codé, …)
Or ces caractéristiques sont justement celles recherchées par les équipes DIM :
# travail sur un PC, souvent un portable pour les médecins DIM, sans vouloir ou pouvoir dépendre d’un service informatique
# import et manipulation rapide (en quelques secondes) de fichiers de quelques 100 000 lignes
# réutilisation et personnalisation à volonté de requêtes
# « nettoyage » facile de données (ex : supprimer les GHM représentés par moins de 10 séjours)
# « jeux » avec les filtres et les sélections
# production de graphiques à la volée
# production de case mix
# comparaison de jeux de données période à période ou périmètre à périmètre
# repérage d’atypies avec paramétrage de listes de codes
# appel à des fonctions ou des tests statistiques en ayant l’assurance qu’ils sont corrects
# distinction entre variables quantitatives, qualitatives, catégorielles
# rapprochement avec des référentiels ou des textes non structurés
# génération de rapports d’activité dynamiques reproductibles
# intégration aux EDS, aux études multi-sites
R est par ailleurs très largement utilisé en Santé Publique et en biostatistique depuis de nombreuses années.
Raison #2 : R est mature et pérenne
R existe depuis plus de 20 ans. Sa maturité, sa popularité et sa diffusion s’accroissent d’année en année.
A ce jour, R est couramment utilisé en entreprise, dans les milieux académiques et les organismes publics, en particulier dans le monde hospitalier et de la santé.
R comprend plus de 15 000 packages à ce jour (source), répondant à des besoins de plus en plus pointus.
En janvier 2019, R est classé 12e dans l’index TIOBE qui mesure la popularité des langages de programmation dans le monde.
Raison #3 : R est gratuit et open source
La gratuité de R permet aux équipes DIM de travailler tout de suite en toute liberté, sans dépendre d’un financement qui peut toujours être remis en cause ou d’un éditeur commercial qui bride l’accès aux possibilités d’analyses, sans dépendre d’un nombre de licences.
R est open source. Cela garantit une maîtrise de bout en bout des requêtes et des fonctions : pas de « boîtes noires », pas de « modules supplémentaires payants », aucune limitation dans les développements.
R dispose d’un environnement de développement gratuit, libre, multiplateforme pour R, orienté utilisateur : RStudio qui facilite grandement le développement sous R et la visualisation en direct des résultats, en particulier des graphiques.
Raison #4 : R est très documenté
L’écosystème francophone autour de R est aujourd’hui très développé avec des sites et blogs didactiques, du plus basique pour démarrer aux plus techniques, des forums et des rencontres académiques dans de nombreuses villes (Nantes, Toulouse, Paris, Lyon), un réseau d’experts indépendants.
Pour les professionnels qui comprennent l’anglais basique, la documentation R devient alors quasi-infinie.
Chaque question a sa réponse dans les blogs, sites ou forums
Raison #5 : Les spécialistes et experts du PMSI utilisent R
La quasi-totalité des CHU et CHR utilisent aujourd’hui R.
L’AP-HP développe un logiciel open source R pour le PMSI : pmeasyr (voir notre interview de Guillaume PRESSIAT qui développe et maintient pmeasyr).
La DREES développe depuis 2019 sa visualisation de données en ligne en R
Nous développons PMSISoft, le logiciel d’analyse PMSI le plus pointu à ce jour, en R.
Raison # 6 : R = l’ouverture du PMSI à la data science
Pour les équipes DIM, travailler avec R, c’est aussi participer aux travaux les plus récents en santé publique autour des EDS (Entrepôts De Santé) qui voient le jour dans les principaux CHU (Paris, Grand Ouest, Marseille, Bordeaux, Strasbourg, Lyon) et de l’IA.
C’est s’inscrire dans une démarche de partage et de collaboration valorisant les expertises propres aux PMSI (via, par exemple, le partage de package ad’hoc).
Travailler avec R pour une équipe DIM, c’est travailler de plein pied dans le monde des data scientist, du codage semi-automatisé, de l’avenir de l’analyse des données de santé à laquelle participe le PMSI.
Copyright © Lespmsi.com –