Actualités

Focus sur: un projet Soladis

doc stat

Soladis a eu l’occasion de travailler récemment sur une problématique de classification de patients atteints d’une maladie rare, la sclérodermie avec hypertension artérielle pulmonaire.

Afin de vous partager notre expérience statistique et médicale, nous vous ouvrons la porte de nos travaux avec une petite présentation du sujet.

 

Objectif de l’étude

L’objectif de l’étude était de distinguer différents sous-groupes homogènes au sein d’une population de patients sclérodermiques présentant une HTAP, et de vérifier la validité de cette classification au regard du pronostic du patient.

 

Le regard du médecin, présentation de la pathologie

La sclérodermie est une maladie auto-immune rare qui touche environ 4000 personnes en France, principalement les adultes entre 40 et 50 ans, à raison de 4 femmes pour un homme. C’est une maladie systémique, c’est-à-dire qu’elle peut toucher un grand nombre d’organes. Elle se caractérise par une atteinte des artérioles – les vaisseaux les plus fins qui amènent le sang oxygéné aux organes -  des microvaisseaux et du tissu conjonctif. Ses traits dominants sont la fibrose et les oblitérations vasculaires dans la peau et d’autres organes, en particulier les poumons, le cœur, l’appareil digestif et le rein.

La sclérodermie se complique d’une hypertension artérielle pulmonaire (HTAP) dans environ 10% des cas. Il s’agit d’une complication très grave, entraînant le décès dans 50% des cas, dans les 5 ans suivant son diagnostic. L’HTAP est liée à la rigidité des artérioles, au rétrécissement de la lumière des vaisseaux lié à une hypertrophie de leur paroi et aux thromboses en relation avec un ralentissement circulatoire. L’HTAP est une affection très complexe qui complique bien d’autres maladies que la sclérodermie et qui peut même apparaître sans cause retrouvée (HTAP idiopathique). Le pronostic de l’HTAP dépend beaucoup de la maladie sous-jacente. L’HTAP a été longtemps considérée comme une maladie orpheline mais depuis une vingtaine d’années, des traitements efficaces sont apparus et la recherche se poursuit. Le pronostic de l’HTAP idiopathique a été transformé par ces médicaments mais les résultats dans l’HTAP associée à une sclérodermie sont encore décevants.

L’HTAP de la sclérodermie est multifactorielle : l’épaississement de la paroi des microvaisseaux artériels pulmonaires diminue la lumière de ces vaisseaux et entraîne une élévation de la pression de perfusion et des résistances vasculaires pulmonaires ; la fibrose pulmonaire est responsable d’une diminution des échanges gazeux au niveau des alvéoles pulmonaires et d’une hypertension pulmonaire (très difficile à distinguer d’une hypertension artérielle pulmonaire, d’autant que les mécanismes sont souvent intriqués) ; il existe des thromboses dans les veines pulmonaires et cette maladie veino-occlusive peut être responsable d’une hypertension artérielle pulmonaire.

 

Le regard du statisticien, présentation de la méthodologie

Le problème posé était celui d’une classification non supervisée. L’objectif d’une telle classification est de constituer des groupes d’objets. Les caractéristiques des objets d’un même groupe sont les plus proches possibles alors que celles d’objets appartenant à différents groupes sont les plus dissemblables possibles. Nous avons choisi d’utiliser la méthode des k-means. Cette méthode est assez complexe à utiliser. Il faut en effet franchir plusieurs obstacles : choix des variables de classification sachant que toute donnée manquante entraîne l’élimination de l’observation ; nécessité ou non de standardiser les variables ; utilisation de métriques différentes (variables continues, catégorielles ou binaires) ; choix du nombre de groupes (clusters) ; vérification de la taille et des caractéristiques des groupes. Ces difficultés sont communes à toutes les méthodes de classification non supervisée mais la méthode des k-means en ajoute encore une : la classification proposée est tributaire de l’ordre des observations ! En effet, l’algorithme utilise comme « semence » pour chacun des k clusters, les k premières observations. Ces semences sont donc dépendantes de l’ordre des observations. A l’étape suivante, l’algorithme classe la k+1ème observation au sein d’un des k clusters constitué. Il examine la validité de la nouvelle classification et  peut choisir de modifier les caractéristiques de l’un des clusters. Le processus est répété jusqu’à épuisement des observations.

 

La solution mise en place

Les variables de classification ont été choisies sur des critères cliniques et pratiques, puis ont été standardisées. Nous avons testé les 11 méthodes de classification non supervisée disponibles dans SAS. Les résultats les plus intéressants ont été obtenus avec la méthode des k-means. Nous avons mis en évidence 5 groupes de patients dont le pronostic –qui n’était pas une variable de classification- s’est avéré très différent (allant de 0% à 80% de mortalité à 5 ans). Restait un problème difficile : critiquer la classification obtenue et tester sa robustesse vis-à-vis de l’ordre des observations.

 

L’originalité

Nous avons créé une macro SAS qui fait 500 tris aléatoires, opère une classification en clusters pour chaque dataset obtenu et calcule le nombre de fois où chaque paire d’observations est classée dans le même cluster. Notre idée était que si le patient 1 et le patient 5 étaient toujours classés dans le même cluster, et ce quel que soit l’ordre des observations, les patients 1 et 5 étaient réellement très proches. A contrario des patients qui ne sont jamais classés dans le même cluster sont réellement très dissemblables. Notre intuition a été vérifiée. Nous avons également testé la méthode de Ward qui n’est pas sensible à l’ordre des observations et les résultats se sont avérés très proches.

 

Conclusion

Nous avons pu mettre en évidence au sein d’une population de patients sclérodermiques présentant une HTAP, 5 profils cliniques différents répondant à des mécanismes spécifiques. C’est le premier travail de ce genre mené dans cette population. Une publication est en cours de rédaction.