Actualités

Recherche et développement - Modélisation des événements rares

Soladis - CIR

A travers les différents domaines d’intervention de SOLADIS, les ingénieurs statisticiens font face à des bases de données, éléments source de leur analyse, dont la structure, la composition, la taille peuvent être très diverses. L’ingénieur  choisit la méthodologie statistique à appliquer d’une part en fonction de l’objectif et du contexte de l’étude, d’autre part en fonction des données à analyser : nombre d’observations, nombre de variables prédictives, type de données, nature des variables explicatives et de la variable à expliquer... Lors de l’analyse, des singularités peuvent ressortir et la démarche doit alors être adaptée.

La régression logistique permet d’analyser des données binaires (exemple : succès, échec / décès, survie), en fonction de différentes variables explicatives quantitatives ou qualitatives. Or, il arrive que l’une des modalités de la variable dépendante soit beaucoup moins fréquente que les autres. On parle alors d’évènement rare ; dans ce cas, la régression logistique a ses limites.

L’objectif de ce sujet de R&D est donc de rechercher et tester une méthode adaptée à la modélisation d’évènements rares, en cohérence avec le besoin des ingénieurs statisticiens face à des données de ce type.

Les évènements rares peuvent être observés dans des domaines d’application variés. Par exemple dans le domaine de la santé , il s’agit de déterminer si l’effet d’un médicament est satisfaisant ou non et de voir si le nombre d’évènements indésirables est acceptable afin d’évaluer s’il est commercialisable.

Notre recherche a porté sur les évènements rares qui se présentent sous la forme suivante :

  • La variable à expliquer est de type binaire (valeur 0 ou 1 généralement) avec une proportion de 0 beaucoup plus élevée que celle des 1 (supérieure à 90%)
  • Des variables explicatives quantitatives ou qualitatives.

Le travail a donc consisté à rechercher et à tester les méthodes statistiques applicables aux évènements rares, l’objectif étant de définir quelle est la méthode la plus adaptée à ce type de données, afin d’avoir le pouvoir prédictif le meilleur possible

Une recherche bibliographique et méthodologique a tout d’abord été menée afin de rechercher les méthodes statistiques applicables dans le cas d’évènements rares. A l’issue de cette recherche, quatre méthodes d’intérêts ont été retenues :

  1. La méthode de ré-échantillonnage avec correction des estimations par pondération,
  2. La méthode de ré-échantillonnage avec correction a priori des estimations,
  3. La régression logistique exacte,
  4. La méthode de Firth.

Un programme a été développé, mettant en œuvre les différentes méthodes, et permettant leurs comparaisons. Ce programme a été automatisé afin de faciliter l’application à différentes bases de données. Il consiste à simuler, à partir d’une base de données initiale, des évènements rares en quantité décroissantes, afin d’évaluer les performances de la régression logistique classique et des modèles alternatifs.

Soladis commercialise ainsi dans son offre une solution pour gérer la modélisation des évènements rares.