Projet Indana, GRAppA, travail d'août 2002

Motivations

L'objectif reste de comprendre la zone grise : appréhender sa taille et identifier les exemples qui la composent.

Nos précédents travaux et la confrontation avec les résultats de Michèle montrent que certains exemples sont plus favorables que d'autres pour l'apprentissage (cf archives juin 2002).

Lors de la dernière réunion, nous avons remarqué que l'exemple de la classe EVENT considéré comme le plus favorable par les deux méthodes était un cumulard : quelqu'un dont on devine à l'oeil nu qu'il présente des risques très sérieux. Michèle classait d'ailleurs un exemple selon sa typicité dans sa classe.

Il apparaissait donc que la notion d'exemple favorable pouvait peut-être se confondre avec cette notion de typicité.

D'où l'idée de revenir sur les données pour y trouver des méthodes de mesure plus simple que celles précédemment mises en oeuvre (à savoir l'observation et l'interprétation des erreurs d'un algorithme d'apprentissage).

Mesures du risque

Nous avons travaillé sur les données INDANA 1.2, mesurant tout d'abord chaque attribut dans la population totale, ainsi que dans chaque classe : caractéristiques des données.

Il y apparaît qu'aucun attribut ne tranche véritablement entre les classes et que chaque attribut décrit sensiblement les mêmes plages de valeurs dans les deux classes. Cela explique sans doute les difficultés rencontrées par nos algorithmes d'apprentissage.

Finalement, nous sommes repartis de l'article de [Stuart Pocock, Valerie McCormack, François Gueyffier, Florent Boutitie, Robert Fagard, Jean-Pierre Boissel, 2001] et du système de règles qui y est proposé et, d'autre part, nous avons défini notre propre système de règles.

Nous étions donc en possession de quatre classements des exemples (deux par calculs directs du risque, deux par observation d'un algorithme d'apprentissage) :

ordre de Pocock : [ Tous les exemples ][ EVENT ][ NO EVENT ]
ordre de Michèle : [ EVENT ]
ordre de Fabien (août 2002) : [ Tous les exemples ][ EVENT ][ NO EVENT ]
ordre de Fabien (juin 2002) : [ Tous les exemples ][ EVENT ][ NO EVENT ]

On peut se convaincre en mesurant les erreurs entre ses différents classements qu'ils sont proches, tant sur les positions des exemples, que sur les évaluations du risque de chaque patient. Cela valide notre approche de l'année dernière : les ordres obtenus étaient bien significatifs, et non pas liés à un biais de l'algorithme d'apprentissage utilisé.

À partir de là, il est possible d'extraire les exemples qui restent à des positions comparables pour toutes les méthodes évoquées : exemples stables sur l'ensemble de la base, parmi les EVENT et parmi les NO EVENT.

On peut ainsi observer deux exemples stables :

le premier des NO EVENT, repéré comme un patient à risques mais qui n'a pas présenté d'événement,
et le dernier des EVENT évalué sans risque par les différentes méthodes et qui a pourtant eu un accident.

De tels exemples sont des aberrations : ils sont typiques d'une classe mais étiquetés avec la classe opposée. Il n'y a pas de sens à vouloir couvrir ces exemples. Une théorie couvrant ces exemples devrait être considérée comme suspecte, quel que soit le taux de bonnes prédictions obtenu. De manière plus générale, comparer les algorithmes sur le critère du nombre d'exemples bien classés est absurde dans le cadre des données INDANA.

En résumé, une mesure du risque et le classement des exemples qu'elle induit, nous permet d'écarter la zone grise : il suffit de se restreindre aux exemples EVENT du début de classement et aux exemples NO EVENT de la fin du classement.

Reste à savoir où couper. Nous avons choisi dans la suite, de prendre 80 % des exemples de chaque classe.

Apprentissages de GloBo

Nous avons lancé à l'aide du système d'apprentissage GloBo, un apprentissage sur la base complète et un apprentissage sur une sélection de 80% des exemples les plus typiques de leur classe (à partir du classement Pocock, les premiers exemples EVENT et les derniers NO EVENT).

On y voit que la théorie apprise sur un échantillon choisi est plus simple en nombre de règles, ainsi qu'en nombre d'attributs testés dans les règles.

D'autre part, on y découvre les critères les plus testés par les règles : le cholestérol, l'âge, les deux pressions artérielles et l'index pondéral arrivent en tête alors que le sexe, les informations ECG et les antécédents d'accidents ne sont que très peu ou pas du tout utilisés.

Une comparaison des capacités prédictives (30 apprentissages sur chacune des bases) montre qu'en choisissant les exemples comme expliqué ci-dessus, on apprend des théories non seulement plus simples mais qui également prédisent mieux sur les deux classes (les résultats sur la classe EVENT sont déplorables mais seule nous intéressait ici la comparaison des deux ensembles d'exemples).

Retour au projet INDANA.