Etaient présents:
Isabelle Colombet (SPIM)
François Gueyffier (SPC)
Marie-Christine Jaulent (SPIM)
Michèle Sebag (LMS)
Noël Lucas (univ Nantes)
Jérôme Azé
Fabien Torre (Grappa)
Florence d'Alché Buc (LIP6)
Christophe Marsala (LIP6)
Alexandre Pitti (LIP6)
Destinataires : idem +
Antoine Cornuéjols (LRI)
Rémy Gilleron (Grappa)
Mario Ota (SPIM)
Michèle rapporte le travail de thèse de médecine effectué par Noël Lucas (qui sera présenté plus en détail après) dont l'objectif est de passer d'un problème de classification à un problème de régression. Le thème est éloigné d'AP-INDANA mais s'avèrera intéressant pour le projet en ce qui concerne la présentation visuelle des résultats.
François confirme que les résultats de Pocock peut être considéré comme la référence en terme de prédiction du risque sur les données INDANA (ils peuvent être utilisés comme les résultats dont la performance doit être améliorée par le projet).
Fabien et Isabelle argumentent le fait qu'il y a équivalence entre le score de Pocock, l'ordre de Fabien et la typicité de Michèle.
Florence présente les orientations qu'elle avait prises et poursuivies. Son approche s'intéresse à la résolution du problème de déséquilibre, l'idée étant d'améliorer les méthodes de combinaisons. Il s'agit de faire du clustering sur les données et de spécialiser les classifieurs sur les clusters. Une zone grise est également repérée par cette approche.
Les questions essentielles qui émergent de la discussion sont :
Est-ce que la zone grise se recoupe sur les différentes méthodes ?
Quelle méthodologie doit-on envisager pour les comparer ?
Si la zone grise est identifiée de la même façon par les différentes méthodes, est-il possible de prédire l'appartenance à la zone grise, en connaissant les attributs descriptifs (sans tenir compte de l'événement) ?
MS : Le problème est que la zone grise est un résidu des méthodes d'apprentissage. L'idée est que, pour généraliser, il faut pouvoir définir avec un classifieur en quoi la zone grise diffère du reste.
IC et MCJ : L'objectif d'amélioration de la performance est précisé : On recherche une amélioration de la performance sur les zones non grises en essayant de faire en sorte que ces zones soient les plus larges possibles. Le problème devient donc de « valider » la zone grise pour pouvoir classer a priori un exemple comme gris ou non gris. Cette validation doit être envisagée à deux niveaux : validation inter-étude (tous les classifieurs trouvent-ils la même zone grise ?) et validation inter étude en généralisation (peut-on à partir d'une caractérisation de la zone grise sur l'essai SHEP, prédire une caractérisation de la zone grise sur les autres essais ?).
Peut-on identifier les exemples où il manque des attributs ?
L'ordre obtenu dans la zone grise peut-il utilisé pour caractériser la zone grise ?
François rapproche la notion d'attribut manquant à celle de variable cachée ou latente, d'où la question : l'algorithme plus performant obtenu sur les zones non grises sera-t-il également plus performant sur la zone grise ?
Florence souligne les difficultés de la caractérisation du bruit (peut-on apprehender la proportion du bruit dans la zone grise)
Une piste consiste à prendre en compte le temps (travail d'Antoine sur la régression)
Utilisation de l'ordre (il n'y a pas de raisons de couper les deux classes au même endroit)
Représentation graphique commune pour l'ensemble des méthodes.
Groupe de travail : échange par mail.
Mise à jour de fichier INDANA1.2MAJ.txt envoyé récemment par Isabelle.
Présentation orale des résultats du stage d'Alexandre Pitti
Présentation du travail d'Antoine sur la régression
Résultats obtenus sur la comparaison des ordres et zone grise
Mise en forme graphique des résultats selon l'approche de Michèle
Discussion autour de l'interprétation