Etaient présents:
Florence d’Alché Buc (LIP6)
Isabelle Colombet (SPIM)
Antoine Cornuéjols (LRI)
François Gueyffier (SPC)
Marie-Christine Jaulent (SPIM)
Noël Lucas (univ Nantes)
Christophe Marsala (LIP6)
Mario Ota (SPIM)
Alexandre Pitti (LIP6)
Michèle Sebag (LMS)
Destinataires : idem +
Rémy Gilleron (Grappa)
Fabien Torre (Grappa)
La mise au format des données étant très rapide, chacun met en forme les données selon ses besoins.
Convention proposée à partir de celle signée dans le cadre du projet INDANA. Approuvée et signée par chaque représentant de laboratoire, membre du projet (à faire signer lors de la prochaine réunion par un représentant du Grappa).
3 axes de travail :
Celui développé par Gilles Cohen : développement d’une méthode exploitant la technique du boosting pour identifier les exemples de la zone grise. Cette méthode a été appliquée sur des données artificielles (bonne performances) et reste à appliquer sur les données INDANA.
Celui développé par Noël Lucas :
objectif de prédiction du temps qui reste à vivre avant un décès cardio-vasculaire avec le problème des patients censurés, pour lesquels on dispose non pas d’un point (une date), mais d’une demi-droite (une date jusqu’à laquelle le patient est resté indemne d’événement et à partir de laquelle le patient est perdu de vue, sorti de l’étude ou mort d’une autre cause). On suppose qu’après cette date la patient pourrait ou aurait pu présenté l’événement mais on ne sait pas quand.
Méthode d’approche : algorithme génétique avec l’avantage que la fonction que doit être optimisée peut être transformée à volonté
Dans le cadre de cette approche, 2 essais : intégrer la notion d’intervalle ou demi-droite et intégrer une méthode de bagging
Celui développé par Michèle Sebag : approche basée sur la méthodes des espaces de versions disjonctives, avec l’objectif d’identifier les exemples « nuisibles » (en présence desquels d’autres exemples deviennent moins prédictifs)
Objectif considéré : évaluer la taille de la zone grise, en identifiant et caractérisant les exemples de cette zone ;
Méthode générale proposée :
classer les exemples, suivant une mesure de confiance avec l'intuition que les exemples de la zone grise devraient se retrouver en fin de liste,
évaluer l'apprentissage lorsque l'on utilise les n premiers exemples de la liste, pour n allant de 1 au nombre d'exemples disponibles ;
rechercher un n critique où les performances chutent et rejoignent les performances d'un ordre aléatoire : dans la liste des exemples classés, la zone grise commencerait à partir de l'exemple qui a pour numéro ce n critique.
La méthode d’apprentissage utilisée est C4.5.
Résultats présentés : montrent une chute des performances pour un n autour de 600 exemples puis de 1900 exemples. Les performances de départ sont bonnes (sensibilité et spécificité supérieures à 90%). L’analyse sommaire des exemples ordonnés en comparant ceux du début et de la fin ne montre pas de cohérence frappante avec l’hypothèse considérée : les exemples positifs et négatifs semblent moins distincts en début de classement qu’en fin de classement.
Problème considéré : l’étiquetage des données. Partant du constat que 94% des observations de la base peuvent être considérées comme non étiquetées (cf supra), AC propose de tester un algorithme de co-apprentissage (semi-supervisé, type EM).
Premier problème considéré : le déséquilibre entre les classes.
Deux approches proposées:
Rééquilibrage des classes par la réplication des exemples existant
Modification des fonctions de coût pouvant aboutir à un ré-étiquetage des exemples (algorithme Metacost)
Deuxième problème considéré : identification et caractérisation zone grise
Approche proposée : non supervisée type clustering, en caractérisant les clusters, pour mettre en évidence si il existe des erreurs d’étiquetage.
Approche proposée : considérer plusieurs sous-classes dans la classes événement pour tester si le fait d’attribuer un coût faible entre les sous-classes et un coût élevé entre les 2 classes principales constitue un information apportée à l’algorithme susceptible d’en améliorer les performances
Résultats présentés : les sous-classes renseignées dans la classe « événement » sont « décès par AVC », «décès par infarctus » et « décès CV d’autres causes ». Les résultats ne semblent pas significativement différents.
Remarque : FG propose de considérer la sous-classe « mort subite » (variable disponible dans les données pour l’étude SHEP considérée)
Intérêt de comprendre pourquoi des exemples sont nuisibles (1 attribut inutile, une erreur de mesure ?…)
Attention : tenir compte du biais introduit par la méthode pour l’identification de ces exemples. Vérifier si les différentes approches aboutissent à l’identification des mêmes exemples nuisibles ou de la même zone grise.
L’approche du Grappa repose sur l’hypothèse d’un ordre unique, hypothèse forte qui n’est pas admise par tout le monde. Les données pourraient être décrite par la forme d’un chapeau mexicain (vu d’en haut) : un zone événement centrale entourée d’une zone grise, elle-même entourée d’un zone non-événement. Une présentation efficace de l’ordre obtenus et des exemples est indispensable pour comprendre et interpréter les résultats.
Vérifier que chaque approche aboutirait au ré-étiquetage des mêmes exemples
Intérêt d’utiliser la plate-forme Forum de l’AFIA pour échanger des résultats, questions et commentaires sur les méthodes mise en œuvre et résultats obtenus