Projet AP-INDANA, réunion du 10 mars 2003

Etaient présents:

Isabelle Colombet (SPIM)
Antoine Cornuéjols (LRI)
Marie-Christine Jaulent (SPIM)
Christophe Marsala (LIP6)
Michèle Sebag (LMS)
Fabien Torre (Grappa)

Destinataires : idem +

Florence d’Alché Buc (LIP6)
Rémy Gilleron (Grappa)
François Gueyffier (SPC)
Noël Lucas (univ Nantes)
Mario Ota (SPIM)

Compte-Rendu

Présentation d’Antoine Cornuéjols

Il s’agit du travail réalisé par des stagiaires, consistant en

l’application de différentes méthodes d’apprentissage (bibliothèque WEKA : un SVM, un arbre de décision, un perceptron multicouche, un boosting) en appliquant 2 stratégies de rééquilibrage des classes :
- ajustement de la matrice de coût (pénalisation d’un « event » classé à tort comme « non event »
- bruitage de la classe event (par démultiplication, x10, d’un exemple event avec variation de 10% de la valeur d’un de ses attributs numérique)
application de la méthode EM (Expectation Maximisation) aux données INDANA pour augmenter le nombre de paramètres par la détection de paramètres cachés avec comme objectif ultime (non encore mis en œuvre) d’étendre la méthode à un problème de régression pur trouver des étiquettes sur les exemples censurés

Cf diapos sur le site INDANA de Fabien pour visualiser les résultats.

Les expériences de bruitage montre une performance plutôt meilleure pour le boosting, pas très bonnes pour le SVM.

Les expériences de l’algorithme EM sont proposée avec 2, 3, 5 et 10 gaussiennes permettent d’identifier des « sous-classes » (profil de ces classes à voir par les experts sur les diapos 29 à 33). Toutefois, il serait logique de ne pas tenir compte de la variable « deathcv » pour cette méthode.

Mise à disposition d’un fichier de données complètes (avec l’ensemble des études) avant la fin du mois de mars.

Pièces jointes :

diapos de présentation d’Antoine
mémoire de DEA d’Alexandre Pitti

Propositions de date pour une prochaine réunion

12, 18, 19, 20, ou 27 juin (après-midi à 15 heures)