Etaient présents:
Isabelle Colombet (SPIM)
Antoine Cornuéjols (LRI)
Marie-Christine Jaulent (SPIM)
Christophe Marsala (LIP6)
Michèle Sebag (LMS)
Fabien Torre (Grappa)
Destinataires : idem +
Florence d’Alché Buc (LIP6)
Rémy Gilleron (Grappa)
François Gueyffier (SPC)
Noël Lucas (univ Nantes)
Mario Ota (SPIM)
Il s’agit du travail réalisé par des stagiaires, consistant en
l’application de différentes méthodes d’apprentissage (bibliothèque WEKA : un SVM, un arbre de décision, un perceptron multicouche, un boosting) en appliquant 2 stratégies de rééquilibrage des classes :
ajustement de la matrice de coût (pénalisation d’un « event » classé à tort comme « non event »
bruitage de la classe event (par démultiplication, x10, d’un exemple event avec variation de 10% de la valeur d’un de ses attributs numérique)
application de la méthode EM (Expectation Maximisation) aux données INDANA pour augmenter le nombre de paramètres par la détection de paramètres cachés avec comme objectif ultime (non encore mis en œuvre) d’étendre la méthode à un problème de régression pur trouver des étiquettes sur les exemples censurés
Cf diapos sur le site INDANA de Fabien pour visualiser les résultats.
Les expériences de bruitage montre une performance plutôt meilleure pour le boosting, pas très bonnes pour le SVM.
Les expériences de l’algorithme EM sont proposée avec 2, 3, 5 et 10 gaussiennes permettent d’identifier des « sous-classes » (profil de ces classes à voir par les experts sur les diapos 29 à 33). Toutefois, il serait logique de ne pas tenir compte de la variable « deathcv » pour cette méthode.
diapos de présentation d’Antoine
mémoire de DEA d’Alexandre Pitti
12, 18, 19, 20, ou 27 juin (après-midi à 15 heures)