Etaient présents:
Isabelle Colombet (SPIM)
Antoine Cornuéjols (LRI)
François Gueyffier (SPC)
Marie-Christine Jaulent (SPIM)
Mario Ota (SPIM)
Alexandre Pitti (LIP6)
Michèle Sebag (LMS)
Fabien Torre (Grappa)
Destinataires : idem +
Florence d’Alché Buc (LIP6)
Rémy Gilleron (Grappa)
Noël Lucas (univ Nantes)
Christophe Marsala (LIP6)
Les objectifs ont été définis autour de la résolution de 3 types de problèmes identifiés pour l’apprentissage dans les données INDANA :
Problème de distribution
Problème d’étiquetage
Estimation de la performance prédictive (problème de validation)
Pour aborder la résolution de ces problèmes, le déroulement indicatif des tâches défini dans le cadre du projet est le suivant :
T1 : pré-traitement des données : avec notamment identification de la zone grise
T2 : définition en 2 temps d’une stratégie d’application des méthodes (quel échantillon, quel indicateurs de performance, …)
T3 : ajustement (paramétrage et optimisation de chaque méthode). On distingue ici les méthodes pour lesquelles le problème est posé comme un problème de classification et celles pour lesquelles le problème est posé comme un problème de régression
T4 : recherche de coopération entre les méthodes
T5 : synthèse
Ce calendrier doit être bien sûr réajusté suivant les difficultés rencontrées et résultats obtenus.
Méthode de FT : recherche d’un ordre dans les exemples selon un degré de confiance attribué à chaque exemple.
Grand nombre de tests effectués permettant d’affiner l’ordre recherché.
biais lié à l’utilisation de C4.5 (ordre dépendant de la méthode) : ce biais est bien admis et pourrait être compensé par l’utilisation d’autres algorithmes d’apprentissage, dans le cadre de la même méthode ;
pour attribuer le degré de confiance à chaque exemple lors d’un test : attribution de la performance globale pour le paquet sans distinction du fait que l’exemple est bien ou mal classé.
la variabilité des performances de classification attribuée lors de chaque test à un exemple comme un degré de confiance constitue une information sur la stabilité du rôle cette exemple pour la classification, en fonction de son environnement. Cette information pourrait être exploitée.
On remarque que beaucoup d’exemples positifs sont concentrés au début et à la fin de l’ordre obtenus. L’interprétation de cette observation reste ouverte et peut être documentée par l’ordre obtenu avec la méthode de MS.
Méthode de MS : espace des versions disjonctives ; apprentissage du degré de typicité d’un exemple dans un espace délimité par des règles définies par les contre-exemples. Un exemple devient typique dans la mesure ou beaucoup d’exemples de la même classe sont couverts par les mêmes règles. On apprend qu’une seule classe à la fois (EVENT ou NON EVENT). Devant les résultats fournis (calcul de typicité), deux perspectives seraient utiles :
discussion et commentaires sur la nature des exemples les plus et les moins typiques par les experts
comparaison avec l’ordre obtenu par FT.
Méthode de AP (présentation rapide): utilisation d’algorithme de boosting et de bagging. Caractérisation des exemples mal classés à l’aide d’une méthode de clustering.
Les travaux présentés lors des deux dernières réunions semblent couvrir essentiellement la tâche T1, et partiellement la tâche T2.1 et T3 (?). Une présentation plus formelle des méthodes et résultats obtenus permettrait :
de mieux identifier les solutions apportées et résultats obtenus pour identifier la zone grise
les implications que ces solutions peuvent avoir pour l’application et l’optimisation d’une méthode.
De mieux comprendre quelle méthode est appliquée pour résoudre quel problème (dans le cadre de la tâche T2.1)
Il est apparu également au cours des discussions que la stratégie initiale d’application des méthodes devait être mieux explicitée (par exemple problème des observations avec antécédents…) pour être réajustée.
La mise à disposition sur le site AP-Indana d’un papier qui documente chaque méthode mise en œuvre pourrait en faciliter la communication.
Echantillon : toutes les observations du fichier INDANA1.2.xls disponible sur le site Ap-INDANA (http://ap-indana.spim.jussieu.fr/index.php, Login : SPIM-indana, pwd : SPIM-indana). Cette échantillon correspond à l’étude SHEP seule, après suppression des observations avec données manquantes (n = 2230 observations). Voir pour explication le fichier docFichiersINDANA.doc
L’événement à prédire : le décès cardio-vasculaire (variable DEATHCV, binaire). Dans le cadre d’un problème de classification, cette variable est utilisée seule. Dans le cadre d’un problème de régression, elle doit être couplée à la variable DL_DEATH (réel, correspondant au délai jusqu’au point où la patient est sorti de l’étude, pour décès, perte de vue, ou en fin d’étude)
Les variables potentiellement prédictives à prendre en compte :
AGE : l’âge en année
SEX
BL_WEIGH et BL_HEIGH ou BL_BMI (qui est par construction équivalente à BL_WEIGH / (BL_HEIGH)2) : poids et taille ou index de masse pondérale)
BL_HR : fréquence cardiaque (en nb de battements par minutes)
BL_SBP et BL_DBP : pression artérielle systolique et diastolique en mmHg
HX_MI : antécédent d’infarctus du myocarde (infarctus survenu AVANT la date d’entrée dans l’essai)
HX_ST : antécédent d’accident vasculaire cérébral (accident survenu AVANT la date d’entrée dans l’essai)
BL_ECGM3 à 5: anomalie à l’ECG, plusieurs catégories, non ordonnées
BL_SMOKE : tabagisme (binaire)
BL_CREAT : créatininémie (indicateur biologique de la fonction rénale)
Ne pas tenir compte de :
ID_TRIAL, TRIAL, MIS_CHOL
Autres variables événements trouvées dans les fichiers INDANA1 et/ou INDANA 1.1 :
MI: infarctus du myocarde survenu au cours de l’essai (mortel ou non mortel)
ST : accident vasculaire cérébral survenu au cours de l’essai (mortel ou non mortel)
DEATHMI, DEATHST, DEATH : resp. décès par infarctus, par AVC, ou toutes causes.
Indicateurs de performance : pour une spécificité (précision dans les exemples négatifs) fixée à 80%, optimiser la sensibilité (précision dans les exemples positifs)
Synthèse des travaux présentés et discutés pour l’identification de la zone grise (tests de FT et de MS, comparaison des ordres obtenus, commentaire sur ces « ordres » du point de vue de l’expert) : ce qu’on a compris… (par Isabelle Colombet et Marie-Christine Jaulent) Proposition pour coordination future (travail sur un lexique, synthèse régulière, rythme de réunions, distinguer réunion de travail et réunion de suivi …)
Présentation des démarches mises en œuvre et résultats obtenus (par Florence d’Alche et Alexandre Pitti)
Présentation des résultats obtenus par application d’algorithmes génétique (par Noël Lucas)