Projet AP-INDANA, réunion du 11 février 2002
Etaient présents :
- François Gueyffier (SPC)
- Antoine Cornuéjols (LRI)
- Michèle Sebag (LMS)
- Florence d'Alché Buc (LIP6)
- Christophe Marsala (LIP6)
- Noël Lucas (univ Nantes)
- Mario Ota (SPIM)
- Isabelle Colombet (SPIM)
- Marie-Christine Jaulent (SPIM)
1. Factorisation du travail
Disposer d'un espace commun et protégé par un mot de passe sur un site
Internet contenant
- la bibliographie du projet
- Les transparents des différentes réunions de
travail (FG, FAB, CM)
- Les données
Adresse du site : http://ap-indana.spim.jussieu.fr/
Discussion sur les formats de fichiers possibles pour les données : C4.5
(QUINLAN) et WEKA.
Les deux formats doivent être gardés et un script de transcription doit
être développé
A voir entre le LIP6, le LMS et le LRI
2. Convention sur les données INDANA
Dès que la convention est prête, elle est envoyée par e-mail aux
partenaires
qui la renvoient signée par retour de courrier
3. Présentation de CM et FAB
Christophe présente ses réflexions suite à l'application du logiciel
Salammbô sur les données
- valeurs manquantes (définition d'une valeur explicite « ? »)
- comportement de certains attributs (id-trial, centre)
- répartition homogène des évènements et non-évènements
- rôle de la variable DEATH
- conclusion sur la faisabilité de la méthode
Discussion sur la variable événement : Proposition d'une variable
événement
« estimation espérance » correspondant au délai de survenu de
l'événement
(ex : 3 mois) ou au délai de suivi de l'observation comme borne
inférieure
de survenue possible de l'événement (ex : > 6 mois)
Cette nouvelle variable événement sera envisagée ultérieurement dans le
cadre d'un problème de régression
Discussion sur la nécessité d'un attribut : « coefficient de confiance
en
fonction du suivi pour les vivants ». Deux possibilités sont envisagées
pour renseigner cet attribut :
- une connaissance extérieure sur la
population,
- Une exploitation des exemples positifs
Consensus sur l'intérêt de tester ces deux variables à terme
Discussion sur la validation : Comment verra-t-on que cela apporte
quelque chose ? (FG) : report de la discussion
Florence présente ses réflexions sur des stratégies pour la prise en
compte du mauvais équilibrage des données.
(les transparents seront déposés sur l'espace commun)
Discussion sur l'introduction de contraintes au niveau de la matrice de
coûts (spécificité, sensitivité) :
La contrainte : ne pas rater de malades (80% de sensibilité, soit 20% de
faux négatifs, la contrainte est alors d'optimiser le % de vrais
négatifs
pour cet objectif)
Classe | malade | non malade |
1 | VP (vrais positifs) | FP (faux positifs) |
0 | FN (faux négatifs) | VN (vrais négatifs) |
Sensibilité = FN /(VP + FN)
Discussion sur les priorités :
- Garder la variable événement DEATHCV
- Choix de traitement des données manquantes
- Tester les algorithmes sur une base de données nettoyée des valeurs manquantes
4. Planning de la prochaine réunion
SPIM : Mise à disposition dans l'espace de travail de trois fichiers
correspondant à :
- INDANA1.txt
- INDANA1.1.xls
- INDANA1.2.xls
- docFichiersINDANA.doc (décrit le contenu des trois fichiers précédents)
- ce compte rendu
Pour l'instant ces fichiers contiennent encore les données manquantes
Mise en forme des fichiers
Prochaine réunion programmée le 29 avril à 10h