Projet AP-INDANA, réunion du 11 février 2002

Etaient présents :

1. Factorisation du travail

Disposer d'un espace commun et protégé par un mot de passe sur un site Internet contenant
  1. la bibliographie du projet
  2. Les transparents des différentes réunions de travail (FG, FAB, CM)
  3. Les données

Adresse du site : http://ap-indana.spim.jussieu.fr/

Discussion sur les formats de fichiers possibles pour les données : C4.5 (QUINLAN) et WEKA. Les deux formats doivent être gardés et un script de transcription doit être développé

A voir entre le LIP6, le LMS et le LRI

2. Convention sur les données INDANA

Dès que la convention est prête, elle est envoyée par e-mail aux partenaires qui la renvoient signée par retour de courrier

3. Présentation de CM et FAB

Christophe présente ses réflexions suite à l'application du logiciel Salammbô sur les données Discussion sur la variable événement : Proposition d'une variable événement « estimation espérance » correspondant au délai de survenu de l'événement (ex : 3 mois) ou au délai de suivi de l'observation comme borne inférieure de survenue possible de l'événement (ex : > 6 mois) Cette nouvelle variable événement sera envisagée ultérieurement dans le cadre d'un problème de régression Discussion sur la nécessité d'un attribut : « coefficient de confiance en fonction du suivi pour les vivants ». Deux possibilités sont envisagées pour renseigner cet attribut :
  1. une connaissance extérieure sur la population,
  2. Une exploitation des exemples positifs

Consensus sur l'intérêt de tester ces deux variables à terme

Discussion sur la validation : Comment verra-t-on que cela apporte quelque chose ? (FG) : report de la discussion

Florence présente ses réflexions sur des stratégies pour la prise en compte du mauvais équilibrage des données. (les transparents seront déposés sur l'espace commun)

Discussion sur l'introduction de contraintes au niveau de la matrice de coûts (spécificité, sensitivité) : La contrainte : ne pas rater de malades (80% de sensibilité, soit 20% de faux négatifs, la contrainte est alors d'optimiser le % de vrais négatifs pour cet objectif)

Classemaladenon malade
1VP (vrais positifs)FP (faux positifs)
0FN (faux négatifs)VN (vrais négatifs)

Sensibilité = FN /(VP + FN)

Discussion sur les priorités :

  1. Garder la variable événement DEATHCV
  2. Choix de traitement des données manquantes
  3. Tester les algorithmes sur une base de données nettoyée des valeurs manquantes

4. Planning de la prochaine réunion

SPIM : Mise à disposition dans l'espace de travail de trois fichiers correspondant à :
  1. INDANA1.txt
  2. INDANA1.1.xls
  3. INDANA1.2.xls
  4. docFichiersINDANA.doc (décrit le contenu des trois fichiers précédents)
  5. ce compte rendu

Pour l'instant ces fichiers contiennent encore les données manquantes

Mise en forme des fichiers

Prochaine réunion programmée le 29 avril à 10h