Expérimentations SHEP : protocole et données

Les données

Les exemples proviennent de l'essai SHEP et précisément de la base INDANA 1.2.b. Chaque patient est décrit par les attributs suivants :

ID_TRIAL (l'identifiant de l'exemple) ;
SEX ;
AGE ;
BL_HEIGHT ;
BL_WEIGHT ;
HX_DIAB ;
BL_HR ;
BL_SBP ;
BL_DBP ;
BL_ECGM3 ;
BL_ECGM4 ;
BL_ECGM5 ;
BL_CHOL ;
HX_MI ;
HX_ST ;
BL_SMOKE ;
BL_BMI ;
BL_LVH2 ;
BL_LVH1 ;
DEATHCV (la classe à prédire).

Protocole

L'objectif est de réaliser une validation croisée à 10 blocs sur les données SHEP ; pour cela, on utilise les fichiers déjà générés (20 fichiers, 10 .data, 10 .test) ;
chacun utilise son algorithme d'apprentissage préféré mais s'arrange pour rééquilibrer les données (une manière de faire est d'indiquer à l'algorithme qu'une erreur de classification sur un exemple EVENT coûte 20 fois plus cher qu'une erreur sur un NO EVENT) ;
ne pas désigner une classe par défaut, s'il l'algorithme ne se prononce pas ou annonce une égalité entre classes, cela est considéré comme une erreur ;
est ensuite produit un fichier contenant pour chaque exemple de la base SHEP, son identifiant et séparés par un point-virgule, la valeur 1 si l'exemple a bien été classé lorsqu'il était en test, la valeur 0 sinon.

Précisions sur les valeurs fournies :

si l'algorithme utilisé est stochastique, on donnera une valeur moyenne ;
si l'algorithme est probabiliste, on donnera la probabilité associée à la classe de l'exemple.

Retour attendu

Pour chaque méthode utilisée, un fichier de résultat est à envoyer par mail à Fabien, Marie-Christine et Isabelle. Ce fichier portera la nom de la méthode mise en oeuvre. Pour ceux qui le souhaitent, ce fichier pourra contenir des commentaires, chaque ligne de commentaire devant commencée par un dièse. L'essentiel est d'avoir une ligne par exemple de la base SHEP, l'ordre d'apparition des exemples est sans importance. Finalement, voici un début de fichier comme exemple :

#
# Datasets/SHEP_1.data
#
1024601;0.70
1087001;0.00
1089101;0.10
2022202;0.00
2036102;0.30
2041502;0.00
2089202;0.00
2091202;0.00
2094202;0.00
2098302;1.00
2102102;0.00
2109602;1.00
2110302;0.50
2110802;0.20
2117202;0.40
    .
    .
    .
    .
    .

Le mail devra de plus contenir une courte description de la méthode (le laboratoire, le responsable de l'exécution et un paragraphe précisant le type de l'algorithme et les valeurs des principaux paramètres).