Expérimentations SHEP : protocole et données
Les données
Les exemples proviennent de l'essai SHEP et précisément de la base
INDANA 1.2.b.
Chaque patient est décrit par les attributs suivants :
- ID_TRIAL (l'identifiant de l'exemple) ;
- SEX ;
- AGE ;
- BL_HEIGHT ;
- BL_WEIGHT ;
- HX_DIAB ;
- BL_HR ;
- BL_SBP ;
- BL_DBP ;
- BL_ECGM3 ;
- BL_ECGM4 ;
- BL_ECGM5 ;
- BL_CHOL ;
- HX_MI ;
- HX_ST ;
- BL_SMOKE ;
- BL_BMI ;
- BL_LVH2 ;
- BL_LVH1 ;
- DEATHCV (la classe à prédire).
Protocole
- L'objectif est de réaliser une validation croisée à 10 blocs sur les données SHEP ;
pour cela, on utilise
les fichiers déjà générés
(20 fichiers, 10 .data, 10 .test) ;
- chacun utilise son algorithme d'apprentissage préféré mais s'arrange pour rééquilibrer les données
(une manière de faire est d'indiquer à l'algorithme qu'une erreur de classification sur un exemple EVENT
coûte 20 fois plus cher qu'une erreur sur un NO EVENT) ;
- ne pas désigner une classe par défaut, s'il l'algorithme ne se prononce pas ou annonce une égalité
entre classes, cela est considéré comme une erreur ;
- est ensuite produit un fichier contenant pour chaque exemple de la base SHEP, son identifiant et
séparés par un point-virgule, la valeur 1 si l'exemple a bien été classé lorsqu'il était en test,
la valeur 0 sinon.
Précisions sur les valeurs fournies :
- si l'algorithme utilisé est stochastique, on donnera une valeur moyenne ;
- si l'algorithme est probabiliste, on donnera la probabilité associée à la classe de l'exemple.
Retour attendu
Pour chaque méthode utilisée, un fichier de résultat est à envoyer par mail à Fabien, Marie-Christine
et Isabelle. Ce fichier portera la nom de la méthode mise en oeuvre. Pour ceux qui le souhaitent,
ce fichier pourra contenir des commentaires, chaque ligne de commentaire devant commencée par un dièse.
L'essentiel est d'avoir une ligne par exemple de la base SHEP, l'ordre d'apparition des exemples est sans
importance.
Finalement, voici un début de fichier comme exemple :
#
# Datasets/SHEP_1.data
#
1024601;0.70
1087001;0.00
1089101;0.10
2022202;0.00
2036102;0.30
2041502;0.00
2089202;0.00
2091202;0.00
2094202;0.00
2098302;1.00
2102102;0.00
2109602;1.00
2110302;0.50
2110802;0.20
2117202;0.40
.
.
.
.
.
Le mail devra de plus contenir une courte description de la méthode (le laboratoire, le responsable de
l'exécution et un paragraphe précisant le type de l'algorithme et les valeurs des principaux paramètres).