Proposée par Florence d'Alché-Buc (Génopôle Evry) et Christophe Marsala (LIP 6).
L'idée est d'utiliser le bagging sur des classifieurs de base mais en sous-échantillonnant en faveur de la classe la moins bien représentée. Cette idée avait déjà été introduite par Japkowicz sous une forme plus brute. Nous l'avons ici appelée Balanced-bagging.
Les paramètres déterminés grâce à la cross-validation sont les suivants pour SHEP (Nota bene : tous les jeux de paramètres n'ont pas été testés) : On tire 1/25 (environ 76) exemples de la classe sur-représentée et on prend toute la base de la classe sous-représentée (environ 96) et on construit 20 sous-échantillons.
Le classifieur de base utilisé ici est le SVM implémentation SMO (John Platt) implémenté sous Weka utilisé avec une constante C=1.
Le défaut de cette méthode est qu'elle tire aléatoirement une proportion d'exemples sans tenir compte du fait que dans certaines régions de l'espace d'entrée, cette proportion devrait être modifiée.
Mesures calculées à partir de ce fichier de résultat.
| Classés EVENT | Classés NO EVENT | |
|---|---|---|
| Exemples EVENT | 60.12 | 46.88 |
| Exemples NO EVENT | 971.93 | 1151.07 |
| Mesures | Scores obtenus | Rangs observés |
|---|---|---|
| Sensibilité | 56.19 % | - |
| Spécificité | 54.22 % | - |
| Indice de Youden | 10.41 | 6 / 8 |
| Précision | 5.83 % | - |
| F-mesure | 10.56 % | 6 / 8 |
| Méthodes | Proximités |
|---|---|
| GloBoost | 68.81 % |
| Regression | 59.00 % |
| Foret-Floue-stricte | 58.26 % |
| Pocock | 58.10 % |
| Framingham | 57.94 % |
| Foret-Floue-T-norme | 57.68 % |
| C4.5 | 54.19 % |