L'objectif général est d'appliquer des méthodes qui pallient au
mieux les problèmes spécifiques posés par la base de données INDANA en créant une synergie entre des laboratoires
de recherche en apprentissage automatique, et une équipe clinique qui exploite
des gisements de données. La
base de données INDANA réunit les données individuelles de 10 essais
thérapeutiques (contrôlés randomisés) conduits pour évaluer l'efficacité de
traitements anti-hypertenseurs ces données.
L'objectif essentiel de ce projet
s'exprime en quatre étapes successives :
Identifier un ensemble approprié de méthodes :
l'étude de la littérature a montré qu'un éventail important de méthodes
d'apprentissage sont envisageables. Il s'agit de restreindre cet éventail
aux méthodes susceptibles de contribuer à résoudre tout ou partie des
problèmes identifiés.
Ajuster les méthodes choisies en fonction des
problèmes posés par les données INDANA : les méthodes choisies ne
sont pas considérées comme des méthodes fournies « clés en
main ». Un travail spécifique en apprentissage doit être réalisé pour
que ces méthodes soient adaptées efficacement aux données et à la
résolution des problèmes qu'elles posent.
Appliquer les nouvelles méthodes développées sur
les données INDANA
Exploiter les résultats : au delà de la
comparaison des performances des méthodes les unes par rapport aux autres,
l'objectif de l'exploitation des résultats est davantage la recherche
d'une coopération entre les méthodes pour optimiser la prédiction du
risque cardio-vasculaire.
Afin d'évaluer chaque méthode de prédiction utilisée sur les
données INDANA, au mieux de sa performance mais néanmoins dans des conditions
d'application comparables à une méthode statistique de référence, un cadre de
comparaison a été défini, fondé sur trois groupes de critères
les conditions de mise en oeuvre de la méthode
la performance prédictive du modèle obtenu
(discrimination des patients à haut risque versus bas risque et calibration du
risque obtenu)
la performance explicative du modèle (possibilité pour
l'utilisateur final d'appréhender le raisonnement sous-jacent de la
classification)
Ce projet de recherche est envisagé sur une période
de trois ans. L'organisation et la répartition du travail entre les différentes
équipes s'articulent selon les phases de réalisation suivantes :
Pré-traitement des données (tâche T1)
Avant l'application des méthodes d'apprentissage, il est
nécessaire de dresser un état des lieux sur les données :
identification de la zone grise dans les données
première évaluation du bruit dans les données.
Cette étape est fondée sur des méthodes de
ré-échantillonnage et sur une application sommaire des méthodes envisagées
(avec un paramétrage par défaut). Cette phase doit aboutir à une identification
plus fine de l'effort spécifique à fournir pour ajuster les méthodes aux
données INDANA.
Définition d'une stratégie d'application des méthodes (tâche T2)
Pour chaque méthode envisagée, il s'agit de fixer les règles
d'application de la méthode. Cette tâche se subdivise en deux étapes
itératives, la première (T2.1) intervenant à l'issue de la tâche T1, la
deuxième (T2.2) intervenant à l'issue de la tâche T3
T2.1
: Définir une stratégie commune d'estimation de la performance de chaque
méthode : définition d'indicateurs de mesure de la performance (par exemple
sensibilité, spécificité, index c) et d'une méthode d'échantillonnage pour
la validation (partition des données, validation croisée, etc.).
T2.2
: Re-évaluation de la stratégie définie en T2.1 après l'ajustement de
chaque méthode. Cette tâche permet de s'affranchir d'une stratégie
d'application définie a priori.
Elle permet de prendre en compte les enseignements sur les données
apportés à l'issue de la tâche T3, par chaque application d'une nouvelle
méthode.
Ajustement de chaque méthode (paramétrage et optimisation) (tâche T3):
T3.1
: méthodes basées sur un problème de classification (SVM, Algorithmes
génétiques, GLOBO, Arbres de décision flous, méthode de co-apprentissage,
boosting) pour la prédiction d'un événement binaire.
T3.2
: méthodes basées sur un problème de régression (SVM, Algorithmes
génétiques) pour la prédiction d'un délai de survenue de l'événement.
Recherche de coopérations
entre les résultats obtenus par les différentes méthodes (tâche T4)
Cette tâche consiste à combiner les résultats des
différentes méthodes dans la mesure ou cette combinaison peut améliorer la
performance de prédiction du risque cardio-vasculaire.
Le calendrier et la répartition des différentes
tâches par partenaires sont présentés dans le tableau suivant :
Tâches
Equipe(s) responsable(s)
Délai (mois)*
T1 : Pré-traitement des données
SPC, SPIM
t0 + 4
T2 : Définition d'une
stratégie d'application des méthodes
T2.1 :
stratégie initiale
T2.2 :
re-évaluation
LRI, LMS
LMS, LRI
t4 + 4 t24 + 4
T3 : Ajustement de chaque méthode (paramétrage et optimisation)
T3.1 : méthodes de classification
T3.2 : méthodes de régression
LIP6
LRI,LMS
t4 + 20
T4 : Recherche de coopérations entre les résultats
obtenus par les différentes méthodes
LIFL, LIP6
t24 + 8
T5 : Synthèse et diffusion
SIM, SPC
t32 + 4
t0 = date de début de projet ; tx = date au xième mois du
projet.
SPIM =Santé Publique et Informatique Médicale
LRI = Laboratoire de Recherche en Informatique
LIP6 = Laboratoire d'Informatique de Paris 6
LMS = Laboratoire de Mécanique des Solides
LIFL =Laboratoire d'Informatique Fondamentale de Lille
SPC = Service de Pharmacologie Clinique
La coordination globale du projet est conduite par l'équipe
SPIM. Elle se manifeste au niveau de chaque tâche.
T1 : Cette tâche, menée à bien par l'équipe SPC, en
collaboration avec l'équipe SPIM. Les équipes LRI, LMS, LIP6 et LIFL interviennent pour fournir les algorithmes des
méthodes envisagées.
T2 : Sous la responsabilité des équipes LRI et LMS,
toutes les autres équipes sont concernées et interviennent pour la définition
d'une stratégie d'application des méthodes. Une réunion plénière sera planifiée
au début des deux sous-tâches.
T3 : L'application des méthodes de classification sont
sous la responsabilité de l'équipe LIP6 et celle des méthodes de régression
sont sous la responsabilité de l'équipe LRI et LMS. Néanmoins, les deux équipes
collaborent étroitement sur cette tâche, avec l'équipe LIFL.
T4 : Sous la responsabilité de l'équipe LIFL,
l'ensemble des équipes sont concernées et interviennent dans la recherche de
coopérations entre les résultats obtenus par les différentes méthodes (réunion
plénière).
T5 : Cette tâche, menée à bien par l'équipe SPIM, en
collaboration avec l'équipe SPC.
En terme de production, un rapport intermédiaire est prévu à
la fin de la première phase de 10 mois et un rapport final à la fin du projet.