Description et suivi du projet

Sommaire

Objectifs

L'objectif général est d'appliquer des méthodes qui pallient au mieux les problèmes spécifiques posés par la base de données INDANA en créant une synergie entre des laboratoires de recherche en apprentissage automatique, et une équipe clinique qui exploite des gisements de données. La base de données INDANA réunit les données individuelles de 10 essais thérapeutiques (contrôlés randomisés) conduits pour évaluer l'efficacité de traitements anti-hypertenseurs ces données.

L'objectif essentiel de ce projet s'exprime en quatre étapes successives :

  1. Identifier un ensemble approprié de méthodes : l'étude de la littérature a montré qu'un éventail important de méthodes d'apprentissage sont envisageables. Il s'agit de restreindre cet éventail aux méthodes susceptibles de contribuer à résoudre tout ou partie des problèmes identifiés.
  2. Ajuster les méthodes choisies en fonction des problèmes posés par les données INDANA : les méthodes choisies ne sont pas considérées comme des méthodes fournies « clés en main ». Un travail spécifique en apprentissage doit être réalisé pour que ces méthodes soient adaptées efficacement aux données et à la résolution des problèmes qu'elles posent.
  3. Appliquer les nouvelles méthodes développées sur les données INDANA
  4. Exploiter les résultats : au delà de la comparaison des performances des méthodes les unes par rapport aux autres, l'objectif de l'exploitation des résultats est davantage la recherche d'une coopération entre les méthodes pour optimiser la prédiction du risque cardio-vasculaire.
Sommaire

Planification des tâches

Afin d'évaluer chaque méthode de prédiction utilisée sur les données INDANA, au mieux de sa performance mais néanmoins dans des conditions d'application comparables à une méthode statistique de référence, un cadre de comparaison a été défini, fondé sur trois groupes de critères

  1. les conditions de mise en oeuvre de la méthode
  2. la performance prédictive du modèle obtenu (discrimination des patients à haut risque versus bas risque et calibration du risque obtenu)
  3. la performance explicative du modèle (possibilité pour l'utilisateur final d'appréhender le raisonnement sous-jacent de la classification)

Ce projet de recherche est envisagé sur une période de trois ans. L'organisation et la répartition du travail entre les différentes équipes s'articulent selon les phases de réalisation suivantes :

Pré-traitement des données (tâche T1)

Avant l'application des méthodes d'apprentissage, il est nécessaire de dresser un état des lieux sur les données :

Cette étape est fondée sur des méthodes de ré-échantillonnage et sur une application sommaire des méthodes envisagées (avec un paramétrage par défaut). Cette phase doit aboutir à une identification plus fine de l'effort spécifique à fournir pour ajuster les méthodes aux données INDANA.

Définition d'une stratégie d'application des méthodes (tâche T2)

Pour chaque méthode envisagée, il s'agit de fixer les règles d'application de la méthode. Cette tâche se subdivise en deux étapes itératives, la première (T2.1) intervenant à l'issue de la tâche T1, la deuxième (T2.2) intervenant à l'issue de la tâche T3

Ajustement de chaque méthode (paramétrage et optimisation) (tâche T3):

Recherche de coopérations entre les résultats obtenus par les différentes méthodes (tâche T4)

Cette tâche consiste à combiner les résultats des différentes méthodes dans la mesure ou cette combinaison peut améliorer la performance de prédiction du risque cardio-vasculaire.

Synthèse et diffusion (tâche T5)

Sommaire

Calendrier

Le calendrier et la répartition des différentes tâches par partenaires sont présentés dans le tableau suivant :

Tâches Equipe(s) responsable(s) Délai (mois)*

T1 : Pré-traitement des données

SPC, SPIM

t0 + 4

T2 : Définition d'une stratégie d'application des méthodes

T2.1 : stratégie initiale

T2.2 : re-évaluation

LRI, LMS

LMS, LRI

t4 + 4
t24 + 4
T3 : Ajustement de chaque méthode (paramétrage et optimisation)

T3.1 : méthodes de classification

T3.2 : méthodes de régression

LIP6

LRI,LMS

t4 + 20
T4 : Recherche de coopérations entre les résultats obtenus par les différentes méthodes LIFL, LIP6 t24 + 8
T5 : Synthèse et diffusion SIM, SPC t32 + 4
t0 = date de début de projet ; tx = date au xième mois du projet.

La coordination globale du projet est conduite par l'équipe SPIM. Elle se manifeste au niveau de chaque tâche.

En terme de production, un rapport intermédiaire est prévu à la fin de la première phase de 10 mois et un rapport final à la fin du projet.

Sommaire