Q-Learning et apprentissage supervisé
Environnement
- Encadrants : Philippe Preux (Professeur), Fabien Torre (MdC)
- Laboratoire : Grappa (université Lille 3)
- Possibilité de poursuite en thèse : oui
Contexte
Le Groupe de Recherche en Apprentissage Automatique (GRAPPA) possède des compétences à la fois :
- en apprentissage par renforcement (Philippe Preux et le groupe de travail
GARE) ;
- en apprentissage supervisé (Rémi Gilleron, Francesco de Comité, Marc Tommasi, Fabien Torre), par exemple
au travers de projets sur des bases médicales (INDANA
et DATADIAB).
Au cours de nos travaux sur l'apprentissage supervisé, nous sommes régulièrement confrontés aux mêmes difficultés :
- se souvenir de l'adéquation entre deux exemples, en particulier pour accélérer les calculs ;
- repérer les exemples atypiques, plus difficiles à classer ;
- détecter le bruit dans les données pour les nettoyer avant l'apprentissage.
De ces difficultés et de notre double compétence provient le sujet du stage : utiliser l'apprentissage par renforcement
pour améliorer l'apprentissage supervisé.
Problématique
Le Q-learning est une technique qui se place dans le cadre
de l'apprentissage par renforcement et qui produit une matrice Q
dans laquelle chaque élément Q(s,a)
mesure l'intérêt d'effectuer l'action a lorsque l'on
se trouve dans l'état s.
Par ailleurs, des résultats théoriques garantissent, dans des cas précis,
la convergence de l'algorithme vers des valeurs optimales de Q.
En apprentissage supervisé, on dispose d'exemples et pour chacun de sa classe
(étiquette fournie par un expert). À partir de ces données, il s'agit
d'apprendre une théorie expliquant la classification de l'expert humain et
ensuite de pouvoir classer de nouveaux exemples, non vus pendant la phase
d'apprentissage.
L'idée du stage est d'utiliser le Q-learning pour résoudre des
tâches supervisées et en particulier de :
- bénéficier des propriétés de convergence du Q-learning ;
- cartographier le problème d'apprentissage (à la manière dont le
Q-learning cartographie un labyrinthe).
Travail à réaliser
- étude bibliographique Q-Learning ;
- étude bibliographique apprentissage supervisé ;
- propositions de représentations d'un problème supervisé
dans un cadre d'apprentissage par renforcement ;
- tests sur les utilisations possibles de la matrice Q :
- extraction d'une théorie ;
- classification d'un nouvel exemple ;
- classement des exemples par niveau de typicité dans leur classe ;
- détection du bruit ;
- évaluations de ces propositions sur des données classiques et sur les données INDANA.
Premières lectures
Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto
MIT Press, Cambridge, MA, 1998
[
en ligne ]
Reinforcement Learning: A Survey
Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore
Journal of Artificial Intelligence Research 1996
[
Postscript ]
GloBo : un algorithme stochastique pour l'apprentissage supervisé et non-superviséF. Torre
In M. Sebag, editor,
Actes de la Première Conférence d'Apprentissage, pages 161-168,
1999.
[
gzipped Postscript ] [
PDF ]
Les VraizamisF. Torre
In M. Sebag, editor,
Actes de la Première Conférence d'Apprentissage, pages 177-184,
1999.
[
gzipped Postscript ] [
PDF ]