Q-Learning et apprentissage supervisé

Environnement

Contexte

Le Groupe de Recherche en Apprentissage Automatique (GRAPPA) possède des compétences à la fois :

Au cours de nos travaux sur l'apprentissage supervisé, nous sommes régulièrement confrontés aux mêmes difficultés :

De ces difficultés et de notre double compétence provient le sujet du stage : utiliser l'apprentissage par renforcement pour améliorer l'apprentissage supervisé.

Problématique

Le Q-learning est une technique qui se place dans le cadre de l'apprentissage par renforcement et qui produit une matrice Q dans laquelle chaque élément Q(s,a) mesure l'intérêt d'effectuer l'action a lorsque l'on se trouve dans l'état s. Par ailleurs, des résultats théoriques garantissent, dans des cas précis, la convergence de l'algorithme vers des valeurs optimales de Q.

En apprentissage supervisé, on dispose d'exemples et pour chacun de sa classe (étiquette fournie par un expert). À partir de ces données, il s'agit d'apprendre une théorie expliquant la classification de l'expert humain et ensuite de pouvoir classer de nouveaux exemples, non vus pendant la phase d'apprentissage.

L'idée du stage est d'utiliser le Q-learning pour résoudre des tâches supervisées et en particulier de :

Travail à réaliser

Premières lectures

Reinforcement Learning: An Introduction
Richard S. Sutton and Andrew G. Barto
MIT Press, Cambridge, MA, 1998
[ en ligne ]

Reinforcement Learning: A Survey
Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore
Journal of Artificial Intelligence Research 1996
[ Postscript ]

GloBo : un algorithme stochastique pour l'apprentissage supervisé et non-supervisé
F. Torre
In M. Sebag, editor, Actes de la Première Conférence d'Apprentissage, pages 161-168, 1999.
[ gzipped Postscript ] [ PDF ]

Les Vraizamis
F. Torre
In M. Sebag, editor, Actes de la Première Conférence d'Apprentissage, pages 177-184, 1999.
[ gzipped Postscript ] [ PDF ]