Cadre PAC (Probably Approximately Correct)
Origine
Le modèle PAC a défini par Leslie G. Valiant en 1984. L'une des motivations est de caractériser formellement les langages qui sont apprenables automatiquement à partir d'exemples, ceux qui ne le sont pas et également lequel de deux langages est plus facilement apprenable que l'autre.
On retrouve en fait dans la définition du modèle PAC une volonté de classifier les problèmes d'apprentissage comme on classe les problèmes en calculabilité et complexité.
Notations et protocole
: l'espace de description des exemples ;
: un exemple particulier ;
: une classe de concepts définis sur
;
: un concept particulier ; on peut avoir deux vues d'un même concept :
- une vue purement ensembliste où
est l'ensemble des exemples appartenant au concept (
) ;
- une vue fonctionnelle où
est une fonction booléenne sur les exemples
- une vue purement ensembliste où
une distribution sur
;
- l'erreur d'une hypothèse
par rapport à un concept cible
est définie comme la probabilité de trouver un exemple sur lequel
et
sont en désaccord :
- enfin, on suppose l'existence d'un orable noté
; à chaque appel, cet oracle tire un exemple de
suivant
et fournit cet exemple avec sa classe
.
Dans ce cadre, l'objectif est d'apprendre rapidement une hypothèse
de faible erreur, avec peu
d'appels à l'oracle.
Une instanciation possible :

Notion d'apprenabilité (forte)


- pour tout concept
,
- pour toute distribution
sur
,
- pour tout
,
- pour tout
,





Remarques sur la définition d'apprenabilité :
est appelé paramètre d'erreur,
paramètre de confiance ;
- on veut pouvoir rendre
et
arbitrairement petits, à faible coût ;
- l'hypothèse
obtenue est Probablement Approximativement Correcte (d'où; le nom du modèle PAC) ;
doit fonctionner quelle que soit la distribution des exemples ; cela dit,
perçoit cette distribution à travers l'oracle ;
En général, on ajoute une notion d'efficacité :
est dite efficacement PAC-apprenable si en plus des conditions précédentes,
est polynmial en
et
.
Une application
On va montrer ici que la classe des rectangles de parallèles aux axes
est efficacement PAC-apprenable.
Proposition pour l'apprenant :
- constituer un échantillon
en tirant
exemples à l'aide de l'oracle ;
- construire
comme le plus petit rectangle contenant tous les exemples positifs de
;
- retourner
.
Il faut maintenant prouver que pour bien choisi et quels que soient le concept cible
,
la distribution
et les paramètres
et
,
fournit une hypothèse
qui
vérifie
avec une probabilité
.
Intuitivement, plus et
sont petits, plus le
requis doit être grand. Il
faudra vérifier que
s'exprime comme un polynôme de
et
.
... à suivre...
Notion d'apprenabilité faible


- pour
fixé,
- pour
fixé,
- pour tout concept
,
- pour toute distribution
sur
,





Dans cette définition, on demande simplement que les hypothèses produites soient meilleures qu'un étiquetage purement aléaroire.
De manière assez inattendue, il a été prouvé que les deux notions d'apprenabilité sont équivalentes. Cela signifie que, dans le cadre PAC, un apprenant faible (un peu meilleur que l'aléatoire) peut être transformé en un apprenant fort (avec une erreur aussi proche de 0 que voulu), et ce en temps polynomial. Les preuves de ce résultat reposent sur la définition d'un apprenant fort opérant le boosting d'un apprenant faible.
Exercices
Lectures
Learnability and the Vapnik-Chervonenkis dimension
Journal of the ACM, 36(4):929--965, 1989.
[ version pdf ]
Equivalence of Models for Polynomial Learnability
Information and Computation 95(2): 129-161, 1991.
[ version pdf ]