Rapport d'activité « 2ème semestre »

1. Identification

Programme - année	ANR RNTL 2005
Projet	WebContent
Coordinateur	CEA LIST

Période	1er septembre 2006 - 31 décembre 2006
Partenaire	Mostrare
Rédacteur	Fabien Torre
Téléphone	03 20 41 72 98
Email
Date	mardi 2 janvier 2007

2. Rappel des tâches partenaire

Les livrables de Mostrare sont attendus dans le lot 2 « Extraction de contenu » :

à 18 mois (janvier 2008) : intégration dans la plate-forme d'un système d'induction interactif de wrappers pour les documents semi-structurés ;
à 24 mois (juillet 2008) : rapport bilan de la phase d'expérimentation des prototypes sur les domaines d'applications recensés (avec INRA et LIP6) ;
à 30 mois (janvier 2009) : version finale du système d'induction de wrappers.

3. Description des travaux du partenaire

Dans le lot 2 « Extraction de contenu »

Nous avons participé aux réunions de travail du lot 2 :

le 2 octobre 2006 (Fabien Torre pour représenter Mostrare) ;
le 4 décembre 2006 (Matthieu Keith et Fabien Torre présents pour Mostrare).

Il est apparu que plusieurs partenaires (CEA, Exalead et Thalès) sont capables d'identifier des entités nommées dans les textes. Ce type d'information constituerait un plus sémantique pour nos techniques d'extraction qui sont uniquement fondées sur la structure des documents. Les modalités de cette amélioration sont à l'étude.

Deux partenaires nous ont proposé d'appliquer nos algorithmes sur deux corpus particuliers :

événements sismiques (CEA) ;
risques alimentaires (INA-PG).

Les partenaires venant d'étiqueter ces corpus, nos tests vont pouvoir commencer rapidement.

Par ailleurs, nous poursuivons la collaboration avec le partenaire INRIA-Gemo. Elle porte sur l'extraction d'informations à partir du Web caché. Les documents visés ne sont donc accessibles qu'à partir de web services et, en particulier, après renseignement d'un formulaire. L'objectif est de construire des systèmes d'extraction à partir d'annotations de ces documents, ces annotations étant partielles et imprécises (obtenues à partir d'ontologies).

Enfin, Mostrare est relecteur pour le délivrable 2.1 du LIP 6 ; cette relecture est en cours.

Dans le lot 3 « Enrichissement sémantique »

Mostrare était également présent à la réunion générale du lot 3 le 24 octobre 2006 (Rémi Gilleron pour représenter Mostrare).

4. Résultats obtenus

5. Difficultés rencontrées et solutions envisagées

Notre projet de développement a pris du retard en raison de l'absence d'un ingénieur pour le déploiement de nos programmes. Ce problème est désormais résolu suite au recrutement de Matthieu Keith.

6. Faits marquants et livrables externes réalisés

Nous avons obtenu deux publications dans deux conférences internationales à comité de lecture. Ces articles portent sur l'extraction n-aire.

Aurélien Lemay, Joachim Niehren, Rémi Gilleron
Learning n-ary Node Selecting Tree Transducers from Completely Annotated Examples
International Colloquium on Grammatical Inference (ICGI 2006)
Lecture Notes in Artificial Intelligence 4201, pages 253-267

La seconde s'intéresse plus particulièrement aux aspects interactifs de l'apprentissage d'un wrapper n-aire :

Patrick Marty, Rémi Gilleron, Marc Tommasi, Fabien Torre
Interactive Tuples Extraction from Semi-Structured Data
Web Intelligence (WI 2006)
IEEE Computer Society P2747, pages 997-1004

7. Autres commentaires

8. Aspects non scientifiques

Matthieu Keith, issu de Polytech'Lille, a été recruté en novembre 2006 et pour deux ans comme ingénieur associé sur le profil « Ingénieur R&D - Transformations de données structurées et semi-structurées (XML, HTML) ». Il a été affecté au développement de la plate-forme d'extraction de Mostrare.