Réunion du Lot 2, extraction de contenu
2 octobre 2006, de 10h00 à 12h30
INA-PG (Paris 5)
Présents
- Patrice Buche (INRA)
- Gaël de Chalendar (CEA)
- David Faure (Thalès)
- Amar-Djalil Mezaour (Exalead)
- Lydie Soler (INRA INA-PG)
- Fabien Torre (Mostrare)
Entités nommées et autres outils linguistiques
Plusieurs partenaires (Exalead, CEA) sont capables de repérer des entités nommées, on peut se préparer à enrichir notre codage pour utiliser ces informations.
Dans le même ordre d'idée, il faut voir si l'on veut intégrer des informations issues de l'analyseur syntaxique du CEA.
Entrée de LCI comme sous-traitant de INRIA-Gemo, amène des ressources dans le domaine de l'aéronautique (dictionnaires, synonymes, etc.).
Extraction dans les arbres
Mostrare
Les livrables (T0 = 1er juillet 2006) :
- M18 : intégration par Mostrare d'un système d'induction de wrappers ;
- M24 : rapport bilan sur les évaluations des utilisateurs ;
- M30 : version finale du système d'induction de wrappers.
David Faure propose une application à la veille : si l'on a ciblé le contenu qui intéresse l'utilisateur, on est capables de lui signaler des mises à jour qui sont pertinentes pour lui, et seulement celles-ci.
Interaction avec Exalead
Chez Exalead, il y a eu cet été un stage de M2 Recherche encadré par Thierry Poibeau sur l'extraction utilisant la structure. Il s'agit de calcul d'une "signature" pour chaque noeud, l'objectif est de dégager le contenu des pages parmi l'habillement, la pub, etc.
Par ailleurs, Exalead va fournir dans le cadre du projet un extracteur d'URL capable d'aller chercher dans du code JavaScript.
Interaction avec l'INRA
Patrice Buche va nous fournir des tableaux HTML pour voir comment nos algorithmes se débrouillent dessus (ces documents sont issus de transformations PDF vers HTML).
L'objectif de l'INRA est de trouver les signatures des tableaux en s'aidant d'ontologies (mettre des concepts et des types sur les cases).
On leur fournit le lien vers les benchmarks de Patrick (en particulier les données DataFoot), pour montrer ce que l'on sait déjà faire.
Organisation
Lot 2
Prochaine réunion du Lot 2 : lundi 4 décembre 2006, 10h00, INA-PG.
On essaye d'établir un graphe de dépendances entre les livrables des différents partenaires.
Lot 0
On doit participer aux réunions du Lot 0 (Gestion du Projet). Prochaine réunion le vendredi 20 octobre 2006, de 9h30 à 18h00 chez EADS (porte d'Auteuil). Mostrare est représenté dans ce lot par Serge Abiteboul.
Disponible sur l'extranet
Plusieurs nouveautés sur l'extranet :
- Lien vers un article sur LIMA (analyseur du CEA) ;
- exemples de documents et d'ontologies (fournis par l'INRA) ;
- extrait du corpus de EADS.
Architecture de la plate-forme
Il y a opposition entre les partisans de Web Services et ceux d'une architecture de type CORBA... au final, on devrait pouvoir simuler les deux, au choix !