Réunion du Lot 2, extraction de contenu
5 février 2007, de 10h00 à 13h00
INA-PG (Paris 5)
Présents
- Patrice Buche (INRA)
- Gaël de Chalendar (CEA)
- Ludovic Denoyer (LIP 6)
- Jean-Marc Lazard (Exalead)
- Amar-Djalil Mezaour (Exalead)
- Fabien Torre (Mostrare)
Excusé : David Faure (Thalès)
Décisions de la réunion précédente
- diffusion de rapports de stage : celui d'Exalead ne peut être diffusé pour cause de confidentialité, celui du CEA sera prochainement disponible ;
- mise à jour des livrables et de la matrice de dépendance ;
- fourniture d'écritures variées de termes par l'INRA ;
- CEA et Exalead : formats sur les entités nommées (voir les travaux du lot 1 sur cette question) ;
-
expérimentations de Mostrare (menées par Patrick Marty) :
- sur les données de l'INRA, ça marche, présentation des théories apprises pour l'extraction, par C4.5, par DLG : time, temp, germ, colony_count_inoculated_food, ph_inoculated_food, colony_count_uninoculated_food, ph_uninoculated_food, aw ;
- sur les données du CEA : problème de codage à préciser ;
- Ludovic Denoyer suggère d'utiliser les librairies d'Internet Explorer ou de Firefox, il propose également des données tabulaires en XML issues de wikipédia.
Autres thèmes abordés
Présentation de Ludovic Denoyer
Le LIP6 travaille à la classification de documents (pour le filtrage par exemple) ou de noeuds (ce qui revient à de l'annotation), pour cela c'est la structure des documents XML qui est utilisée.
Constitution de plusieurs grands corpus à partir de wikipédia, voir :
- papier sur le corpus ;
- page de Ludovic avec les datasets.
Retour d'expérience sur les livrables M6
On parle du cahier des charges rendu par le LIP6 : Mostrare estime que le rôle de relecteur qu'on lui a demandé de jouer n'était pas clairement défini et que la fiche de relecture à fournir était peu directive.
Avancement des travaux du lot 1 (architecture)
Voir les documents produits par ce lot : en attente d'autorisation.
Les échanges entre la plate-forme et les modules se feront par web services. Deux visions s'opposent :
- lot 1, modélisation d'un document à l'aide d'un format pivot, soumettre les propositions d'enrichissement de ce modèle avant le 16 février 2007 ;
- lot 5 (pear to pear), par les données, centralisées.
Concernant le format d'échange des documents proposé par le lot 1, Mostrare s'inquiète d'une possible perte d'informations sur la structure du document original :
- nécessité de ce nouveau format ?
- pourquoi pas TEI ou DocBook ?
- perte d'infos par rapport à des XML fortement structurés ?
- on peut toujours travailler sur le format d'origine mais on risque de ne plus bénéficier des informations apportées par les autres modules.
À suivre !
Tâches à accomplir et prochaine réunion
- Mostrare va étiqueter l'ensemble du corpus de l'INRA à l'aide du modèle déjà appris ;
- Patrice Buche va fournir à Mostrare des tableaux présentant une plus grande diversité ;
- modéliser les interfaces de chaque service fourni par le lot 2 ;
- prochaine réunion : lundi 2 avril à 9h00.