site de Fabien Torre


Réunion du Lot 2, extraction de contenu
5 février 2007, de 10h00 à 13h00
INA-PG (Paris 5)

Sommaire

Présents

  • Patrice Buche (INRA)
  • Gaël de Chalendar (CEA)
  • Ludovic Denoyer (LIP 6)
  • Jean-Marc Lazard (Exalead)
  • Amar-Djalil Mezaour (Exalead)
  • Fabien Torre (Mostrare)

Excusé : David Faure (Thalès)

Décisions de la réunion précédente

  • diffusion de rapports de stage : celui d'Exalead ne peut être diffusé pour cause de confidentialité, celui du CEA sera prochainement disponible ; 
  • mise à jour des livrables et de la matrice de dépendance ; 
  • fourniture d'écritures variées de termes par l'INRA ; 
  • CEA et Exalead : formats sur les entités nommées (voir les travaux du lot 1 sur cette question) ; 
  • expérimentations de Mostrare (menées par Patrick Marty) : 
  • Ludovic Denoyer suggère d'utiliser les librairies d'Internet Explorer ou de Firefox, il propose également des données tabulaires en XML issues de wikipédia.

Autres thèmes abordés

Présentation de Ludovic Denoyer

Le LIP6 travaille à la classification de documents (pour le filtrage par exemple) ou de noeuds (ce qui revient à de l'annotation), pour cela c'est la structure des documents XML qui est utilisée.

Constitution de plusieurs grands corpus à partir de wikipédia, voir : 

Retour d'expérience sur les livrables M6

On parle du cahier des charges rendu par le LIP6 :  Mostrare estime que le rôle de relecteur qu'on lui a demandé de jouer n'était pas clairement défini et que la fiche de relecture à fournir était peu directive.

Avancement des travaux du lot 1 (architecture)

Voir les documents produits par ce lot : en attente d'autorisation.

Les échanges entre la plate-forme et les modules se feront par web services. Deux visions s'opposent : 

  • lot 1, modélisation d'un document à l'aide d'un format pivot, soumettre les propositions d'enrichissement de ce modèle avant le 16 février 2007 ; 
  • lot 5 (pear to pear), par les données, centralisées.

Concernant le format d'échange des documents proposé par le lot 1, Mostrare s'inquiète d'une possible perte d'informations sur la structure du document original : 

  • nécessité de ce nouveau format ?
  • pourquoi pas TEI ou DocBook ?
  • perte d'infos par rapport à des XML fortement structurés ?
  • on peut toujours travailler sur le format d'origine mais on risque de ne plus bénéficier des informations apportées par les autres modules.

À suivre !

Tâches à accomplir et prochaine réunion

  • Mostrare va étiqueter l'ensemble du corpus de l'INRA à l'aide du modèle déjà appris ; 
  • Patrice Buche va fournir à Mostrare des tableaux présentant une plus grande diversité ; 
  • modéliser les interfaces de chaque service fourni par le lot 2 ; 
  • prochaine réunion : lundi 2 avril à 9h00.
site de Fabien Torre, université de Lille