site de Fabien Torre


Réunion du Lot 2, extraction de contenu
14 mai 2007, de 10h00 à 13h30
INA-PG (Paris 5)

Sommaire

Présents

  • Patrice Buche (INRA)
  • Gaël de Chalendar (CEA)
  • Ludovic Denoyer (LIP 6)
  • Amar-Djalil Mezaour (Exalead)
  • Fabien Torre (Mostrare)
  • David Sabino (INRA)

Discussion sur les formats

Les annotations sont prévues dans le format pivot du projet WebContent :  une annotation est rattachée à une section (dans le format pivot) comme un champ textuel dont il est convenu qu'il contiendra du RDF.

Amar-Djalil Mezaour (Exalead) propose un format d'annotation basé sur RDF et formalisé en RDFS :  il s'agit ici d'annoter les entités nommées reconnues dans un document. Une zone d'extraction est repérée par un début et une longueur :  pour le début est utilisé le nombre de caractères entre le début de la section concernée (dans le format pivot) et le premier caractère à extraire. Précisions : 

  • aucun validateur RDF/RDFS n'a été trouvé ; 
  • IsaViz est un logiciel intéressant pour visualiser (et apprendre la syntaxe) du RDF ; 
  • les fichiers RDF et RDFS sont disponibles.

Gaël de Chalendar (CEA) montre un document dans le format pivot et l'attachement d'un tel morceau de RDF.

Fabien Torre (Mostrare) signale l'existence du format XML utilisé par Mostrare pour repérer des composantes et tuples à extraire dans un document XML quelconque. Ce format utilise des expressions XPointer. Sont à disposition : 

  • un XML-Schéma pour valider les fichiers d'annotations ; 
  • une librairire Java pour manipuler de tels fichiers.

La discussion revient sur le format pivot : celui-ci semble pauvre pour certaines tâches mais s'en détacher ferait perdre l'intérêt de la plateforme, en particulier la communication entre les services. On ne dispose pas de correspondance entre les deux formats.

Patrice Buche (INRA) explicite ses besoins :  obtenir un nouveau document dans le format pivot ne contenant que les tuples extraits sous forme de tableau.


Au final, le scénario pour Mostrare pourrait être : 

  • annotation hors plateforme WebContent ; 
  • appel des services webcontent dédiés à l'extraction d'entités nommées sur le document d'origine encapsulé dans un container du format pivot ; 
  • paramétrage et apprentissage hors plateforme WebContent ; 
  • service offert : application de l'extracteur appris à un nouveau document ; 
  • sortie = tuples organisés en tableau dans le format pivot.

Interfaces des services du Lot 2

Passage en revue des services proposés par le lot 2 et répartition pour la rédaction des interfaces (première version pour le workshop) : 

  • (7.1.1) Web Crawling (Exalead)
  • (7.1.2) Web Site Watching (Exalead)
  • (7.1.3) Formating (Mostrare)
  • (7.1.4) Document Segmentation (Thalès)
  • (7.1.5) Named Entities Extraction (CEA-LIST)
  • (7.1.6) Structured Information Extraction (Mostrare)
  • (7.1.7) Filtering/Segmentation (LIP6)
  • (7.1.8) Stemming (Thalès)
  • (7.1.9) Multilingual Reformulation (CEA-LIST)

Le formating regroupe tous les services qui font passer du format d'origine au format pivot. Mostrare offrira un formating particulier en recomposant au sein d'un document dans le format pivot les valeurs extraites du format d'origine.

Patrice Buche (INRA) précise que les documents obtenus par OCR arriveront sur la plateforme WebContent au format HTML.


Il apparaît que personne ne sait faire une transcription riche de XHTML vers le format pivot ! Exalead fournira une version basique. Cette brique pourtant centrale n'est pas un livrable du projet.

Préparation du workshop

  • 30 mai, de 10h00 à 17h00 ; 
  • Thalès, campus de Polytechnique (arrêt RER Lozère) ; 
  • tutoriel : implémentations C++ et Java d'un service WebContent ; 
  • présentation du lot 2 : 
    • extraction d'entités nommées ; 
    • extraction de tuples ; 
    • classification de documents et morceaux de documents.
site de Fabien Torre, université de Lille