site de Fabien Torre


Réunion du Lot 2, extraction de contenu
15 octobre 2007, de 14h00 à 18h00
AgroParisTech (siège, Paris 5)

Présents

Retour sur la réunion précédente

Questions restées en suspens : 

  • toujours des interrogations sur les livrables de Thalès ; 
  • que fera le crawler fourni par Exalead des documents ? il fournira un document WebContent vide, on cherche un moyen de récupérer la version textuelle depuis les documents HTML ou PDF ; 
  • comment les services accéderont aux documents d'origine ? par les services Exalead en fournissant l'url.

Ordre du jour

Présentations

  • Présentation du service du CEA extrayant les entités nommées par Gaël de Chalendar ; questions de Patrice Buche sur l'aspect paramétrable de ce service et de celui identique fourni par Exalead (en l'occurrence pour repérer dans le texte les références aux tableaux) ; 
  • présentation des interfaces des services Formating et en particulier du service d'extraction de tuples par Fabien Torre (Mostrare) (voir le fichier PDF) ;  question de Patrice Buche :  possibilité de d'apprendre et d'extraire sur des documents WebContent réduits à des tableaux ?

Revue de projet (23 novembre 2007, CEA)

Déroulement de la journée : 

  • présentation générale ; 
  • démonstration d'une première application fonctionnant avec le socle WebContent et impliquant les premiers services disponibles (dont l'extraction d'entités nommées du lot 2)
  • présentations par lot, en particulier les applications du lot 6 ; 
  • démonstrations des différents partenaires.

Décision dans la semaine : format des présentations et intervenants.

Autres points abordés

  • Les applications décident du stockage des documents, de leur gestion des URIs, etc. ; elles peuvent utiliser le service Repository ; à clarifier avec le lot 1 ; 
  • existence d'un annuaire des services WebContent disponibles ?
  • fournir les descriptions des services du Lot 2 en WSDL ; 
  • livraisons à M18 (prototype Mostrare), au 31 décembre 2007 ?
  • prochaine réunion : matin du mardi 15 janvier 2008 (date et lieu à confirmer, Lille ?).
site de Fabien Torre, université de Lille