Réunion du Lot 2, extraction de contenu
15 octobre 2007, de 14h00 à 18h00
AgroParisTech (siège, Paris 5)
Présents
- Patrice Buche (INRA)
- Gaël de Chalendar (CEA)
- Ludovic Denoyer (LIP 6)
- Amar-Djalil Mezaour (Exalead)
- Lydie Soler (INRA)
- Fabien Torre (Mostrare)
Retour sur la réunion précédente
Questions restées en suspens :
- toujours des interrogations sur les livrables de Thalès ;
- que fera le crawler fourni par Exalead des documents ? il fournira un document WebContent vide, on cherche un moyen de récupérer la version textuelle depuis les documents HTML ou PDF ;
- comment les services accéderont aux documents d'origine ? par les services Exalead en fournissant l'url.
Ordre du jour
Présentations
- Présentation du service du CEA extrayant les entités nommées par Gaël de Chalendar ; questions de Patrice Buche sur l'aspect paramétrable de ce service et de celui identique fourni par Exalead (en l'occurrence pour repérer dans le texte les références aux tableaux) ;
- présentation des interfaces des services Formating et en particulier du service d'extraction de tuples par Fabien Torre (Mostrare) (voir le fichier PDF) ; question de Patrice Buche : possibilité de d'apprendre et d'extraire sur des documents WebContent réduits à des tableaux ?
Revue de projet (23 novembre 2007, CEA)
Déroulement de la journée :
- présentation générale ;
- démonstration d'une première application fonctionnant avec le socle WebContent et impliquant les premiers services disponibles (dont l'extraction d'entités nommées du lot 2)
- présentations par lot, en particulier les applications du lot 6 ;
- démonstrations des différents partenaires.
Décision dans la semaine : format des présentations et intervenants.
Autres points abordés
- Les applications décident du stockage des documents, de leur gestion des URIs, etc. ; elles peuvent utiliser le service Repository ; à clarifier avec le lot 1 ;
- existence d'un annuaire des services WebContent disponibles ?
- fournir les descriptions des services du Lot 2 en WSDL ;
- livraisons à M18 (prototype Mostrare), au 31 décembre 2007 ?
- prochaine réunion : matin du mardi 15 janvier 2008 (date et lieu à confirmer, Lille ?).