Réunion du Lot 2, extraction de contenu
9 juillet 2007, de 10h00 à 12h30
LIP 6, site Kennedy-Passy (Paris 16)
Présents
- Patrice Buche (INRA)
- Gaël de Chalendar (CEA)
- Ludovic Denoyer (LIP 6)
- Halima Dahmani (CEA)
- Amar-Djalil Mezaour (Exalead)
- David Sabino (INRA)
- Lydie Soler (INRA)
- Fabien Torre (Mostrare)
Retours
... sur le workshop
- Les retours sont globalement positifs ;
- suggestion d'organiser le prochain workshop ailleurs qu'à Paris ;
- éviter les présentations trop techniques sur des technologies qui ne seront utilisées que par une minorité des partenaires.
... d'expérience livraisons M12
- Retard de six mois dans les livraisons de Thalès ;
- service de reconnaissance d'entités nommées livré par le CEA ;
- le serveur du CEA et donc le service seront rendus accessibles durant l'été ;
- spécification livrée par Exalead : découverte du web caché, moteur javascript.
Interfaces des services
Présentation des services développés par les partenaires du lot 2 et de leurs interfaces.
CEA (Gaël de Chalendar) : entités nommées
Présentation de quelques règles utilisées par LIMA pour l'extraction d'entités nommées. Forme générale :
déclencheur : contexte gauche : contexte droit :
type de l'entité => traitement
Exemple :
siècle : : (dernier,prochain,précédent,suivant) :
TIMEX => normalizeDate()
INRA (David Sabino) : passer du PDF au format pivot
- Récupération de pdf depuis internet, API Exalead et fils RSS (voir « Web Of Knowledge ») ;
- filtre humain pour sélectionner les PDF pertinents ;
- service de formating extrayant le texte du PDF ;
- une autre déclinaison du service sera capable d'extraire les tableaux et les phrases faisant référence aux tableaux.
Cette dernière possibilité pourra être exploitée par le service Mostrare : extraire depuis une table, mais aussi depuis les phrases qui référencent cette table.
Mostrare (Fabien Torre) : extraction de tuples
Services Filtering et StructuredInformationExtraction, voir le fichier PDF.
Patrice Buche (INRA) présente des données qui seront à traiter et amenant les problématiques suivantes :
- les tuples d'une même relation peuvent être présentés selon trois organisations distinctes, faut-il considérer un ou trois problèmes d'extraction ?
- des valeurs sont manquantes dans certains tableaux (valeur - en lieu et place d'une valeur numérique), les tuples concernés ne sont pas à extraire ;
- l'INRA aimerait ne pouvoir annoter qu'une partie du document et bénéficier de scenarii interactifs.
Questions
- Que fera le crawler fourni par Exalead des documents qui ne sont pas au format HTML (PDF par exemple) ?
- Comment les services accéderont aux documents d'origine ?
Préparation du semestre suivant
En vue : les livrables de M18 (1er janvier 2008), dont le prototype de Mostrare.
Interrogation sur les livraisons logicielles : binaires ou service en ligne, au choix.