Réunion du Lot 2, extraction de contenu
9 juillet 2007, de 10h00 à 12h30
LIP 6, site Kennedy-Passy (Paris 16)

Sommaire

Retours
- ... sur le workshop
- ... d'expérience livraisons M12
Interfaces des services
Préparation du semestre suivant

Présents

Patrice Buche (INRA)
Gaël de Chalendar (CEA)
Ludovic Denoyer (LIP 6)
Halima Dahmani (CEA)
Amar-Djalil Mezaour (Exalead)
David Sabino (INRA)
Lydie Soler (INRA)
Fabien Torre (Mostrare)

Retours

... sur le workshop

Les retours sont globalement positifs ;
suggestion d'organiser le prochain workshop ailleurs qu'à Paris ;
éviter les présentations trop techniques sur des technologies qui ne seront utilisées que par une minorité des partenaires.

... d'expérience livraisons M12

Retard de six mois dans les livraisons de Thalès ;
service de reconnaissance d'entités nommées livré par le CEA ;
le serveur du CEA et donc le service seront rendus accessibles durant l'été ;
spécification livrée par Exalead : découverte du web caché, moteur javascript.

Interfaces des services

Présentation des services développés par les partenaires du lot 2 et de leurs interfaces.

CEA (Gaël de Chalendar) : entités nommées

Présentation de quelques règles utilisées par LIMA pour l'extraction d'entités nommées. Forme générale :

déclencheur : contexte gauche : contexte droit :
type de l'entité => traitement

Exemple :

siècle : : (dernier,prochain,précédent,suivant) :
TIMEX => normalizeDate()

INRA (David Sabino) : passer du PDF au format pivot

Récupération de pdf depuis internet, API Exalead et fils RSS (voir « Web Of Knowledge ») ;
filtre humain pour sélectionner les PDF pertinents ;
service de formating extrayant le texte du PDF ;
une autre déclinaison du service sera capable d'extraire les tableaux et les phrases faisant référence aux tableaux.

Cette dernière possibilité pourra être exploitée par le service Mostrare : extraire depuis une table, mais aussi depuis les phrases qui référencent cette table.

Mostrare (Fabien Torre) : extraction de tuples

Services Filtering et StructuredInformationExtraction, voir le fichier PDF.

Patrice Buche (INRA) présente des données qui seront à traiter et amenant les problématiques suivantes :

les tuples d'une même relation peuvent être présentés selon trois organisations distinctes, faut-il considérer un ou trois problèmes d'extraction ?
des valeurs sont manquantes dans certains tableaux (valeur - en lieu et place d'une valeur numérique), les tuples concernés ne sont pas à extraire ;
l'INRA aimerait ne pouvoir annoter qu'une partie du document et bénéficier de scenarii interactifs.

Questions

Que fera le crawler fourni par Exalead des documents qui ne sont pas au format HTML (PDF par exemple) ?
Comment les services accéderont aux documents d'origine ?

Préparation du semestre suivant

En vue : les livrables de M18 (1er janvier 2008), dont le prototype de Mostrare.

Interrogation sur les livraisons logicielles : binaires ou service en ligne, au choix.

Réunion du Lot 2, extraction de contenu9 juillet 2007, de 10h00 à 12h30LIP 6, site Kennedy-Passy (Paris 16)

Réunion du Lot 2, extraction de contenu
9 juillet 2007, de 10h00 à 12h30
LIP 6, site Kennedy-Passy (Paris 16)