Réunion du Lot 2, extraction de contenu
4 décembre 2006, de 10h00 à 12h30
INA-PG (Paris 5)

Sommaire

Présents
Données à traiter par Mostrare
- Corpus INRA
- Corpus CEA
Autres sujets abordés

Présents

Patrice Buche (INRA)
Gaël de Chalendar (CEA)
Romain Fouache (Exalead)
Patrick Gallinari (LIP 6)
Matthieu Keith (Mostrare)
Amar-Djalil Mezaour (Exalead)
Fabien Torre (Mostrare)

Excusé : David Faure (Thalès)

Données à traiter par Mostrare

Corpus INRA

Extraction à partir de tableaux XML :

documents PDF contenant des tableaux
conversion en RTF
ScanSoft pour produire des tableaux au format XTAB
différentes organisations de tableaux au sein d'un même document
certains éléments de la relation cible ne sont pas dans les tableaux et sont donc perdus en route
étiquetage manuel par Patrice Buche

Classification de documents :

documents PDF à catégoriser par thème, tâche supervisé, données disponibles au 2ème trimestre 2007

Document de type dépêche : il s'agit de récupérer le titre et le texte, sans l'habillage et la pub autour. Le CEA va fournir un rapport présentant la tâche et des résultats en non supervisé mais est curieux de connaître les résultats obtenus par une technique supervisée.

Il y a donc plusieurs paragraphes à extraire, en nombre variable, d'où une difficulté à définir la relation cible :

à coder en relation unaire ?
sortir un noeud interne plutôt qu'une feuille, le noeud ancêtre de tous les paragraphes ?
ou alors à l'aide d'un attribut multi-valué ?
à discuter avec Gaël de Chalendar qui va réaliser l'étiquetage

Autres sujets abordés

Avancements respectifs

Voila... tout le monde avance !

Entités nommées

Exemple de traitement par Exalead sur des données du CEA :

informations riches : 6 ou 7 types différents (date, lieu, personne, nombre, organisation, produit, événement), catégorie plus fine prise dans la hiérarchie wikipedia, etc.
enrichissement de taille variable

Nécessité d'avoir des ressources spécifiques pour le corpus alimentaire de l'INRA.

Discussion sur la suite :

fichier XML séparé ?
résultat = annotation du document en RDF ?
OWL pour la représentation des ontologies
à reprendre dans le codage du système PAF ?

Convertisseur Exalead

en entrée : une url pointant un document dont le format est supporté par le crawler Exalead (HTML, Word, PDF, etc.)
en sortie : le document converti en texte
format WebContent à venir

Réunion du Lot 2, extraction de contenu4 décembre 2006, de 10h00 à 12h30INA-PG (Paris 5)

Réunion du Lot 2, extraction de contenu
4 décembre 2006, de 10h00 à 12h30
INA-PG (Paris 5)