Lancement du Lot 2, extraction de contenu
11 juillet 2006, CEA Fontenay-aux-Roses

Sommaire

Organisation

responsable du lot : planning, avancement, reporting vers le CP
identification d'entités nommées (personnes, lieux, dates, événements) pour plusieurs langues
reconnaissance par patrons (expressions régulières)
moteur de recherche, clustering de documents
utilisation d'en dictionnaire de synonymes
analyse syntaxique, format à définir

Ludovic Denoyer en charge du lot 2
apprentissage statistique
extraction unaire, pas n-aire (j'ai bien compris ?)
pré-traitements du texte importants
proposition de collaboration avec Mostrare : pour compléter la structure par des infos sur le texte
problème de l'évaluation

rattaché à Mostrare pour le projet WebContent
Patrick Gallinari voit un lien entre la problématique de Pierre Senellart et le projet sur la conversation de documents par annotation
Pierre Senellart demande des nouvelles de ce que Florent et Patrick arrivent à faire sur ses données

détection d'entités nommées personnes, lieux géographiques, dates, quantités monétaires, organisations
transducteurs et thésaurus
prototype à la Google news : patrons faits à la main pour aller piocher sur des sites extérieurs

application au risque alimentaire (proposition de l'INRA INA-PG)
langue cible : anglais
discussion sur le web caché : tout ce qui n'est pas accessible par des liens
mélange des présentations Mostrare et Exalead ???
structurer les livrables par sous-lots, Mostrare dans le 2.1
prochaine réunion physique : lundi 2 octobre 2006 à 10h00 (réunion du Lot 2 suivie d'une réunion du sous groupe Mostrare-LIP6-Thalès)
Patrick Gallinari s'est retiré du lot 3

besoin pour Mostrare et le LIP 6 : on peut bénéficier des sorties de l'analyseur du CEA
plusieurs formats de sortie possibles : étiquetage, graphes, arbres de syntagmes
vitesse d'analyse : 100 Mo à l'heure