Lancement du Lot 2, extraction de contenu
11 juillet 2006, CEA Fontenay-aux-Roses
-
Gaël de Chalendar (CEA)
-
Halima Dahmani (CEA)
-
Patrick Gallinari (Apprentissage automatique, LIP 6)
-
Claire Laudy (Thalès)
-
Amar-Djalil Mezaour (Exalead)
-
Pierre Senellart (GEMO)
-
Lydie Soler (INRA INA-PG)
-
Fabien Torre (Mostrare)
-
Bernd Amann (Base de données, LIP 6)
-
Romaric Besançon (CEA) : croisé dans le couloir
-
Patrice Buche : représenté par Lydie Soler
-
David Faure (Thalès) : représenté par Claire Laudy
-
présentation des apports et objectifs de chaque partenaire (10 minutes chacun)
-
discussion technique
-
organisation du travail
-
planning
-
LIP 6 - Apprentissage
-
Mostrare
-
CEA
-
Exalead
-
(GEMO)
-
responsable du lot : planning, avancement, reporting vers le CP
-
identification d'entités nommées (personnes, lieux, dates, événements)
pour plusieurs langues
-
reconnaissance par patrons (expressions régulières)
-
moteur de recherche, clustering de documents
-
utilisation d'en dictionnaire de synonymes
-
analyse syntaxique, format à définir
-
application AQWEB, projet E.dot
-
stocker des publis et les interroger
-
récupération semi-automatique de PDF depuis le web (API Google)
-
en particulier les tableaux (= synthèses)
-
conversion PDF vers XML en passant par word
-
stockage en XML, base de données Xylème
-
extraction de relations entre entités nommées
-
apprentissage de patrons à partir d'exemples fournis par l'utilisateur
-
algo de type Hearst : on enrichit les patrons grâce aux entités extraites, etc.
-
pondération des patrons
-
Ludovic Denoyer en charge du lot 2
-
apprentissage statistique
-
extraction unaire, pas n-aire (j'ai bien compris ?)
-
pré-traitements du texte importants
-
proposition de collaboration avec Mostrare : pour compléter la structure par des infos sur le texte
-
problème de l'évaluation
-
rattaché à Mostrare pour le projet WebContent
-
Patrick Gallinari voit un lien entre la problématique de Pierre Senellart et le projet sur la conversation de documents par annotation
-
Pierre Senellart demande des nouvelles de ce que Florent et Patrick arrivent à faire sur ses données
-
détection d'entités nommées
personnes, lieux géographiques, dates, quantités monétaires, organisations
-
transducteurs et thésaurus
-
prototype à la Google news : patrons faits à la main pour aller piocher sur des sites extérieurs
-
application au risque alimentaire (proposition de l'INRA INA-PG)
-
langue cible : anglais
-
discussion sur le web caché : tout ce qui n'est pas accessible par des liens
-
mélange des présentations Mostrare et Exalead ???
-
structurer les livrables par sous-lots, Mostrare dans le 2.1
-
prochaine réunion physique : lundi 2 octobre 2006 à 10h00 (réunion du Lot 2 suivie d'une réunion du sous groupe Mostrare-LIP6-Thalès)
-
Patrick Gallinari s'est retiré du lot 3
-
besoin pour Mostrare et le LIP 6 : on peut bénéficier des sorties de l'analyseur du CEA
-
plusieurs formats de sortie possibles : étiquetage, graphes, arbres de syntagmes
-
vitesse d'analyse : 100 Mo à l'heure
-
LIP 6 - Apprentissage (Patrick Gallinari)
-
Thalès (David Faure, Bénédicte Gougin ?)
-
Mostrare (Fabien ? Rémi ? Marc ? Patrick ?)