Projet WebContent
Généralités
WebContent est un projet RNTL financé par l'ANR.
Les personnes de Mostrare impliquées sont :
- Fabien Torre (contact) ;
- Matthieu Keith
- Rémi Gilleron ;
- Marc Tommasi ;
- Isabelle Tellier ;
- Aurélien Lemay ;
- Patrick Marty ;
- Florent Jousse.
Nos efforts se concentrent sur les deux lots décrits ci-dessous.
Lot 2 : Extraction de contenu
Responsable : Gaël de Chalendar.
Dans le cadre de ce lot, Mostrare apporte des Systèmes interactifs d'inférence de programmes d'extraction et son expertise Extraction de tables et tableaux partir de documents html et xml.
Sous-lot 2.1 : Extraction des Informations et création des wrappers
Développement d'algorithmes interactifs d'inférence de programmes d'extraction d'informations partir des données du Web. Il est impensable qu'un utilisateur puisse annoter un grand nombre de documents pour pouvoir appliquer un système d'inférence. Il s'agit donc de développer des programmes interactifs où les interactions avec l'utilisateur sont limitées à l'annotation de quelques exemples et à des corrections de propositions du système, ainsi qu'à l'introduction de connaissances propres à l'objectif visé. On observe en effet que la définition d'un problème d'extraction entraîne naturellement la donnée du type des éléments à extraire ou même de mots ou symboles importants. L'utilisateur peut donc faciliter la tâche du système d'inférence en intégrant ces informations directement. Une dimension sémantique peut être ajoutée à ces connaissances par l'utilisation d'ontologies du domaine, ou celles spécifiées par l'utilisateur.
Ces systèmes pour les données semi-structurées seront proposés par Mostrare. Ils pourront être intégrés à un système de générations de requêtes pour les bases de données semi-structurées. Pour le Web, ils pourront être étendus avec les partenaires selon l'étude des besoins à des extractions plus complexes : sortie semi-structurée, suivi des liens, interrogation de formulaires (sous-lot 2). Les techniques de classification présentées dans le sous-lot 2 par le LIP6 pourront être utilisées pour traiter le cas des sites avec des données hétérogènes.
Extraction de tables et tableaux. Les données pertinentes pour les systèmes de veille sont souvent contenues dans des tables et tableaux. Ils peuvent être contenus dans des documents au format PDF (voir application AQWEB - INRA) ou dans des documents semi-structurés du Web au format HTML ou XML. Les organisations arborescentes de tables et tableaux peuvent être très variées (listes, tables, listes imbriquées, tables imbriquées, listes de tables, etc.). Il s'agit de développer, en se basant sur les prototypes actuellement disponibles dans le projet Mostrare, des programmes interactifs d'inférence de wrappers pour des tables et tableaux s'adaptant aux différentes organisations des données semi-structurées.
Sous-lot 2.2 : Découverte du Web caché et classification
Fournitures
- à 18 mois : intégration dans la plateforme d'un système d'induction interactif de wrappers pour les documents semi-structurés ;
- à 24 mois : rapport bilan de la phase d'expérimentation des prototypes sur les domaines d'applications recensés (avec INRA et LIP6) ;
- à 30 mois : livraison d'une version d'étape finalisée du système d'induction de wrappers.
Lot 3 : Enrichissement sémantique
Sous-lot 3.1 : Construction et enrichissement d'ontologies
Responsables : Christophe Beauce (EADS) et Marie-Christine Rousset (IMAG)
Mostrare, en tant que partenaire académique, propose ses compétences pour améliorer les modules d'apprentissage des techniques d'enrichissement et de construction automatique d'ontologies : algorithmes de boosting, algorithmes d'inférence grammaticale pour les données arborescentes, etc.
D'autre part, en fonction de l'analyse des besoins, nos outils d'extraction d'information à partir de données semi-structurées peuvent être adaptés pour la construction et l'enrichissement d'ontologies.
Sous-lot 3.2 : Découverte automatique de mappings entre ontologies
Responsables : Jérôme Euzenat (Exmo) et Chantal Reynaud (Gemo)
Sous-lot 3.3 : Annotation sémantique de documents par les termes d'une ontologie
Responsables : Patrice Buche et Ollivier Haemmerlé.
Réunions
Documents | Date | Lieu | Thème | Représentants Mostrare |
---|---|---|---|---|
- | 28/03/2008 10h00-13h00 | INRIA Lille | Lot 2 | Fabien Torre |
CR | 28/01/2008 10h00-13h00 | AgroParisTech | Lot 2 | Fabien Torre |
23/11/2007 9h30-18h00 | CEA Fontenay | Revue | Fabien Torre | |
CR | 15/10/2007 14h00-18h00 | AgroParisTech | Lot 2 | Fabien Torre |
5/10/2007 10h00-17h00 | INAPG | Lot 3 | Marc Tommasi | |
28/09/2007 14h00-18h00 | CEA Fontenay | AG | - | |
CR | 9/07/2007 10h00-13h00 | LIP6 | Lot 2 | Fabien Torre |
30/05/2007 10h00-17h00 | Thalès Palaiseau |
Workshop interne | Matthieu Keith, Fabien Torre et Missi Tran | |
CR | 14/05/2007 10h00-13h00 | INAPG | Lot 2 | Fabien Torre |
11/05/2007 14h00-17h00 | INAPG | Sous-lot 3.1 | - | |
11/05/2007 10h00-13h00 | INAPG | Sous-lot 3.3 | - | |
CR | 4/02/2007 10h00 | INAPG | Lot 2 | Fabien Torre |
22/01/2007 09h30 | CEA Fontenay | Comité de pilotage | Rémi Gilleron | |
19/01/2007 10h00 | INAPG | Sous-lot 3.2 | Marc Tommasi | |
21/12/2006 14h00 | INAPG | Sous-lot 3.3 | - | |
21/12/2006 10h00 | INAPG | Sous-lot 3.1 | - | |
CR | 4/12/2006 10h00 | INAPG | Lot 2 | Fabien Torre et Matthieu Keith |
24/10/2006 10h00 à 13h00 | INAPG | Lot 3 | Rémi Gilleron | |
CR | 2/10/2006 10h00 | INAPG | Lot 2 | Fabien Torre |
CR | 11/07/2006 | CEA Fontenay | Lot 2 | Fabien Torre |
7/07/2006 | Sous-lot 3.2 | - | ||
CR | 5/07/2006 | Sous-lot 3.3 | Rémi Gilleron | |
4/07/2006 | Sous-lot 3.1 | - | ||
31/05/2006 | Lot 3 | Marc Tommasi et Florent Jousse | ||
24/04/2006 | Kick-off meeting | Marc Tommasi et Jean-Philippe Nirel |
Documents
Rapports d'activité
- RA au 1er janvier 2008 : au format ODT ;
- RA au 1er juillet 2007 : au format ODT ;
- RA au 1er janvier 2007 : en html ou au format ODT ;
- RA au 1er septembre 2006 : en html ou en word.
Fournitures
Compte-rendus de réunions
- Lot 2, 28 janvier 2008 par Fabien Torre
- revue du projet,23 novembre 2007 par Fabien Torre (réservé aux membres du projet)
- Lot 2, 15 octobre 2007 par Fabien Torre
- Lot 2, 9 juillet 2007 par Fabien Torre
- Lot 2, 14 mai 2007 par Fabien Torre
- Lot 2, 5 février 2007 par Fabien Torre
- Lot 2, 4 décembre 2006 par Fabien Torre
- Lot 2, 2 octobre 2006 par Fabien Torre
- Lot 2, 11 juillet 2006 par Fabien Torre
- Lot 3.3, 5 juillet 2006 par Rémi Gilleron
Présentations Mostrare
- Lot 2, 11 juillet 2006 par Fabien Torre
- Kickoff du 24 avril 2006 par Marc Tommasi