site de Fabien Torre


Projet WebContent

The WebContent project is creating a software platform to accommodate the tools necessary to efficiently exploit and extend the future of the Internet: the Semantic Web.

Généralités

WebContent est un projet RNTL financé par l'ANR.

Les personnes de Mostrare impliquées sont :

  • Fabien Torre (contact) ;
  • Matthieu Keith
  • Rémi Gilleron ;
  • Marc Tommasi ;
  • Isabelle Tellier ;
  • Aurélien Lemay ;
  • Patrick Marty ;
  • Florent Jousse.

Nos efforts se concentrent sur les deux lots décrits ci-dessous.

Lot 2 : Extraction de contenu

Responsable : Gaël de Chalendar.

Dans le cadre de ce lot, Mostrare apporte des Systèmes interactifs d'inférence de programmes d'extraction et son expertise Extraction de tables et tableaux partir de documents html et xml.

Sous-lot 2.1 : Extraction des Informations et création des wrappers

Développement d'algorithmes interactifs d'inférence de programmes d'extraction d'informations partir des données du Web. Il est impensable qu'un utilisateur puisse annoter un grand nombre de documents pour pouvoir appliquer un système d'inférence. Il s'agit donc de développer des programmes interactifs où les interactions avec l'utilisateur sont limitées à l'annotation de quelques exemples et à des corrections de propositions du système, ainsi qu'à l'introduction de connaissances propres à l'objectif visé. On observe en effet que la définition d'un problème d'extraction entraîne naturellement la donnée du type des éléments à extraire ou même de mots ou symboles importants. L'utilisateur peut donc faciliter la tâche du système d'inférence en intégrant ces informations directement. Une dimension sémantique peut être ajoutée à ces connaissances par l'utilisation d'ontologies du domaine, ou celles spécifiées par l'utilisateur.

Ces systèmes pour les données semi-structurées seront proposés par Mostrare. Ils pourront être intégrés à un système de générations de requêtes pour les bases de données semi-structurées. Pour le Web, ils pourront être étendus avec les partenaires selon l'étude des besoins à des extractions plus complexes : sortie semi-structurée, suivi des liens, interrogation de formulaires (sous-lot 2). Les techniques de classification présentées dans le sous-lot 2 par le LIP6 pourront être utilisées pour traiter le cas des sites avec des données hétérogènes.

Extraction de tables et tableaux. Les données pertinentes pour les systèmes de veille sont souvent contenues dans des tables et tableaux. Ils peuvent être contenus dans des documents au format PDF (voir application AQWEB - INRA) ou dans des documents semi-structurés du Web au format HTML ou XML. Les organisations arborescentes de tables et tableaux peuvent être très variées (listes, tables, listes imbriquées, tables imbriquées, listes de tables, etc.). Il s'agit de développer, en se basant sur les prototypes actuellement disponibles dans le projet Mostrare, des programmes interactifs d'inférence de wrappers pour des tables et tableaux s'adaptant aux différentes organisations des données semi-structurées.

Sous-lot 2.2 : Découverte du Web caché et classification

Fournitures

  • à 18 mois : intégration dans la plateforme d'un système d'induction interactif de wrappers pour les documents semi-structurés ;
  • à 24 mois : rapport bilan de la phase d'expérimentation des prototypes sur les domaines d'applications recensés (avec INRA et LIP6) ;
  • à 30 mois : livraison d'une version d'étape finalisée du système d'induction de wrappers.

Lot 3 : Enrichissement sémantique

Sous-lot 3.1 : Construction et enrichissement d'ontologies

Responsables : Christophe Beauce (EADS) et Marie-Christine Rousset (IMAG)

Mostrare, en tant que partenaire académique, propose ses compétences pour améliorer les modules d'apprentissage des techniques d'enrichissement et de construction automatique d'ontologies : algorithmes de boosting, algorithmes d'inférence grammaticale pour les données arborescentes, etc.

D'autre part, en fonction de l'analyse des besoins, nos outils d'extraction d'information à partir de données semi-structurées peuvent être adaptés pour la construction et l'enrichissement d'ontologies.

Sous-lot 3.2 : Découverte automatique de mappings entre ontologies

Responsables : Jérôme Euzenat (Exmo) et Chantal Reynaud (Gemo)

Sous-lot 3.3 : Annotation sémantique de documents par les termes d'une ontologie

Responsables : Patrice Buche et Ollivier Haemmerlé.

Réunions

DocumentsDateLieuThèmeReprésentants Mostrare
-28/03/2008
10h00-13h00
INRIA LilleLot 2Fabien Torre
CR 28/01/2008
10h00-13h00
AgroParisTechLot 2Fabien Torre
23/11/2007
9h30-18h00
CEA FontenayRevueFabien Torre
CR15/10/2007
14h00-18h00
AgroParisTechLot 2Fabien Torre
5/10/2007
10h00-17h00
INAPGLot 3Marc Tommasi
28/09/2007
14h00-18h00
CEA FontenayAG-
CR9/07/2007
10h00-13h00
LIP6Lot 2Fabien Torre
30/05/2007
10h00-17h00
Thalès
Palaiseau
Workshop interneMatthieu Keith, Fabien Torre et Missi Tran
CR14/05/2007
10h00-13h00
INAPGLot 2Fabien Torre
11/05/2007
14h00-17h00
INAPGSous-lot 3.1-
11/05/2007
10h00-13h00
INAPGSous-lot 3.3-
CR4/02/2007
10h00
INAPGLot 2Fabien Torre
22/01/2007
09h30
CEA FontenayComité de pilotage Rémi Gilleron
19/01/2007
10h00
INAPGSous-lot 3.2Marc Tommasi
21/12/2006
14h00
INAPGSous-lot 3.3-
21/12/2006
10h00
INAPGSous-lot 3.1-
CR 4/12/2006
10h00
INAPGLot 2Fabien Torre et Matthieu Keith
24/10/2006
10h00 à 13h00
INAPGLot 3Rémi Gilleron
CR2/10/2006
10h00
INAPGLot 2Fabien Torre
CR11/07/2006CEA FontenayLot 2Fabien Torre
7/07/2006Sous-lot 3.2-
CR5/07/2006Sous-lot 3.3Rémi Gilleron
4/07/2006Sous-lot 3.1-
31/05/2006Lot 3Marc Tommasi et Florent Jousse
24/04/2006Kick-off meetingMarc Tommasi et Jean-Philippe Nirel

Documents

Rapports d'activité

Fournitures

Compte-rendus de réunions

Présentations Mostrare


Accueil > Research > Projects > WebContent
(contenu mis à jour )
site de Fabien Torre, université de Lille

Description

Survoler un lien de navigation pour lire sa description ici...