Projet WebContent

The WebContent project is creating a software platform to accommodate the tools necessary to efficiently exploit and extend the future of the Internet: the Semantic Web.

Généralités

WebContent est un projet RNTL financé par l'ANR.

Les personnes de Mostrare impliquées sont :

Fabien Torre (contact) ;
Matthieu Keith
Rémi Gilleron ;
Marc Tommasi ;
Isabelle Tellier ;
Aurélien Lemay ;
Patrick Marty ;
Florent Jousse.

Nos efforts se concentrent sur les deux lots décrits ci-dessous.

Lot 2 : Extraction de contenu

Responsable : Gaël de Chalendar.

Dans le cadre de ce lot, Mostrare apporte des Systèmes interactifs d'inférence de programmes d'extraction et son expertise Extraction de tables et tableaux partir de documents html et xml.

Sous-lot 2.1 : Extraction des Informations et création des wrappers

Développement d'algorithmes interactifs d'inférence de programmes d'extraction d'informations partir des données du Web. Il est impensable qu'un utilisateur puisse annoter un grand nombre de documents pour pouvoir appliquer un système d'inférence. Il s'agit donc de développer des programmes interactifs où les interactions avec l'utilisateur sont limitées à l'annotation de quelques exemples et à des corrections de propositions du système, ainsi qu'à l'introduction de connaissances propres à l'objectif visé. On observe en effet que la définition d'un problème d'extraction entraîne naturellement la donnée du type des éléments à extraire ou même de mots ou symboles importants. L'utilisateur peut donc faciliter la tâche du système d'inférence en intégrant ces informations directement. Une dimension sémantique peut être ajoutée à ces connaissances par l'utilisation d'ontologies du domaine, ou celles spécifiées par l'utilisateur.

Ces systèmes pour les données semi-structurées seront proposés par Mostrare. Ils pourront être intégrés à un système de générations de requêtes pour les bases de données semi-structurées. Pour le Web, ils pourront être étendus avec les partenaires selon l'étude des besoins à des extractions plus complexes : sortie semi-structurée, suivi des liens, interrogation de formulaires (sous-lot 2). Les techniques de classification présentées dans le sous-lot 2 par le LIP6 pourront être utilisées pour traiter le cas des sites avec des données hétérogènes.

Extraction de tables et tableaux. Les données pertinentes pour les systèmes de veille sont souvent contenues dans des tables et tableaux. Ils peuvent être contenus dans des documents au format PDF (voir application AQWEB - INRA) ou dans des documents semi-structurés du Web au format HTML ou XML. Les organisations arborescentes de tables et tableaux peuvent être très variées (listes, tables, listes imbriquées, tables imbriquées, listes de tables, etc.). Il s'agit de développer, en se basant sur les prototypes actuellement disponibles dans le projet Mostrare, des programmes interactifs d'inférence de wrappers pour des tables et tableaux s'adaptant aux différentes organisations des données semi-structurées.

Sous-lot 2.2 : Découverte du Web caché et classification

Fournitures

à 18 mois : intégration dans la plateforme d'un système d'induction interactif de wrappers pour les documents semi-structurés ;
à 24 mois : rapport bilan de la phase d'expérimentation des prototypes sur les domaines d'applications recensés (avec INRA et LIP6) ;
à 30 mois : livraison d'une version d'étape finalisée du système d'induction de wrappers.

Lot 3 : Enrichissement sémantique

Sous-lot 3.1 : Construction et enrichissement d'ontologies

Responsables : Christophe Beauce (EADS) et Marie-Christine Rousset (IMAG)

Mostrare, en tant que partenaire académique, propose ses compétences pour améliorer les modules d'apprentissage des techniques d'enrichissement et de construction automatique d'ontologies : algorithmes de boosting, algorithmes d'inférence grammaticale pour les données arborescentes, etc.

D'autre part, en fonction de l'analyse des besoins, nos outils d'extraction d'information à partir de données semi-structurées peuvent être adaptés pour la construction et l'enrichissement d'ontologies.

Sous-lot 3.2 : Découverte automatique de mappings entre ontologies

Responsables : Jérôme Euzenat (Exmo) et Chantal Reynaud (Gemo)

Sous-lot 3.3 : Annotation sémantique de documents par les termes d'une ontologie

Responsables : Patrice Buche et Ollivier Haemmerlé.

Réunions

Documents	Date	Lieu	Thème	Représentants Mostrare
-	28/03/2008 10h00-13h00	INRIA Lille	Lot 2	Fabien Torre
CR	28/01/2008 10h00-13h00	AgroParisTech	Lot 2	Fabien Torre
	23/11/2007 9h30-18h00	CEA Fontenay	Revue	Fabien Torre
CR	15/10/2007 14h00-18h00	AgroParisTech	Lot 2	Fabien Torre
	5/10/2007 10h00-17h00	INAPG	Lot 3	Marc Tommasi
	28/09/2007 14h00-18h00	CEA Fontenay	AG	-
CR	9/07/2007 10h00-13h00	LIP6	Lot 2	Fabien Torre
	30/05/2007 10h00-17h00	Thalès Palaiseau	Workshop interne	Matthieu Keith, Fabien Torre et Missi Tran
CR	14/05/2007 10h00-13h00	INAPG	Lot 2	Fabien Torre
	11/05/2007 14h00-17h00	INAPG	Sous-lot 3.1	-
	11/05/2007 10h00-13h00	INAPG	Sous-lot 3.3	-
CR	4/02/2007 10h00	INAPG	Lot 2	Fabien Torre
	22/01/2007 09h30	CEA Fontenay	Comité de pilotage	Rémi Gilleron
	19/01/2007 10h00	INAPG	Sous-lot 3.2	Marc Tommasi
	21/12/2006 14h00	INAPG	Sous-lot 3.3	-
	21/12/2006 10h00	INAPG	Sous-lot 3.1	-
CR	4/12/2006 10h00	INAPG	Lot 2	Fabien Torre et Matthieu Keith
	24/10/2006 10h00 à 13h00	INAPG	Lot 3	Rémi Gilleron
CR	2/10/2006 10h00	INAPG	Lot 2	Fabien Torre
CR	11/07/2006	CEA Fontenay	Lot 2	Fabien Torre
	7/07/2006		Sous-lot 3.2	-
CR	5/07/2006		Sous-lot 3.3	Rémi Gilleron
	4/07/2006		Sous-lot 3.1	-
	31/05/2006		Lot 3	Marc Tommasi et Florent Jousse
	24/04/2006		Kick-off meeting	Marc Tommasi et Jean-Philippe Nirel

Documents

Rapports d'activité

RA au 1er janvier 2008 : au format ODT ;
RA au 1er juillet 2007 : au format ODT ;
RA au 1er janvier 2007 : en html ou au format ODT ;
RA au 1er septembre 2006 : en html ou en word.

Fournitures

interfaces des services Formating

Compte-rendus de réunions

Lot 2, 28 janvier 2008 par Fabien Torre
revue du projet,23 novembre 2007 par Fabien Torre (réservé aux membres du projet)
Lot 2, 15 octobre 2007 par Fabien Torre
Lot 2, 9 juillet 2007 par Fabien Torre
Lot 2, 14 mai 2007 par Fabien Torre
Lot 2, 5 février 2007 par Fabien Torre
Lot 2, 4 décembre 2006 par Fabien Torre
Lot 2, 2 octobre 2006 par Fabien Torre
Lot 2, 11 juillet 2006 par Fabien Torre
Lot 3.3, 5 juillet 2006 par Rémi Gilleron

Présentations Mostrare

Lot 2, 11 juillet 2006 par Fabien Torre
Kickoff du 24 avril 2006 par Marc Tommasi

site de Fabien Torre

Projet WebContent

Généralités

Lot 2 : Extraction de contenu

Sous-lot 2.1 : Extraction des Informations et création des wrappers

Sous-lot 2.2 : Découverte du Web caché et classification

Fournitures

Lot 3 : Enrichissement sémantique

Sous-lot 3.1 : Construction et enrichissement d'ontologies

Sous-lot 3.2 : Découverte automatique de mappings entre ontologies

Sous-lot 3.3 : Annotation sémantique de documents par les termes d'une ontologie

Réunions

Documents

Rapports d'activité

Fournitures

Compte-rendus de réunions

Présentations Mostrare

Description

Une photo au hasard