Retour à la liste de résultats
Méthode d’apprentissage pour la conversion automatique de documents structurés
Auteur :
Fuselier
Jérome
Chidlovskii
Boris
Marty
Jean-Charles
Collectivite Auteur :
Xerox Research Centre Europe
Université de Savoie
Date de publication : 01/01/2005
Année de Publication :
0
Type : Article
Thème : Généralités traitement matériel et méthodes documentaires
Couverture : France
Résumé/Sommaire :
De plus en plus de sociétés désirent moderniser leur systéme de gestion de fond documentaire. Le problème qui se pose à ces entreprises concerne la migration de leurs documents vers un format plus ouvert et offrant plus de possibilités. La tâche de conversion est rendue difficile d’une part à cause de la grande hétérogénéité des documents et d’autre part à cause du très grand volume de données à traiter.
Dans ce papier nous présentons une approche permettant de réaliser des conversions de documents orientés présentation vers des documents sémantiques. L’intérêt de la méthode consiste `àautomatiser le processus de conversion en utilisant des techniques d’apprentissage supervisé pour d´ecouvrir des régles de transformations applicables pour une collection de documents. Nous décomposons la conversion en deux étapes pour simplifier le problème, une première étape d’annotation sémantique des éléments textuels du document d’origine et une seconde étape qui consiste à faire émerger la structure sémantique du document en respectant une grammaire cible qui décrit le langage à utiliser pour les documents finaux. L’approche est probabiliste pour permettre une plus grande robustesse.
Traduire le résumé vers :