Retour à la liste de résultats
Xed : un outil pour l’extraction et l’analyse de documents PDF
Auteur :
Rigamonti
Maurizio
Hadjar
Karim
Lalanne
Denis
Ingold
Rolf
Collectivite Auteur :
Université de Fribourg
Année de Publication :
0
Type : Article
Thème : Outils de traitement des informations
Résumé/Sommaire :
PDF est devenu le format de prédilection pour l’échange de documents. Cependant, son utilisation se limite à la visualisation et à l’impression. De nouveaux besoins d’extraction du contenu et de recherche sont nés du fait de l’utilisation grandissante du format. Pour cette raison, de nouveaux outils ont fait leur apparition sur le marché. Ces derniers se limitent malheureusement à l’extraction automatique du contenu, sans prendre en considération ni la structure physique ni la structure logique du document.
Nous proposons, dans cet article, une nouvelle approche palliant les insuffisances des outils d’extraction. Cette méthode combine a) des méthodes d’extraction appliquées aux fichiers PDF avec b) des méthodes d’analyse d’image de document visant à extraire la structure physique. Cet article décrit les différentes étapes nécessaires pour réaliser cette tâche.
Traduire le résumé vers :