Retour à la liste de résultats
Un outil d'extraction terminologique endogène et multilingue
Auteur :
Vergne
Jacques
Collectivite Auteur :
Université de Caen
Date de publication : 11/06/2003
Année de Publication :
0
Type : Article
Thème : Outils de traitement des informations
Couverture : France
Résumé/Sommaire :
Dans cet article, nous présentons un outil d'extraction terminologique "endogène" à partir d'un corpus multilingue. Cet outil est qualifié d'endogène car, sans autre ressource que le corpus dont il doit extraire les termes, il calcule les mots vides à partir de ce corpus pour centrer les termes candidats sur des mots pleins. Il est placé dans le cadre d'un système de constitution automatique de revue de presse à partir de sites de presse présents sur l'internet1. Il s'agit de répondre à des questions telles que : "de qui, de quoi est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?". Le corpus est constitué des textes des hyperliens des "Unes" des sites de presse de langues inconnues a priori. Il est renouvelé quotidiennement, et sa taille est d'environ 100 Ko (débalisé). La méthode est fondée sur l'analyse distributionnelle, et utilise des différences entre mots contigus : les différences de longueur et d'effectif.
Traduire le résumé vers :