Retour à la liste de résultats

Un outil d'extraction terminologique endogène et multilingue

Auteur : Vergne Jacques
Collectivite Auteur : Université de Caen
Date de publication : 11/06/2003
Année de Publication : 0
Type : Article
Thème : Outils de traitement des informations
Couverture : France

Résumé/Sommaire :

Dans cet article, nous présentons un outil d'extraction terminologique "endogène" à partir d'un corpus multilingue. Cet outil est qualifié d'endogène car, sans autre ressource que le corpus dont il doit extraire les termes, il calcule les mots vides à partir de ce corpus pour centrer les termes candidats sur des mots pleins. Il est placé dans le cadre d'un système de constitution automatique de revue de presse à partir de sites de presse présents sur l'internet1. Il s'agit de répondre à des questions telles que : "de qui, de quoi est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?". Le corpus est constitué des textes des hyperliens des "Unes" des sites de presse de langues inconnues a priori. Il est renouvelé quotidiennement, et sa taille est d'environ 100 Ko (débalisé). La méthode est fondée sur l'analyse distributionnelle, et utilise des différences entre mots contigus : les différences de longueur et d'effectif.
Traduire le résumé vers :
Recherche

Recherche

Recherche avancée
Navigation par

Navigation par :

Filtrer votre recherche

Sélectioner un domaine *

Sélectionner une thematique

Sélectionner une rubrique

Sélectionner une sous-rubrique

*Champs obligatoires
Chercher sur Abhatoo avec Google :