Abhatoo - Centre Nationale de Documentation

Accueil >
Maalama Textuelle >
Sciences de l'info... >
Analyse de l'infor... >
Langage naturel et... >
Maîtriser les déluges de données hétérogènes

Maîtriser les déluges de données hétérogènes

Auteur : Illouz G. Habert B. Fleury S. Folch H. Heiden S. Lafon P.
Collectivite Auteur : LIMSI – Université Paris XI ENS Fontenay/Saint-Cloud
Date de publication : 16/07/1999
Année de Publication : 0
Type : Article
Thème : Langage naturel et TALN (Traitement Automatique de la Langue Naturelle)
Couverture : France

URL Article :

http://www.limsi.fr/Individu/gabrieli/CV/Publis/Articles/taln99-typweb.pdf

URL Source :

http://www.limsi.fr/

Télécharger le document :

(0 B) Maîtriser les déluges de données hétérogènes.pdf

Résumé/Sommaire :

Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l’acquisition des connaissances. L’obstacle actuel n’est plus la disponibilité de corpus, ni même leur taille, mais l’hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l’hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d’une telle hétérogénéité pour l’étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de profilage de corpus par le biais d’outils permettant d’évaluer l’ho- mogénéité d’un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l’utilisation qui peut en être faite.

Traduire le résumé vers :

Filtrer votre recherche

Sélectioner un domaine *

Développement durable
Développement économique et social
Sciences de l'information
Sciences et technologies

Sélectionner une thematique

thématique

Sélectionner une rubrique

sthematique

*Champs obligatoires

Chercher sur Abhatoo avec Google :