Retour à la liste de résultats

Évaluation statistique des stratégies d’indexation et de recherche pour les langues asiatiques

Auteur : Savoy Jacques Abdou Samir
Collectivite Auteur : Institut d'informatique, Université de Neuchâtel (Suisse)
Date de publication : 02/02/2006
Année de Publication : 0
Type : Article
Thème : Indexation
Couverture : France
Langue : FR

Résumé/Extrait :

En recherche d’information, les langues asiatiques présentent des défis multiples. Contrairement aux langues européennes, les mots ne se sont pas délimités de manière explicite ce qui pose un problème pour l’indexation. Pour cette raison, plusieurs travaux ont proposé différentes stratégies pour représenter les documents (et requêtes) rédigés dans ces langues. Cet article présente une comparaison des stratégies d’indexation les plus courantes. En particulier, nous avons comparé quatre stratégies pour le chinois et le japonais (unigramme, bigrammes, uni- et bigrammes et finalement les mots) et trois pour le coréen (mots, bigrammes et morphèmes). Basé sur les collections-tests de NTCIR- 5, nous avons évalué ces différentes approches à l'aide de onze modèles de recherche, soit deux approches probabilistes et neuf vectoriels. Une analyse statistique révèle que les quatre tests couramment utilisés en recherche d’information sont corrélés et que cette relation est particulièrement forte entre le test de Student et celui basé sur le ré-échantillonnage aléatoire.
Traduire le résumé vers :
Recherche

Recherche

Recherche avancée
Navigation par

Navigation par :

Filtrer votre recherche

Sélectioner un domaine *

Sélectionner une thematique

Sélectionner une rubrique

*Champs obligatoires
Chercher sur Abhatoo avec Google :