Conférence
Notice
Langue :
Français
Conditions d'utilisation
Droit commun de la propriété intellectuelle
DOI : 10.60527/zmv8-s790
Citer cette ressource :
CEMU. (2015, 23 juin). 06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015) , in Session classification et alignement (taln 2015). [Vidéo]. Canal-U. https://doi.org/10.60527/zmv8-s790. (Consultée le 22 mai 2024)

06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)

Réalisation : 23 juin 2015 - Mise en ligne : 17 juillet 2015
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

Sessions orales TALN 2015 – Mardi 23 juin 2015

Session Classification et Alignement

Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales

Romain Brixtel, Charlotte Lecluze et Gaël Lejeune

Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères.Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales).Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.

Dans la même collection

Sur le même thème