Canal-U

Mon compte
Centre d'Enseignement Multimédia Universitaire (C.E.M.U.)  Université de Caen Normandie

06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)


Copier le code pour partager la vidéo :
<div style="position:relative;padding-bottom:56.25%;padding-top:10px;height:0;overflow:hidden;"><iframe src="https://www.canal-u.tv/video/centre_d_enseignement_multimedia_universitaire_c_e_m_u/embed.1/06b_attribution_d_auteur_approche_multilingue_fondee_sur_les_repetitions_maximales_taln2015.18677?width=100%&amp;height=100%" style="position:absolute;top:0;left:0;width:100%;height: 100%;" width="550" height="306" frameborder="0" allowfullscreen scrolling="no"></iframe></div> Si vous souhaitez partager une séquence, indiquez le début de celle-ci , et copiez le code : h m s
Contacter la chaine
J’aime
Imprimer
partager facebook twitter

06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)

Sessions orales TALN 2015 – Mardi 23 juin 2015

Session Classification et Alignement

Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales

Romain Brixtel, Charlotte Lecluze et Gaël Lejeune

Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.
Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.
A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.
Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères.
Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales).
Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.
 

commentaires


Ajouter un commentaire Lire les commentaires
*Les champs suivis d’un astérisque sont obligatoires.

L'inspecteur 30/06/2016 16h01

N'équivaut pas à David Lafarge mais reste tout de même excellent !
 

Dans la même collection

FMSH
 
Facebook Twitter
Mon Compte