Notice
06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
Sessions orales TALN 2015 – Mardi 23 juin 2015
Session Classification et Alignement
Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Romain Brixtel, Charlotte Lecluze et Gaël Lejeune
Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.
Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.
A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.
Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères.
Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales).
Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.
Dans la même collection
-
06c - Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire (…
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Classification et Alignement Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire Hai Hieu Vu,
-
06a - Typologie des langues automatique à partir de treebanks (taln2015)
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Classification et Alignement Typologie des langues automatique à partir de treebanks Philippe Blache, Grégroie de Montcheuil et Stéphane
Sur le même thème
-
HTAL : de la collecte au dépôt
LéonJacquelineFaivreCamilleLe projet HTAL, Histoire du traitement automatique des langues est un fond inédit, composé d'environ 1000 documents. Jacqueline Léon, directrice de recherche émérite au CNRS, les a collectés tout au
-
Rédiger et traduire des métadonnées pour un article : suivez le guide !
Présentation en vidéo du guide "Rédaction et traduction des métadonnées" à destination des auteurs et comités éditoriaux de revues afin d'améliorer le référencement des publications à l'international.
-
Table ronde - Salon PAREIL
JEP-TALN-RECITAL 2016 - Vendredi 8 juillet 2016 Salon PAREIL (Partenariats Recherche et Industries de la Langue) Table ronde Animée par Pierre Zweigenbaum Résumé : La table ronde est centrée les
-
Bilinguismes et compliance phonique
JEP-TALN-RECITAL 2016 - Vendredi 8 juillet 2016 Session commune JEP/TALN 3 Bilinguismes et compliance phonique Marie Philippart de Foy, Véronique Delvaux, Kathy Huet, Myriam Piccaluga, Rima Rabeh and
-
Conférence invitée de Mark Liberman - From Human Language Technology to Human Language Science
LibermanMarkFrom Human Language Technology to Human Language Science
-
Traduire deux Nobel de littérature, Gao Xingjian et Mo Yan
Baryosher-ChemounyMurielDutraitNoëlNoël DUTRAIT est professeur au département d’études asiatiques en langue et littérature chinoises à l’Université d’Aix-Marseille où il dirige l’équipe de recherche sur les « Littératures d’Extrême
-
02b - Multi-alignement vs bi-alignement : à plusieurs, c’est mieux ! (taln2015)
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Traduction Multi-alignement vs bi-alignement : à plusieurs, c’est mieux ! Olivier Kraif Résumé : Dans cet article, nous proposons une
-
04d - Extraction automatique de paraphrases grand public pour les termes médicaux (taln2015)
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Syntaxe et paraphrase Extraction automatique de paraphrases grand public pour les termes médicaux Natalia Grabar et Thierry Hamon Présenté
-
07c - Analyse d’expressions temporelles dans les dossiers électroniques patients (taln2015)
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Compréhension et paraphrase Analyse d’expressions temporelles dans les dossiers électroniques patients Mike Donald Tapi Nzali, Aurélie Névéol
-
11 - Pourquoi construire des ressources terminologiques et pourquoi le faire différemment ? (taln20…
Sessions orales TALN 2015 – Mardi 23 juin 2015 Conférence invitée Pourquoi construire des ressources terminologiques et pourquoi le faire différemment ? Marie-Claude L’Homme Président de
-
03b - Création rapide et efficace d’un système de désambiguïsation lexicale pour une langue peu dot…
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Désambiguïsation Création rapide et efficace d’un système de désambiguïsation lexicale pour une langue peu dotée Mohammad Nasiruddin, Andon
-
05c - Stratégies de sélection des exemples pour l’apprentissage actif avec des CRF (taln2015)
Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Extraction d’information Stratégies de sélection des exemples pour l’apprentissage actif avec des CRF Vincent Claveau et Ewa Kijak Résumé