Conférence

Extraction automatique de termes traduits et enregistrés dans des langues (gallo-)romanes : focus sur les parlers du Croissant

Réalisation : 7 octobre 2022 Mise en ligne : 26 novembre 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
  • audio 1 audio 2 audio 3
Descriptif

Le traitement automatique de données audio collectées dans des variétés de langues peu dotées, n’est pas aisé. En témoigne la tâche consistant à extraire des paradigmes verbaux à partir de listes de conjugaisons enregistrées in situ, dans plusieurs parlers du Croissant. Nous partirons du travail que nous avons mené, poursuivant cet objectif (Knyazeva et al. 2020), pour l’étendre à un travail plus large de cartographie linguistique. Cherchant à économiser l’effort des linguistes, la difficulté est que les algorithmes d’apprentissage automatique en vogue depuis quelques années nécessitent des quantités de données dont nous ne disposons pas pour les langues minoritaires.

Nous décrirons, dans cette communication, une méthode d’extraction (semi-)automatique de mots à partir d’une même fable d’Ésope (« La bise et le soleil ») traduite en dialectes romans de France, notamment dans le Croissant. La première tâche consistait à déterminer comment une douzaine de mots tels que « bise » ou « soleil » avaient été traduits dans près de 200 versions recueillies sur le terrain— tirant parti de la similitude orthographique, du contexte et de la position des mots. Des occurrences des mots traduits ont ensuite été extraites des enregistrements alignés en phonèmes. Les résultats ont été jugés corrects dans 96–97 % des cas, à la fois sur le corpus de développement et sur un ensemble de tests de données non-vues. Les alignements corrigés ont enfin été cartographiés et des fonds de carte ont été dessinés, avec différents codes couleurs, pour rendre immédiatement visibles divers phénomènes linguistiques. Nous illustrerons comment des expressions régulières peuvent être utilisées à cette fin. Le résultat final, qui prend la forme d’un atlas sonore en ligne (enrichissant le site https://atlas.limsi.fr (Boula de Mareüil et al. 2017)), permet d’illustrer la variation lexicale, morphologique et phonétique.

Références

Knyazeva, Elena, Gilles Adda, Philippe Boula de Mareüil, Maximilien Guérin, Nicolas Quint. 2020. Automatic Extraction of Verb Paradigms in Regional Languages: the case of the Linguistic Crescent varieties, 1st Joint Workshop on Spoken Language Technologies for Under-resourced languages (SLTU) and Collaboration and Computing for Under-Resourced Languages (CCURL), Marseille. 245-249. Boula de Mareüil, Philippe, Frédéric Vernier, Albert Rilliard. 2017. Enregistrements et transcriptions pour un atlas sonore des langues régionales de France. Géolinguistique 17. 23–48.

 

Intervenant
Thème
Discipline :
Notice
Lieu de réalisation
Boussac (Creuse)
Langue :
Français
Crédits
Philippe Boula de Mareüil (Intervenant)
Détenteur des droits
CNRS
Conditions d'utilisation
Droit commun de la propriété intellectuelle
Citer cette ressource :
Philippe Boula de Mareüil. CNRS – Service audiovisuel d'ARDIS (UAR2259). (2022, 7 octobre). Extraction automatique de termes traduits et enregistrés dans des langues (gallo-)romanes : focus sur les parlers du Croissant. [Vidéo]. Canal-U. https://www.canal-u.tv/135112. (Consultée le 3 février 2023)
Contacter

Dans la même collection