Conférence
Notice
Lieu de réalisation
Boussac (Creuse)
Langues :
Français, Occitan (xxe siècle), provençal
Crédits
celine ferlita (Réalisation)
Détenteur des droits
CNRS
Conditions d'utilisation
Droit commun de la propriété intellectuelle
Citer cette ressource :
CNRS – Service audiovisuel d'ARDIS (UAR2259). (2022, 7 octobre). Constitution d’un corpus TAL occitan : états des lieux et perspectives , in 3es rencontres sur les parlers du Croissant. [Vidéo]. Canal-U. https://www.canal-u.tv/135876. (Consultée le 22 mai 2024)

Constitution d’un corpus TAL occitan : états des lieux et perspectives

Réalisation : 7 octobre 2022 - Mise en ligne : 16 décembre 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

Constitution d'un corpus de traitement automatique des langues (TAL) en occitan : état des lieux et perspectives Michaël Barret (Le Congrès permanent de la langue occitane)

Bien qu’elle soit une langue minorisée, la langue occitane jouit d'une production abondante autant à l'écrit qu’à l'oral. L'intérêt de bâtir un corpus spécifique au traitement automatique des langues (TAL) en occitan, contrairement à d’autres corpus, a pour objectif principal de constituer une matière fondamentale de développement numérique de la langue. Il faut d’abord en revenir à la genèse de la constitution d'un corpus TAL occitan, en le définissant de façon précise, et en expliquant à quoi il servira. En effet l'exploitation (dans le cadre légal qui la rend possible) qu’il en est fait définit souvent les caractéristiques d'un corpus, qu’il s’agisse de recherches sur la narration orale (Carruthers & Vergez-Couret) ou sur des matériaux écrits, comme celui de BaTelOc (Bras & Vergez-Couret). Nous analyserons également les spécificités d'un corpus TAL en langues minorisées, plus particulièrement en occitan (variétés graphiques, intradialectales, codification numérique...), comme nous l’avons fait pour créer Votz, le premier outil de synthèse vocale en occitan (Corral et al.). La procédure de constitution et de traitement de corpus TAL obéit à des contraintes (légales, de temps, de moyens...) et requiert un travail méthodique (formatage, annotations cohérentes, inventaire...) ; il fait néanmoins face à des obstacles et des limites. Nous reviendrons sur la nécessité forte de la contribution du grand public et de quelle façon elle s’est déroulée pour obtenir un résultat qualitatif et quantitatif suffisamment satisfaisant pour pouvoir être exploitable. Par la suite, les applications concrètes déjà existantes et à venir seront présentées en détail, en mesurant et en et en opérant les choix les plus pertinents pour l'exploitation du corpus. Les avancées en termes de quantité, de diversité, et de pluralité de critères de recherche permettront même une amélioration de la recherche scientifique dans des domaines aussi divers que la phonologie, la dialectologie ou encore la traduction. Les perspectives de croissance de corpus autant que les projections en termes de coopération et de transfert de technologie envers d'autres langues minorisées représentent une opportunité majeure pour l’avenir de ces mêmes langues.

Thème
Discipline :

Dans la même collection