Notice
Constitution d’un corpus TAL occitan : états des lieux et perspectives
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
Constitution d'un corpus de traitement automatique des langues (TAL)
en occitan : état des lieux et perspectives
Michaël Barret
(Le Congrès permanent de la langue occitane)
Bien qu’elle soit une langue minorisée, la langue occitane jouit d'une production abondante autant à
l'écrit qu’à l'oral. L'intérêt de bâtir un corpus spécifique au traitement automatique des langues
(TAL) en occitan, contrairement à d’autres corpus, a pour objectif principal de constituer une
matière fondamentale de développement numérique de la langue.
Il faut d’abord en revenir à la genèse de la constitution d'un corpus TAL occitan, en le définissant de
façon précise, et en expliquant à quoi il servira. En effet l'exploitation (dans le cadre légal qui la
rend possible) qu’il en est fait définit souvent les caractéristiques d'un corpus, qu’il s’agisse de
recherches sur la narration orale (Carruthers & Vergez-Couret) ou sur des matériaux écrits, comme
celui de BaTelOc (Bras & Vergez-Couret). Nous analyserons également les spécificités d'un corpus
TAL en langues minorisées, plus particulièrement en occitan (variétés graphiques, intradialectales,
codification numérique...), comme nous l’avons fait pour créer Votz, le premier outil de synthèse
vocale en occitan (Corral et al.).
La procédure de constitution et de traitement de corpus TAL obéit à des contraintes (légales, de
temps, de moyens...) et requiert un travail méthodique (formatage, annotations cohérentes,
inventaire...) ; il fait néanmoins face à des obstacles et des limites. Nous reviendrons sur la nécessité
forte de la contribution du grand public et de quelle façon elle s’est déroulée pour obtenir un résultat
qualitatif et quantitatif suffisamment satisfaisant pour pouvoir être exploitable.
Par la suite, les applications concrètes déjà existantes et à venir seront présentées en détail, en
mesurant et en et en opérant les choix les plus pertinents pour l'exploitation du corpus. Les avancées
en termes de quantité, de diversité, et de pluralité de critères de recherche permettront même une
amélioration de la recherche scientifique dans des domaines aussi divers que la phonologie, la
dialectologie ou encore la traduction. Les perspectives de croissance de corpus autant que les
projections en termes de coopération et de transfert de technologie envers d'autres langues
minorisées représentent une opportunité majeure pour l’avenir de ces mêmes langues.
Thème
Dans la même collection
-
Les langues régionales en Nouvelle-Aquitaine
Jean-Luc Armand (Région Nouvelle-Aquitaine) Les langues régionales en Nouvelle-Aquitaine
-
À la recherche de la limite orientale des parlers poitevin-saintongeais, aux confins des parlers be…
Dans l’Est et le centre du domaine marchois (ouest de l’Allier, Est de l’Indre), la limite entre les parlers berrichons (d’oïl) et les parlers marchois (pour dire vite : mi oc mi oïl) est constituée
-
Le Petit Prince dans l’Encrier
Dans notre intervention, nous ferons le point sur l’évolution de notre maison d’édition depuis ses débuts, en mettant l’accent sur les éditions du Petit Prince dans les parlers du Croissant.
-
Entre langue d’oc, langues d’oïl, marginalisation et redécouverte : une enquête sociolinguistique d…
Cette communication a pour but de présenter, d’analyser et de discuter les résultats de l’enquête sociolinguistique que j’ai effectuée dans le cadre de mon mémoire de licence.
-
L’intérêt de la cartographie et ce qu’elle nous révèle sur les parlers du Croissant
DeparisAmélieLe Croissant linguistique, nommé ainsi par Ronjat (1913) est une zone de contact entre les langues d’oïl au nord (poitevin-saintongeais, berrichon et bourbonnais) et l’occitan au sud (limousin, et
-
Scripturalité juridique et variétés régionales : la langues des « Comptes consulaires » de Montferr…
Le rôle de l'empreinte régionale, voire locale, de la scripturalité occitane est sujet de controverse. Les défenseurs du caractère intrinsèquement dialectalisé de l'occitan écrit et ceux qui au
-
Des attaques branchantes dans le Croissant
Dans les verbes des parlers de Nouzerines et Saint-Pierre-le-Bost (Creuse), une séquence finale Consonne-Liquide (CL) est séparée par une voyelle accentuée [œ] (en gras dans 1i, cf. 1ii,iii)
-
Graphies et productions autochtones : les différentes options disponibles pour les auteurs
Les questions graphiques sont centrales à l’élaboration de tout ouvrage. En nous aidant d'une analyse qualitative et ethnographique d'une dizaine d'ouvrages autochtones réalisés par certains locaux du
-
Y’a une lèbre dans la cherbe : étude de la variation du genre dans les parlers du Croissant, d’aprè…
Suite à une étude sur les parlers francoprovençaux (Sauzet et Brun-Trigaud, à par.) et à des travaux sur l’assignation des noms en genre dans différentes langues du monde (Allassonnière-Tang et al.
-
Extraction automatique de termes traduits et enregistrés dans des langues (gallo-)romanes : focus s…
Boula de MareüilPhilippeNous décrirons, dans cette communication, une méthode d’extraction (semi-)automatique de mots à partir d’une même fable d’Ésope (« La bise et le soleil ») traduite en dialectes romans de France,
-
Le Croissant d’Indre : un aperçu des parlers marchois de l’extrême-nord
QuintNicolasÀ l’exception peut-être de quelques rares points situés en Allier (p.ex. Viplaix), c’est en Indre (Tourtoulon et Bringuier 1876) que l’on rencontre les parlers croissantins les plus septentrionaux.
-
Perception de la variation linguistique des parlers du Croissant dans l’enquête des Coquebert de Mo…
KödelSvenDans le cadre de l’enquête du Premier Empire sur les langues et dialectes de France, le territoire du Croissant est couvert dès 1806 afin de déterminer la limite entre Oc et Oïl. Mais alors que