Constitution d’un corpus TAL occitan : états des lieux et perspectives
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
- audio 1 audio 2 audio 3
Descriptif
Constitution d'un corpus de traitement automatique des langues (TAL) en occitan : état des lieux et perspectives Michaël Barret (Le Congrès permanent de la langue occitane)
Bien qu’elle soit une langue minorisée, la langue occitane jouit d'une production abondante autant à l'écrit qu’à l'oral. L'intérêt de bâtir un corpus spécifique au traitement automatique des langues (TAL) en occitan, contrairement à d’autres corpus, a pour objectif principal de constituer une matière fondamentale de développement numérique de la langue. Il faut d’abord en revenir à la genèse de la constitution d'un corpus TAL occitan, en le définissant de façon précise, et en expliquant à quoi il servira. En effet l'exploitation (dans le cadre légal qui la rend possible) qu’il en est fait définit souvent les caractéristiques d'un corpus, qu’il s’agisse de recherches sur la narration orale (Carruthers & Vergez-Couret) ou sur des matériaux écrits, comme celui de BaTelOc (Bras & Vergez-Couret). Nous analyserons également les spécificités d'un corpus TAL en langues minorisées, plus particulièrement en occitan (variétés graphiques, intradialectales, codification numérique...), comme nous l’avons fait pour créer Votz, le premier outil de synthèse vocale en occitan (Corral et al.). La procédure de constitution et de traitement de corpus TAL obéit à des contraintes (légales, de temps, de moyens...) et requiert un travail méthodique (formatage, annotations cohérentes, inventaire...) ; il fait néanmoins face à des obstacles et des limites. Nous reviendrons sur la nécessité forte de la contribution du grand public et de quelle façon elle s’est déroulée pour obtenir un résultat qualitatif et quantitatif suffisamment satisfaisant pour pouvoir être exploitable. Par la suite, les applications concrètes déjà existantes et à venir seront présentées en détail, en mesurant et en et en opérant les choix les plus pertinents pour l'exploitation du corpus. Les avancées en termes de quantité, de diversité, et de pluralité de critères de recherche permettront même une amélioration de la recherche scientifique dans des domaines aussi divers que la phonologie, la dialectologie ou encore la traduction. Les perspectives de croissance de corpus autant que les projections en termes de coopération et de transfert de technologie envers d'autres langues minorisées représentent une opportunité majeure pour l’avenir de ces mêmes langues.
Thème
Notice
Dans la même collection
-
Les langues régionales en Nouvelle-Aquitaine
Jean-Luc Armand (Région Nouvelle-Aquitaine) Les langues régionales en Nouvelle-Aquitaine
-
Le Petit Prince dans l’Encrier
Dans notre intervention, nous ferons le point sur l’évolution de notre maison d’édition depuis ses débuts, en mettant l’accent sur les éditions du Petit Prince dans les parlers du Croissant.
-
Entre langue d’oc, langues d’oïl, marginalisation et redécouverte : une enquête sociolinguistique d…
Cette communication a pour but de présenter, d’analyser et de discuter les résultats de l’enquête sociolinguistique que j’ai effectuée dans le cadre de mon mémoire de licence.
-
L’intérêt de la cartographie et ce qu’elle nous révèle sur les parlers du CroissantDeparisAmélie
Le Croissant linguistique, nommé ainsi par Ronjat (1913) est une zone de contact entre les langues d’oïl au nord (poitevin-saintongeais, berrichon et bourbonnais) et l’occitan au sud (limousin, et
-
Scripturalité juridique et variétés régionales : la langues des « Comptes consulaires » de Montferr…
Le rôle de l'empreinte régionale, voire locale, de la scripturalité occitane est sujet de controverse. Les défenseurs du caractère intrinsèquement dialectalisé de l'occitan écrit et ceux qui au
-
Des attaques branchantes dans le Croissant
Dans les verbes des parlers de Nouzerines et Saint-Pierre-le-Bost (Creuse), une séquence finale Consonne-Liquide (CL) est séparée par une voyelle accentuée [œ] (en gras dans 1i, cf. 1ii,iii)
-
Graphies et productions autochtones : les différentes options disponibles pour les auteurs
Les questions graphiques sont centrales à l’élaboration de tout ouvrage. En nous aidant d'une analyse qualitative et ethnographique d'une dizaine d'ouvrages autochtones réalisés par certains locaux du
-
Y’a une lèbre dans la cherbe : étude de la variation du genre dans les parlers du Croissant, d’aprè…
Suite à une étude sur les parlers francoprovençaux (Sauzet & Brun-Trigaud, à par.) et à des travaux sur l’assignation des noms en genre dans différentes langues du monde (Allassonnière-Tang et al.
-
Le Croissant d’Indre : un aperçu des parlers marchois de l’extrême-nordQuintNicolas
À l’exception peut-être de quelques rares points situés en Allier (p.ex. Viplaix), c’est en Indre (Tourtoulon & Bringuier 1876) que l’on rencontre les parlers croissantins les plus septentrionaux.
-
Perception de la variation linguistique des parlers du Croissant dans l’enquête des Coquebert de Mo…KödelSven
Dans le cadre de l’enquête du Premier Empire sur les langues et dialectes de France, le territoire du Croissant est couvert dès 1806 afin de déterminer la limite entre Oc et Oïl. Mais alors que
-
Les systèmes de repérage temporel dans le CroissantSchwer R.Sylviane
Notre exposé porte sur la référence au temps dans le Croissant sous la forme des compléments de temps exprimant d’une part la durée et d’autre part la localisation temporelle. Il s’appuie sur les
-
Extraction automatique de termes traduits et enregistrés dans des langues (gallo-)romanes : focus s…Boula de MareüilPhilippe
Nous décrirons, dans cette communication, une méthode d’extraction (semi-)automatique de mots à partir d’une même fable d’Ésope (« La bise et le soleil ») traduite en dialectes romans de France,