Notice
Présentation du projet HIGH-TECH
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
Résumé de la communication :
Le séminaire vise à présenter le projet RIN HIGH-TECH (11/21-10/23), porté par le Professeur Pierre Larrivée au CRISCO. Le projet a pour objectif d’améliorer la gestion des vastes ensembles de données historiques en développant des méthodes d’annotation textuelle avancées. La méthode développée a ensuite été utilisée pour annoter un corpus de chroniques normandes couvrant huit siècles d’évolution linguistique (corpus CHRONIQUES).
- Nous montrerons les principes du projet, tout d’abord l’approche hybride, mêlant méthodes par apprentissage statistique avec un analyseur syntaxique automatique et méthodes par règles, ensuite l’adaptabilité de la chaîne de traitement et enfin la nature itérative du processus. Cette approche permet un traitement approfondi du corpus tout en restant économique, couvrant à la fois l’annotation en parties du discours, la lemmatisation et même les premières fonctions syntaxiques.
La création du corpus s’est appuyée sur des ressources et des compétences issues de projets antérieurs, tout en tenant compte des exigences scientifiques et de la disponibilité des outils nécessaires pour traiter un grand corpus dans des délais raisonnables.
- Le corpus CHRONIQUES, annoté au format XML-TEI, est visualisable et interrogeable via le portail TXM du CRISCO qui permet des requêtes en CQL (corpus query language) et via un nouveau site du projet actuellement en cours de développement. Nous présenterons les deux outils et les requêtes qui permettent d’étudier l’évolution des structures syntaxiques ainsi que du vocabulaire en s’appuyant sur les métadonnées présentes dans les fichiers annotés. Parmi d’autres exemples de l’utilisation du corpus, nous citerons la possibilité d’explorer les noms propres mentionnés dans les chroniques et d’analyser l’agentivité des différents personnages historiques. Le corpus outillé facilite donc le repérage des phénomènes recherchés ainsi que la production d’études statistiques sur la totalité du corpus ou des textes sélectionnés par l’utilisateur.
Dans l’esprit de nos collaborations et échanges avec les collègues de l’équipe MICLE et les autres collègues au CRISCO et ainsi qu’avec les stagiaires qui avaient travaillé sur le projet au cours des deux dernières années, le séminaire et l’atelier d’exploration des corpus CHRONIQUES et MICLE prévu pour le 19 octobre, encourageront la participation et les retours des participants pouvant conduire à des développements continus pour améliorer la qualité des données et de la méthodologie existantes.
- La validation des annotations automatiques participe à la mise en lumière des erreurs tout en contribuant à la constitution d’une nouvelle base de réentrainement de modèles pour l’annotation de corpus en diachronie. En regardant vers l’avenir, le séminaire évoquera la nécessité d’évaluer les performances des outils existants afin d’améliorer nos processus, ce qui représentera un des objectifs du nouveau projet RIN AUTOMATED qui débutera au CRISCO en décembre 2023.
Biographie de l'auteur :
Issu d'une formation plutôt orientée sur la linguistique en particulier, la licence et le master en sciences du langage de l'université d'Orléans, Rayan Ziane s'intéresse aux questions d'outillages et de constitution de corpus pour les langues peu dotées. Avec une spécialisation en linguistique outillée et en traitement automatique des langues, il se spécialise dans l'automatisation de l'analyse syntaxique et le treebanking. Aujourd'hui, il assiste les chercheurs des projets MICLE et High-TECH au laboratoire CRISCO en tant qu'ingénieur d'études.
Sur le même thème
-
Il était une fois dans l'Ouest (d'Oïl) : des chorèmes, des territoires et des hommes...
LéonardJean-LéoLa situation géopolitique actuelle met au cœur de l’actualité la notion même de territoire et la pluralité des modes de rapport d’une population à son territoire, imposant de revenir aux fondamentaux
-
Du terrain au smartphone : Création du dictionnaire Android du Bena
IdiatovDmitryDécouvrez comment, après plusieurs années de recherches et d'études, Dmitry Idiatov et Mark Van de Velde, en collaboration avec Uyên-To Doan-Rabier, ont créé une application dédiée à la langue Bena.
-
HTAL : de la collecte au dépôt
LéonJacquelineFaivreCamilleLe projet HTAL, Histoire du traitement automatique des langues est un fond inédit, composé d'environ 1000 documents. Jacqueline Léon, directrice de recherche émérite au CNRS, les a collectés tout au
-
Catégorisation du discours parlementaire sur la citoyenneté britannique durant l’époque victorienne…
Durant la première moitié du XIXème siècle en Grande-Bretagne, le débat politique sur l’élargissement du suffrage révèle des approches divergentes sur les critères d’acquisition du statut de citoyen
-
L’annotation linguistique menée au sein du projet DALIH.
KhurshudyanVictoriaVidal-GorèneChahanPrésentation de cette plate-forme linguistique numérique unifiée en libre accès et open-source pour l'ensemble de la variation arménienne
-
“Focus versus Denial: A pragma-linguistic analysis of the Black Lives Matter and All Lives Matter s…
SorlinSandrine“Focus versus Denial: A pragma-linguistic analysis of the Black Lives Matter and All Lives Matter slogans”
-
Twitter et la linguistique située : réflexions méthodologiques à partir de l’exemple de tweets sur …
BachMatthieuDa CostaArnaudCette communication s’inscrit dans le cadre du projet de recherche interdisciplinaire POPSU visant à entre autres à analyser l’identité métropolitaine et identifier les intérêts des citoyens. Pour
-
Le créole capverdien
QuintNicolasLe Cap-Vert est un archipel d'îles qui se situe à 500 kilomètres environ à l'ouest de Dakar et qui tire son nom historiquement de la péninsule de Dakar qui s'appelle le Cap-Vert. Et le Cap verdien
-
Le suédois de Finlande : présentation de ce dialecte et comparaison lexicale avec le finnois et le …
SabaterMaximeRudyGambinoLaurentMaximeFrontière(s) et déplacement(s) – Journée d’étude Master Études Culturelles et Linguistique
-
En quête de prédicats complexes
AplonovaEkaterinaKatya Aplonova, doctorante au LLACAN, est partie sur le terrain au Togo afin de travailler sur les prédicats complexes en Ginyanga.
-
Intelligence artificielle et histoire de la langue française
LarrivéePierreDans cette vidéo M Larrivée explique comment les outils d’intelligence artificielle, dont les analyseurs syntaxiques automatiques comme HOPS parser permettent aux linguistes de créer des corpus
-