Je me présente d'abord Ilana Sasso, je suis enseignante chercheuse à l'université de Tours au département langue étrangère appliquée où j'enseigne l'anglais, notamment la traduction, grammaire et le traitement automatique de la langue. En recherche, je suis médiéviste, je travaille sur des manuscrits médiévaux que j'édite avec l'aide de collègues extraordinaires qui sont ici présents parmi nous, notamment Georges Fins, qui est un cher ami etroit collaborateurs sur un projet ANR qui s'appelle Psalteratio, où avec l'équipe, nous sommes en train de proposer une édition numérique d'un ensemble de psautiers médiévaux du 13e, 14e siècle en français et en anglais médiéval et on utilise pas mal le numérique. Donc ça, c'est pour le petit préambule. Avant de passer, avant de parler des applications en recherche, je vais vous parler, vous montrer notamment ce que je fais avec les étudiants de L1 et L2 dans le cours de traitement automatique de la langue. Donc, je vais donc vous partager mon écran. Voilà, je pense que là vous vous voyez tous autant que vous êtes et il n'y a pas plus simple que... Vous voyez là mon écran ? Oui, super. Donc ça, c'est la page Célène du cours pour les premières années. C'est un cours que j'ai commencé à proposer à partir de l'année dernière, année où nous avons, comme vous savez, la plupart d'entre vous, changé d'offre de formation ou de maquette. Donc, c'était une nouveauté, un nouveau cours. Donc, il y a eu beaucoup de ratés, mais il y a eu aussi beaucoup de choses plutôt intéressantes. Pour rejoindre ma collègue tout à l'heure sur son intervention de la traduction automatique, pour les étudiants, le réflexe en cours de traduction, c'était d'aller sur Reverso, quelle horreur ? Et Google Traduction. Quelques-uns allaient vers DeepL, mais ce n'était pas leur choix de prédilection, c'était Google Trad. Et le premier cours, c'était intitulé tout simplement « Pourquoi Google Trad ? C'est de la daube, pour rester poli ». C'est un cours où on fait l'introduction des modèles de traduction statistique, où les mots sont traduits, non pas avec du sens et en contexte, mais en fonction de leur probabilité statistique de s'enchaîner. Un petit quiz autoréflexif sur les outils de traitement automatique du langage naturel, Natural Language Processing Tools, où ils avaient ce petit devoir à faire. Voilà, qu'est-ce que j'utilise, pourquoi et quand ? Ils étaient invités à être candides sur la démarche, parce que, voilà, tout le monde dit « Mais non, madame, je vous jure, j'ai fait ma traduction tout seul ». Hum, dis donc, ça sonne vachement à du Google Trad. Ensuite, on commençait avec des concepts très théoriques. Qu'est-ce que c'est que le Natural Language Processing ? Et justement, à la fin de chaque cours, pour leur montrer la standardisation dont ma collègue tout à l'heure avait parlé, l'appauvrissement du langage, le AI Language, je générais un petit compte-rendu des notes de cours avec ChatGPT. Vous reconnaîtrez sans doute le format. Pardon. Ensuite, on passait sur la façon dont les Natural Language Processing, le traitement automatique de la langue fonctionne, le texte pre-processing, feature extraction, text analysis and model training, avec leurs applications respectives, mais ça restait uniquement introductif. Les étudiants n'avaient pas encore de prise en main. Dans les applications, on regardait des exemples très spécifiques ou dans les domaines d'application de la santé, de la finance, le domaine légal et aussi le domaine financier, plus spécifiquement celui des assurances, toujours ayant à l'esprit le fait que ce sont des étudiants de langues étrangères appliquées qui ne seront pas des traducteurs, ils ne seront pas des enseignants de langue. et qu'ils ont besoin de cette approche que les Anglais appellent « work smart, not hard », travailler intelligemment, pas comme un stakhanoviste. Ensuite, les billets. Pardon. Excusez-moi les fameuses miasmes. Les billets. Dans l'ambiguïté de langage, tous les éléments que ma collègue a soulevés tout à l'heure dans son intervention, l'ambiguïté du langage, comme « the bank », en fonction de, ça peut être, si c'est un contexte financier, bien sûr c'est une institution financière, mais ça peut être aussi le bord, les berges d'une rivière. Le billet de genre, notamment, où « the doctor » est 99,9% du temps traduit par « le médecin » et il n'y a aucune féminisation de la nomenclature qui devrait être plus inclusive. Les nouvelles tournures idiomatiques, ou moins nouvelles, comme « spill the tea » ou « spill the beans », « vas-y, raconte-moi tout », ou « on fleek », c'est toutes les expressions jeunes, argotiques, vivantes, qui ne sont même pas encore entrées dans les dictionnaires, c'est très difficile de les appréhender en traitement automatique de la langue. La machine ne sait pas faire la différence. Pareil pour le sarcasme et l'humour, où le ton de « oh great, another traffic jam » pourrait être traduit par la machine « oh chic alors », encore un embouteillage, qui n'est pas de la joie, mais de la frustration. Donc voilà, je ne vais pas vous faire tout le cours de traitement automatique de la langue que je fais avec les étudiants. Voilà, on étudie ensuite d'un peu plus près les exemples des applications du traitement automatique de la langue, comme les filtres pour les mails. On a tout ça dans notre Gmail et même dans le Zimbra de l'université. On met des étiquettes et on filtre automatiquement nos mails. C'est du traitement automatique de la langue pure et simple. Ensuite, tout ce qui est Siri, Alexa, Claude, tous les assistants personnels, avec des exemples réels d'un agenda connecté, dans l'occurrence mon agenda connecté, qui appelle un salon de coiffure pour prendre un rendez-vous pour un brushing. Du moment où l'agenda a tous les créneaux, l'assistant personnel, que ce soit Siri, Alexa ou Claude, en fonction de votre appareil connecté, il peut vous prendre rendez-vous sans que vous ayez à passer par la case « je prends mon téléphone et c'est moi-même qui appelle ». On a tous horreur d'appeler pour prendre des rendez-vous. Et c'est là que, vers la fin du cours, on touche ensuite du doigt deux enjeux qui sont, à mon sens, extrêmement importants pour les étudiants à cerner, notamment les enjeux légaux, protection des données et des utilisateurs et les impacts environnementaux. Parce qu'il faut avoir aussi une réflexion autocritique et éthique de notre utilisation. C'est bien sympa de demander à ChadGPT « tiens, j'ai ça dans mon frigo, aide-moi à faire une bonne recette à partir de ce que j'ai ». Mais ça pompe des ressources énormes en termes d'électricité, les PFAS, les pollueurs à jamais. Comment ça s'appelle en français ? Aidez-moi. Ce ne sont pas les perturbateurs endocriniens, mais vous voyez de quoi je parle. C'est ces choses qui ne se décomposent jamais. PIFAS ? Oui. C'est quoi le français pour PIFAS ? Aucune idée. Les forever chemicals. Les pollueurs éternels. Les pollueurs éternels. Voilà, merci beaucoup. Les pollueurs éternels. De tout le plastique, tous les produits chimiques qui sont utilisés pour l'entretien et l'opération des gros centres de données qui sont derrière les large language models et les IA. Donc, comme, encore une fois, ce sont des étudiants de langues étrangères appliquées qui vont faire des mobilités étudiantes internationales et qui vont faire des stages à l'international, il est important qu'ils prennent connaissance des cadres légaux du traitement de leurs données et comment on peut utiliser les intelligences artificielles. Parce que ce qui est valable en France est peut-être valable grosso modo à échelle européenne. je ne parle pas de l'Europe continentale mais de l'Europe en tant que communauté européenne mais ce n'est pas forcément le cas et d'ailleurs ce n'est pas du tout le cas aux États-Unis, en Russie et dans d'autres pays au monde. Donc, c'est pourquoi j'ai décidé d'introduire ce cours qui est un peu moins digeste mais néanmoins très important de tout ce qui est le European Data Act, la protection des données et l'utilisation des données personnelles de l'IA et le statut des produits générés par les IA à qui appartiennent-ils ? Appartiennent-ils à l'utilisateur ? Appartiennent-ils au consortium qui possède l'IA ? Il faut savoir parce qu'ils n'ont pas toujours cette notion de plagiat s'ils donnent des prompts à ChatGPT. Est-ce que le résultat appartient à ChatGPT ? Leur appartient en totalité à eux les étudiants ou c'est moitié-moitié ? Pour celles et ceux d'entre vous qui avez déjà utilisé, par exemple, DeepL, le fait de... On peut faire un test. Si vous voulez, je vous laisse le faire sur vos ordinateurs. Vous prenez quatre paragraphes de n'importe quel texte, vous le traduisez avec DeepL, vous le copiez-collez dans un fichier Word. À la fin, il est ajouté automatiquement une ligne traduit avec DeepL, deux points, et l'adresse URL du traducteur automatique. Le fait d'effacer cette ligne qui est rajoutée automatique, la machine aide les étudiants à être honnêtes et à sourcer leur travail. Mais le fait d'effacer cette ligne et de faire passer une traduction pour la leur, est-ce que c'est du plagiat, est-ce que c'est du vol de propriété intellectuelle ou pas ? Donc, nous avions des discussions de ce genre-là. Pour finir, il y avait également une formation à distance en ligne sur FUN, France Université Numérique, un MOOC qui s'appelle Environmental Impact of Digital Technology. Là, pour le coup, c'était pour appréhender quels sont les impacts environnementaux de tout ce qui est utilisation de traducteurs automatiques, JGPT, mais également Google, etc. et essayer de faire la part des choses. Ce n'est pas parce qu'on ne le voit pas, nous, sur nos machines, qu'il n'y a pas un impact. Et on ne peut pas, bien sûr, l'ignorer. Donc, ça, c'était pour les premières années. Pour les deuxièmes années, il y avait un côté réflexif beaucoup plus poussé où ils devaient écrire des dissertations sur leur utilisation des outils de traitement automatique de la langue et des large language models avec des thématiques spécifiques. Et ça a été une... Il y avait une trentaine. Voilà, c'est le 31 mars 2025. J'ai recueilli des témoignages très intéressants tout le long de la... Pardon. Oh, zut. Je reviens sur ma page. J'ai l'attention d'un poisson rouge. J'entends une alerte et j'y vais. Donc, je reviens. J'ai recueilli des témoignages très intéressants de la part des étudiants, notamment dans les questions... Enfin, les prompts 16 à 20 sur l'usage personnel et l'expérience. où la majorité des étudiants que j'avais en cours, en tout cas, et je ne peux pas... Je ne veux pas extrapoler ces résultats à l'échelle de l'université ou, pire encore, à l'échelle des étudiants de France et de Navarre. Mais nos étudiants pensent que ce qui est généré par la machine est foncièrement, intrinsèquement et sans aucun appel, meilleur que ce qu'ils pourraient jamais produire, eux, par eux-mêmes, avec les outils que nous les enseignons, on leur donne. Ce qui est un constat assez glaçant. Et je me suis dit qu'il faut que nous, la communauté enseignante, on fasse mieux. Il faut qu'on valorise un peu plus leur travail personnel et qu'on leur apprenne, effectivement, comme disait ma collègue tout à l'heure, que la machine, elle est là pour assister, mais c'est tout. Elle n'est pas là pour remplacer l'humain et ils ne vont pas perdre leur boulot à cause du NIA. Pour revenir à quelque chose de beaucoup plus contemporain, aujourd'hui, ce matin, en cours de traduction avec les L3, je leur ai donné un travail de post-édition qui ressemble à cela. Attendez. Là, c'est la traduction The Raw French Translation provient de Deep L et c'est donc un rapport financier de Apple, le rapport financier trimestrier de la compagnie Apple. Et ils avaient donc des segments à travailler en post-édition, sachant que c'est un texte qu'ils avaient déjà travaillé en traduction humaine auparavant et que nous avions travaillé ensemble et corrigé en cours. Donc ça, c'est pour le côté enseignement. Donc voilà, avec les étudiants, je fais de la post-édition, je leur apprends mais non pas dans un, de la post-édition, non pas pour devenir des traducteurs, mais pour pouvoir évoluer dans le monde du travail une fois leurs études achevées, parce que lorsqu'ils reviennent de stage, quand ils sont en Master 1, Master 2 de langue étrangère appliquée, ils disent tous « Madame, on nous a demandé non pas si on sait travailler avec les IA, mais quels IA on a appris à utiliser pendant nos études. » Donc il faut leur apprendre. On leur demande, c'est à nous, à l'université, je pense aussi à leur donner les bons outils. Voilà pour le volet enseignement. Je passe très rapidement à la recherche, je vois le temps qui s'écoule. Georges, j'espère que tu ne me jetteras pas des cailloux pointus si je dis des bêtises. Pour cette partie-là, j'ai fait une petite, un tout petit PowerPoint. View. Non, ce n'est pas view. Je ne sais pas. Slide show, mais oui. Play from current slide. Voilà. Dans les recherches que nous menons actuellement, dans le projet Epsalteratio que j'ai la chance de co-diriger ensemble avec un collègue de l'université de Poitiers et avec le soutien indéfectible de la MSH Val-de-Loire. Donc comme je vous disais, nous travaillons sur l'édition de manuscrits médiévaux. Parfois, quand on travaille avec beaucoup, beaucoup, beaucoup de textes comme ça, nous avons besoin, si vous ne savez pas à quoi ressemble un texte médiéval, eh bien voilà. Celui-là, c'est le psautier d'Eléonore de Bretagne et celui-là, c'est la vie de Saint-Audrey, les deux appartenant, les deux faisant partie du corpus étudié dans les projets de recherche où je travaille. Alors, comment l'IA peut nous aider à faire face à ce genre de texte ? Notamment quand on parle de plusieurs psautiers. Alors, je ne sais pas si vous avez déjà eu l'occasion d'avoir ne serait-ce qu'une Bible d'aujourd'hui entre les mains. C'est une quantité de textes loin d'être négligeable. Ce qui veut dire que nous n'avons pas forcément tout le temps à disposition et encore moins les financements pour pouvoir tout étudier. C'est là qu'interviennent l'IA et notamment sous la forme de Transcribus ou Escriptorium. Je ne vous parlerai aujourd'hui que de Transcribus. Escriptorium, ça viendra dans un second temps. Je suis encore en train de m'approprier l'outil. Transcribus, donc voilà, c'est un IA, un outil IA développé à la base par l'école des chartes par des chercheurs de l'école des chartes. Maintenant, ça a été rapatrié à l'université de Innsbruck en Allemagne, si je ne me trompe pas. Et comme vous voyez, dans les fonctions, il y a la reconnaissance de textes écrits, donc manuscrits par l'IA. On peut entraîner ses propres IA, enrichir les données avec des éléments donc de métadonnées et baliser le texte reconnu par l'IA pour ensuite arriver à des textes encodés en XML-TEI pour pouvoir permettre une publication numérique plus facile. Pour pouvoir faire ça, donc avant, on installait la machine. C'est toujours pareil, on peut installer une machine locale, on peut utiliser le portail et les serveurs de Transcribus, mais récemment, ils ont développé encore un autre qui paraît un gadget, mais pour les travailleurs avec des manuscrits médiévaux comme moi, c'est une aubaine, c'est le scan tent, c'est littéralement une petite tente où on peut scanner, faire une photo du manuscrit et ça peut être transcrit par l'IA pratiquement en temps réel. Ça aide, voilà, j'arrête le partage et je vous partage uniquement mon visage. La rapidité que l'IA en recherche peut donner pour une discipline qui est la mienne, l'édition de textes anciens est loin d'être négligeable. Elle n'est absolument pas du tout parfaite, mais ça crée une base avec les jeunes doctorants, les étudiants en master et avec d'autres chercheurs. On peut se divider le travail, voilà, encore selon la méthode work smart, not hard, parce que de toute façon, une transcription, un premier jet, il faut le corriger et comme ça, on peut avoir accès plus rapidement à des données textuelles de manuscrits qui sont autrement inaccessibles, comme par exemple depuis deux ans avec la paralysie de la British Library où plus aucun manuscrit n'est consultable. Et je vais m'arrêter là pour pouvoir garder quelques minutes pour des questions si vous en avez. je vous remercie beaucoup pour votre attention.
L’IA dans l’enseignement et la recherche : applications critiques et défis éthiques
Retranscription