L’IA dans l’enseignement et la recherche : applications critiques et défis éthiques

Je me présente d'abord Ilana Sasso, je suis enseignante chercheuse à l'université de Tours au département langue étrangère appliquée où j'enseigne l'anglais, notamment la traduction, grammaire et le traitement automatique de la langue. En recherche, je suis médiéviste, je travaille sur des manuscrits médiévaux que j'édite avec l'aide de collègues extraordinaires qui sont ici présents parmi nous, notamment Georges Fins, qui est un cher ami et étroit collaborateurs sur un projet ANR qui s'appelle Psalteratio, où avec l'équipe, nous sommes en train de proposer une édition numérique d'un ensemble de psautiers médiévaux du 13e, 14e siècle en français et en anglais médiéval et on utilise pas mal le numérique. Donc ça, c'est pour le petit préambule. Avant de passer, avant de parler des applications en recherche, je vais vous parler, vous montrer notamment ce que je fais avec les étudiants de L1 et L2 dans le cours de traitement automatique de la langue. Donc, je vais donc vous partager mon écran. Voilà, je pense que là vous voyez tous autant que vous êtes et il n'y a pas plus simple que... Vous voyez là mon écran ? Oui, super. Donc ça, c'est la page Célène du cours pour les premières années. C'est un cours que j'ai commencé à proposer à partir de l'année dernière, année où nous avons, comme vous savez, la plupart d'entre vous, changé d'offre de formation ou de maquette. Donc, c'était une nouveauté, un nouveau cours. Donc, il y a eu beaucoup de ratés, mais il y a eu aussi beaucoup de choses plutôt intéressantes. Pour rejoindre ma collègue tout à l'heure sur son intervention de la traduction automatique, pour les étudiants, le réflexe en cours de traduction, c'était d'aller sur Reverso, quelle horreur ? Et Google Traduction. Quelques-uns allaient vers DeepL, mais ce n'était pas leur choix de prédilection, c'était Google Trad. Et le premier cours, c'était intitulé tout simplement « Pourquoi Google Trad ? C'est de la daube, pour rester poli ». C'est un cours où on fait l'introduction des modèles de traduction statistique, où les mots sont traduits, non pas avec du sens et en contexte, mais en fonction de leur probabilité statistique de s'enchaîner. Un petit quiz autoréflexif sur les outils de traitement automatique du langage naturel, Natural Language Processing Tools, où ils avaient ce petit devoir à faire. Voilà, qu'est-ce que j'utilise, pourquoi et quand ? Ils étaient invités à être candides sur la démarche, parce que, voilà, tout le monde dit « Mais non, madame, je vous jure, j'ai fait ma traduction tout seul ». Hum, dis donc, ça sonne vachement à du Google Trad. Ensuite, on commençait avec des concepts très théoriques. Qu'est-ce que c'est que le Natural Language Processing ? Et justement, à la fin de chaque cours, pour leur montrer la standardisation dont ma collègue tout à l'heure avait parlé, l'appauvrissement du langage, le AI Language, je générais un petit compte-rendu des notes de cours avec ChatGPT. Vous reconnaîtrez sans doute le format. Pardon. Ensuite, on passait sur la façon dont les Natural Language Processing, le traitement automatique de la langue fonctionne, le texte pre-processing, feature extraction, text analysis and model training, avec leurs applications respectives, mais ça restait uniquement introductif. Les étudiants n'avaient pas encore de prise en main. Dans les applications, on regardait des exemples très spécifiques, ou dans les domaines d'application de la santé, de la finance, le domaine légal et aussi le domaine financier, plus spécifiquement celui des assurances, toujours ayant à l'esprit le fait que ce sont des étudiants de langues étrangères appliquées, qui ne seront pas des traducteurs, ils ne seront pas des enseignants de langue, et qu'ils ont besoin de cette approche que les Anglais appellent « work smart, not hard », Travailler intelligemment, pas comme un stakhanoviste. Ensuite, les billets. Pardon. Excusez-moi les fameux miasmes. Les billets. Dans l'ambiguïté de langage, tous les éléments que ma collègue a soulevés tout à l'heure dans son intervention, l'ambiguïté du langage, comme « the bank », en fonction de, ça peut être, si c'est un contexte financier, bien sûr c'est une institution financière, mais ça peut être aussi le bord, les berges d'une rivière. Le billet de genre, notamment, où « the doctor » est 99,9% du temps traduit par « le médecin », et il n'y a aucune féminisation de la nomenclature qui devrait être plus inclusive. Les nouvelles tournures idiomatiques, ou moins nouvelles, comme « spill the tea » ou « spill the beans », « vas-y, raconte-moi tout », ou « on fleek », c'est toutes les expressions jeunes, argotiques, vivantes, qui ne sont même pas encore entrées dans les dictionnaires, c'est très difficile de les appréhender, en traitement automatique de la langue. La machine ne sait pas faire la différence. Pareil pour le sarcasme et l'humour, où le ton de « oh great, another traffic jam », pourrait être traduit par la machine « oh chic alors », encore un embouteillage, qui n'est pas de la joie, mais de la frustration. Donc voilà, je ne vais pas vous faire tout le cours de traitement automatique de la langue, que je fais avec les étudiants. Voilà, on étudie ensuite d'un peu plus près, les exemples des applications, du traitement automatique de la langue, comme les filtres pour les mails. On a tout ça dans notre Gmail, et même dans le Zimbra de l'université. On met des étiquettes et on filtre automatiquement nos mails. C'est du traitement automatique de la langue pure et simple. Ensuite, tout ce qui est Siri, Alexa, Claude, tous les assistants personnels, avec des exemples réels d'un agenda connecté, dans l'occurrence mon agenda connecté, qui appelle un salon de coiffure, pour prendre un rendez-vous pour un brushing. Du moment où l'agenda a tous les créneaux, l'assistant personnel, que ce soit Siri, Alexa ou Claude, en fonction de votre appareil connecté, il peut vous prendre rendez-vous, sans que vous ayez à passer par la case « je prends mon téléphone et c'est moi-même qui appelle ». On a tous horreur d'appeler pour prendre des rendez-vous. Et c'est là que, vers la fin du cours, on touche ensuite du doigt deux enjeux qui sont, à mon sens, extrêmement importants pour les étudiants, à cerner, notamment les enjeux légaux, protection des données et des utilisateurs, et les impacts environnementaux. Parce qu'il faut avoir aussi une réflexion autocritique et éthique de notre utilisation. C'est bien sympa de demander à ChatGPT « tiens, j'ai ça dans mon frigo, aide-moi à faire une bonne recette à partir de ce que j'ai ». Mais ça pompe des ressources énormes, en termes d'électricité, les PFAS, les pollueurs à jamais. Comment ça s'appelle en français ? Aidez-moi. Ce ne sont pas les perturbateurs endocriniens, mais vous voyez de quoi je parle. C'est ces choses qui ne se décomposent jamais. PFAS ? Oui. C'est quoi le français pour PFAS ? Aucune idée. Les forever chemicals. Les pollueurs éternels. Les pollueurs éternels. Voilà, merci beaucoup. Les pollueurs éternels. De tout le plastique, tous les produits chimiques, qui sont utilisés pour l'entretien, et l'opération des gros centres de données qui sont derrière les large language models et les IA. Donc, comme, encore une fois, ce sont des étudiants de langues étrangères appliquées qui vont faire des mobilités étudiantes internationales et qui vont faire des stages à l'international, il est important qu'ils prennent connaissance, des cadres légaux du traitement de leurs données et comment on peut utiliser les intelligences artificielles. Parce que ce qui est valable en France est peut-être valable grosso modo à échelle européenne. je ne parle pas de l'Europe continentale, mais de l'Europe en tant que communauté européenne, mais ce n'est pas forcément le cas, et d'ailleurs ce n'est pas du tout le cas aux États-Unis, en Russie, et dans d'autres pays au monde. Donc, c'est pourquoi j'ai décidé d'introduire ce cours qui est un peu moins digeste, mais néanmoins très important, de tout ce qui est le European Data Act, la protection des données, et l'utilisation des données personnelles de l'IA et le statut des produits générés par les IA.A qui appartiennent-ils ? Appartiennent-ils à l'utilisateur ? Appartiennent-ils au consortium qui possède l'IA ? Il faut savoir, parce qu'ils n'ont pas toujours cette notion de plagiat s'ils donnent des prompts à ChatGPT. Est-ce que le résultat appartient à ChatGPT ? Leur appartient en totalité à eux les étudiants ou c'est moitié-moitié ? Pour celles et ceux d'entre vous, qui avez déjà utilisé, par exemple, DeepL, le fait de... On peut faire un test. Si vous voulez, je vous laisse le faire sur vos ordinateurs. Vous prenez quatre paragraphes de n'importe quel texte, vous le traduisez avec DeepL, vous le "copier-coller" dans un fichier Word. À la fin, il est ajouté automatiquement une ligne, traduit avec DeepL, deux points, et l'adresse URL du traducteur automatique. Le fait d'effacer cette ligne qui est rajoutée automatiquement la machine aide les étudiants à être honnêtes et à sourcer leur travail. Mais le fait d'effacer cette ligne, et de faire passer une traduction pour la leur, est-ce que c'est du plagiat, est-ce que c'est du vol de propriété intellectuelle ou pas ? Donc, nous avions des discussions de ce genre-là. Pour finir, il y avait également une formation à distance en ligne sur FUN, France Université Numérique, un MOOC qui s'appelle Environmental Impact of Digital Technology. Là, pour le coup, c'était pour appréhender quels sont les impacts environnementaux, de tout ce qui est utilisation de traducteurs automatiques,ChatGPT, mais également Google, etc., et essayer de faire la part des choses. Ce n'est pas parce qu'on ne le voit pas, nous, sur nos machines, qu'il n'y a pas un impact. Et on ne peut pas, bien sûr, l'ignorer. Donc, ça, c'était pour les premières années. Pour les deuxièmes années, il y avait un côté réflexif beaucoup plus poussé, où ils devaient écrire des dissertations, sur leur utilisation des outils de traitement automatique de la langue, et des large language models avec des thématiques spécifiques. Et ça a été une... Il y avait une trentaine. Voilà, c'est le 31 mars 2025. J'ai recueilli des témoignages, très intéressants, tout le long de la... Pardon. Oh, zut. Je reviens sur ma page. J'ai l'attention d'un poisson rouge. J'entends une alerte et j'y vais. Donc, je reviens. J'ai recueilli des témoignages très intéressants, de la part des étudiants, notamment dans les questions... Enfin, les prompts 16 à 20 sur l'usage personnel, et l'expérience, où la majorité des étudiants que j'avais en cours, en tout cas, et je ne peux pas... Je ne veux pas extrapoler, ces résultats, à l'échelle de l'université ou, pire encore, à l'échelle des étudiants de France et de Navarre. Mais nos étudiants pensent que ce qui est généré, par la machine, est foncièrement, intrinsèquement, et sans aucun appel, meilleur que ce qu'ils pourraient jamais produire, eux, par eux-mêmes, avec les outils, que nous les enseignants, on leur donne. Ce qui est un constat assez glaçant. Et je me suis dis qu'il faut que nous, la communauté enseignante, on fasse mieux. Il faut qu'on valorise, un peu plus, leur travail personnel, et qu'on leur apprenne, effectivement, comme disait ma collègue tout à l'heure, que la machine, elle est là pour assister, mais c'est tout. Elle n'est pas là pour remplacer l'humain, et ils ne vont pas, perdre leur boulot, à cause d'une IA. Pour revenir à quelque chose, de beaucoup plus contemporain, aujourd'hui, ce matin, en cours de traduction, avec les L3, je leur ai donné un travail de post-édition qui ressemble, à cela. Attendez. Là, c'est la traduction The Raw French Translation, provient de DeepL et c'est donc un rapport financier, de Apple, le rapport financier, trimestriel, de la compagnie Apple. Et ils avaient donc des segments, à travailler, en post-édition, sachant que c'est, un texte, qu'ils avaient déjà, travaillé, en traduction humaine, auparavant, et que nous avions, travaillé ensemble, et corrigé, en cours. Donc ça, c'est pour le côté, enseignement. Donc voilà, avec les étudiants, je fais de la post-édition, je leur apprends, mais non pas, dans un, de la post-édition, non pas pour devenir des traducteurs, mais pour pouvoir, évoluer, dans le monde, du travail, une fois, leurs études, achevées, parce que, lorsqu'ils reviennent, de stage, quand ils sont, en Master 1, Master 2, de langue, étrangère, appliquée, ils disent tous, « Madame, on nous a demandé, non pas si on sait, travailler avec les IA, mais quels IA, on a appris, à utiliser pendant nos études. » Donc il faut leur apprendre. On leur demande, c'est à nous, à l'université, je pense aussi, à leur donner, les bons outils. Voilà pour le volet enseignement. Je passe très rapidement à la recherche, je vois le temps qui s'écoule. Georges, j'espère que tu ne me jetteras pas des cailloux pointus, si je dis des bêtises. Pour cette partie-là, j'ai fait une petite, un tout petit PowerPoint. View. Non, ce n'est pas view. Je ne sais pas. Slide show, mais oui. Play from current slide. Voilà. Dans les recherches que nous menons actuellement, dans le projet,Psalteratio, que j'ai la chance de co-diriger, ensemble, avec un collègue de l'université, de Poitiers et avec le soutien, indéfectible, de la MSH Val-de-Loire. Donc comme je vous disais, nous travaillons, sur l'édition, de manuscrits médiévaux. Parfois, quand on travaille avec beaucoup, beaucoup, beaucoup de textes comme ça, nous avons besoin, si vous ne savez pas, à quoi ressemble un texte médiéval, eh bien voilà. Celui-là, c'est le psautier d'Eléonore de Bretagne et celui-là, c'est la vie de Sainte Audrey, les deux appartenant, les deux faisant partie du corpus étudié, dans les projets, de recherche, où je travaille. Alors, comment l'IA peut nous aider à faire face à ce genre de texte ? Notamment quand on parle de plusieurs psautiers. Alors, je ne sais pas si vous avez déjà eu l'occasion d'avoir ne serait-ce, qu'une Bible d'aujourd'hui, entre les mains. C'est une quantité de textes loin d'être négligeable. Ce qui veut dire que nous n'avons pas forcément, tout le temps, à disposition et encore moins les financements pour pouvoir tout étudier. C'est là qu'interviennent l'IA et notamment sous la forme de Transkribus ou eScriptorium. Je ne vous parlerai aujourd'hui que de Transkribus.eScriptorium, ça viendra dans un second temps. Je suis encore en train de m'approprier l'outil. Transkribus, donc voilà, c'est une IA, un outil IA développé à la base par l'école des Chartes, par des chercheurs de l'école des Chartes. Maintenant, ça a été rapatrié à l'université de Innsbruck en Allemagne, si je ne me trompe pas. Et comme vous voyez, dans les fonctions, il y a la reconnaissance de textes écrits, donc manuscrits par l'IA. On peut entraîner ses propres IA, enrichir les données avec des éléments donc de métadonnées et baliser, le texte, reconnu par l'IA pour ensuite arriver à des textes encodés, en XML-TEI pour pouvoir permettre une publication numérique plus facile. Pour pouvoir faire ça, donc avant, on installait la machine. C'est toujours pareil, on peut installer une machineen local, on peut utiliser le portail et les serveurs de Transkribus, mais récemment, ils ont développé encore un autre qui paraît un gadget, mais pour, les travailleurs avec des manuscrits médiévaux comme moi, c'est une aubaine, c'est le ScanTent, c'est littéralement une petite tente où on peut scanner, faire une photo du manuscrit et ça peut être transcrit par l'IA pratiquement en temps réel. Ça aide, voilà, j'arrête le partage et je vous partage uniquement mon visage. La rapidité que l'IA en recherche peut donner pour une discipline qui est la mienne, l'édition de textes anciens est loin d'être négligeable. Elle n'est absolument pas du tout parfaite, mais ça crée une base avec les jeunes doctorants, les étudiants en master et avec d'autres chercheurs. On peut se diviser le travail, voilà, encore selon la méthode, work smart, not hard, parce que de toute façon, une transcription, un premier jet, il faut la corriger et comme ça, on peut avoir accès, plus rapidement à des données textuelles, de manuscrits, qui sont autrement inaccessibles, comme par exemple depuis deux ans avec la paralysie de la British Library où plus aucun manuscrit n'est consultable. Et je vais m'arrêter là pour pouvoir garder quelques minutes, pour des questions, si vous en avez. je vous remercie beaucoup pour votre attention.