Présentate. Donc, bonjour à tous. Le café numérique d'aujourd'hui est consacré au Thésaurus Inrae. Plus précisément, il montrera l'utilisation de ce Thésaurus par des applications tierces pour faciliter l'alimentation des métadonnées. Le café d'aujourd'hui est présenté par Sophie Aubin de la DIPSO, Cédric Gilles de la DSI et Daniel Jacob de l'unité BIA. Sophie, je te laisse commencer. Merci Alban. Bonjour à tous. Je suis Sophie Aubin. Je travaille à la direction pour la science ouverte dans le pôle numérique pour la science où je suis co-responsable du Thésaurus Inrae dont on parlera aujourd'hui. J'ai préparé ce support avec l'aide de Sacha Muzlak et d'autres personnes du comité Thésaurus que je remercie. Dans un premier temps, je vais vous faire une petite introduction et puis Cédric et Daniel vous apporteront leurs témoignages de leur utilisation du Thésaurus dans leurs applications. En guise d'introduction, pour fixer le vocabulaire avant de rentrer dans les discussions sur les API, je voulais vous rappeler ce qu'est un vocabulaire contrôlé. C'est une liste de termes qui fait autorité dans son domaine. Il constitue ainsi un référentiel qui permet d'éviter les ambiguïtés du langage courant et en général qui facilite la recherche documentaire dans un système d'information. Donc, ce terme vocabulaire contrôlé recouvre plusieurs types de vocabulaire ou de ressources sémantiques selon qu'on les appelle d'une façon ou d'une autre. Et donc, ça peut être de simples listes de termes, un menu déroulant. Ça peut être une terminologie ou un glossaire ou une taxonomie, un Thésaurus, voire une ontologie dans certains cas, même si ces types de vocabulaire ne sont pas initialement prévus pour ça. Donc, aujourd'hui, on va parler de Thésaurus. Un Thésaurus, c'est un ensemble organisé de termes, souvent sous forme d'une hiérarchie et ces termes sont propres à un domaine de connaissance. Voilà, donc c'est un outil documentaire qui est souvent utilisé pour indexer des contenus, pour faciliter leur recherche. Le Thésaurus Inrae, en particulier, c'est le référentiel terminologique propre à l'Institut. Il est composé aujourd'hui d'un peu plus de 16 000 concepts. Alors, je vous détaillerai un peu après ce que sont les concepts. Ils sont enrichis pour certains de définitions. Donc, vous voyez, c'est une petite proportion pour l'instant. Et aussi, vous pourriez trouver des synonymes et puis des traductions des termes en anglais, des termes en anglais et en français. Et cette année, le comité Thésaurus a travaillé particulièrement sur la couverture anglaise. Et là, on en est à peu près à 97%. Donc, ce Thésaurus s'inscrit dans la démarche science ouverte et également vise à répondre à l'application des principes FAIR. Il est adapté aux besoins de l'Institut, alors d'une manière assez large. On essaie de répondre à des besoins plus spécifiques. Et donc, il est standardisé. Il est représenté dans le format SCOS, un format classique pour la représentation des vocabulaires. Et il est évolutif, car il est administré par un comité, Thésaurus, qui est piloté par la DIPSO-NRAE, mais qui fait appel à des documentalistes, des professionnels de l'information scientifique et technique, qui s'appuient également sur le concours d'équipes de recherche qui ont des besoins spécifiques pour utiliser le Thésaurus ou auxquels on fait appel quand on a besoin d'une expertise sur un sujet. Alors, pour bien utiliser le Thésaurus, notamment via ces API, c'est important de comprendre comment il est structuré. Donc, c'est une hiérarchie, comme vous pouvez le voir, représentée sur la gauche. C'est une interface que vous connaissez sans doute sur la gauche et puis de manière schématique sur la droite. Donc, il y a un premier niveau qui représente des domaines. Il y a 12 domaines, donc c'est assez large. Ces 12 domaines sont découpés eux-mêmes en 62 micro-thésaurus. Et en dessous, vous trouvez le niveau des concepts. Donc, le troisième niveau et les niveaux inférieurs représentent la hiérarchie des concepts à proprement parler. Et le concept, c'est vraiment le cœur du système. Ici, vous en voyez un exemple avec bassin versant. Donc, la notion de bassin versant peut être représentée par des termes en français et en anglais. Donc, ici, des synonymes. Et comme je disais, certains concepts aussi sont enrichis avec des définitions ou des alignements avec d'autres vocabulaires. Et ils peuvent aussi faire partie de collections. On pourra en discuter un peu plus tard. Je ne vais pas entrer dans ces détails-là. Pour en venir au sujet qui nous intéresse en particulier aujourd'hui. Donc, voici les différents modes d'accès au thésaurus. Donc, le portail de consultation que vous connaissez peut-être. Et on a vu une copie d'écran juste avant. Donc, ça, c'est le moyen d'accès classique pour les humains. Donc, on peut faire des recherches ou naviguer dans la hiérarchie. Donc, on l'appelle le portail SCOSMOS, portail de consultation. Alors, ce portail, il s'appuie sur une API, en fait. Donc, l'API Publix Cosmos, dont on reparlera tout à l'heure, qui est utilisable par d'autres applications que ce portail de consultation. On met également à disposition le thésaurus sur une API publique sur le portail AgroPortal. Donc, ça, c'est un portail dédié au vocabulaire en agriculture. Dedans, vous y trouverez des ontologies, des thésaurus et d'autres types de ressources. Et également, on a travaillé avec la DSI pour pouvoir exposer le thésaurus comme d'autres référentiels de l'Institut. Vous connaissez peut-être le référentiel agent ou le référentiel structure. Et donc, cette API permet, avec un accès authentifié, d'accéder à ce référentiel comme à d'autres. Donc, ces API, elles servent les données dans des formats assez classiques, en général du JSON ou du JSON-LD, donc avec du contexte, et puis pour certaines méthodes du TURTL ou du XML. Alors, en plus de ces API, on n'en parlera pas spécifiquement aujourd'hui, mais pour les personnes qui travaillent dans le cadre du web sémantique, il y a un accès possible aussi au thésaurus via un Sparkle Endpoint. Et également, on peut télécharger le thésaurus sur la forge Inrae, en deux formats différents, Scos ou Scos Enrichi, et ce qui permet de l'intégrer dans son application. Voilà, donc ça se présente de cette manière-là. Je vais, voilà, sans rentrer vraiment dans les détails, l'API Publix Cosmos, voilà, dans laquelle vous pouvez trouver 30 méthodes qui permettent de récupérer différents types d'informations. Voilà, l'API AgroPortal, cette année, une nouvelle API standard a été mise en place sur AgroPortal. Voilà, pour ceux qui connaissent l'API AgroPortal, peut-être que vous utilisez cette nouvelle API ou l'ancienne. Les deux sont possibles. Voilà, donc j'ai mis les adresses des deux. Et l'API Padré, ici, voilà, c'est aussi pour que vous ayez les accès, les adresses pour y accéder. Donc là, vous allez trouver neuf méthodes qui permettent d'interroger les concepts, de récupérer aussi des micro-thésaurus entiers, ce qui n'est pas évident avec les autres API. Donc ici, la DSI a mis en place une solution qui permet de récupérer tout un micro-thésaurus ou toute une collection. Et puis ça a l'intérêt aussi d'avoir la même logique d'interrogation que les autres référentiels d'établissement. Donc si vos applications exploitent déjà des référentiels comme Agence, Structure ou ANSI, par exemple, voilà, ça devrait répondre à vos besoins. Voilà, pour des exemples, voilà, deux exemples d'utilisation du Thésaurus pour faire de l'indexation. Donc, l'indexation des publications dans Alinrae, alors le CCSD qui porte l'infrastructure Al télécharge le Thésaurus Inrae avec une moulinette, le met au format qui convient pour son application et ensuite le met à disposition. Voilà, dans Data Inrae, c'est un connecteur à l'API public AgroPortal qui a été développé, ce qui permettait, comme vous pouvez le voir sur la copie, d'interroger à la fois le Thésaurus Inrae mais d'autres vocabulaires aussi, comme à convaincre. Et voilà, et je pense qu'il est temps de passer à nos deux témoignages. Je laisse la parole à Cédric. Merci. Je vais vous reprendre un partage d'écran. Alors, est-ce que j'ai l'un pour partager ? Je te passe présentateur. Très bien. Je suis présentateur, tu dois voir apparaître les boutons. Tout à fait. Je vais vous présenter, vous voyez l'écran ? J'imagine. Oui, c'est bon. Je vais vous présenter l'utilisation qu'on en fait sur l'application CIGAD. C'est une application qui est une base d'entretien de type sciences humaines essentielles. Il y a vécu depuis, je ne sais plus quand le projet a commencé. On en est sur une monture depuis un an qui a été pas mal adaptée. Et ce qui va être intéressant, c'est peut-être non pas l'usage qu'on a du Thesaurus à l'heure actuelle, mais un petit peu l'usage qu'on n'a pas été fait depuis un temps et les problèmes que ça peut impliquer. L'application, elle permet d'avoir, de structurer des enregistrements d'entretien. Des entretiens sont dans les enquêtes, des enquêtes sont dans le projet. On est sur des choses assez classiques et on va utiliser le Thesaurus pour, de façon miroir avec les documents, les publications de recherche, de pouvoir utiliser les mêmes vocabulaires pour taguer par exemple les enquêtes. Ici, j'en ai un certain nombre. On voit ici, les mots-clés sont des éléments qu'on a retrouvés sur le Thesaurus et qui vont pouvoir, si on crée un nouvel élément ou si on ajoute d'autres, on va pouvoir les récupérer. De la même façon ici, si je veux faire de la recherche, je peux faire de la recherche à partir des mots-clés venant du Thesaurus. L'utilisation de l'API, on va s'en faire pour faire de l'autocomplete. Si par exemple, je commence à taper forestier, ici, on interroge l'API et directement, on va avoir les éléments qui viennent de l'API. De façon transparente, il y a toute la documentation, le swap qu'on a vu tout à l'heure, qui permet de voir un peu ce qu'on peut faire derrière. Simplement, ça fait quelque chose de ce style. On interroge un vocabulaire particulier. On demande ce qui va commencer par tel caractère et on précise la langue. C'est tout simple de ce côté-là. Ce qui était un peu plus problématique, c'était pendant un temps, les anciens développeurs de l'application, qu'éventuellement, certains vocabulaires n'étaient pas présents dans le Thesaurus et qu'on allait permettre aux utilisateurs de rajouter du vocabulaire. Et ce n'est pas forcément une bonne idée. Je vais vous montrer un petit peu ce qu'on peut avoir en stock. Ici, on voit le vocabulaire tagué Thesaurus, c'est celui qui vient directement de l'application. Et à côté, on a le vocabulaire libre qui permettait aux utilisateurs de rajouter du vocabulaire. Pour des choses aussi simples que ça, ça devient rapidement complexe. Je prends dans les dernières choses que je vois, Zonaltier, visiblement, c'est une faute d'orthographe sur l'atelier. On a le tag ville-campagne plutôt qu'avoir ville et campagne. On a urbanisation en plus d'urbanisme. Laisser les utilisateurs définir leurs propres mots-clés, les propres vocabulaires plutôt qu'utiliser systématiquement quelque chose qui est unifié venant du Thesaurus, ça pose des problèmes rapidement. On a sorti cette fonctionnalité du logiciel. C'est beaucoup plus contraignant qu'autre chose de permettre ça. Autre chose aussi, avant, on utilisait le vocabulaire de IRSTA et non pas de l'INRAE. On s'en est aperçu en préparant ça pour ce point. Ça va être assez simple de réinterroger les API et de migrer tout le vocabulaire dans lequel on a les anciennes URI vers le nouveau vocabulaire INRAE qui est beaucoup plus complet. Je pense que c'est un peu tout ce que je peux vous montrer. Je ne sais pas s'il y a des questions supplémentaires. Je vous remercie. Merci pour l'intervention. Je crois que c'est à Daniel maintenant, si je ne me trompe pas. Et les questions pourront venir ensuite. Daniel, ton micro est coupé. Il y a un zoom. Oui, il faut être coupé. On prend la suite du diaporama. J'ai la main sur le diaporama ? Non, non, tu as la main maintenant. Est-ce que c'est bon ? C'est bon. J'ai la main sur le diaporama. Ça marche. OK, donc bonjour à tous. Oui, donc, en deux mots, je suis Daniel Jacob et avec un collègue qui s'appelle François Ehrenman sur Biogepo à Bordeaux, on avait développé, maintenant il y a déjà 2-3 ans, un outil qui s'appelle Magot. Alors, je ne vais pas avoir le temps, bien sûr, de vous présenter cet outil, ce n'était pas l'objectif, en deux mots. C'est un outil qui, dont la fonctionnalité principale est de produire et ensuite gérer des métadonnées dans des espaces de stockage pour pouvoir permettre justement de gérer dans la durée et à mettre des métadonnées sur nos données dans les espaces de stockage et partager essentiellement en interne. On va dire, voilà. L'idée, c'était de créer une culture du partage des métadonnées à défaut de pouvoir partager les données elles-mêmes. Mais bon, on sait que c'est d'abord une première étape et donc c'est tout pour vocation de créer et de gérer ces métadonnées avec une finalité quand même derrière, c'est qu'on se dit à un moment donné, les gens vont peut-être finir par publier les métadonnées avec les données et donc, si possible, d'être respecté un certain nombre de critères FAIR, FAIR, le plus possible tout au long du schéma de saisie. Donc là, pour ce jour, je vous ai mis les liens, donc vous pouvez récupérer le point de plus tard et ensuite accéder à ça. Donc, la première étape, pardon, je fiche là-dessus. Donc, qui dit décrire d'abord, la première étape le plus important, décrire les métadonnées, donc c'est fait avec un vocabulaire contrôlé qui reprend les éléments qu'avait présenté Sophie quand on met derrière cet item vocabulaire contrôlé. Alors, pour définir des métadonnées, bon, il faut deux choses. Alors, on a besoin de ce qu'on appelle d'un schéma de métadonnées, c'est comme ça. En gros, ça veut dire le contenant. Qu'est-ce qu'on décrit, quel sont le référentiel dans lequel on veut décrire nos données et puis après, à proprement parler, vient le vocabulaire contrôlé qui est un peu le contenu, comment le décrire. Donc, c'est un peu tout ça que l'outil aussi se propose de faire. Alors, je ne vais pas focaliser évidemment sur le schéma de métadonnées. Ici, je ne vais me focaliser que sur le vocabulaire contrôlé dans le cadre de cet outil Magot. Alors, le vocabulaire, dans Magot, il y a plusieurs manières de, tout ça est paramétrable, on verra, de saisir du vocabulaire. Première chose, c'est qu'on peut constituer des dictionnaires. Ces dictionnaires, en fait, c'est nous-mêmes qui les constituons à travers des mots qu'on a piochés dans des ontologies et ou dans des thésauruses et voir aussi, alors c'est là où je mets une petite parenthèse par rapport à ce que disait Cédric, c'est que, comment ça s'appelle, il est quand même nécessaire d'autoriser du vocabulaire libre, même si derrière, il faut un data steward qui va contrôler tout ça quand même pour harmoniser. parce qu'il y a ce qu'on appelle les vocabulaires métiers et il y a des vocabulaires qui sont très spécifiques, qui n'ont plus nulle part et pourtant, dans les publis, c'est ce vocabulaire qu'on va trouver. Donc, si on ne peut pas le rentrer, les gens vont dire votre outil ne sert à rien, je ne peux pas rentrer mon vocabulaire. Donc, même si après, derrière, on verra, on verra, disons que c'est la démarche logique à le mettre dans un thésaurus, ce vocabulaire, mais dans un premier temps, ne le connaissant pas, il faut quand même puisse l'utilisateur le saisir et le faire connaître ce vocabulaire. Donc là, par exemple, ici dans ce dictionnaire, on a tout un tas de mélanges et j'ai mis des flèches vertes sur le pointant vers des vocabulaires de thésaurus, mais il y en a le pointant vers... Donc là, on choisit en fonction de sa thématique. Donc ça, c'est la première possibilité de mettre du vocabulaire contrôlé dans Magot. Alors, la deuxième, elle est de choisir, par exemple, précisément, on ne veut utiliser que le thésaurus et typiquement, quand on veut écrire les thématiques, tout ce qui se passe à l'INRA, quoi de mieux que le thésaurus, précisément, puisqu'il est censé, et il fait a priori bien son job, de recenser toutes les thématiques et les mots-clés propres à notre domaine. Donc là, on va sélectionner spécifiquement le thésaurus à travers ce que Sophie avait mentionné, l'API Cosmos et puis Cédric aussi. et donc là, on va choisir, donc on ne piochera que dans le vocabulaire thésaurus. Et donc là, pareil, par autocomplétion, on saisit les premières lettres et puis ensuite, on va choisir ce qu'on veut. Donc ça, c'est le deuxième cas où il est utilisé du vocabulaire contrôlé. Après, on peut très bien se dire oui, le thésaurus, moi, m'intéresse bien, mais seulement, il n'est pas suffisant. Et à ce moment-là, on a la possibilité, comme le thésaurus, il est aussi à travers un gros portal, de dire, je peux lui mettre d'autres ontologies à côté. Donc quand on va piocher ces deux vocabulaires, eh bien, on va les voir dans un gros portal et il va les sélectionner précisément les ontologies. Alors on dit ontologie, c'est un terme générique, c'est souvent dans un gros portal, il y a pas mal de thésaurus aussi. Même s'il ne porte pas le mot, mais ça reste des thésaurus. Alors, et ou ontologie, et ou thésaurus, il va les sélectionner. Et donc là, par exemple, j'ai tapé NMR relaxation, bon ben voilà, donc ici, il appartient au thésaurus, donc on voit que... Donc deuxième manière, ici, même troisième manière d'accéder au thésaurus in high dans Magot. Alors, comment on peut choisir tout ça ? En fait, dans Magot, il y a une histoire de configuration. Alors ça, c'est un fichier de configuration où on spécifie comment, avec quel vocabulaire et de quelle manière on va accéder pour chaque champ. Là, j'ai pris trois exemples, un keyword, les topics, ou un experimental factor. Et donc, on vient paramétrer qui, par tel biais, on vient accéder à tel ou tel vocabulaire. Alors en fait, ce fichier-là, il n'y a pas besoin de le rentrer soi-même. intégrer dans Magot, il y a déjà une interface qui permet d'aller sélectionner ce qu'on veut. Puis vous voyez, il y a un champ type ici, on vient dire, voilà, si on met une box, etc. et associé à un champ de saisie, on vient choisir type head et puis ici, on a tous les vocabulaires contrôlés, toutes les API. J'avais peut-être oublié de préciser juste avant que justement, en fait, toute cette diversité d'API a été rendue possible en utilisant ce que j'appelle le couteau suisse d'unierie type head qui est issu du projet Twitter. Petite parenthèse, je crois qu'au moment du rachat par Elon Musk, ils ont tout balancé de source sur GitHub et donc, c'est comme ça qu'on a pu récupérer du code source très intéressant dont le toute head. C'est pour la petite parenthèse. Et donc, avec cet outil-là, on peut interfacer toutes sortes d'API et ce qui est vraiment très pratique, ça harmonise, c'est génial. Alors, une fois qu'on a déclaré, bon, et après, on partage, etc. et puis, au final, on veut quand même pouvoir diffuser, publier ces métadonnées associées aux données et donc, à partir de là, on peut visualiser, il y a plusieurs moyens, on peut pousser directement dans Dataverse ou DataInRae et là, évidemment, on retrouve, par exemple, ce qui concerne les topics, à la fois le nom, mais on voit les URL, etc. Donc, c'est bien référencé. on peut aussi faire de l'export à travers une source programmatique pour extraire des métadonnées au format avec du web sémantique du JSON-LD, voilà, pour ceux qui connaissent. et puis, enfin, on peut visualiser ou télécharger les formats de ce qu'on appelle du RDF, c'est aimé, donc, on peut visualiser les graphes et surtout alimenter des bases particulières qu'on appelle les triple stores pour faire du web sémantique. et voilà, donc, on est dans un mode d'interopérabilité sémantique, donc, du coup, là, on a permis d'aller directement à la source pour collecter de l'information utilisateur, on a capturé et puis là, on est juste à la porte du web sémantique et puis là, après, on passe la main à ceux qui font du web sémantique. Voilà, c'est tout pour moi. Merci. Merci, Daniel. Merci à tous et tous. Merci, Sophie et merci, Cédric. Alors, il y a quelques questions, on va essayer de trier un peu parce qu'il y en a eu et c'est très bien dans le chat, il y en a eu directement dans les notes partagées. Je vais peut-être commencer une parce que je crois que ça a été répondu par quelqu'un d'autre, donc, votre avis sera peut-être complémentaire et intéressant. Comment décidez-vous d'utiliser tel ou tel Thesaurus ? Et la réponse donnée dans le chat, c'est je cherche d'abord dans le Thesaurus Inrae et si je ne trouve pas de concept satisfaisant, je le cherche dans un autre Thesaurus thématique et éventuellement, je propose des ajouts du concept au Thesaurus Inrae. Est-ce que ça vous paraît bien comme début de réponse ? Est-ce que ça mérite d'être complété éventuellement ? Je ne sais pas, Daniel, tu vois, si je te réponds. en fait, c'est vraiment le point le plus crucial de choisir le vocabulaire parce qu'effectivement, il faut, au sein d'une communauté, alors une communauté, ça peut être un simple labo, mais en général, le labo, il est ancré dans une thématique et adossé à une communauté. Donc, il faut vraiment utiliser du vocabulaire qui est reconnu au sein de la communauté. Alors, le plus simple souvent, c'est de reconnaître le vocabulaire qui est utilisé à travers les publics. C'est le premier sujet qui est usité. Mais, ça ne suffit pas toujours et ça, c'est le plus dur. Donc, il faut recenser le vocabulaire aussi métier. Et donc, il y a des trucs qu'on ne trouvera pas effectivement tout de suite, immédiatement dans les Thesaurus et ce que je disais tout à l'heure. Par exemple, on a un exemple auquel j'ai été confronté. Maintenant, il y a presque plus de 15 ans, on développait une application et puis, on discutait avec ma collègue et puis, quelqu'un qui écoutait derrière nous et on travaillait sur la tomate, il nous disait mais vous avez le stade orange dans votre ontologie. C'est quoi ce truc ? Il dit, ben voilà, c'est un stade particulier de la tomate. S'il n'y a pas le vocabulaire métier stade orange, moi, ça ne m'intéresse pas. Et donc, on s'est rendu compte qu'effectivement, mettre une ontologie, c'est bien mais si c'est trop abstrait, ça ne décrit pas forcément les choses donc du coup, on s'est rendu compte qu'il fallait passer aussi par du vocabulaire métier qui s'apprennent à essayer de le relier après derrière comme étant avec des, justement, des thésauruses en le mettant avec des trucs en étant proches d'eux ou est similaires à etc. On arrive après petit à petit à raccorder ce vocabulaire métier à des termes qui existent. Actuellement, je crois que c'est illusoire de trouver une ontologie ou un thésauruse qui va faire miracle du premier coup. c'est un truc par étapes. Et c'est là où, comment ça s'appelle ? D'ailleurs, c'est peut-être une de mes questions moi-même auprès de Sophie, et en gros, quelle est la voie la plus simple ou celle qui nous est recommandée pour alimenter ce thésaurus ? Merci pour la transition. Effectivement, comme l'avait aussi mentionné Sébastien, donc quand on ne trouve pas les termes qui nous intéressent dans le thésaurus inraé, on peut faire une demande d'ajout. Donc, le comité thésaurus instruit la demande et à la livraison. le thésaurus est livré régulièrement avec des nouvelles versions, donc vous pourrez avoir les concepts ou les termes que vous aurez demandé. Et donc, ça m'amène aussi à la question sur les collections. Quelqu'un a demandé ce que c'était qu'une collection. C'était une partie de la réponse à la question précédente. En fait, les collections, ça vient du standard SCOS et c'est un mécanisme en fait qui permet d'aller piocher dans le thésaurus des termes qui sont éparpillés dans différentes branches de la hiérarchie et de les regrouper sous forme d'une liste. Et donc, ça peut servir à construire des menus déroulants, par exemple, pour une application. Alors, c'est théorique, on ne l'a pas encore mis en œuvre dans le cadre du thésaurus INRAE, mais on aimerait bien pouvoir exploiter cette possibilité-là pour répondre à des besoins applicatifs particuliers. Donc, si ça vous intéresse, voilà, vous pouvez soit constituer une liste, enfin, une collection à partir de termes qui existent déjà dans le thésaurus ou demander l'ajout de ceux qui vous manqueraient et constituer une collection que vous pourriez interroger via l'API et récupérer pour les besoins propres. ça permet aussi de circonscrire parce que toutes les applications ne vont pas avoir besoin de tout l'ensemble du thésaurus. Voilà. Je me permets de rebondir sur cette réponse parce que ça me fait penser à une question que j'ai vue. J'espère que c'est bien lié. Est-ce qu'il y a une volonté sur ce projet de développer la structuration hiérarchique des concepts dans les niveaux inférieurs ou au contraire de le laisser à plat pour faciliter l'ajout de nouveaux termes, par exemple ? Je crois que c'était Arnaud qui avait fait tu peux intervenir si tu veux préciser la question. Mais là, si je comprends bien, c'est est-ce qu'il y a une direction préférentielle plutôt le côté pratique et que tout soit à plat et avec cette solution des collections qui permet de faire ou plus de hiérarchie ? Tout n'est pas à plat. Il y a déjà des hiérarchies entre les concepts. Alors, c'est plus ou moins profond, plus ou moins développé en fonction des micro-thésaurus. Pour certains micro-thésaurus, le comité a fait un gros travail de restructuration. Alors, quant aux structures, ça implique de prendre un point de vue parce que dès qu'on regroupe des choses, on choisit une manière de présenter qui peut ne pas convenir à tout le monde après. D'où l'intérêt des collections, je pense. Donc, voilà, c'est plus ou moins structuré. C'est quand même important d'avoir de la hiérarchie. Alors, aujourd'hui, dans les systèmes d'information, les moteurs de recherche, ils exploitent peu la hiérarchie, en fait, parce qu'on pourrait faire, quand on cherche un concept un peu plus général, par exemple, animal, on pourrait étendre la recherche avec poule, cochon, vache, etc. Voilà, ou à l'inverse, remonter dans les hiérarchies. C'est assez peu fait, mais je pense qu'il y a aujourd'hui un nouvel intérêt avec les modèles de langue. C'est des choses qu'on veut expérimenter aussi, voir comment on peut exploiter la richesse des hiérarchies et donc on a encore du travail dans le thésaurus pour construire ces hiérarchies, mais il y a déjà pas mal de choses. D'accord. Peut-être encore dans la continuité, je m'ai confirmé, le système peut-il gérer des relations supplémentaires non-scos si un futur besoin autologique apparaît ? Là aussi, il y a peut-être un peu de différence. Oui, alors je pense que le comité ne s'oriente pas vers ça. S'il y a des relations complémentaires à faire et en particulier quand ce sont des relations qui sont typées, on se cause les relations hors les relations hiérarchiques, donc quand on crée des relations transversales entre des concepts, ce n'est pas typé, c'est des relations voire aussi, donc ça ne veut pas dire grand-chose, ce n'est pas très exploitable par les applications, à part peut-être par les modèles de langue, mais voilà, dès qu'on crée des relations typées entre les concepts, on s'approche un peu des ontologies et peut-être qu'il vaut mieux utiliser des concepts du Thésaurus, ça peut servir de base, mais construire une autre ressource à côté d'une autre nature et on peut réutiliser, c'est aussi quelque chose qu'on souhaite pour le Thésaurus et qui puisse servir de base à la construction d'autres ressources, il faut citer les liens entre les deux et ça suffit pour qu'on soit contre. Merci. J'avais une question, je vais peut-être me permettre de la compléter pour être sûr de bien l'avoir comprise, comment gérez-vous le déploiement de nouvelles versions sous-entendus du Thésaurus ? Je vais la compléter parce que si j'ai bien compris un Thésaurus, ça correspond à consensus à un instant T, mais bon, il y a des nouveaux concepts qui émergent, il y a des concepts d'autres qui peuvent se préciser, donc comment c'est maintenu et quelles sont les potentielles implications pour les applications qui exploitent ce Thésaurus ? C'est une bonne question et peut-être que là, le témoignage de Daniel ou Gilles est intéressant aussi. C'est eux qui pourront nous parler des effets. Juste rapidement, nous, on arrête une version à un instant T dans notre outil d'édition, on fait un export, on le dépose sur la forge, on la publie sur les différents portails qui proposent notamment des API et puis on informe les utilisateurs. Il y a une chose, c'est qu'aucun concept ne disparaît. C'est un principe dans le web sémantique, les concepts qu'on juge inappropriés, parce qu'ils ne sont pas pertinents ou parce que ce sont des doublons avec d'autres, on va les rendre obsolètes. donc les anciennes utilisations de ces concepts vont toujours, ce sera toujours documenté, mais les applications qui utilisent les nouvelles versions du Thesaurus ne verront plus ces concepts-là, donc ils ne pourront plus être saisis. Après, sur les modifications, quand on déplace des choses, quand on en a vu, c'est pas Daniel et Vite, vous avez le plus bien, et Cédric, pardon. un des avantages qui a fait tout ce qu'il y a croyé, mais l'avantage d'utiliser une API, c'est qu'en fait, on ne se préoccupe pas de rien télécharger, donc on l'a tous fait en live, si je puis dire, et on a tout de suite la dernière version. Donc s'il y en a un qui est obsolète, on ne le voit plus, effectivement, comme il s'est dit, et puis, si on a noté des choses précédentes, elle reste, donc ça ne pose aucun souci pour nous, pour nos versions. de l'expérience que j'en ai. Alors, ça peut être un inconvénient, parce que comme c'est en live, du coup, si jamais, voilà, il y a une version, heureusement, c'est rare ici, mais s'il y a une version un petit peu interne, qui a été poussée de manière maladroite et qui a des incohérences, ben, en général, il y a peu de chances, j'imagine que ça n'arrive qu'à, n'est-ce pas Sophie ? Ok, voilà. Merci. Cédric n'a pas d'ajout, parce qu'il y a quelqu'un qui a levé la main, si jamais. Cédric, tu voulais intervenir ? Non, non, pas d'ajout, je suis préalable. D'accord. Mohamed ? Oui. Bonjour. Donc, je vais poser la question en premier de rebondir là-dessus. Quand est-ce que vous dites que telle version est opélette et que vous devez passer à la suivante, sachant que vous recevez à chaque fois des termes que vous devez ajouter ? Alors, c'est pas... De la réponse, si c'est possible de baisser un peu le son du micro, c'était... Je ne sais pas vous, mais je crois que c'est assez fort. Merci. Voilà. Bien sûr, je tiens. Je pense que j'ai décrypté la question, j'espère, si je me suis trompée, Mohamed, tu me le dis. C'est pas l'ensemble du Thésaurus, enfin, c'est pas une version du Thésaurus qui devient obsolète, c'est une information en particulier, un concept, par exemple, qui est spécifique, qui était dans la version 2.4 et qu'on a retiré pour la version 2.5. Parce qu'il n'est plus pertinent. D'accord. OK. Merci beaucoup. Ça me permet de signaler, si vous avez des questions, n'hésitez pas à faire comme Mohamed, de lever la main et puis on vous passe le relais. Je ne voyais qu'une petite question pour faire sortir Cédric du bois. Est-ce que Cigade est ouvert ? Là, on est un petit peu hors, mais comme elle était dans la liste, je la propose. Alors, ça dépend de ce qu'on appelle ouvert. L'accès à Cigade se fait via l'authentification renataire, donc n'importe qui de l'Inrae ou faisant partie de la recherche peut y accéder. Il y a toute une notion de confidentialité des entretiens qui sont derrière qui est assez poussée. Donc, certains projets, certains entretiens vont être accessibles par tout le monde et pour la plupart, il faut des accès être ajoutés sur tout ou tel élément pour en détonner. Merci. Je regarde. Si je vois d'autres questions dans le chat, n'hésitez pas à en ajouter et sinon, lever la main pour intervenir. Moi, j'en avais une un peu différente, je pense, sur la popularité entre guillemets d'un concept. Est-ce qu'il est possible de connaître la popularité d'un concept, c'est-à-dire, par exemple, le nombre d'utilisations par des applications tiers ? Est-ce qu'il y a des choses comme ça qui sont un peu creuses proposées ? Je ne sais pas est-ce que vous le faites, est-ce que c'est des informations que vous pouvez avoir dans vos applications ? J'imagine, oui, Daniel et Cédric. Oui, mais en fait, c'est vrai que je ne regarde pas trop ça. Non, c'est vrai que ce n'est pas un critère qui est... Alors, ça serait effectivement dans des... Qu'à présent, dans ce que j'ai vu, ça ne s'est pas présenté, mais ça pourrait se présenter dans le cas où il y aurait des termes qui seraient pas identiques, mais un peu similaires, et du coup, c'est vrai que s'il y aurait un conflit ou une utilisation, on dirait peut-être que tel ou tel terme, il faudrait peut-être le maintenir ou pas, mais si... mais le langage étant riche, en fait, et se retrouve aussi, parfois et souvent, dans les ontologies, il devrait même, je dirais, se retrouver dans les ontologies. C'est peut-être même dire que ce que, des fois, je reproche aux ontologies, c'est qu'on ne retrouve pas toute cette diversité de la nuance, le langage, il y a une tonne de synonymes, même si on constate que dans la langue française, et en anglais, c'est pire, je crois, il y a une réduction de l'usage des adjectifs, des noms, etc., il y a un approvissement de l'usage de la langue, il n'en reste pas moins que la langue est très riche et que quand on va noter précisément les choses, il y a tout un tas de vocabulaire avec beaucoup de nuances. Alors, pour ceux que... ça me fait penser à un débat, mais peu importe que j'avais eu avec une personne qui travaillait à Paris sur les questions philosophiques et il débattait sur un web herménotique versus web sémantique. Donc, voilà, et donc, pour ceux qui s'intéressent, pour envoyer des liens vers les travaux de la personne, c'est juste pour la diversité du langage et que... et qu'à l'arrière même, ça me... ça me trouble cette question. C'est... ça me trouble parce que en quoi on choisirait un vocabulaire qui serait populaire ? En fait, on choisit le vocabulaire approprié et indépendamment de sa popularité et donc même si on est le seul à l'utiliser, s'il est pertinent, il va être pertinent. Enfin, voilà, il y a une... à la fois, je me dis, bon, je vois un peu le pourquoi, mais en même temps, elle me trouble un peu la question. Désolée, c'était pas pour trouver. Je vais travailler avec des bibliomètres, c'est pour ça, c'est un réflexe. C'est plus pour avoir vu l'ensemble, la vision d'ensemble et puis voir le glissement des fois des concepts qui peut arriver. On n'a pas de mécanisme aujourd'hui pour savoir, pour partir d'un concept et voir tous les jeux de données ou toutes les publications qui sont indexées avec. Je crois que c'est un souhait de Clément Jonquet pour AgroPortal de développer ça, de pouvoir, depuis AgroPortal, accéder à toutes les ressources qui sont indexées ou décrites. Le fait pertinent, c'est de voir ce qu'on appelle l'apparition de tendances, c'est-à-dire des graphes où on voit des tendances, des mots-clés nouveaux qui apparaissent. Donc là, ça peut être intéressant de dire, ah tiens, il y a... Bon, on sait, par exemple, si aujourd'hui, on prend de mots-clés IA ou je ne crois pas que ça va exploser, mais tout d'un coup, quand on voit un terme qui n'apparaît pas, qui commence à émerger, on se dit, ah tiens, qu'est-ce que c'est que cette thématique ? On se dit, dans 10 ans, ça sera un truc qui aura explosé et on l'a vu apparaître sur les graphes, etc. Ça peut être intéressant de faire cette biométrie. J'imagine qu'Alban, c'est comme ça que tu voyais les choses. Oui, tout à fait. Je crois qu'il y a une question, mais on m'a dit qu'il y avait une question, mais je ne la trouve pas. Une question sur ISA, si je prononce bien, oui, et ça. Oui, je l'ai vu passer ISA-Tab. C'est ça ? Moi, je suis pas fait écouter. Alors, on est dans le système ISA-Tab, c'est ça ? Alors, non, pas tout à fait. ISA-Tab, c'est un format, plus qu'un standard qui a été développé et qui est développé encore à l'ABI, et en fait, qui gère surtout beaucoup les données d'expérience homique et donc avec des expériences multifactorielles, etc. En fait, Magot ne fait qu'une chose et essaie de bien le faire, c'est les métadonnées générales, dites descriptives et derrière, il peut gérer des liens vers d'autres ressources plus spécifiques et par exemple, j'imagine que si vous gérez des images, avec les images, je crois, c'est un exemple qui me vient à l'esprit, mais il y en a pas, pour les données génomiques ou n'importe quoi, pour les données d'images, ils ont leurs propres métadonnées à eux, comment on décrit une image, à la fois, bien sûr, son format, la technique, comment elle a été filtrée, etc. Et donc, tout ça, c'est un domaine à part pour l'image. Donc, Magot n'a pas prétention à les décrire des métadonnées d'image, il a prétention à décrire le projet, l'organisation, les métadonnées générales, et puis après, vous faites un lien vers votre projet image dans lequel vous avez votre propre métadonnée image. Donc, du coup, c'est une espèce de Magot, tu peux faire comme un hub qui va ensuite pointer vers les descriptions de vos données, précisément, ce qu'on appelle des métadonnées structurelles ou autres, et donc, il ne fait que le côté chapeau de la chose vers d'autres ressources ensuite plus spécifiques. Alors que Isatam, il essaye de décrire une expérience globale dans laquelle on implique plusieurs approches de type homique. C'est typiquement ça. Donc, ce n'est pas exactement la même chose, tout à fait, même s'il y a des recouvrements, mais voilà, on ne pourrait pas utiliser Magot à la place de, par exemple, que de vice-versa. Merci. Il nous reste quelques minutes encore, donc si vous avez une question, n'hésitez pas à lever la main. J'en avais une un petit peu naïve au début, j'espère, je vais finir par une deuxième question plus intéressante. Pourquoi et quand utiliser l'API institutionnel Padré ? Alors, ça a été répondu, si je ne me trompe pas, plus de disponibilité et une meilleure intégration avec les autres référentiels de l'établissement. Mais du coup, la deuxième question, peut-être un peu plus pour la gratter, est-ce que c'est celle que vous utilisez dans Magot et dans Cigard ? Ou est-ce que les contraintes associées à l'authentification, j'aime plus ? Dans Cigard, j'utilise directement l'API consultation vocabulaire ouverte. D'accord. Par authentification, pour éviter d'utiliser l'authentification, mais je ne me suis pas posé la question plus que ça. En fait, il n'y a pas de problème de disponibilité, donc il n'y a pas besoin de chercher plus loin. Oui. Après, c'est toute la difficulté, c'est que, alors, par exemple, tous les points commencent à implémenter. Par exemple, dans Magot, en fait, tout est rapatrié sous forme de JavaScript. C'est-à-dire que quand on vient télécharger, c'est que du JavaScript. Et après, c'est le JavaScript lui-même qui fait l'API. Et donc, là, ça pose un problème parce que s'il faut des tokens, etc., c'est dans votre API. Pour ça, on ne s'est pas caché. Et ça me pose un problème aujourd'hui, c'est que, par exemple, alors AgroPortal, ce n'est pas encore le cas, mais je crains que ça va devenir le cas. Bioportal, par exemple, passe par CloudFair et CloudFair met en place des procédures de sécurité extrêmement drastiques, ce qui fait que maintenant, les serveurs ne peuvent plus aller interroger l'API Bioportal sans token. Alors, quand c'est côté serveur, ça ne pose pas trop de problèmes puisqu'on peut rendre la clé cachée sur le serveur et donc, elle n'est pas téléchargée sur l'interface. Mais sur l'interface web, par exemple, ça pose problème. Je ne pourrais pas utiliser Padre, par exemple, sur l'interface web en JavaScript. Ça demanderait que n'importe qui qui est un petit peu futé, il va voir le module développement de son navigateur, il va aller voir le code JavaScript et il va aller voir la clé en clair. Donc, ça serait un peu dommage. Oui, j'ai entendu la même problématique de la part des collègues qui travaillent sur un autre outil qui s'appelle GeoFlow. Voilà. Le fait de s'authentifier ou d'avoir besoin d'un token pose problème quand on veut déployer différentes instances. Oui, pour Data Inray ou Alinray où il y a peut-être des besoins de l'autre. Oui, je complète en fait pour être totalement transparente, l'API Padre, d'après les informations qui nous ont été fournies par la DSI, est utilisée par une seule application qui est ANSI, l'application actif numérique. voilà, je n'ai pas de raison d'explication. Peut-être que les applications qui utilisent les autres référentiels institutionnels ne se sont pas encore intéressées au Thésauré Sinaé. Il faut qu'on communique. On pensait qu'on aurait plus d'utilisation. peut-être à voir si ça répond à un vrai besoin et qu'on évalue ça. C'est peut-être la vision pessimiste, la vision optimiste c'est que ça marche très bien avec les autres API, que ce n'est peut-être pas des si gros volumes. Il semble que la documentation de l'API directement sur le vocabulaire est plus claire et plus disponible que celle qu'on va trouver il n'y a pas de vrai. Voilà, on a essayé de documenter un peu ça sur le site vocabulaire ouvert. Je pourrais remettre l'adresse. Voilà, il faut... Les besoins sont différents. Il faut que chaque solution réponde aux besoins. Oui, j'avais vu une autre question. Le Thésaurus est-il aligné avec d'autres Thésaurus tels qu'AgroVoc de la FAO ? Alors, on a aligné le Thésaurus avec donc AgroVoc, donc Thésaurus en agriculture, le MESH qui est un référentiel médical et GEMET qui est un référentiel de l'environnement. Alors, ce n'est pas des alignements systématiques, il faudrait qu'on le refasse parce que ça date un peu. On a préféré travailler en premier sur la version anglaise du Thésaurus, ça nous a semblé plus utile. En 2026, on va travailler beaucoup sur l'ajout de définitions et sans doute qu'à l'occasion du travail sur les définitions, on arrivera à avancer un peu sur les alignements. Il faut qu'il y ait des usages, il faut qu'il y ait des besoins réels. Pour l'instant, on l'a fait de manière un peu théorique. S'il y a des exploitations possibles et intéressantes, on fera plus d'efforts. On est aussi aligné avec French Crop Susage qui est un Thésaurus qui a été développé par une équipe de recherche à NRAE. Là, l'idée, c'était aussi de rendre les vocabulaires métiers plus spécifiques visibles à travers le Thésaurus INRAE, que ce soit une sorte de porte d'entrée ou de pont vers ces vocabulaires. C'est encore des choses à développer. On prend les projets les uns après les autres. Mais s'il y a des intérêts, il faut nous le dire. Je note qu'il reste du travail encore à faire et que toutes les bonnes volontés sont les bienvenues. Merci beaucoup. Je ne vois plus de questions dans le chat. Peut-être qu'il faut que je vous signale que le prochain Café Numérique est programmé le 15 décembre et qu'il portera sur la pépinière numérique d'INRAE. Je vous remercie beaucoup à tous et tous. et je vous dis au prochain Café Numérique. Ok. Merci. A bientôt. Bonne soirée. Sous-titrage Société Radio-Canada
[Café numérique 44 ] Thesaurus INRAE et ses API
Retranscription