Notice
Acquisition des données sur une chaîne éditoriale
- document 1 document 2 document 3
- niveau 1 niveau 2 niveau 3
Descriptif
Acquisition
Guillaume Porte
Premier bout de la chaîne, l’acquisition peut aussi être l’un des plus frustrants entre les avancées technologiques sur les OCR/HTR et la réalité, bien souvent, des transcriptions manuelles. Si la première méthode promet des résultats toujours meilleurs, quels en sont les enjeux et les contraintes ?
eScriptorium et kraken vers une HTR ouverte
Peter Stokes (EPHE)
Daniel Stokl Ben Ezra (EPHE)
Ressources
gitlab.inria.fr/scripta/escriptorium
zenodo.org/communities/ocr_models/
OCR et HTR arabe : ttps://alraqmiyyat.github.io/OpenITI/
Voir aussi des publications de S.Gabay, A.Pinche, A. Chagué, ...
« From eScriptorium to TEI Publisher » hal.inria.fr/hal-03538115/
« Mutualisons la VT » hal.archives-ouvertes.fr/hal-03398740/
________________
Kraken = moteur HTR
eScriptorium = interface web pour kraken
(pensés pour être libre/gratuit/ouvert)
ALTO (Analyzed Layout and Text Object) : schéma XML qui détaille les métadonnées techniques permettant de décrire la mise en page et le contenu des ressources textuelles physiques.
PAGE (Page Analysis and Ground-Truth Elements) : cadre de représentation d’image de page basé sur XML qui enregistre des informations sur les caractéristiques de l’image, en plus de la structure de mise en page et du contenu de la page.
Après l’HTR : naviguer entre les formats
Simon Gabay (Université de Genève)
Ressources
SegmOnto : vocabulaire contrôlé pour décrire la page manuscrite et imprimée. La collaboration entre les différents joueurs permet de créer des meilleurs modèles : https://lectaurep.hypotheses.org/documentation/prendre-en-main-escriptorium
Passage par la TEI : https://tei-c.org | https://tei-c.org/release/doc/tei-p5-doc/fr/html/index.html
IIIF (International Image Interoperability Framework) : outil qui désigne à la fois une communauté et un ensemble de spécifications techniques, dont l’objectif est de définir un cadre d’interopérabilité pour la diffusion d’images haute résolution sur le Web.
RDF (Resource Description Framework) : format qui permet de mélanger deux documents XML en un seul, décrivant les relations dans les données.
Bibliographie fournie par l'intervenant :
- Simon Gabay, Jean-Baptiste Camps, Ariane Pinche, Claire Jahan. “SegmOnto: common vocabulary and practices for analysing the layout of manuscripts (and more)”. 1st International Workshop on Computational Paleography (IWCP@ICDAR 2021), Sep 2021, Lausanne, Switzerland. ⟨hal-03336528⟩
- Ariane Pinche, Jean-Baptiste Camps, Simon Gabay. SegmOnto : Un vocabulaire contrôlé pour décrire la page manuscrite et imprimée. 2021. ⟨hal-03481089⟩
Mise en ligne de la vidéo par Yanet Hernandez Pedraza. Métadonnées et description par Yanet Hernandez Pedraza et Michela Lagnena en 2022 sur UHAPOD, contenu téléversé sur Canal-U par Alicia Balasso en 2023.
Avec les mêmes intervenants et intervenantes
-
Présentation des réflexions du groupe de travail TEI-Nakala : faciliter l’insertion de l’entrepôt N…
PorteGuillaumePatatGwenaëlleLE FOURNER Victoria (mai 2022)
-
-
« Traitement et analyse des données au sein d'une chaîne éditoriale » (mars 2022)
PorteGuillaumeHeidenSergePrésentées conjointement, ces deux briques de la chaîne sont en effet intimement liées. Via la présentation de certains outils, nous verrons comment l’enrichissement d’un document numérique à l’aide
-
« Diverses chaînes de production éditoriale » (janvier 2022)
PorteGuillaumeRogerJuliaAllainAnne-LaureArrugaMarlèneBreuilSandrineUetaniToshinoriFerjaniSarraCette première séance sera l’occasion de faire le point sur la notion de chaîne éditoriale pour le traitement des sources en bénéficiant du retour d’expériences d’ingénieur.e.s et chercheur.e.s actifs
-
« Collaborations entre ingénieurs et chercheurs, circulation des compétences et dynamique de projet…
Réach-NgôAnneBrunnerThomasPorteGuillaumeLa table ronde consacrée à l’épistémologie et la méthodologie de la recherche en environnement numérique partira de la présentation d’une expérience collaborative entre un chercheur en histoire
Sur le même thème
-
The Templar Citadel of Tartous through Images: Digital Tools to Reveal its Origins and Reconstruct …
Dans cette communication, Lorenzo Mercuri explore sous un angle renouvelé la citadelle templière de Tartous, en Syrie, grâce aux apports des outils numériques. En croisant histoire, archéologie et
-
Traiter les inscriptions et graffitis de l’Orient latin : l’environnement numérique de l’ERC GRAPH-…
Ingrand-VarenneEstelleDans cette communication, Estelle Ingrand-Varenne présente l’environnement numérique de travail développé dans le cadre du projet ERC GRAPH-EAST (2021–2027), consacré aux inscriptions et graffitis en
-
L’apport des humanités numériques à l’étude des grafiiti dans les lieux saints : prospecter, enregi…
DussartClémentClément Dussart présente, dans le cadre du projet ERC GRAPH-EAST, les apports des humanités numériques à l’étude des graffiti dans les lieux saints de l’Orient chrétien médiéval. Photogrammétrie,
-
The Crusades Regesta: A Database for the Study of the Latin East
GutgartsAnnaBomMyra MirandaDans cette communication, Anna Gutgarts et Myra M. Bom présentent l'histoire et les enjeux de la base de données The Crusades Regesta. Cette base de données, initiée par Jonathan Riley-Smith, est
-
Présentation du projet MistraNum. L’usage et l’apport des nouvelles technologies sur le site archéo…
YotaÉlisabethÉlisabeth Yota présente, dans cette communication, un projet de recherche alliant études byzantines et humanités numériques, consacré à l'étude et à la valorisation patrimoniale du site médiéval de
-
Le portail numérique Φραγκικά-Frankika : un nouvel élan pour l’histoire de la Grèce franque et lati…
TrélatPhilippeVoisinLudivineMeyer-FernandezGeoffreyDans cette communication, Geoffrey Meyer-Fernandez, Philippe Trélat et Ludivine Voisin présentent le portail Φραγκικά-Frankika, un projet de recherche numérique porté par l’École française d’Athènes
-
Le projet EyCon: Vision par ordinateur et archives photographiques des conflits coloniaux
FoliardDanielSchuhJulienLe projet EyCon: Vision par ordinateur et archives photographiques des conflits coloniaux
-
Le projet CollEx Persée ArchéoAl. Enrichissements de toponymes et alignements d'identifiants numéri…
MacquinAgnèsLe projet CollEx Persée ArchéoAl. Enrichissements de toponymes et alignements d'identifiants numériques
-
Visualiser les données des sources ottomanes : modélisation et spatialisation des réseaux de fondat…
Visualiser les données des sources ottomanes : modélisation et spatialisation des réseaux de fondations pieuses de Bosnie avec Gephi
-
ANR PORTIC - Partie I : « Naviguer avec la base de données PORTIC » (coordinatrice : Christine Plum…
PlumejeaudChristineSofiaPierre NiccolòJournée de restitution du projet ANR PORTIC
-
ANR PROTIC - Introduction
MarzagalliSilviaJournée de restitution du programme ANR PORTIC - Introduction
-
ANR PORTIC - Partie II : « Projet PORTIC : négocier l’écriture d’une enquête » (coordinateur : Robi…
MouratRobin deCharlesLoïcMarzagalliSilviaGirardPaulMazoyerBéatriceJournée de restitution du programme ANR PORTIC