Conférence
Notice
Langue :
Français
Crédits
EVEille (Organisation de l'évènement), Daniel Stökl Ben Ezra (Intervention), Guillaume Porte (Intervention)
Détenteur des droits
EVEille
Citer cette ressource :
Daniel Stökl Ben Ezra, Guillaume Porte. EVEille. (2022, 11 février). Acquisition des données sur une chaîne éditoriale. [Vidéo]. Canal-U. https://www.canal-u.tv/144802. (Consultée le 12 octobre 2024)

Acquisition des données sur une chaîne éditoriale

Réalisation : 11 février 2022 - Mise en ligne : 19 juillet 2023
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

Acquisition

Guillaume Porte

Premier bout de la chaîne, l’acquisition peut aussi être l’un des plus frustrants entre les avancées technologiques sur les OCR/HTR et la réalité, bien souvent, des transcriptions manuelles. Si la première méthode promet des résultats toujours meilleurs, quels en sont les enjeux et les contraintes ? 

eScriptorium et kraken vers une HTR ouverte 

Peter Stokes (EPHE) 
Daniel Stokl Ben Ezra (EPHE) 

Ressources

escripta.hypotheses.org

kraken.re

gitlab.inria.fr/scripta/escriptorium

github.com/mittagessen/kraken

zenodo.org/communities/ocr_models/

ephenum.hypotheses.org/1412

OCR et HTR arabe ttps://alraqmiyyat.github.io/OpenITI/

Voir aussi des publications de S.Gabay, A.Pinche, A. Chagué, ...

« From eScriptorium to TEI Publisher » hal.inria.fr/hal-03538115/

« Mutualisons la VT » hal.archives-ouvertes.fr/hal-03398740/

 ________________

Kraken = moteur HTR

eScriptorium = interface web pour kraken

(pensés pour être libre/gratuit/ouvert)

ALTO (Analyzed Layout and Text Object) : schéma XML qui détaille les métadonnées techniques permettant de décrire la mise en page et le contenu des ressources textuelles physiques.

PAGE (Page Analysis and Ground-Truth Elements) : cadre de représentation d’image de page basé sur XML qui enregistre des informations sur les caractéristiques de l’image, en plus de la structure de mise en page et du contenu de la page.

Après l’HTR : naviguer entre les formats 

Simon Gabay (Université de Genève)

Ressources

SegmOnto : vocabulaire contrôlé pour décrire la page manuscrite et imprimée. La collaboration entre les différents joueurs permet de créer des meilleurs modèles : https://lectaurep.hypotheses.org/documentation/prendre-en-main-escriptorium

Passage par la TEI : https://tei-c.org https://tei-c.org/release/doc/tei-p5-doc/fr/html/index.html 

IIIF (International Image Interoperability Framework) : outil qui désigne à la fois une communauté et un ensemble de spécifications techniques, dont l’objectif est de définir un cadre d’interopérabilité pour la diffusion d’images haute résolution sur le Web.

RDF (Resource Description Framework) : format qui permet de mélanger deux documents XML en un seul, décrivant les relations dans les données.

Bibliographie fournie par l'intervenant :

  1. Simon Gabay, Jean-Baptiste Camps, Ariane Pinche, Claire Jahan. “SegmOnto: common vocabulary and practices for analysing the layout of manuscripts (and more)”1st International Workshop on Computational Paleography (IWCP@ICDAR 2021), Sep 2021, Lausanne, Switzerland. ⟨hal-03336528⟩
  2. Ariane Pinche, Jean-Baptiste Camps, Simon Gabay. SegmOnto : Un vocabulaire contrôlé pour décrire la page manuscrite et imprimée. 2021. ⟨hal-03481089⟩

Mise en ligne de la vidéo par Yanet Hernandez Pedraza. Métadonnées et description par Yanet Hernandez Pedraza et Michela Lagnena en 2022 sur UHAPOD, contenu téléversé sur Canal-U par Alicia Balasso en 2023.

Intervention

Avec les mêmes intervenants et intervenantes

Sur le même thème