Conférence
Notice
Lieu de réalisation
École nationale des chartes
Langue :
Anglais
Crédits
Daniel Stoekl (Intervention)
Conditions d'utilisation
Droit commun de la propriété intellectuelle
Citer cette ressource :
Daniel Stoekl. ENC. (2022, 23 juin). 1.10 : Segmentation Mode for Archival Documents with Highly Complex Layout , in Documents anciens et reconnaissance automatique des écritures manuscrites. [Vidéo]. Canal-U. https://www.canal-u.tv/133479. (Consultée le 30 mai 2024)

1.10 : Segmentation Mode for Archival Documents with Highly Complex Layout

Réalisation : 23 juin 2022 - Mise en ligne : 6 octobre 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
Descriptif

par Daniel Stoekl Ben Ezra

Using eScriptorium together with kraken as an infrastructure, we developed a simple but highly efficient procedure for reducing the amount of human labor necessary for creating large amounts of segmentation ground truth for documents with highly complex layouts, i.e., documents comprising regions with lines at eight different angles. Our specific project deals with medieval documents in Hebrew script in Judeo‑Arabic, Aramaic and Hebrew from the Cairo Genizah, including letters, legal documents, lists, notes and accounts. There are about 40,000 documentary texts from the Genizah, of which only about 5,000 have been transcribed. Therefore, our current aim is to create enough data to be able to train a global segmentation model with a very large number of classes, so that it can segment complex layouts in a single step.

Intervention

Dans la même collection

Avec les mêmes intervenants et intervenantes

Sur le même thème