1.10 : Segmentation Mode for Archival Documents with Highly Complex Layout

Durée : 00:23:00 -Réalisation : 23 juin 2022 -Mise en ligne : 6 octobre 2022
  • document 1 document 2 document 3
  • niveau 1 niveau 2 niveau 3
  • audio 1 audio 2 audio 3

par Daniel Stoekl Ben Ezra

Using eScriptorium together with kraken as an infrastructure, we developed a simple but highly efficient procedure for reducing the amount of human labor necessary for creating large amounts of segmentation ground truth for documents with highly complex layouts, i.e., documents comprising regions with lines at eight different angles. Our specific project deals with medieval documents in Hebrew script in Judeo‑Arabic, Aramaic and Hebrew from the Cairo Genizah, including letters, legal documents, lists, notes and accounts. There are about 40,000 documentary texts from the Genizah, of which only about 5,000 have been transcribed. Therefore, our current aim is to create enough data to be able to train a global segmentation model with a very large number of classes, so that it can segment complex layouts in a single step.

Lieu de réalisation
École nationale des chartes
Langue :
Daniel Stoekl (Intervenant)
Conditions d'utilisation
Droit commun de la propriété intellectuelle
Citer cette ressource :
Daniel Stoekl. ENC. (2022, 23 juin). 1.10 : Segmentation Mode for Archival Documents with Highly Complex Layout. [Vidéo]. Canal-U. (Consultée le 1 avril 2023)

Dans la même collection

Avec les mêmes intervenants

Sur le même thème