L'Optical Character Recognition (OCR) et l'Handwritten Text Recognition (HTR) sont deux technologies permettant d'effectuer de la reconnaissance automatique de texte imprimé et de texte manuscrit. Elles s’inscrivent dans un domaine vaste et parfois complexe, où il peut être difficile de se repérer, de savoir par où commencer et comment procéder. Toutefois, l'OCR et l'HTR sont suffisamment avancés pour proposer des outils à la disposition de tous, même sans connaissances en Deep Learning.
L'objectif de cet atelier est de présenter les différentes étapes dans la reconnaissance de texte imprimé ou manuscrit, de la préparation du corpus à la pratique avec eScriptorium.
Déroulement de l'atelier:
- Présentation générale
- Préparation d'un corpus de texte
- Choisir un outil
- Exercice pratique sur eScriptorium
Pré-requis :
- apporter son propre PC
- Apporter quelques images contenant du texte à transcrire automatiquement