Extrem praktisches Programm, wenn man gelegentlich Texte über einen Scanner als PDF archiviert und das Ganze nicht direkt in ein CMS/Archivsystem werfen will: ocrmypdf (Doku), generiert ein PDF/A mit Textlayer. Gute Zusammenstellung hier.
Nicht vergessen: Pfad für tesseract anpassen
export TESSDATA_PREFIX=/usr/share/tessdata
und die korrekten Sprachen für tesseract installieren:
$ pacman -S tesseract-data-eng tesseract-data-deu
Schnelle Erkennung mit automatischer Rotationserkennung:
ocrmypdf -l deu -r input.pdf output.pdf
Schreibe einen Kommentar