Extrem praktisches Programm, wenn man gelegentlich Texte über einen Scanner als PDF archiviert und das Ganze nicht direkt in ein CMS/Archivsystem werfen will: ocrmypdf (Doku), generiert ein PDF/A mit Textlayer. Gute Zusammenstellung hier.

Nicht vergessen: Pfad für tesseract anpassen

export TESSDATA_PREFIX=/usr/share/tessdata

und die korrekten Sprachen für tesseract installieren:

$ pacman -S tesseract-data-eng tesseract-data-deu

Schnelle Erkennung mit automatischer Rotationserkennung:

ocrmypdf -l deu -r input.pdf output.pdf