OCR – jundars bits'n'pieces

Mit der (erfreulicherweise) zunehmenden Umstellung vieler Dienstleister auf Rechnungen im PDF- statt im Toter-Baum-Format (aka „Papier“) habe ich mich mal nach einem unkomplizierten Dokumentenmanagement-System umgesehen, dass ich im Haushalt einsetzen kann, wartungsfrei ist und ggf. auch im Betrieb nutzbar ist. Gelandet bin ich bei paperless-ngx, das sich unkompliziert per Docker installieren lässt und seit einigen Monaten auf meinem Kellerserver Dokumente mampft. Paperless-ngx nimmt Dateien in PDF und vielen anderen Text- und Grafikformate entgegen (als Upload oder per Mail), indiziert und texterkennt sie und legt sie ordentlich sortiert ab. Das Ganze lässt sich in einer anständigen UI im Browser bedienen und werkelt auch auf einem Raspberry Pi anständig flott.

Nach der Installation von Docker und docker-compose auf dem Rechner muss mensch nur die Konfigurationsdateien anpassen; auf der Projektseite von paperless-ngx stehen dafür Templates zur Verfügung, die man nur geringfügig anpassen muss. Die sehr gute (englische) Dokumentation ist gut gegliedert und hilft bei der Installation – dank docker auch auf Windows, obwohl der Overhead unter Linux deutlich geringer ist.

Extrem praktisches Programm, wenn man gelegentlich Texte über einen Scanner als PDF archiviert und das Ganze nicht direkt in ein CMS/Archivsystem werfen will: ocrmypdf (Doku), generiert ein PDF/A mit Textlayer. Gute Zusammenstellung hier.

Nicht vergessen: Pfad für tesseract anpassen

export TESSDATA_PREFIX=/usr/share/tessdata

und die korrekten Sprachen für tesseract installieren:

$ pacman -S tesseract-data-eng tesseract-data-deu

Schnelle Erkennung mit automatischer Rotationserkennung:

ocrmypdf -l deu -r input.pdf output.pdf

Neueste Beiträge

Comic

Podcasts

Tech

Schlagwort: OCR

paperless-ngx: flotte Dokumentenverwaltung

OCR für die commandline: ocrmypdf