SchlagwortArchlinux

OCR für die commandline: ocrmypdf

Extrem praktisches Programm, wenn man gelegentlich Texte über einen Scanner als PDF archiviert und das Ganze nicht direkt in ein CMS/Archivsystem werfen will: ocrmypdf (Doku), generiert ein PDF/A mit Textlayer. Gute Zusammenstellung hier.

Nicht vergessen: Pfad für tesseract anpassen

export TESSDATA_PREFIX=/usr/share/tessdata

und die korrekten Sprachen für tesseract installieren:

$ pacman -S tesseract-data-eng tesseract-data-deu

Schnelle Erkennung mit automatischer Rotationserkennung:

ocrmypdf -l deu -r input.pdf output.pdf

abcde mit musicbrainz verwenden

Nachdem ich als Musiknerd gerne alles genau habe, tagge ich mittels Sammlungen mittels beets und musicbrainz.org ordentlich durch. Zum Rippen von CDs verwende ich unter Archlinux seit längerem das Skript abcde, das auch sehr anständige Ergebnisse und vor allem anständiges automatisches Tagging auf der Konsole ermöglicht. Nach dem Anpassen der .abcde.conf und Nachinstallation von python-eyed3 läuft alles flott in guter mp3-Qualität und replaygain auf die Platte.

## ~/.abcde.conf
CDDBMETHOD=musicbrainz
EYED3=eyeD3
LAMEOPTS='-V 0'
FLACGAINOPTS="--add-replay-gain"
EYED3OPTS="--non-std-genres"
CDROM=/dev/sr0
OUTPUTTYPE=mp3