Kategorie: Linux

paperless-ngx: flotte Dokumentenverwaltung

Dieses Bild hat ein leeres Alt-Attribut. Der Dateiname ist Black-logo-no-background-300x113.png

Mit der (erfreulicherweise) zunehmenden Umstellung vieler Dienstleister auf Rechnungen im PDF- statt im Toter-Baum-Format (aka „Papier“) habe ich mich mal nach einem unkomplizierten Dokumentenmanagement-System umgesehen, dass ich im Haushalt einsetzen kann, wartungsfrei ist und ggf. auch im Betrieb nutzbar ist. Gelandet bin ich bei paperless-ngx, das sich unkompliziert per Docker installieren lässt und seit einigen Monaten auf meinem Kellerserver Dokumente mampft. Paperless-ngx nimmt Dateien in PDF und vielen anderen Text- und Grafikformate entgegen (als Upload oder per Mail), indiziert und texterkennt sie und legt sie ordentlich sortiert ab. Das Ganze lässt sich in einer anständigen UI im Browser bedienen und werkelt auch auf einem Raspberry Pi anständig flott.

Nach der Installation von Docker und docker-compose auf dem Rechner muss mensch nur die Konfigurationsdateien anpassen; auf der Projektseite von paperless-ngx stehen dafür Templates zur Verfügung, die man nur geringfügig anpassen muss. Die sehr gute (englische) Dokumentation ist gut gegliedert und hilft bei der Installation – dank docker auch auf Windows, obwohl der Overhead unter Linux deutlich geringer ist.

pishrink – Komprimieren von OS-Images für den Raspberry Pi

Nachdem ich mir etliche Male hintereinander mein nginx-Setup zerschossen habe und auf meinem Pi nicht nur ein Webserver, sondern auch noch so praktische Tools wie baikal, grocy oder AdGuard laufen, ist es mir zu dumm geworden und ich habe mir mal Backup-Lösungen angeschaut, die über ein schlichtes „dd“ hinausgehen.

Auftritt pishrink (https://github.com/Drewsif/PiShrink). Das Skript komprimiert ein mit dd erstelltes Image einer SD-Karte (bsp. des laufenden Raspbian/Debian-Images eures Pis), reduziert den Overhead aus dem Root-Dateisystem und entfernt bei Bedarf auch die Logfiles, das apt-Archiv sowie DHCP-Leases und die SSH keys, so dass man frisch wieder loslegen will, wenn man das Image wieder aufspielt. Als Schmankerl resized das Skript beim ersten Booten die root-Partition wieder auf die maximal vorhandene SD-Kartengröße, so daß auch ein Transfer auf Karten anderer Größe problemlos machbar ist.

OCR für die commandline: ocrmypdf

Extrem praktisches Programm, wenn man gelegentlich Texte über einen Scanner als PDF archiviert und das Ganze nicht direkt in ein CMS/Archivsystem werfen will: ocrmypdf (Doku), generiert ein PDF/A mit Textlayer. Gute Zusammenstellung hier.

Nicht vergessen: Pfad für tesseract anpassen

export TESSDATA_PREFIX=/usr/share/tessdata

und die korrekten Sprachen für tesseract installieren:

$ pacman -S tesseract-data-eng tesseract-data-deu

Schnelle Erkennung mit automatischer Rotationserkennung:

ocrmypdf -l deu -r input.pdf output.pdf

beets konfigurieren

beets ist ein wunderbares Tool, um eine bis dato unordentliche Musiksammlung anständig über musicbrainz taggen und automatisiert zu sortieren. Ab ein paar Hundert Alben wird es halt unübersichtlich und mit einer manuellen Sortierung und Taggen kommt man bald die Grenzen der Nutzbarkeit. beets unterhält eine separate Datenbank, die Duplikate beim Importieren erkennt (und gegebenenfalls parallel ablegt) und ein schnelles Suchen nach Künstler, Jahr oder Titel per shell möglich macht.

Weiterlesen

abcde mit musicbrainz verwenden

Nachdem ich als Musiknerd gerne alles genau habe, tagge ich mittels Sammlungen mittels beets und musicbrainz.org ordentlich durch. Zum Rippen von CDs verwende ich unter Archlinux seit längerem das Skript abcde, das auch sehr anständige Ergebnisse und vor allem anständiges automatisches Tagging auf der Konsole ermöglicht. Nach dem Anpassen der .abcde.conf und Nachinstallation von python-eyed3 läuft alles flott in guter mp3-Qualität und replaygain auf die Platte.

## ~/.abcde.conf
CDDBMETHOD=musicbrainz
EYED3=eyeD3
LAMEOPTS='-V 0'
FLACGAINOPTS="--add-replay-gain"
EYED3OPTS="--non-std-genres"
CDROM=/dev/sr0
OUTPUTTYPE=mp3