Mit E-Mail-Diensten muss sich jeder Administrator früher oder später einmal beschäftigen. Das zur CeBIT erscheinende ADMIN 02/2012 gibt dazu Praxis-Tipps und ... (mehr)

Briefpost im Archiv

Schriftverkehr und Belege auf Papier lassen sich im elektronischen Archiv ebenso ablegen. Dazu wird das Schriftgut eingescannt, im PDF-Format abgelegt und mit Suchbegriffen versehen. Die Eingabe dieser Suchbegriffe geschieht manuell. In der Praxis stehen für die Eingabe der Suchbegriffe Masken mit festen Begriffen (Eingang, Kundennummer ….) und einem Feld für frei formulierbaren Text zur Verfügung.

Das Shellskript aus Listing 2 zeigt den grundsätzlichen Ablauf. Mit »gscan2pdf« [3] wird das Schriftgut eingescannt. Dieses Programm bietet auch die Einbindung einer OCR-Software, hier: »gocr« [4]. Das Leseergebnis kann sofort in einem Editor nachbearbeitet werden. Im Normalfall legt man das Ergebnis in die Zwischenablage. Nach dem Speichern und Beenden von »gscan2pdf« startet ein Texteditor. Hier fügt der Anwender den Inhalt der Zwischenablage und die eigenen Suchbegriffe (Kundennummer, Datum, Rücksendenummer oder dergleichen) ein. Das Shellskript verwandelt die Eingabe mittels »pdflatex« [5] in ein durchsuchbares PDF-Dokument, »pdftk« [6] fügt dieses mit dem eingescannten PDF-Dokument zusammen. Der Benutzer verschiebt nach Sichtung des Ergebnisses die PDF-Datei in das Übergabeverzeichnis für das Archiv, von wo aus es in das Zielverzeichnis verschoben wird.

Listing 2

archivieren.sh

 

Auf das Archiv greift der Anwender über einen Webserver zu. Der Dienst muss gegen unbefugten Zugriff und Mitlesen geschützt werden. Hierfür bietet sich neben der verschlüsselten Kommunikation auch die Beschränkung auf den »localhost« an. Die Anwender starten eine Arbeitssitzung am Rechner selbst oder per SSH, NX oder RDP im lokalen Netzwerk.

Namazu

Mit »namazu« [7]) lässt sich das Archiv durchsuchen. Das Programm arbeitet mit dem Webserver zusammen. Zum Paket gehört auch das Tool »mknmz« zum Erstellen des Index, den die Suchmaschine »namazu« benötigt. Im Fall von Debian liegen die Konfigurationsdateien unter »/etc/namazu« :

  • mknmzrc: Hier werden mindestens der maximale Datei- und Textumfang festgelegt, bis zu denen ein Indexeintrag geschieht.
$FILE_SIZE_MAX = 900000000;
$TEXT_SIZE_MAX = 900000000;

Der hier gezeigte Wert ergab sich aus der täglichen Praxis. Weitere Konfigurationsmöglichkeiten betreffen vor allem die Gewichtung der Ergebnisse, erlaubte und nicht erlaubte Dateitypen, Lage von Verzeichnissen und Darstellungsoptionen.

  • namazurc: Wenigstens die Orte für »Index« , »Template« und »Lang« trägt man hier ein.

Auf der Webseite des Projektes befindet sich eine ausführliche, lesenswerte Dokumentation.

Ein Aufruf von »mknmz« erzeugt den Index. Dieses Programm kann mit der Option »--decode-base64« auch MIME-codierte Mails behandeln. Im Beispiel erlaubt die Option »-a« das Durchsuchen aller Dateien. Den Ablageort des Index gibt »-O« an.

#! /bin/sh
mknmz -a speicher/* -O namazu/index

In diesem Shellskript gibt »mknmz« für jedes Dokument eine Meldung ab. Am Ende wird eine Statistik angezeigt. Kommen neue Dokumente hinzu, werden die Informationen darüber an den bestehenden Index angefügt. Der Index wird im Normalfall nicht komplett neu erstellt.

Eine minimalistische Abfragefunktion zeigt das Shellskript »suchen.sh« (Listing 3). Beim Aufruf von »namazu« wird auf die Konfigurationsdatei (»-f« ) verwiesen. Die Ausgabe wird auf 500 Treffer begrenzt (»-n« ) und im HTML-Format (»-h« ) geliefert. Das Ergebnis zeigt Abbildung 4.

Abbildung 4: Die Trefferliste von Namazu.

Listing 3

suchen.sh

 

Alternativ eignet sich zum Durchsuchen von Text (RTF-Format) »grep« und von PDF-Dateien »pdfgrep« [8]. Text aus PDF-Dateien extrahiert »pdftotext« . So entstandene Textdateien lassen sich in Datenbanken speichern. (jcb)

Der Autor

Harald Zisler hat seit den 90er-Jahren beruflich und privat mit Betriebssystemen aus der UNIX-Welt und Netzwerken zu tun. Aktuell ist sein Buch "Computer-Netzwerke", das bei Galileo-Press erschienen ist.

comments powered by Disqus
Mehr zum Thema

Im Vergleichstest: Open Source-Software für Mailarchivierung

Unternehmen sind gesetzlich zur dauerhaften Aufbewahrung von E-Mails verpflichtet. Die hier vorgestellten Archivierungslösungen Piler, Benno MailArchiv und MailArchiva versprechen neben gesetzeskonformer Speicherung weitere Vorteile für Unternehmen.

Artikel der Woche

Eigene Registry für Docker-Images

Wer selber Docker-Images herstellt, braucht auch eine eigene Registry. Diese gibt es ebenfalls als Docker-Image, aber nur mit eingeschränkter Funktionalität. Mit einem Auth-Server wird daraus ein brauchbares Repository für Images. (mehr)
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Google+

Ausgabe /2019