Das deduplizierende Dateisystem Less-FS

Amy Walters, 123RF

Schrumpfkur

Auf den meisten Festplatten tummeln sich unbemerkt doppelt und dreifach gespeicherte Daten. Diesen überflüssigen Platzverschwendern geht Less-FS mit einem ausgefeilten Verfahren an den Kragen.

Festplatten scheinen im Laufe eines Arbeitslebens irgendwie zu schrumpfen. Wo nach dem Kauf noch gähnende Leere herrschte, liegen plötzlich Abertausende Dateien. Ironischerweise haben viele sogar denselben oder zumindest ähnliche Inhalte. So schluckt jede sicherheitshalber aufbewahrte Version einer Rundmail wertvollen Plattenplatz.

Noch mehr Bytes belegen die regelmäßig angelegten Backups, ganz zu schweigen von den drei virtuellen Maschinen mit den zu Testzwecken aufgesetzten Distributionen. In diesem Extremfall lungern auf der Festplatte sogar viermal die gleichen Systemdateien. Gerade in solchen Fällen wäre es schön, wenn Linux identische Daten nur ein einziges Mal speichern würde.

Das dachte sich Mark Ruijter und schuf das Dateisystem Less-FS. Im Gegensatz zu herkömmlichen Vertretern wie Ext 4 & Co. schreibt es identische Datenblöcke nur einmal auf die Festplatte. Nach außen hin bleibt dabei alles beim Alten: Kopieren Sie beispielsweise ein Dokument, sehen Dateimanager wie Dolphin und Nautilus weiterhin zwei Dateien. Tatsächlich liegt das Original nur einmal auf der Festplatte.

Platzsparend

Ändern Sie die Kopie, speichert Less-FS nur die gegenüber dem Original modifizierten Teile. Da es auf diese Weise Datei-Duplikate vermeidet, heißt das Vorgehen auf Englisch Deduplication (Deduplizierung). Um weiteren Speicherplatz zu sparen, komprimiert Less-FS schließlich noch alle tatsächlich gespeicherten Daten. Das hat den angenehmen Nebeneffekt, dass Linux große Dateien wesentlich schneller lädt.

Es gibt aber einen Haken: Tritt ein Festplattendefekt auf, können Sie beim herkömmlichen Speichern der Daten eventuell noch auf eine ältere Kopie des Dokuments zugreifen. Less-FS fasst diese Dateien aber zusammen, womit sie folglich allesamt verloren wären. Regelmäßige Sicherungen auf einen zweiten Datenträger bleiben daher unerlässlich.

Um Less-FS auszuprobieren, gehen Sie im Webbrowser auf die Homepage des Entwicklers Mark Ruijter  [1]. Das Less-FS-Archiv enthält den Dateisystemtreiber und ein paar Werkzeuge. Um diese zu übersetzen und zu installieren, stellen Sie zunächst per »uname -r« sicher, dass Ihr Linux-System auf einem Kernel in Version 2.6.26 oder höher basiert. Anschließend nutzen Sie den Paketmanager, um den C-Compiler GCC, das Dienstprogramm Make sowie die Entwicklerpakete zu den vier folgenden Bibliotheken zu installieren:

  • Zlib (meist im Paket »zlib-devel« , unter Ubuntu »zlib1g-dev« )
  • Bzip2 (häufig in »libbz2-devel« oder »libbz2-dev« )
  • Mhash (»mhash-devel« beziehungsweise »libmhash-dev« )
  • Fuse (»fuse-devel« respektive »libfuse-dev« )

Vom Paketmanager zusätzlich als Abhängigkeiten vorgeschlagene Pakete bestätigen Sie einfach.

Grüße aus Japan

Alle wichtigen Informationen über die vorgenommenen Deduplizierungen merkt sich Less-FS in einer Datenbank. Mark Ruijter hat sich dabei für das etwas exotische Tokyo Cabinet entschieden. Einige wenige Distributionen führen es in ihren Repositories, Ubuntu 10.04 beispielsweise in den Paketen »libtokyocabinet8« und »libtokyocabinet-dev« . Wenn Ihr Paketmanager sie nicht findet, greifen Sie zum Quellcode-Archiv unter [2] oder auf der Heft-DVD. Entpacken Sie es und installieren Sie die Datenbank dann mit den drei folgenden Befehlen:

./configure --enable-off64
make
sudo make install

Auf 64-Bit-Systemen lassen Sie den Parameter »--enable-off64« hinter »./configure« weg. Er sorgt auf 32-Bit-Systemen dafür, dass die von Tokyo Cabinet verwalteten Datenbanken über 2 GByte hinaus wachsen können.

Sind alle Voraussetzungen erfüllt, übersetzen und installieren Sie den entpackten Less-FS-Quellcode mit dem bekannten Dreisatz:

./configure
make
sudo make install

Kopieren Sie dann noch die im Quellcode-Archiv mitgelieferte Konfigurationsdatei »less.cfg« in das Verzeichnis »/etc« .

comments powered by Disqus