Um seine Laufwerke permanent zu überwachen und Meldungen in den System-Logdateien zu erhalten, stellen die Smartmontools einen eigenen Daemon zur Verfügung. Um ihn beim Systemstart zu aktivieren, muss in der Konfigurationsdatei »/etc/default/smartmontools
«
der Eintrag
start_smartd=yes
auskommentiert werden. Die eigentlichen Einstellungen werden in »/etc/smartd.conf
«
vorgenommen. Die vorhandene Datei zeigt viele Beispiele. Ein solides Grundgerüst für eigene Anpassungen besteht aus folgender Zeile
DEVICESCAN -S on -o on -a -I 194 -m michael@server.lan -M test -s (S/../.././02|L/../../6/03)
Alle Laufwerke werden überwacht, die SMART-Funktionen werden zur Sicherheit nochmal eingeschaltet, der Wert mit der ID:194 wird ignoriert (es sei denn, es soll bei jeder Temperaturänderung eine Nachricht generiert werden). Der Parameter “-M test” erzeugt für jedes erkannte Laufwerk eine Test-Mail (dieser Parameter kann entfernt werden). Die etwas kryptischen Angaben in Klammern starten jede Nacht um 02:00 Uhr einen “short”-SMART-Test und am Samstag (Tag Nummer 6) um 03:00 Uhr einen ausführlichen “long”-SMART-Test. Der Start und die spätere Funktion lässt sich im System-Log per
cat /var/log/syslog | grep smartd
ablesen. Gestartet wird der Daemon nach dem nächsten Neustart oder von Hand per
/etc/init.d/smartd start
Bei jeder Konfigurationsänderung sollte »smartd
«
per “restart” neu gestartet werden.
SMART überwacht Datenträger und stellt viele Messwerte zur Verfügung. Aus diesen Werten lässt sich ablesen, wann ein Laufwerk langsam degeneriert, also auf einen Ausfall hinarbeitet. Die bei Administratoren gut bekannte Google-Studie von Eduardo Pinheiro, Wolf-Dietrich Weber und Luiz André Barroso [4] aus dem Jahr 2006 hinterlässt einen gemischten Eindruck - ist aber lesenswert. Festplatten sterben demnach entweder sehr früh oder relativ spät, und die Ausfallrate ist stark von Hersteller und Modell abhängig (dazu gibt es Studien von BackBlaze [5] oder Storelab, die beispielsweise Seagate- ein doppelt so hohes Ausfallrisiko wie Hitachi- oder Western Digital-Platten bescheinigen – aber da hat jeder Admin eigene Erfahrungen).
Zu hohe Temperaturen sind nur auf Dauer schädlich, viel gefährlicher für die Festplatten ist überraschenderweise Kälte. In Bezug auf SMART hat sich gezeigt, dass 56 Prozent der Festplatten ohne vorherige Anzeichen in wichtigen SMART-Parametern ausgefallen sind, 36 Prozent sogar vollkommen ohne jegliche Änderung eines einzigen SMART-Wertes. Treten allerdings erste Lesefehler auf, steigt laut Google-Studie die Wahrscheinlichkeit um das 39-fache, dass das Laufwerk innerhalb der nächsten 60 Tage ausfällt.
Bei der Hälfte der Ausfälle gibt SMART eine Vorwarnung, die dann allerdings sehr ernst genommen werden muss. Davon abgesehen läuft SMART auf SAS-/SCSI-Laufwerken mit Einschränkungen und beim Einsatz von RAID-Controllern bis auf Ausnahmen gar nicht. Muss der IT-Verantwortliche die Platte für einen Garantietausch des Herstellers sowieso bis zum endgültigen Defekt betreiben, ist der Vorteil des SMART-Einsatzes eher gering. Außerdem: Wer erst dann anfängt, Backups von Einzellaufwerken anzulegen, wenn SMART einen Ausfall ankündigt, spielt mit seinen Daten russisches Roulette. Ein RAID-Verbund zur Sicherstellung der Datenverfügbarkeit und regelmäßige Backups für die Datensicherheit kann SMART nicht ersetzen.
(of)
Link-Codes
[1] Smartmontools: http://sourceforge.net/apps/trac/smartmontools/
[2] Datenbank der bekannten Laufwerke: http://sourceforge.net/p/smartmontools/code/HEAD/tree/trunk/smartmontools/drivedb.h
[3] Badblock-Howto: http://smartmontools.sourceforge.net/badblockhowto.html
[4] Google-Studie zu SMART: http://research.google.com/archive/disk_failures.pdf
[5] BackBlaze-Studie zur Festplatten-Zuverlässigkeit einzelner Hersteller: http://blog.backblaze.com/2014/01/21/what-hard-drive-should-i-buy/
Michael Plura ist seit über 25 Jahren als IT-Berater und Autor tätig. Schwerpunkte sind Betriebssysteme, Netzwerke und Sicherheit, Virtualisierung, ausrangierte Hardware und Open Source.