Das Titelthema im ADMIN 04/14 "Vernetzt speichern" sind Netzwerkdateisysteme, etwa Samba 4, verteilter Storage mit Ceph & GlusterFS und der Unix-Klassiker ... (mehr)

SMART-Kritik

Die Auswertung der SMART-Attribute gibt scheinbar genaue Hinweise auf den gesundheitlichen Zustand einer Festplatte. Erhöhte Temperatur, fehlerhafte Sektoren und andere Eigenschaften deuten auf einen baldigen Ausfall hin.

Eine Studie einiger Google-Mitarbeiter [4] relativiert den Nutzen von SMART-Messungen. Sie haben acht Monate lang 100  000 Geräte unterschiedlichen Typs auf eine Korrelation zwischen deren Ausfall, den SMART-Werten und anderer Parameter untersucht. Es handelte sich um SATA- und PATA-Platten mit Geschwindigkeiten von 5400 bis 7200 Umdrehungen pro Minute und 80 bis 400 GByte Speicherplatz.

Für die Studie haben die Forscher die SMART-Attribute beobachtet und protokolliert, welche Platten ausgefallen sind. Sie stellten zusammenfassend fest, dass einige SMART-Attribute zwar eine hohe Korrelation zu Ausfällen aufwiesen, aber alleine keine zuverlässigen Rückschlüsse auf die Ausfallwahrscheinlichkeit zuließen. Überraschenderweise gehörte die von SMART ausgegebene Temperatur zu den weniger relevanten Attributen, wie auch die allgemeine Aktivität einer Platte.

Trotz der unklaren Zusammenhänge fanden die Google-Mitarbeiter interessante Tendenzen:

  • Sie stimmen der allgemeinen Auffassung zu, dass die Ausfallraten von Festplatten stark mit dem Modell, dem Hersteller und ihrem Alter zusammenhängen.
  • Von den ausgefallen Geräten haben über 56 Prozent keine Probleme in den wichtigen SMART-Attributen wie »Scan Error Rate« , »Reallocation Count« , »Offline Reallocation« und »Probational Count« gehabt. Das heißt, dass Modelle auf Basis dieser Parameter höchstens die Hälfte aller Festplattenausfälle prognostizieren.
  • Hohe Temperaturen haben nur auf Festplatten Einfluss, die älter als drei oder vier Jahre sind. Zudem wirken sich auch niedrige Temperaturen auf die Ausfallrate aus; auch bei neueren Platten.
  • Nachdem zum ersten Mal ein »Scan Error« aufgetreten ist, steigt die Wahrscheinlichkeit eines Ausfalls in den nächsten 60 Tagen um den Faktor 39. Auch die ersten Fehler der anderen genannten, wichtigen SMART-Attribute korrelieren deutlich mit der Ausfallwahrscheinlichkeit. Diese Zahlen lassen aber lediglich allgemeine Rückschlüsse auf einen großen Festplattenbestand zu, nicht auf einzelne Geräte, denn sie fallen oft auch ohne einen einzigen der genannten SMART-Fehler aus.

Die Studie belegt zwar, dass man sich nicht auf eine SMART-Diagnose allein verlassen darf, macht den Blick auf einzelne SMART-Werte aber nicht überflüssig. Auch wenn die Zusammenhänge nicht immer klar sind, geben sie Hinweise auf Unregelmäßigkeiten; dann sollte man zumindest besonderen Wert auf häufige Backups legen.

SMART grafisch

Auf einem Desktop-Arbeitsplatz gibt das Tool GSmartmonControl [5] Einblick in die SMART-Daten. Abbildung 1 zeigt die Geräteauswahl, ein Klick liefert einen Überblick ( Abbildung 2 ).

Abbildung 1: GSmartControl zeigt SMART-Laufwerke…
Abbildung 2: … und detailierte Informationen.

Das Tool zeigt an, ob SMART für ein Laufwerk aktiviert ist und ob der letzte Selbsttest erfolgreich war. Ein Doppelklick auf ein Gerät gibt die Details über Attribute, Tests und Logs preis. Tests lassen sich unter »Perform Tests« starten.

Infos

  1. SMART.: http://de.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology#.C3.9Cbliche_Parameter
  2. Smartmontools: http://sourceforge.net/apps/trac/smartmontools/wiki
  3. Ganglia: http://ganglia.sourceforge.net/
  4. Pinheiro, E., W.-D. Weber, and L.A. Barroso: "Failure Trends in a Large Disk Drive Population." In: Proceedings of the 5th USENIX Conference on File and Storage Technologies (FAST'07) (USENIX, 2007), 13p: http://tinyurl.com/8678qan
  5. GSmartControl: http://gsmartcontrol.berlios.de/home/index.php/en/Home
comments powered by Disqus
Mehr zum Thema

Workshop: Ausfall-Vorhersage bei Datenträgern

Der TÜV für Daten heißt SMART oder ausführlicher: Self-Monitoring, Analysis and Reporting Technology. SMART überwacht diverse Betriebsparameter von Datenträgern und schlägt bei bestimmten Veränderungen frühzeitig Alarm – theoretisch also schon vor dem eigentlichen Ausfall. Wie SMART funktioniert, wie man es einsetzt und inwiefern SMART in der Praxis hilft, zeigt der folgende Artikel.
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Ausgabe /2023