Was Millionen Crashes lehren

28.06.2012

Nach Auswertung der automatisch erzeugten und an Microsoft übermittelten Fehlerberichte von rund einer Million Systemabstürze, hat das Unternehmen nun die erste große Studie über Hardware-Fehler in Endverbraucher-PCs vorgelegt.

Hardwarefehler - so eine erste Erkenntnis, kommen wieder, sie lassen sich also kaum aussitzen: Nach dem ersten Crash wird der nächste  um zwei Größenordnungen wahrscheinlicher. Maschinen mit einem DRAM-Fehler stürzten zu 80 Prozent mehrmals ab. Drei große Fehlerquellen ließen sich ausmachen: gekippte Bits im Memory (Consumer-PCs fehlt oft eine ECC-Fehlerkorrektur, wie sie in Servern üblich ist), kritische Lesefehler auf Platten und SSDs sowie Machine-Check Execptions der CPU. Einschränkend machen die Forscher darauf aufmerksam, dass sie mit ihrer Methodik allerdings blind für Fehler waren, die nicht zu einem Systemabsturz führten (weil beispielsweise ein Speicherfehler nur eine Applikation einfrieren ließ) und auch Softwarefehler kaum von hardwarebedingten unterscheiden konnten, die Symptome sind oft dieselben. Nichtsdestotrotz erbrachte die Studie eine Reihe interessanter Resultate.

Eines ist beispielsweise, dass schon eine geringe Übertaktung die Zuverlässigkeit merklich mindert und schnellere CPUs eher zu Fehlern neigen. Laptops erwiesen sich - nicht zuletzt dank robusterer Festplatten - als weniger fehleranfällig als Desktop-Rechner. Sowohl bei Laptops wie bei Desktops waren die Produkte von Markenherstellern besser als Noname-Produkte.

Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Ausgabe /2023