Facebook-Umzug: wie man 30 Petabytes an Daten migriert

29.07.2011

Beim Umzug in ein neues Data Center musste Facebook 30 Petabytes an Daten migrieren. Ein Blog-Eintrag verrät die Hintergründe dazu.

Irgendwann im Frühjahr 2011 war der Punkt erreicht, an dem es einfach nicht mehr weiterging. Die von Facebook gespeicherten Daten waren innerhalb eines Jahres von 20 auf 30 Petabytes gewachsen und das Data Center stieß an die Grenzen seiner Kapazitäten, was den Platz wie auch die Stromversorgung betrifft. Um die Daten zu speichern, verwendet Facebook das verteilte HDFS-Dateisystem des freien Hadoop-Projekts.

Die Rechner physisch ins neue Data Center zu bewegen, schied als Lösungsansatz aus, denn das hätte zu einem Ausfall von Facebook-Diensten geführt, die sich das soziale Netzwerk nicht leisten kann und will. Also entschieden sich die Techniker für eine Replikationsstrategie, bei der die Daten kontinuierlich ins neue Data Center gespiegelt wurden. Angesichts der riesigen Datenmenge entwickelten sie dafür eine eigene Replikationsmethode. Sie kopierten erst einmal den Großteil der Daten und hielten dann mit dem selbst entwickelten Replikationssystem die Daten auf dem aktuellen Stand. Zum Kopieren griffen sie auf das Hadoop-Tool DistCp zurück, das über einen Map/Reduce-Algorithmus gespeicherte Daten möglichst parallel verarbeitet.

Ein selbstgeschriebenes Plugin für Hive überwachte dann das Dateisystem auf Änderungen und protokollierte sie ein Logfile. Auf Basis dieser Informationen konnte das Replikationssystem dann die Änderungen in das neue Data Center übertragen. Irgendwann schalteten die Facebook-Techniker im alten Data Center den so genannten Jobtracker ab, womit sie weitere Änderungen am dortigen Dateisystem verhinderten. Schließlich änderten sie die DNS-Einträge der Server und schalteten im neuen Data Center den Jobtracker wieder an.

Mehr Informationen zu dieser Migration und eine Bewertung der eingesetzten Technologie gibt der Eintrag von Paul Yang im Facebook-Blog.

Ähnliche Artikel

Mehr zum Thema

Facebook gibt Einblick ins Data Center

Facebook veröffentlicht im Rahmen des Open-Compute-Projekt die Spezifikationen seiner Server und lädt zum Nachbauen ein.

Artikel der Woche

Eigene Registry für Docker-Images

Wer selber Docker-Images herstellt, braucht auch eine eigene Registry. Diese gibt es ebenfalls als Docker-Image, aber nur mit eingeschränkter Funktionalität. Mit einem Auth-Server wird daraus ein brauchbares Repository für Images. (mehr)
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Google+

Ausgabe /2019