Drahtlose Netzwerke sind überall: Zu Hause, im Café und in der Firma. Im Gegensatz zu Kabelnetzen verliert der Admin bei WLANs allerdings schnell die ... (mehr)

Nummerierung

Hadoop-Entwickler haben sich mit der Wahl der Versionsnummern selbst keinen großen Gefallen getan. Wer beachtliche Entwicklungsschritte mit der zweiten Dezimalstelle einer Versionsnummer kennzeichnet – wie von Version 0.20 zur Version 0.23 – darf sich anschließend nicht wundern, wenn die Anwender von den Fortschritten kaum Notiz nehmen.

Die Version 0.20 bezeichnet die erste Hadoop-Generation (v1.0, Abbildung 7). Wann immer vom 0.23-Zweig die Rede ist (Abbildung 6), geht es um Hadoop 2.2.x. Die Versionsnummer 2.2.0 bezeichnet das erste Release der zweiten Generation mit der allgemeinen Verfügbarkeit.

Abbildung 6: Der Hadoop-2.x-Stack mit Apache TEZ: Performance-Steigerung dank der Datenverarbeitung im Arbeitsspeicher des Clusters.
Abbildung 7: Zum Vergleich: In Hadoop 1.x waren alle Applikationen auf die Nutzung von MapReduce angewiesen.

Ein Produkt der Enterprise-Klasse, das sich in der harten Praxis seit Jahren bewährt, hätte sich eigentlich eine höhere Versionsnummer verdient. Der scheinbar minimale Generationssprung auf die Version 2.2.0 trägt dem deutlich fortgeschrittenen Reifegrad von Hadoop kaum Rechnung. Der Qualität von Hadoop tut die zögerliche Nummerierung jedoch keinen Abbruch.

Die steigende Bedeutung von Hadoop erkennt man unter anderem auch daran, dass zahlreiche prominente Anbieter ihre kommerziellen Lösungen an Hadoop anpassen. SAP verkauft die Intel-Distribution und die HortonWorks Data Platform für Hadoop. SAP Hana, eine Datenanalyseplattform für Big Data, integriert sich nahtlos mit Hadoop.

DataStax liefert eine Distribution von Hadoop und Solr mit der eigenen NoSQL-Lösung DataStax Enterprise. Anwender von DataStax Enterprise nutzen Hadoop zur Datenverarbeitung, Apache Cassandra als eine Datenbank für transaktionale Daten und die Suchmaschine Solr für die verteilte Suche. Cassandra unterstützt im Übrigen das Ausführen von Hadoop-MapReduce-Jobs auf einem Cassandra-Cluster.

Fazit

Nach vier Jahren Entwicklungsarbeit überrascht Hadoop 2.2.0 seine Anwender mit bahnbrechenden Neuerungen. Dank der Modularisierung und einer HA-HDFS gelang es der Apache Foundation, den Abstand zu Alternativen zu halten oder sogar noch zu vergrößern.

Dank der deutlich verbesserten Verwaltung von Workloads hat Hadoop eine ganz neue Anziehungskraft für den Mittelstand bekommen. Großunternehmen konnten sich die benötigten Zusatzfunktionen schon immer maßgeschneidert programmieren lassen, der Mittelstand war dagegen bisher mit der mühsamen Entwicklung schlicht überfordert. Das hat sich mit Hadoop 2.2.0 nun glücklicherweise endgültig geändert.

Infos

  1. Hadoop-Distribution von Cloudera: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh.html
  2. Hadoop-Distribution von Hortonworks: http://hortonworks.com/products/hadoop-support
  3. Hadoop-Distribution Stratosphere von der Technischen Universität Berlin: https://github.com/stratosphere/stratosphere
  4. Vergleich der Hadoop-Distributionen von MapR Technologies: http://www.mapr.com/products/mapr-editions

Ähnliche Artikel

comments powered by Disqus
Mehr zum Thema

Apache Hadoop 3.0 ist fertig

Eine neue Version der Big-Data-Umgebung wurde veröffentlicht. 

Artikel der Woche

Eigene Registry für Docker-Images

Wer selber Docker-Images herstellt, braucht auch eine eigene Registry. Diese gibt es ebenfalls als Docker-Image, aber nur mit eingeschränkter Funktionalität. Mit einem Auth-Server wird daraus ein brauchbares Repository für Images. (mehr)
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Google+

Ausgabe /2019