Monitoringlösungen auf Nagios-Basis im Benchmark-Vergleich

Zieleinlauf der Kontrolleure

In dem Maß, wie die Zahl der zu überwachenden Geräte wächst, wird Performance in Nagios-basierten Umgebungen zum Thema. Dieser Beitrag diskutiert einige grundlegende Eckdaten.
Wer sein System permanent überwacht, hat den Grundstein dafür gelegt Engpässe zu vermeiden und Fehler frühzeitig zu erkennen. Neben dem Platzhirsch Nagios ... (mehr)

Eine Nagios-Umgebung beinhaltet viele unterschiedliche Komponenten, deren Zusammenspiel das Werkzeug zur Überwachung von IT-Systemen ausmacht. Angefangen beim Nagios-Kern, der für das rechtzeitige Ausführen von Checks und die daraus abgeleiteten Benachrichtigungen zuständig ist, über Visualisierungslösungen wie Nagvis oder Werkzeuge zur Trendermittlung greifen viele Räder ineinander. Jedes dieser Werkzeuge generiert eine unterschiedliche Last, für jedes Werkzeug gibt es unterschiedliche Ansätze, um den einen oder anderen Flaschenhals zu beseitigen.

Eine vollständige Analyse dieser Komponenten und ihres Zusammenwirkens wäre extrem aufwändig. Deshalb konzentriert sich diese Betrachtung auf das Herzstück der Überwachungslösung, den Nagios-Kern.

Nagios, die Greybox

Der Kern soll unter einer vereinfachten Systemsicht betrachtet werden, denn es geht hier nicht darum zu begründen, welche Funktionsaufrufe Auswirkungen auf die Systemperformance haben. Vielmehr geht es um einen praxisbezogenen Test, einen Greybox-Test genau genommen, der die Interna des Kerns ignoriert.

Abbildung 1 zeigt das System so, wie es im Folgenden analysiert werden soll. Der Nagios-Kern in der Mitte ist die zentrale Komponente. Ziel der folgenden Testreihen ist es, genauere Aussagen über das Verhalten dieses Kerns in unterschiedlichen Szenarien zu erhalten. Dafür ist zu definieren, welcher Output die Leistungsfähigkeit des Systems beschreiben soll. Auf der Input-Seite beschreiben andere Variablen verschiedene Szenarien.

Abbildung 1: Stark vereinfachte Darstellung des Nagios-Systems.

Eingangsparameter

Das hier vorgestellte Vorgehen stellt einen pragmatischen Kompromiss hinsichtlich der Komplexität der Parameter dar. Natürlich gibt es noch viele weitere Einflussgrößen. Der Autor ist allerdings der Meinung, dass er mit seiner Auswahl eine gute Aussage über das System Nagios treffen kann.

Anzahl Checks: Sinn und Zweck dieses Parameters ist es nachzustellen, ob die tatsächlich durch das System zu bearbeitende Anzahl an Servicechecks eine Auswirkung auf die Leistung hat.

Return Codes: Ein Plugin, das ein Problem erkennt, meldet das über den Return Code an den Nagios-Kern. Der ergreift – abhängig von der Anzahl der Schlechtmeldungen für den Servicecheck – weitere Maßnahmen, wie das Berechnen eines Status. Am Ende dieser Logik stehen gegebenenfalls Benachrichtigungen. Dieser Parameter soll die Frage beantworten helfen, ob die Bewertungslogik Auswirkungen auf die Performance hat.

Laufzeit: Die Laufzeit eines Plugins wird vom Aufruf über den Kern bis zur Rückgabe des Returncode gemessen. Im schlimmsten Fall führt der Aufruf eines Plugins zu einem Timeout, weil die zu überwachende Komponente nicht erreichbar ist. Inwieweit diese Ausführzeit Einfluss auf das System hat, soll dieser Parameter klären.

Ähnliche Artikel

comments powered by Disqus
Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Ausgabe /2023