Netzwerk-Ausfälle


Einleitung

Das "outages CGI" wurde designed um den Grund für einen Netzwerk- Ausfall schnell und einfach erkennen zu können. Für kleine Netzwerke ist dieses CGI sicherlich nicht sehr nützlich, grössere Netzwerke werden es aber zu schätzen wissen.

Es sollte erwähnt werden, dass das "outages CGI" nicht den genauen Grund für ein Problem erkennen lässt, aber es lässt den Host erkennen, der in dem Netzwerk die Probleme bereitet. Das Problem selbst herauszufinden, bleibt in der Hand des Admins, da es eine zu grosse Zahl von möglichen Gründen für einen Ausfall gibt.

Diagramme

Die Diagramme unten helfen zu verstehen, wie das Ausfall-CGI arbeitet um den Grund für einen Netzwerk- Ausfall herauszufinden. (Bei einem Klick auf das Bild bekommt man eine grössere Version.)

Diagramm 1
Dieses Diagramm bildet die Basis für unser Beispiel. Alle Hosts in rot sind entweder down oder nicht erreichbar (aus der Sicht von Nagios). Alle anderen Hosts sind up.
Hosts die down oder nicht erreichbar sind
Diagramm 2
Dieses Diagramm zeigt den Grund für einen Netzwerk Ausfall (aus der Sicht von Nagios) und zeigt verschiedene Gruppen von Hosts, die von dem Ausfall betroffen sind.
Hosts die Netzwerkausfälle verursachen

Den Grund für einen Netzwerkausfall erkennen

Wie erkennt das Ausfall-CGI also welcher Host der Grund für das Problem ist? "Problem"-Hosts müssen entweder in einem "down" oder "unreachable" Status sein und mindestens einer ihrer direkten parent Hosts muss "up" sein. Hosts die alle diese Kriterien erfüllen müssen als potentielle Problem-Hosts bezeichnet werden.

Um nun aber den Host herauszupicken der den Netzwerkausfall verursacht, müssen wir ein paar weitere Tests vornehmen...

Falls alle der direkten "child"-Hosts eines Problem-Hosts "down" oder "unreachable" sind und der direkte parent Host des Problem-Hosts "up" ist, ist dieser Host verantwortlich für einen Netzwerkausfall. Falls nur eines der direkten "Kinder" des Problem-Hosts diesen Test nicht bestehen, dann kann der Problem-Host auch nicht verantwortlich für einen Netzwerkausfall sein.

Den Effekt von Netzwerkausfällen erkennen

Das Ausfall-CGI zeigt nicht nur welcher Host einen Netzwerkausfall verursacht, sondern auch wieviele Hosts und Dienste von diesem Netzwerkausfall bzw. Problemhost betroffen sind. Doch wie wird dieses erkannt? Werfen wir einen Blick auf Diagramm 2...

Aus dem Diagramm ist ersichtlich, das Host 1 zwei "child"-Hosts (in Domain A) blockiert. Host 2 blockiert ausschliesslich sich selbst (in Domain B) und Host 3 blockiert 7 andere Hosts (in Domain C). Der Ausfall-Effekt der beiden Hosts in Domain D werden aufgeteilt zwischen Host 2 und 3, da es unklar ist, welcher Host den Ausfall verursacht. Wenn entweder Host 2 oder 3 "up" wäre, wären diese Hosts evtl. nicht blockiert.

Die Anzahl von betroffenen Hosts jedes Problem-Hosts sind wie folgt (der Problem-Host ist in diesen Zahlen mit eingerechnet):

Rangfolge der Probleme auf Basis der Schweregrade

Das Ausfall-CGI wird alle Problem-Hosts anzeigen, egal ob Sie einen Netzwerkausfall bewirken oder nicht. Zusätzlich zeigt das CGI wieviele der Problem-Hosts (falls überhaupt einer) einen Netzwerkausfall verursacht.

Um die Problem-Hosts in einer sinnvollen Reihenfolge anzeigen zu können, werden sie nach der Schwere ihrer Auswirkungen auf das Netzwerk sortiert. Der Schweregrad wird auf zwei Arten beurteilt:
Die Anzahl von Hosts die von diesem Problem-Host betroffen sind und die Anzahl von Diensten die betroffen sind. Die Anzahl der betroffenen Hosts wird dabei mit dem Verhältnis $4:1 schwerer gewichtet als die von Diensten (Hosts sind also vier mal wichtiger als einzelne Dienste).

Nimmt man an, dass alle Hosts in Diagramm 2 die gleiche Anzahl von Diensten bereitstellen, würde Host 3 die höchste Gewichtung erreichen, während Host 1 und Host 2 den gleichen Schweregrad erreichen.