Nagios als Monitoring ist schon klasse.
Ich verwende im Moment Opsview als Gesamtpaket. Dieses bietet einen Nagiosunterbau und eine einigermassen komfortable Weboberfläche.
Aber jetzt mal zum Kern des Themas. Was nutzt mir ein Monitoring wenn ich es nicht nutze ? Nichts. Man muss nicht darauf warten vom System eine Mail zu bekommen. Sinn und Zweck ist es ja eben keine Mails zu bekommen.
Skizzieren wir mal folgendes Szenario. Der Postfix auf BoxA ist abgestürtzt. Somit lauscht auf Port TCP/25 kein Daemon mehr. Also checkt Nagios nach 5 Minuten den Port, stellt einen Outtake fest und wechselt in den Status Critical / Soft / 1. Je nach Konfiguration checkt er nach einer Minute erneut und wechselt bei fehlschlag in dem Status Critical / Soft / 2. Und genau hier optimieren wir die Geschichte.
Nagios bietet die Möglichkeit Eventhandler einzusetzen. Diese werden bei jedem Statuswechsel ausgelöst Also beim Wechsel von OK auf Critical oder Warnung und auch bei Wechsel von Hard auf Soft. Bei Soft States wird nach jedem Check der Eventhandler angestossen. [evt_postfix]. Dieser startet jetzt über das check_nrpe Plugin auf dem fehlerhaften Host ein Script zum postfix restart.
To-Do:
- Bei Erfolgsmeldung Recheck des SMTP Servicechecks anstossen
- Bei Misserfolg warnmeldung über Passivecheckresult melden
- Alternativen Restartweg über SSH einbauen