Beschreibung

check_sstcam ist ein Plugin, das den SUN Storagetek Common Array Manager in Nagios integriert. Der CAM ist eine Managementsoftware für die Sun StorEdge 6130 und Sun StorageTek 6140 und 6540 Speichersysteme. Ausfälle und Warnungen werden vom CAM als XML-Dateien in ein spezielles Alarmverzeichnis geschrieben. Das check_sstcam-Plugin liest dieses Verzeichnis periodisch und führt Buch über die aktuell vorhandenen Störungen. Bei neu hinzugekommenen Alarmen werden diese durch einen entsprechenden Exitcode an Nagios weitergegeben. Dokumentation Aufgerufen wird das Script normalerweise ohne Parameter:

nagios$ check_sstcam
OK - cam detected no new errors

Normalerweise werden sämtliche dem CAM bekannten Speichersysteme damit überwacht. Will man nur ein bestimmtes Speichersystem überwachen, dann gibt man dessen Namen mit der Option -n <name> an. Wenn man mehrere Systeme überwachen will, aber nicht alle, dann muss man die gewünschten Namen in einer Konfigurationsdatei eintragen und diese dem Plugin mit der Option -f übergeben.

nagios$ check_sstcam -n The-Big-Storage-2
OK - cam detected no new errors

nagios$ cat /tmp/check_sstcam.cfg
@devicenames = qw(The-Big-Storage-2 6140-primary 6140-secondary);

nagios$ check_sstcam -f /tmp/check_sstcam
OK - cam detected no new errors

Bei Verwendung des Parameters -p wird nicht alarmiert, wenn neue Fehler aufgetaucht sind, sondern solange Fehler im Storage System existieren.

nagios$ check_sstcam -n The-Big-Storage-2
CRITICAL - Storage The-Big-Storage-2 (1 error): event.ProblemEvent.REC_DRIVE_BYPASSED_CAUSE_UNKNOWN.description

nagios$ check_sstcam -n The-Big-Storage-2
CRITICAL - Storage The-Big-Storage-2 (1 error): event.ProblemEvent.REC_DRIVE_BYPASSED_CAUSE_UNKNOWN.description

 

Installation

  • Nach dem Auspacken des Archivs wird ./configure aufgerufen. Sollte sich das Alarmverzeichnis des CAM nicht an der üblichen Stelle zu finden sein, dann muss es mit der Option --with-alarm-dir spezifiziert werden. Eventuell möchte man auch mit der Option --with-status-dir das Verzeichnis ändern, in dem Statusinformationen zwischen den Läufen von check_sstcam gespeichert werden.
  • Bitte auch darauf achten, dass das Alarmverzeichnis samt Inhalt für den Nagios-User lesbar ist.
  • Bei der Servicedefinition darauf achten, dass dies ein "volatile service" ist. (Außer bei Verwendung von -p)
# the CAM software runs on host hundsglump.muc
define service {
    service_description   check_sstcam
    host_name             hundsglump.muc
    check_command         check_nrpe!check_sstcam
    is_volatile           1
    check_period          7x24
    max_check_attempts    1
    ...
}

Beispiele Weitere Beispiele für mögliche Fehlersituationen:

Stromversorgungsmodul defekt:

nagios$ ./check_sstcam
CRITICAL - Storage fifi1841: Power Supply Tray.30.PowerSupply.B is not receiving input power

Batteriefehler:

nagios$ ./check_sstcam
WARNING - Storage fifi1901: Battery Tray.85.Battery.A has transitioned to an unknown state

Controllerfehler:

WARNING - Storage fifi1901: the following volume(s) is/are not managed by their preferred controller Disk01_Vol05

 

Download

check_sstcam-1.2.tar.gz

 

Externe Links

Changelog

  • 2008-01-17 1.2 Bugfix, -p für Persistenz
  • 2007-02-19 1.1 -n und -f Optionen
  • 2007-02-13 1.0 erste öffentliche Version

Copyright

Gerhard Laußer

Check_sstcam wird unter der GNU General Public License zur Verfügung gestellt. GPL

Autor

Gerhard Laußer (gerhard.lausser@consol.de) beantwortet gerne Fragen zu diesem Plugin.