Während des Bootens von Proliant-Servern wird eine umfangreiche Prüfung der verbauten Speichermodule durchgeführt. Entdeckt das Bios dabei Ungereimtheiten oder schadhafte DIMMs, so werden diese auskonfiguriert und der Bootvorgang fortgesetzt. Ob dies bei einem Server vorgekommen ist, zeigt ein Blick ins Integrated Management Log. Dort erscheint dann folgende Meldung:
Event: 26 Added: 03/08/2011 21:01
CAUTION: POST Messages - POST Error: 207-Memory initialization error on Processor 1 DIMM 6. The operating system may not have access to all of the memory installed in the system..
Dies bedeutet nichts anderes, als dass teurer Hauptspeicher verbaut wurde, der dem Betriebssystem nicht zur Verfügung steht. Und das Schlimme daran ist, dass man es noch nicht mal merkt, wenn man nicht mit top o.ä. nachschaut und einem die Diskrepanz auffällt. In diesem System hier stecken eigentlich 48GB:
top - 18:33:14 up 21 days, 8:21, 2 users, load average: 0.00, 0.00, 0.00
Tasks: 162 total, 1 running, 161 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni,100.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 32101M total, 1293M used, 30807M free, 177M buffers
Swap: 31249M total, 0M used, 31249M free, 442M cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
68 root 20 0 0 0 0 S 0 0.0 1:51.07 kondemand/6
4807 root 39 19 0 0 0 S 0 0.0 29:32.02 kipmi0
1 root 20 0 10376 812 672 S 0 0.0 0:08.45 init
2 root 20 0 0 0 0 S 0 0.0 0:00.00 kthreadd
Tatsächlich werden nur 32GB angezeigt. Die verschwundenen 16GB kosten an die 500€ und bei einem Rechnerpark von mehreren tausend Proliants kann sich das ziemlich aufsummieren. Wie eingangs erwähnt, wird im IML das Problem protokolliert:
nagios@lpsystra0118$ sudo /sbin/hpasmcli -s "show iml"
Event: 26 Added: 03/08/2011 21:01
CAUTION: POST Messages - POST Error: 207-Memory initialization error on Processor 1 DIMM 6. The operating system may not have access to all of the memory installed in th
e system..
Event: 27 Added: 03/08/2011 21:08
CAUTION: POST Messages - POST Error: 207-Memory initialization error on Processor 1 DIMM 9. The operating system may not have access to all of the memory installed in the system..
Das aktuelle Release 4.3 von check_hpasm schaut im IML nach, ob es beim letzten Booten zu solchen Vorkommnissen gekommen ist und meldet es als kritischen Fehler.
CRITICAL - Event: 26 Added: 1299614460 Class: (POST Messages) caution POST Error: 207-Memory initialization error on Processor 1 DIMM 6. The operating system may not have access to all of the memory installed in the system.., Event: 27 Added: 1299614880 Class: (POST Messages) caution POST Error: 207-Memory initialization error on Processor 1 DIMM 9. The operating system may not have access to all of the memory installed in the system.., Event: 28 Added: 1299614880 Class: (POST Messages) caution POST Error: 207-Memory initialization error on Processor 1 DIMM 8. The operating system may not have access to all of the memory installed in the system.., System: 'proliant dl580 g7', S/N: 'CY21200XSA', ROM: 'P67 05/05/2011' | fan_1=33% fan_2=39% fan_3=39% fan_4=29% temp_1_ambient=18;41;41 temp_2_cpu#1=40;82;82 temp_4_memory_bd=27;87;87 temp_5_memory_bd=26;87;87 temp_8_power_supply_bay=35;90;90 temp_9_power_supply_bay=28;65;65 temp_10_system_bd=36;90;90 temp_11_system_bd=28;70;70 temp_12_system_bd=35;90;90 temp_13_i/o_zone=23;70;70 temp_14_i/o_zone=27;70;70 temp_15_i/o_zone=27;70;70 temp_16_i/o_zone=23;70;70 temp_17_i/o_zone=24;70;70 temp_19_system_bd=21;70;70 temp_20_system_bd=27;70;70 temp_21_system_bd=25;80;80 temp_22_system_bd=25;80;80 temp_23_system_bd=31;77;77 temp_24_system_bd=27;70;70 temp_25_system_bd=25;70;70 temp_26_system_bd=25;70;70 temp_28_i/o_zone=24;70;70 temp_29_scsi_backplane_zone=35;60;60 temp_30_system_bd=58;110;110