Am 07.01.2014 habe ich Festgestellt das der Hardware-RAID-Controller Fehler für eine der vier im System verbauten Festplatten angezeigt hat.
# ./arcconf getlogs 1 device tabular Controllers found: 1 Controller log Controller ID.................................... 0 Type............................................. 0 Time............................................. 1389043748 version ........................................ 3 tableFull ...................................... false driveErrorEntry smartError ..................................... false vendorID ....................................... SAMSUNG serialNumber ................................... S2JGJ1AZC01281 wwn ............................................ 0000000000000000 deviceID ....................................... 0 productID ...................................... HD204UI numParityErrors ................................ 0 linkFailures ................................... 17 hwErrors ....................................... 0 abortedCmds .................................... 239 mediumErrors ................................... 68 smartWarning ................................... 0 Command completed successfully.
Darauf hin habe ich vorsorglich auch den S.M.A.R.T. Status aller Platten überprüft welche sogar erhöhte Fehlerwerte auf allen Laufwerken offen legte.
Daraufhin wurde der Technische Support kontaktiert. Dieser bot dann an gleich alle vier Festplatten zu Tauschen.
Als Strategie wurde dann vereinbart die Platten nacheinander zu Tauschen. Also eine Raus, eine rein und Rebuild abwarten, das ganze dann vier Mal (Raid-10). Somit konnte Ich vermeiden den Server komplett neu einzurichten mit dem Nebeneffekt das das ganze Prozedere dann aber auch rund 22 Stunden in Anspruch nahm.
Somit erklärt sich die Downtime von etwas über einem Tag.