Allgemeines 21.967 Themen, 148.278 Beiträge

News: Unverhofft kommt oft.

Ausfall bei Nickles

xafford / 40 Antworten / Flachansicht Nickles

Ja, es ist wieder passiert - wir hatten (haben) einen Hardware-Ausfall. Zum ersten Mal ist der Server heute Mittag ausgefallen (irgendwann um 13:00 Uhr herum begannen die Probleme), nach einem Reboot lief er zwar wieder, aber mit ziemlichen Problemen (die ich hier nicht näher erläutern will). Nach einem erneuten Reboot stellte er komplett den Dienst ein.

Hintergrund ist, dass (schon wieder) die Festplatte des Servers den Geist aufgibt und massiv Fehler produziert. Dies ist der zweite Festplatten-Ausfall dieses Jahr und der Dritte seit Anfang letzten Jahres. Nach mehreren Stunden läuft der Server momentan erst einmal - allerdings immer noch mit der defekten Festplatte, da die Festplatte sich wieder einmal erst nach Feierabend des Supports entschieden hat, den Geist auf zu geben. Es ist also abzusehen, dass der Server jederzeit wieder den Dienst einstellen kann und leider lässt sich dies vor Morgen nicht ändern.

Um gleich einmal alle guten Ratschläge vorweg zu nehmen:

  • Ja, ein RAID wäre toll, aber aufgrund unseres Vertrages in naher Zukunft nicht realisierbar.
  • Ja, ein Cluster wäre toll, aber aufgrund der Kosten in naher Zukunft nicht realisierbar.
  • Ja, 24/7-Support wäre toll, aber aufgrund Punkt 1 und 2 in naher Zukunft nicht realisierbar.

Sorry für die Unannehmlichkeiten und Sorry für die späte Benachrichtigung, aber aufgrund des Ausfalls des Webservers, der Nichterreichbarkeit des Supports und aufgrund der Tatsache, dass ich seit heute Mittag versuche den Betrieb wieder her zu stellen war leider nicht mehr möglich.

Pauschalurteile sind immer falsch!!!
bei Antwort benachrichtigen
InvisibleBot Borlander „Also die SCSI-Platten habe ich als deutlich robuster in ...“
Optionen

Ich hab mit SCSI-Platten keine tollen Erfahrungen gemacht. An einer früheren Wirkungsstätte hatten wir einen kleinen Server mit 4 SCSI-Platten (IBM) im Raid 5 + HotSpare an einem Adaptec-Controller. Das Miststück hat es fertiggebracht, das fast jedesmal wenn ich im Urlaub war eine Platte ausgestiegen ist. Aber statt dann automatisch die HotSpare einzubinden und das Raid neu aufzubauen, hat er jedesmal auch die HotSpare auf "Failed" gesetzt. Die Wiederherstellung lief erst an wenn man die HotSpare manuell als Ersatz eingebunden hat. Kurz bevor ich das damals sinkende Schiff verlassen habe, hat sich dann herausgestellt dass der HotSpare-Fehler an einem Firmware-Bug der Platten lag. 

Auch bei Kunden konnte ich keine besondere Zuverlässigkeit erkennen, gefühlt lag die Ausfallrate der SCSI auf demselben Niveau wie bei Desktopplatten.

Aktuell hab ich bloß noch einen kleinen Arbeitsgruppenserver zu verwalten, ebenfalls mit einem Raid5-Array, bestehend aus 4 SATA-Platten von WD an einem Highpoint-Controller. Da ist in 6 Jahren erst eine Platte ausgestiegen, der anschließende Austausch und die Wiederherstellung des Arrays waren höchst unspektakulär - im positivsten Sinn. 

- Beat the machine that works in your head! -
bei Antwort benachrichtigen