Allgemeines 21.928 Themen, 147.299 Beiträge

zum datenverlust vom wochenende

thomas woelfer / 14 Antworten / Flachansicht Nickles

kurz vorab: ich war nicht wirklich an allem beteiligt oder vor ort dabei, daher kann es durchaus sein, das das eine oder andere detail nicht voellig korrekt ist...

ich weiss, es hat praktisch niemand mitbekommen, aber bei nickles.de hat sich in den letzten 6 monaten extrem viel getan. viel davon sind "kleinigkeiten", wie z.b. die beseitigung von kleieneren layout-stoerungen, aber es gibt auch deutlich sichtbare dinge wie die neue "schnellnaviagationsleiste" unter dem menü, (unserer ansicht nach) bessere formatierungen für praktisch alle seiten (egal ob news, artikel oder posting/threads), neue übersichtsseiten für alle themen, soweit ich weiss 100% kompatibilität aller seiten mit ie _und_ firefox/mozilla, etc. etc. bla bla bla.

außerdem ist in diesem zusammenhang auch die komplette infrastruktur von nickles.de umgebaut werden: jeder einzelne rechner (mail, datenbanken, caches, webserver, etc. ) wurde durch einen neuen ersetzt und bei der gelegenkeit auch in ein "neues" rechenzentrum verschoben. der effekt davon ist nicht nur bessere hardware (die jetzt nicht mehr ständig überlastet ist), sondern auch eine bessere anbindung: das komplette nickles.de, inkl. aller dienste und inkl. pcreport.de ist nun über 100mbit angebunden - bisher galt das nur für einen einzelnen edge-server: alles andere war nur über eine 2mbit strecke angebunden.

lange rede kurzer sinn: sämtliche server wurden ausgetauscht, ein grossteil der software wurde ausgetauscht und die komplette backend-architektur wurde ausgetauscht. und zwar komplett "im betrieb" - ich vermute, das nicht einmal der komplette wechsel aller ip-adressen (die mit dem serverwechseln einhergingen) von irgend jemand bemerkt wurde oder irgendo zu einer längeren "nickles-losen" phase von mehr als ein paar minuten geführt hat.

prinzipiell war das eigentlich recht erfolgreich. (als schöner nebeneffekt qualifiziert sich die tatsache, das ich nicht länger einen vollen 19'' schrank und ein paar lose andere kisten neben mir im büro stehen habe. das betrifft zwar wirklich nur mich, ist aber trotzdem sehr schön: der kram ist lauter als man meint... :-))

tja, und da kam die sache vom wochenende. um das nachzuvollziehen noch etwas vorweg: natürlich gibt es hier eine datensicherung. um genau zu sein: es gibt zwei. zum einen ist es so, das der "zentrale" datenbankserver alle änderungen "live" an backup-server propagiert. dadurch gibt es zu jedem zeitpunkt immer mindestens zwei getrennte rechner mit einem jederzeigt aktuellen datenbestand. sinn der sache ist der, das beim ausfall der serverhardware des "zentralen" datenbankserver "sofort" ein neuer mit aktuellen daten bereitsteht - und zwar vollständig ohne datenverlust. das hilft also gegen defekte fesplatten oder boards - aber nicht gegen fehler, die zum löschen von daten in der datenbank selbst führen: dieses löschen wird natürlich auch einfach weitergegeben - d.h. die "backup" server sind dann auch auf dem stand des "zentralen" servers: es fehlen halt daten.

m.a.w.: die erste form des backups hilft für den fall, das physisch etwas kaputt geht.

das zweite backup läuft einfach so ab wie man sich das vorstellt: es legt einfach einmal pro tag eine kopie der datenbank an und numeriert die durch. ist also am 30 ein fehler aufgetreten der daten gelöscht hat, kann man einfach backup 29 einspielen ( := an die richtige stelle kopieren), und alles ist wieder ok - oder zumindest auf dem stand vom tag vorher. keine grosse sache.

dummerweise ist das skript für dieses 2. backup im zuge des umzugs auf der neuen kiste schlicht nicht (richtig) angeworfen worden. bloede sache, denn das hat hier auch niemand gemerkt - dafür war einfach sonst ein bisschen viel zu tun.

am wochende war dann eine aenderung an der datenbank notwendig (grund: premium-mitglieder sollen sich in zukunft nicht mehr mit dem etwas merkwürdigen pcreport.de passwort sondern mit dem nickles.de premium-account bei pcreport.de anmelden können. etc. etc. ). die aenderung wurde haendisch durchgefuehrt, und ging schief. resultat: es gab _gar_ keine premium-mitglieder mehr. das waere nun nicht weiter schlimm gewesen, eine mail an die mitglieder mit der bitte den premium-status erneut zu aktivieren haette es getan.

statt dessen ist aber, wohl aus dem schreck heraus, was anderes passiert: es wurde ein backup eingespielt. was prinzipiell auch kein problem gewesen wäre - dann wären halt ein paar daten die irgendwan in der nacht hätten anfallen können verschwunden gewesen, und sonst nichts. vorteil: keine belästigung durch email...

nun lief aber das backup-script nicht richtig, und in der aufregung ist es wohl auch nicht aufgefallen, das das vorliegende backup eben nicht von "gestern" sondern von vor 2 monaten war. resultat: der komplette stand von nickles war der vor 2 monaten. sowas sollte nicht passieren - andererseits ist das hier auch nicht die nasa, sondern einfach nur eine website. zwar eine recht grosse, aber eben trotzdem nur eine website. prozesse, die das verhinden von menschlichem irrtum zum ziel haben, haben wir eben nicht. pech.

zumindest was die postings betraf (nicht aber neue accounts oder seit den letzten 8 wochen aktivierten premium-stati und ein paar andere dinge) war aber eine rekonstruktion moeglich. markus hatte gluecklicherweise den zustand des "cache" gesichert, und bastelte dann gestern ein skript das auf basis der zwischengespeicherten seiten wieder "kopien" der foren-beiträge erzeugte. das klappte nicht zu 100% (daher auch ein paar "kaputte" threads), aber ein grossteil der daten konnten eben wieder hergestellt werden.

es gab also keine "geheime" loeschaktion (wie "geheim" sollte die auch wohl gewesen sein), keine "bösartigen" filterungen von nachrichten und auch sonst nichts was über das normale niveau des chaos-betriebs hier hinausgeht. einfach nur ein bisschen menschliche fehler mit einer anschliessenden "hilfreichen" idee (die, so weit ich das übersehe, von borlander kam) und ein bisschen glück, das die rekonstruktion so "einfach" möglich war.

wer sich also jetzt

- nicht mehr anmelden kann, und einen account hat, der jünger als 2 monate ist: bitte einfach neu anmelden

- kein premium-mitglied mehr ist: bitte den status noch einmal erneuern.

- mir sowieso kein wort glaubt, weil ich ein arroganter bloedmann bin: der hat zwar recht, aber nur mit dem teil "arroganter bloedmann".

WM_FYI

this posting contains no tpyos.
bei Antwort benachrichtigen