Notfall-Server 2

Wir sind immer noch nicht ganz oline, aber es wird besser!

Leider sind wohl zwei von fünf SSDs in unserem RAID-5 gleichzeitig ausgefallen, was eigentlich einen kompletten Verlust aller unserer Server und Daten bedeutet.

Es gab noch minimalste Hoffnung, aber realistisch gesehen, werden wir *alle* unsere Server neu aufbauen, also die komplexe Umgebung, die auch ein "richtiger" Provider so hat...

Das macht man nicht in 5 Minuten, eher in 80 Stunden. Abgesehen davon, dass wir erst einmal einen neuen Server benötigen.

Wir verstehen, dass das für Viele extrem schlimm ist, glauben Sie uns, für uns ist es schlimmer.. auch wir habe unser E-Mails beim hallertau.net und können darauf im Moment nicht zugreifen.

Das Schicksal ist aber manchmal echt gnädig und minimalste Hoffnung ist manchmal doch ausreichend: Das RAID konnte wiederbelebt werden, insofern sind wir aktuell von einem kompletten Verlust weit weg. Im Idealfall (fingers crossed) haben wir die E-Mails von 2 Tagen (und einiges an Nerven und Zeit) verloren. Konkret werden es E-Mails sein, die zwischen dem 14.05.2025 19:43 Uhr und dem 16.05.2025 12:50 Uhr eingegangen wären. Da aber viele Absender-Server mehrmals versucht haben werden, E-Mails zuzustellen und unser DNS noch funktionierte, sollten auch davon viele inzwischen doch noch angekommen sein.

Immer noch ein langer Weg, es kann immer noch was schief gehen, aber zumindest der Wiederherstellungsplan sieht gut aus und ist realistisch ;-)

Update: Leider sind wohl doch einige Daten verloren gegangen. Diese Daten fehlen sowohl auf unseren Backups als auch auf den wiederbelbten Festplatten-Dumps. Aktuell sieht es so aus, als ob bei einigen Nutzern die Daten der Home-Verzeichnisse verloren sind, also alle E-Mails, die nicht mehr im Posteingang lagen.. wir suchen noch, sieht aber schlecht aus.

Dies ist ein absoluter Notall-Server, mehr gibt es hier nicht.. (Die Bilder sind aus dem Web-Archive von archive.org).

Wir haben auch keine E-Mail-Adresse mehr, über die Sie uns erreichen können. Wir tun, was wir können. Wir können es auch nicht für einzelne Accounts beschleunigen.


Aktueller Status unserer Dienste

DNS Server: OK

Webserver: Notfall-Server mit dieser Seite läuft

Spam-Filter: OK (Nur Markierung als Spam)

Mail Empfang: OK (aber nur im Webmail!)

Mail Senden: OK (noch kein DKIM)

Webmail: Notfall-Webmail (nur sehr schnell konfiguriert)

IMAP/POP3: Bitte webmail benutzen


Restore log

16.05.2025, 08:15 Uhr : Wir haben einen Server bestellt, aber das dauert. Deshalb haben wir noch einen billigen virtuellen Server gemietet und diese Notfallseite dorthin umgezogen. Jetzt läuft sie wenigstens nicht mehr bei mir daheim..

16.05.2025, 10:15 Uhr : Immerhin eine halbwegs gute Nachricht, wir haben Backups gefunden, letzte Sicherung lief vom 12.05.2025 22:42 Uhr bis 13.05.2025 00:51 Uhr. Wir sichern diese Sicherung jetzt mal erneut auf einen anderen Server. Allerdings bedeutet das auch, dass E-Mails, die seitdem gesendet oder empfangen wurden, vermutlich ... weg sind.

16.05.2025, 11:26 Uhr : Der Notfall-Server kennt nun alle Nutzer und deren E-Mail-Adressen. Er kann auch Mails empfangen. Es dauert aber noch bis zu 8 Stunden, bis sich der neue DNS Eintrag verbreitet hat, aber spätestens dann sollte neue E-Mails für die Domain hallertau.net wieder zustellbar sein. Lesen können Sie sie aber im Moment noch nicht..

16.05.2025, 12:50 Uhr : Man könnte die neuen Mails lesen, IMAP/POP3 würde funktionieren, aber ohne die alten E-Mails auf dem Server würden alle lokalen Kopiene gelöscht, was nicht schön ist (und mir gerade passiert ist)

16.05.2025, 14:35 Uhr : Wir haben wieder einen Webmail, wenn auch nur in englisch und nicht perfekt konfiguriert! Dort kann man zumindest alle neuen E-Mails (seit heute 11:26 Uhr) lesen.

16.05.2025, 23:49 Uhr : Das kaputte RAID lief auf einen Broadcom-Controller, der schon realtiv alt ist und schon lange nicht mehr supported wird. Nachdem mich Google nicht wirklich weiter gebracht hat, ob man so ein totes RAID nicht doch noch zumindest irgendwie noch retten kann, habe ich einfach bei Broadcom ein Ticket aufgemacht, aber nie damit gerechnet, eine Antwort zu erhalten. Wir waren noch nie Kunde dort und ich hab innerhalb von 12 Stunden eine individuelle Antwort genau auf mein Problem per E-Mail erhalten!! Leider nicht so ausführlich, dass ich es gleich abtippen hätte können, aber eindeutig das richtige, nicht offensichtliche Vorgehen. Jedenfalls hab ich mit einigen sehr magischen Kommandos das RAID von Offline zu Degraded gebracht, was auch nicht wirklich gut ist, aber zumindest reicht, einige Server zu sichern. Ich schimpfe nie wieder auf Broadcom, keine Ahnung, warum das passiert ist. So einen Support bekommt man normalerweise nicht für viel Geld, perfekte Lösung für einen hoffungslosen Fall, umsonst, ohne Vertrag und extrem schnell.. Jedenfalls laufen jetzt viele Backup-Jobs, solange das RAID noch hält (was es eigentlich überhaupt nicht können sollte).

17.05.2025, 21:35 Uhr : Nachdem das RAID zumindest wieder etwas lebt, kopieren wir gerade die ganzen virtuellen Rechner an einen sicheren Platz. Wir haben fast alle unsere wichtigen Server, der Hauptserver fehlt aber noch, der hat die meisten Daten (ja, auch die ganzen E-Mails bis zum 15.05.2025). Es dauert einfach, fast 1 TB an Daten über die VM-Ware Konsole herunter zu laden. 300 GB fehlen noch, hoffen wir mal, dass das auch noch gut geht.

18.05.2025, 11:05 Uhr : Das lokale Backup ist duch, wir haben jetzt alle Server in dem Zustand gecloned, den sie zuletzt hatten, als die zweite Platte kaputt ging. Ob es Schäden gab, wird sich zeigen.

19.05.2025, 14:15 Uhr : Eine der beiden defekten Platten wurde ersetzt, was das RAID nicht wirklich mochte. Es war fast zu erwarten, dass das Raid jetzt mit einer neuen (leeren) Platte sterben könnte. Wir testen weiter..

23.05.2025, 17:10 Uhr : Das RAID war nach dem Tauschen der ersten Platte tatsächlich endgültig kaputt, wir haben jetzt in den letzten Tagen alle fünf Platten erstetzt und ein neues RAID-6 gebaut, jetzt können zwei Platten ausfallen, ohne dass etaw passieren sollte..

23.05.2025, 18:15 Uhr : Inzwischen laufen die ersten Server auf dem neu aufgesetzten System, auch wenn ich Broadcom für den Controller-Support mehr als dankbar bin, ab jetzt nutzen wir Proxmox und kein Vmware mehr.

24.05.2025, 00:45 Uhr : Alle Daten werden auf den neuen Server kopiert, was bei der Menge leider dauert.. alleine das Kopieren alle Eingangs-Mails dauert mehr als 12 Stunden. Platten und Systeme sind auf schnelles Lesen optimiert, schnelles Schreiben gibt es nicht. Und dann geht das alles noch über das Internet..

24.05.2025, 20:57 Uhr : Alle Daten sind wieder da, wo sie sein müssen. Die neuen Mails des Notfall-Servers fehlen natürlich noch, die kommen erst als letztes. Da der Hauptserver aber komplett neu installiert wurde, fehlen noch alle Dienste zum lesen und empfangen von E-Mails.

26.05.2025, 19:13 Uhr : Wir haben wieder ein Spam-Gate und einen Server, der die ausgehenden Mails versendet.

03.06.2025, 09:27 Uhr : Sorry für fehlende Updates, wir arbeit immer noch daran, allerdings nicht mehr die ganze Nacht ;-). Die neuen Server sind zwar ziemlich fertig, aber für einen sicheren Betrieb fehlt noch einiges, auch viele Kleinigkeiten dauern. Aktuell haben wir gerade viel Zeit investiert, dass der Fehler nicht noch einmal auftaucht. Das geht aber nicht auf einem Produktivsystem, deshalb dauert der Unzug auf die neuen Systeme noch etwas. Auch wollen wir, dass die neuen Server sicher sind, auch das geht besser, wenn wir nicht auf echte Nutzer aufpassen müssen.