Sobald der Ausfall behoben wurde, solltest du dringendst deine Dienste und Tools überprüfen. Dabei ist eines wichtig, zu verstehen:
Bei einem sporadischen Ausfall kommt es in der Regel nur zu Verzögerungen und Aktionen werden (zeitverzögert) ausgeführt und E-Mails (zeitverzögert) versendet.
Während eines großflächigen Ausfalls werden Aktionen nicht mehr ausgeführt und E-Mails nicht mehr verschickt.
In beiden Fällen gilt, lieber einmal kurz die "Füße stillhalten", anstatt (noch) mehr kaputtzumachen.
Nachdem ein großflächiger Ausfall behoben wurde, werden die Server in der Regel nicht mit voller Kapazität, um nicht die nächste Überlastung hervorzurufen. Denn zum einen gibt es ja die historischen Daten, die während des Ausfalls hätten, verarbeitet werden sollen und dann gibt es noch die "Jetzt"-Daten. Also die, die zur jetzigen Zeit (nach dem Ausfall) regulär verarbeiten werden sollen.
Das erklärt dann auch, warum ein Newsletter, der als "Sofortversand" eingestellt ist, eher ankommt, als die geplante Kampagne während des Ausfalls.
Der Neustart eines Servers nach einem Ausfall
Der nachfolgende Text wurde von unserer KI erstellt, zeigt aber in sehr einfacherer Sprache wie es im Alltag abläuft.
Gerne erkläre ich dir, wie ein Backup und Neustart nach einem Rechenzentrumsausfall funktioniert, und zwar so, als würde ich es einem Freund erklären.
Stell dir vor, ein Rechenzentrum ist wie eine riesige Bibliothek voller wichtiger Bücher und Dokumente. Diese Bibliothek arbeitet rund um die Uhr und Menschen aus der ganzen Welt kommen hierher, um Informationen zu holen oder neue hinzuzufügen. Plötzlich fällt der Strom aus oder es gibt einen Brand, und die gesamte Bibliothek muss geschlossen werden.
Zum Glück haben kluge Bibliothekare schon vorher dafür gesorgt, dass es eine zweite Bibliothek in einer anderen Stadt gibt. Dort wurden regelmäßig Kopien aller wichtigen Bücher und Dokumente hingebracht. Das ist im Grunde das, was wir ein Backup nennen. Es ist wie eine Sicherheitskopie von allem, was wichtig ist.
Wenn nun die Hauptbibliothek ausfällt, passiert etwas Faszinierendes. Die Menschen, die normalerweise zur ersten Bibliothek gehen würden, werden automatisch zur zweiten Bibliothek umgeleitet. Du merkst vielleicht gar nicht, dass etwas schiefgelaufen ist, weil alles so schnell und reibungslos abläuft. Das nennt man Failover, also das automatische Umschalten auf das Backup-System.
Aber hier wird es etwas komplizierter. Stell dir vor, jemand war gerade dabei, ein neues Kapitel in ein Buch zu schreiben, als der Strom ausfiel. Dieses neue Kapitel ist jetzt verloren, weil es noch nicht in die Backup-Bibliothek kopiert wurde. Das ist das Problem mit Daten, die während des Ausfalls verloren gehen können.
Wenn die Hauptbibliothek wieder funktioniert, beginnt der Neustart. Das ist wie das Wiederöffnen nach einer Renovierung. Zuerst müssen die Bibliothekare prüfen, ob alle Bücher noch da sind und ob nichts beschädigt wurde. Sie vergleichen den Zustand mit der Backup-Bibliothek und schauen, welche Unterschiede es gibt.
Dann beginnt ein sehr sorgfältiger Prozess. Die Bibliothekare müssen entscheiden, welche Version eines Buches die richtige ist. Wenn zum Beispiel in der Hauptbibliothek ein Buch bis Seite 100 reicht, aber in der Backup-Bibliothek nur bis Seite 95, dann müssen sie herausfinden, was mit den Seiten 96 bis 100 passiert ist. Waren das wichtige, neue Informationen oder waren es nur Notizen, die sowieso gelöscht werden sollten?
Während dieser ganzen Zeit arbeitest du weiter mit der Backup-Bibliothek. Aber auch hier entstehen neue Bücher und Änderungen. Wenn die Hauptbibliothek wieder bereit ist, müssen alle diese neuen Änderungen auch dorthin übertragen werden. Das ist, als würde man zwei Bibliotheken wieder zu einer zusammenführen.
Der schwierigste Teil ist, wenn zur gleichen Zeit in beiden Bibliotheken an demselben Buch gearbeitet wurde. Dann müssen die Bibliothekare sehr vorsichtig entscheiden, welche Änderungen behalten werden sollen und welche nicht. Das ist wie bei einem Dokument, an dem zwei Personen gleichzeitig arbeiten, ohne voneinander zu wissen.
Moderne Rechenzentren sind noch cleverer geworden. Sie haben nicht nur eine Backup-Bibliothek, sondern mehrere, und sie kopieren die Informationen viel häufiger, manchmal sogar jede Sekunde. Außerdem haben sie intelligente Systeme, die automatisch erkennen, wenn etwas schiefgeht, und sofort reagieren können.
Das Ziel ist immer, dass du als Person, die auf die Informationen angewiesen bist, so wenig wie möglich von dem Ausfall mitbekommst. Im besten Fall läuft alles so reibungslos, dass du überhaupt nicht merkst, dass es ein Problem gab. Das ist wie ein perfekt organisiertes Bibliothekssystem, das auch bei Problemen immer funktioniert.

