Minimierung der Ausfallzeit der Datenbank
Für Unternehmen ist es zum Schutz ihrer Daten unerlässlich, ihre Datenbanken mit den neuesten Sicherheitsupdates zu versorgen. Ungepatchte Datenbanksysteme können zu Angriffen auf zentrale Systemabläufe, einschließlich Front-End-Anwendungen, führen. Hacker nutzen oft Hosts, einschließlich Datenbanken, als Startplattform für ihre Angriffe.
Aus diesem Grund räumen Unternehmen dem Patchen von Sicherheitslücken Priorität ein, um sich zu schützen. Damit diese Datenbankschwachstellen gepatcht werden können, müssen jedoch Ausfallzeiten für die Anwendung der Sicherheitsupdates eingeplant werden, was zu Unterbrechungen des Geschäftsbetriebs führen kann, mit denen niemand rechnen möchte.
Glücklicherweise ist es möglich, Datenbanken mit Patches zu versorgen, ohne Systeme aus der Produktion zu nehmen oder ein Wartungsfenster einzuplanen. Das nennt sich Live-Patching - aber bevor wir darauf eingehen, sollten wir uns die Ausfallzeiten von Datenbanken etwas genauer ansehen.
Warum ist die Betriebszeit von Datenbanken so wichtig?
Unternehmensanwendungen, Client-Plattformen und Datenanalysen sind in hohem Maße von der Leistung, Betriebszeit und Sicherheit von Datenbanken abhängig. Wenn Kundendaten Sicherheitsschwachstellen ausgesetzt werden oder die Datenbank während eines Replikationsauftrags abstürzt, hat dies Auswirkungen auf die Datenintegrität.
Darüber hinaus können Probleme mit der Datenbankintegrität zur Nichteinhaltung von Compliance- und Datenschutzgesetzen führen - ganz zu schweigen vom Verlust des Vertrauens der Verbraucher. Nimmt man noch die finanziellen Folgen hinzu, die sich aus der Beseitigung des Schlamassels nach einem Sicherheitsvorfall in einer Datenbank ergeben, könnte jedes Unternehmen den Punkt erreichen, an dem es kein Zurück mehr gibt. Im Jahr 2022 beliefen sich die Kosten für eine einzige Datenschutzverletzung in den Vereinigten Staaten auf 9,44 Millionen Dollar (IBM).
Die Einnahmen von Unternehmen hängen von ihren hochleistungsfähigen, unternehmenskritischen Anwendungs- und Datenbankdiensten ab. Jede Beeinträchtigung der Benutzer, Partnerschaften und des Ökosystems der Lieferkette aufgrund von Datenbankausfällen oder Sicherheitsverletzungen bedeutet daher für das Unternehmen mehr als nur Umsatzeinbußen.
Was führt zu Ausfallzeiten der Datenbank?
Verschiedene vorhersehbare und unvorhersehbare Umstände, einschließlich allgemeiner Schwachstellen, die von Cyberkriminellen in Netzwerken, Datenbanken und Front-End-Anwendungen ausgenutzt werden, können zu Ausfällen von Systemen führen.
Unternehmen planen häufig ein Zeitfenster für die Änderungskontrolle, um kritische Wartungsarbeiten an ihren Datenbanken, den entsprechenden Front-End-Systemen und den zugehörigen Netzwerken durchzuführen. In den meisten Fällen kann es zu ungeplanten Datenausfällen kommen, weil das Upgrade fehlgeschlagen ist, die SecOps- und Datenbankadministratoren keinen Rollback-Plan in ihrem geplanten Wartungsplan hatten oder sogar eine Naturkatastrophe eintrat - einschließlich Stromausfällen oder Gebäudeschäden.
Wartungsbedingte Ausfallzeiten
Die Aufrüstung eines IT-Systems ist ein komplexer Prozess. Selbst bei den umfassendsten Änderungskontroll- und Wartungsfensterverfahren kann eine geplante Wartung zu einem unerwarteten Ausfall führen. Wenn während eines geplanten Ausfalls die verschiedenen SecOps, DevOps und Systemadministratoren nicht alle Abhängigkeiten erfassen können, kann dies zu einer unerwarteten Produktionsunterbrechung führen.
Bei welchen Operationen kann dies geschehen?
- Datenbank- und Netzwerk-Upgrades: Das Patchen von Datenbanken ist für Unternehmen wichtig. Es erschwert die Aktualisierung von Datenbanken und Netzwerkwartungsroutinen, was zu unvorhergesehenen Ausfällen und technischen Komplikationen führen kann.
- Routinemäßige Wartung: Die Wartung von Datenbanksystemen umfasst mehrere Schritte für Patches und Upgrades:
- Einspielen von Sicherheits-Patches für Open-Source-Datenbanken
- Aktualisieren von Datentabellen und gespeicherten Prozeduren
- Durchführung einer Datenreplikation auf ein Sicherungssystem vor der Anwendung der Patches
Datenbanksysteme befinden sich auch am unteren Ende der meisten Anwendungsstapel innerhalb eines Unternehmens, so dass jedes System, ob Front-End oder Back-End, unweigerlich mit den in einer Datenbank enthaltenen Daten arbeitet, diese ergänzt oder verändert. Wenn diese Abhängigkeit indirekt ist, ist es sogar möglich, dass ein Datenbankausfall zu Störungen in Systemen führt, die auf den ersten Blick nicht mit der Datenbank verbunden zu sein scheinen - über eine API oder eine Gateway-Anwendung eines Dritten.
Die Komplexität von Datenbank-Patches kann zu unerwarteten Ausfallzeiten führen. Hersteller-Patches führen manchmal zu unvorhergesehenen Beschädigungen in den Datenbanktabellen oder gespeicherten Prozeduren, was zu ungeplanten Ausfällen führt. SecOps- und SQL-Datenbankingenieure testen oft Hersteller-Patches und aktualisieren sie innerhalb ihrer Entwicklungs-, Qualitätssicherungs- und Staging-Plattformen, um zu überprüfen, ob die Upgrade-Software wie erwartet funktioniert. Oft tauchen Probleme, die in der Qualitätssicherung nicht gefunden wurden, in den Produktionssystemen auf und verursachen unerwartete Ausfallzeiten.
Um dies zu verhindern, sollten SysAdmins und SQL-DBAs ein Zeitfenster für die Änderungskontrolle beantragen, selbst bei der kleinsten Wartungsroutine, um ungeplante Produktionsausfälle zu vermeiden.
Ähnlich wie bei den oben erwähnten Datenbank-Upgrades kann auch die Entscheidung, auf eine andere Plattform zu migrieren, zu unerwarteten Ausfällen führen. Allein die Migration in die Cloud birgt mehrere Risiken für den Datenbankbetrieb, darunter eine unvollständige Datenreplikation aufgrund unvorhersehbarer Netzwerklatenz. Eine unvollständige Datenreplikation könnte schwerwiegende Folgen für ein Unternehmen haben, das versucht, wieder einen positiven stabilen Zustand für den Anwendungs- und Datenbankbetrieb zu erreichen.
Was ist mit anderen Arten ungeplanter Ausfallzeiten?
In vielen Fällen können Datenbankausfälle durch Ereignisse verursacht werden, die sich der Kontrolle der IT/SecOps-Teams entziehen:
- Stromausfälle/Naturkatastrophen: Abgesehen von unerwarteten Problemen mit der Datenbank und anderen IT-Systemen während eines Änderungskontrollzeitraums können Naturkatastrophen wie Erdbeben, Überschwemmungen und Brände zu Stromausfällen und dem Zugang zu wichtigen Einrichtungen führen. Die Auswirkungen und die Dauer dieser Naturkatastrophen lassen sich nur schwer vorhersagen.
- Server- oder Speicherausfall: Datenbanksysteme stützen sich auf das Netzwerk für die Konnektivität, auf Server, die die Datenbankanwendung beherbergen, und auf die Speicherebene, auf der die eigentlichen Datendateien gespeichert werden. Jeder Ausfall innerhalb dieser Schichten kann zu einem Produktionsausfall führen. Speichercluster und Server unterstützen ein HA-Design und Failover. Allerdings testen Unternehmen diese Funktionen oft nur nach der Ersteinrichtung, wenn dies von einem Kunden oder aus Sicherheitsgründen vorgeschrieben ist.
- Menschliches Versagen: Alle kritischen Systeme, einschließlich Datenbanken, Netzwerke, Anwendungen und Abläufe, werden von menschlichen Ingenieuren gewartet. Menschliches Versagen ist einer der Hauptfaktoren, die dazu führen, dass ein Unternehmen Angriffen von Cyberkriminellen ausgesetzt ist. Fehler beim Patchen und Konfigurieren führen dazu, dass Schwachstellen ausgenutzt werden, was zu Datenverlusten und der Nichtverfügbarkeit von Systemen führen kann.
Messung der Betriebszeit von Datenbanken und Systemen
Unternehmen in der Technologiebranche messen sich selbst oft anhand der "fünf Neunen"-Skala, die auf dem verfügbaren und akzeptablen Niveau der Ausfallzeiten basiert. Ein Unternehmen wirbt mit seiner fünfneunfachen Verfügbarkeit als Wettbewerbsvorteil in seinem jeweiligen Markt.
Darüber hinaus werden die Unternehmen bestrebt sein, durch ein umfassendes Patching-Management, Sicherheitsoperationen und allgemeine IT-Verwaltungsprozesse eine fünfneunfache Verfügbarkeit zu erreichen.
AWS hat auf seiner Website ein Diagramm veröffentlicht, das die akzeptablen Ausfallzeiten anzeigt:
Außerdem ist es nicht nur wichtig, dass 0,001 % der Ausfallzeiten auftreten, sondern auch, dass man weiß, wann ein solcher Ausfall auftritt. Es ist ein großer Unterschied, ob ein Ausfall außerhalb der regulären Geschäftszeiten oder während des Höhepunkts der Verkaufsaktivität in der Urlaubssaison auftritt. Und wenn es eine Sache gibt, die IT-Fachleute im Laufe der Jahre gelernt haben, dann ist es, dass - gemäß Murphys Gesetz - der Ausfall immer dann passiert, wenn er am wenigsten erwartet und gewünscht wird.
Modernes Patch-Management zur Minimierung von Ausfällen
Unternehmen, die die Komplexität des Patchings von Datenbanksystemen und das Risiko menschlicher Fehler reduzieren wollen, haben ihren Ansatz für das Patchen von Schwachstellen durch die Einführung von Live-Patching mit TuxCare digital verändert. Die Live-Patching-Lösung von TuxCare für Datenbanken, DBCare genannt, ermöglicht es Teams, Patches für Datenbanksysteme bereitzustellen, ohne dass ein Neustart erforderlich ist oder Ausfallzeiten eingeplant werden müssen - so werden patchingbedingte Ausfälle vollständig vermieden.
Darüber hinaus unterstützt DBCare MySQL, MariaDB und PostgreSQL - unabhängig davon, ob sie in einem lokalen Rechenzentrum oder in den AWS Aurora- oder Relational Database Services (RDS)-Angeboten betrieben werden.
Eine weitere wichtige Komponente des Live-Patchings von TuxCare ist die Unterstützung einer vollständigen Automatisierung und einer Closed-Loop-Air-Gap-Bereitstellungsoption. Unsere Live-Patching-Technologie liefert die aktuellsten Sicherheitsupdates und erfordert nur minimale menschliche Interaktion, was zu weniger Fehlern und einer geringeren Gefährdung führt.
TuxCare bietet auch Live-Patching für gemeinsam genutzte Bibliotheken, virtuelle Maschinenumgebungen, IoT-Geräte und alle gängigen Linux-Distributionen für Unternehmen - im Gegensatz zu vielen Live-Patching-Alternativen, die nur für eine oder wenige Distributionen funktionieren.
Planen Sie ein Gespräch mit einem unserer Experten, um eine persönliche Erklärung zu erhalten, wie die Live-Patching-Automatisierung von TuxCare funktioniert.