ClickCease 5 Wege zur Reduzierung von Server-Ausfallzeiten (und 1 Weg, sie zu beseitigen) - TuxCare

Abonnieren Sie unseren beliebten Newsletter

Schließen Sie sich 4.500+ Linux- und Open-Source-Experten an!

2x im Monat. Kein Spam.

5 Wege zur Verringerung von Serverausfallzeiten (und 1 Weg, sie zu beseitigen)

7. September 2020. TuxCare PR Team

5 Wege zur Verringerung von Serverausfallzeiten (und 1 Weg, sie zu beseitigen)

Ein Neustart der Server schadet Ihnen und Ihren Kunden. Dies geschieht oft außerhalb der Stoßzeiten (in der Regel nachts), wenn die Server weniger Transaktionen verarbeiten, aber selbst ein Neustart zu dieser Zeit kostet Tausende an Ausfallzeit. Ein Server-Neustart kann je nach Konfiguration mehrere Minuten bis über eine Stunde dauern, und es kann zusätzliche Zeit in Anspruch nehmen, bis die Dienste synchronisiert sind. In der Tat berichten 25 % der Unternehmen berichten dass Ausfallzeiten sie zwischen 300.000 und 400.000 Dollar für jede Stunde kosten, in der die Server nicht verfügbar sind. Ausfallzeiten sind vermeidbar und Neustarts aufgrund von Patches können vollständig vermieden werden.

Inhalte:

  1. Was ist eine Serverausfallzeit und wann tritt sie auf?
  2. Kosten der Ausfallzeit für Unternehmen
  3. Planung von Ausfallzeiten: Wartungsplanung und -durchführung
  4. Minimierung der Serverausfallzeit

 

 

Was ist eine Serverausfallzeit und wann tritt sie auf?

 

Was ist eine Serverausfallzeit und wann tritt sie auf?

Server fallen aus verschiedenen Gründen aus, aber der Ausfall eines Servers bedeutet nicht immer eine Ausfallzeit. Ausfallzeiten sind für ein Unternehmen viel kritischer, denn sie bedeuten, dass eine einzelne Fehlerstelle ignoriert oder übersehen wurde oder dass Failover-Systeme nicht in der Lage waren, nahtlos zu übernehmen. Google hat ein Video über die zehn Hauptgründe für Serverausfallzeiten. Wir fassen das 50-minütige Video im Folgenden zusammen.

 

Überlastung der Ressourcen

Wenn die Serveranfragen die verfügbaren Ressourcen übersteigen, leidet die Leistung und der Server stürzt schließlich ab. Cloud-Server können Ressourcen dynamisch erweitern, aber die für diese Cloud-Server zuständigen Administratoren vor Ort müssen stets sicherstellen, dass die Server Kundenanwendungen und Ressourcenerweiterungen unterstützen können.

 

Lärmender Nachbar

Das Problem der "schlechten Nachbarschaft" ist vor allem für Cloud-Hosts mit gemeinsam genutzten Hosting-Diensten ein Problem. Wenn ein Kunde die Ressourcen eines Servers zu stark beansprucht, beeinträchtigt dies die Leistung anderer Kundenseiten. Die meisten Hosts ziehen den "lauten Nachbarn" von den gemeinsam genutzten Diensten ab, um das Problem in den Griff zu bekommen oder die verfügbaren Ressourcen für einen problematischen Kunden zu begrenzen.

 

Spikes wiederholen

Wenn Benutzer keine Verbindung zu einem Server herstellen können, versuchen sie es oft mehrmals, bevor sie aufgeben, sei es aufgrund eines überlasteten Servers oder einer fehlerhaften Anwendung. Nimmt man nun Tausende von Benutzern hinzu, die dieselben Wiederholungsversuche mehrmals durchführen, kommt es zu einem Serverabsturz aufgrund von Wiederholungsspitzen. Administratoren können Server so konfigurieren, dass sie aggressive Wiederholungsverbindungen ablehnen, um Wiederholungsspitzen zu reduzieren.

 

Fehlerhafte Abhängigkeiten, Patches oder Anwendungen

Schlechte Patching-Gewohnheiten, veraltete Software, langsame Abhängigkeiten und zahlreiche andere Probleme im Zusammenhang mit Anwendungen, die auf dem Server laufen, können Ausfallzeiten verursachen. Administratoren können nicht einfach wahllos Patches installieren und neu starten. Sie müssen Patches und Aktualisierungen planen und den Neustart außerhalb der Hauptgeschäftszeiten durchführen. Live-Patching kann dabei helfen (mehr dazu später).

 

Skalierung von Drittanbietern

Ihre Server können vielleicht skaliert werden, aber die APIs von Drittanbietern, die bei der Anwendungsverarbeitung verwendet werden, sind möglicherweise nicht skalierbar. Google empfiehlt das "Sharding", bei dem große, konsistente Prozesse in Teile aufgeteilt werden, um den Overhead zu reduzieren.

 

Ineffizientes Sharding

Sharding kommt der Leistung zugute, aber wenn ein Shard im Vergleich zu anderen zu groß ist, kommt es zu ungleichmäßigem Sharding. Google empfiehlt, größere Shards in noch kleinere Shards aufzuteilen, um das Problem zu beheben.

 

Menschliche Irrtümer

Bei einigen Serververfahren ist zu viel menschliches Engagement erforderlich. Ohne Automatisierung kann es zu menschlichen Fehlern kommen. Wenn beispielsweise IT-Mitarbeiter Server manuell patchen und aktualisieren müssen, führt dies häufig zu Fehlern und Ausfallzeiten. Die Patch-Verwaltung und die Automatisierung verringern menschliche Fehler erheblich, da die Administratoren nur dann tätig werden müssen, wenn ein Problem gefunden wird.

 

Schlechte Code-Einsätze

Für Unternehmen mit internen Anwendungen ist das Testen von entscheidender Bedeutung, um sicherzustellen, dass der eingesetzte Code keine Probleme verursacht. Zusätzlich zu umfangreichen Tests und Qualitätssicherungsverfahren (QA) sollte immer ein Rollback-Prozess entwickelt werden. 

 

Schlechte Überwachung

Die meisten Administratoren wissen, dass Überwachung unerlässlich ist. Sie ist auch eine Komponente zur Einhaltung von Vorschriften. Schon eine einzige fehlende Konfiguration oder ein einziger Server in einer Überwachungsstrategie führt zu Überwachungslücken im Unternehmen. Die Überprüfung des Netzwerks, um sicherzustellen, dass jede Ressource zu den Überwachungsanwendungen hinzugefügt wird, verhindert dieses Problem.

 

Fehlkonfigurierte Domänen und Infrastruktur

Die Konnektivität zu einer Serverressource ist nicht immer auf Probleme mit dem lokalen Rechner zurückzuführen. Eine ausgefallene Domäne kann zu einem Serverausfall führen, da die Clients keine Verbindung zu den Servern herstellen können. Failover und Tests vor der Implementierung von Konfigurationsänderungen helfen, dieses Problem zu vermeiden.

 

 

Kosten der Ausfallzeit für Unternehmen

 

Kosten der Ausfallzeit für Unternehmen

Unabhängig von der Ursache ist die Hauptsorge der Unternehmen der Geldverlust während (und nach) der Ausfallzeit. Transaktionen können nicht verarbeitet werden, und ohne Ausfallsicherungssysteme könnten sie ins Leere laufen. Die Frustration der Kunden ist ein weiteres Hauptproblem, das zu Umsatzeinbußen durch den Verlust von Kunden und zur Schädigung der Marke führen kann, da Ausfallzeiten den Ruf beeinträchtigen.

In einem kürzlich erschienenen Ponemon Berichterfahren Unternehmen 30 % mehr Ausfallzeiten aufgrund von schlechtem Patch-Management und Verzögerungen bei der Behebung von Sicherheitslücken. Von den befragten Unternehmen gaben 52 % an, dass sie keine Ausfallzeiten, einschließlich Neustarts aufgrund von Patches und Betriebssystemaktualisierungen, tolerieren können. Kleine Unternehmen sind stärker betroffen als große Unternehmen, da sie nicht über die nötigen Ressourcen und Automatisierungsmöglichkeiten verfügen, um Schwachstellenpatches zu verwalten, was zu einer Zunahme der Ausfallzeiten führt.

Von allen oben genannten Ursachen für Ausfallzeiten können menschliche Fehler und schlechte Patch-Implementierungen durch Patch-Automatisierung vollständig beseitigt werden. Reboots können durch Live-Patching vollständig eliminiert werden. Unternehmen geben 1,4 Millionen Dollar jährlich für die Verwaltung von Schwachstellen aus, aber durch die Patch-Verwaltung und -Automatisierung lassen sich der Personalaufwand, die Kosten für Ausfallzeiten und sogar Probleme durch Neustarts erheblich reduzieren.

 

Terminierung von Ausfallzeiten - Planung und Durchführung von Wartungsarbeiten

Planung von Ausfallzeiten: Wartungsplanung und -durchführung

Zu einem bestimmten Zeitpunkt im Leben eines Servers müssen Administratoren Ausfallzeiten einplanen. Dies kann für die Bereitstellung von Code, Änderungen an der Server-Hardware, Konfigurationsänderungen oder die Umstellung eines ausgemusterten Servers auf einen neuen sein. Geplante Wartungsarbeiten werden in der Regel außerhalb der Hauptgeschäftszeiten durchgeführt, aber es gibt einige Maßnahmen, mit denen sich die Ausfallzeiten reduzieren lassen.

  • Sicherstellen, dass Backups aktuell, funktionsfähig und verfügbar sind. Sollten Sie einen kritischen Rollback durchführen müssen, der den Dienst unterbricht, und Sie benötigen Backups, stellen Sie sicher, dass diese verfügbar sind, damit sie schneller extrahiert und bereitgestellt werden können.
  • Festplattennutzung prüfen. Bei kleinen Unternehmen mit Servern, die nur begrenzte Ressourcen nutzen, sollten Sie immer prüfen, ob Festplattenspeicher für Aktualisierungen verfügbar ist. Ein volles Laufwerk führt zu unerwarteten Ergebnissen und erheblichen Leistungseinbußen.
  • Überprüfung der Server-Ressourcenauslastung. Überprüfen Sie nicht nur den Speicherplatz, sondern auch, dass der Server keine CPU- oder Speicherspitzen aufweist, die eine erfolgreiche Aktualisierung oder Konfigurationsänderung beeinträchtigen könnten.
  • Testen Sie, bevor Sie Änderungen einführen. Dies mag dem gesunden Menschenverstand der Administratoren entsprechen, aber viele "schnelle und einfache" Konfigurationsänderungen oder -aktualisierungen verursachen Ausfallzeiten, und die Administratoren unterlassen es, kleine Änderungen zu testen. Administratoren denken, dass eine kleine Änderung unmöglich Probleme verursachen kann, aber die Möglichkeit besteht immer. Testen Sie Änderungen an einem Produktionsserver immer zuerst in einer Staging-Umgebung.

 

Minimierung der Serverausfallzeit

5 Wege zur Verringerung von Serverausfallzeiten (und 1 Weg, sie zu beseitigen)

Unerwartete Serverausfälle sind für ein Unternehmen weitaus schädlicher als geplante Wartungsarbeiten. Administratoren sollten über einen Backup- und Rollback-Plan verfügen und auf Probleme während geplanter Wartungsarbeiten vorbereitet sein, aber unerwartete Ausfallzeiten erfordern eine Ursachenanalyse und die Ressourcen, um den Server wieder in Betrieb zu nehmen. Administratoren sollten vorbeugende Maßnahmen ergreifen, um sicherzustellen, dass ein Server so wenig Ausfallzeiten wie möglich hat. Im Folgenden finden Sie einige bewährte Verfahren zur Reduzierung von Ausfallzeiten:

 

Sicherheit

Die Cybersicherheit ist für die Zuverlässigkeit und Betriebszeit von Servern von unüberwindbarer Bedeutung. Administratoren, die mit öffentlich zugänglichen Servern arbeiten, werden mit zahlreichen Schwachstellen-Scans, Exploit-Versuchen und verdächtigem Datenverkehr konfrontiert, die überwacht werden sollten. Alle gemeldeten Schwachstellen öffentlich Die Administratoren müssen daher sofort handeln und das System mit Patches ausstatten. Ausfallzeiten aufgrund von Datenschutzverletzungen bringen weitaus mehr Umsatzeinbußen und Unternehmensprobleme mit sich als nur die Kosten für einen Neustart.

 

Server-Überwachung

Bei Unternehmen mit Hunderten von Servern ist es leicht, nur einen zu übersehen. Durch die Überprüfung des Netzwerks und die Identifizierung jedes einzelnen Servers wird sichergestellt, dass die Server richtig überwacht werden, und zwar nicht nur im Hinblick auf einen Absturz, sondern auch auf Ressourcenspitzen und Ineffizienzen (z. B. bei der Kühlung), die zu einem langsamen Ausfall führen könnten. Alle Probleme sollten an die Administratoren weitergeleitet werden, einschließlich Textnachrichten bei kritischen Fehlern. Eine proaktive Überwachung warnt die Administratoren vor drohenden Abstürzen, sowohl bei virtuellen als auch bei physischen Systemen, so dass sie das Problem beheben können, bevor es zu Ausfallzeiten kommt.

 

Ineffiziente Server ausmustern

Ältere Server sind viel störanfälliger, so dass ein Server irgendwann ausgemustert werden sollte. Es ist nicht ungewöhnlich, dass Administratoren die Hardware aktualisieren, aber letztendlich ist es nicht kosteneffizient, die Hardware immer aufzurüsten. Diese Server können mehr Strom verbrauchen und sich negativ auf die Leistung der Umgebung auswirken.

 

Optimierung der Kühlung

Hitze und Feuchtigkeit zerstören langsam die Serverausrüstung. Mit einer Überwachung können diese Umweltfaktoren erkannt werden, bevor sie die Geräte zerstören und die Server einen Hardwareausfall erleiden. In allen Serverräumen sollte die richtige Kühlung installiert werden, und für den Fall, dass die Primärkühlung ausfällt, sollte ein Backup-System vorhanden sein.

 

Lasttests durchführen

Die Verwendung eines Lastausgleichs zur Verteilung auf mehrere Server hilft bei der Leistung, aber was ist, wenn mehr als ein Server ausfällt? Mit Lasttests wissen Sie, wie die Server nach dem Ausfall eines Teils der Ressourcen arbeiten werden. Dies kann dazu führen, dass zusätzliche Server bereitgestellt oder Ressourcen zu bestehenden Servern hinzugefügt werden. Bei kritischen Servern sollten Sie die Kapazitätsgrenzen immer überschätzen, um sicherzustellen, dass genügend Ressourcen für Skalierung und Wachstum zur Verfügung stehen.

 

Patch-Automatisierung und Live-Patching

Manuelles Patchen führt zu menschlichen Fehlern und dazu, dass wichtige Schwachstellenwarnungen übersehen werden. Stattdessen sollten Unternehmen die Patch-Automatisierung nutzen. Selbst mit Patch-Automatisierung erfordert die Aktualisierung des Linux-Kernels immer noch einen Neustart - bis jetzt. Mit KernelCare und KernelCare + für Shared Libraries können Administratoren ihre Systeme patchen, ohne den Server neu zu starten. Durch das Live-Patching entfallen die geplante Wartung und die Ausfallzeiten für Kernel-Updates vollständig. HostUS beispielsweise nutzt KernelCare und hat kürzlich einen Server außer Betrieb genommen, der seit 5,5 Jahre.

Schlussfolgerung

Serverausfallzeiten sind extrem kostspielig, können aber mit den richtigen Best Practices reduziert werden. Die meisten Ausfallzeiten aufgrund unerwarteter Fehler können verhindert werden, aber alle Ausfallzeiten aufgrund von Patches können mit Live-Patching von KernelCare vollständig eliminiert werden. Um zu sehen, was KernelCare für Ihre Server tun kann, melden Sie sich kostenlos an und legen Sie los. 

Möchten Sie das Patchen von Sicherheitslücken ohne Kernel-Neustart, Systemausfallzeiten oder geplante Wartungsfenster automatisieren?

Erfahren Sie mehr über Live-Patching mit TuxCare

Werden Sie ein TuxCare-Gastautor

Los geht's

E-Mail

Beitreten

4,500

Linux & Open Source
Fachleute!

Abonnieren Sie
unseren Newsletter