Kundenlogin

Störung der Netzwerkverbindung

Von:
2018-10-16 15:00:00 CEST
Bis:
2018-10-19 12:00:00 CEST (voraussichtlich)

Meldung:
** UPDATE 19.10.18 12 Uhr **
Entstörungsmeldung Netzwerkstörung

Am 16.10. im Laufe des Tages kam es zu einem sprunghaften Anstieg des internen ICMP Datenverkehrs in beiden Rechenzentrumsabschnitten. Es wurden teilweise bis über 1 Mio. Pakete pro Sekunde gemessen. Diese Flut an Datenpaketen hat die Core Einheiten so sehr belastet, dass es zu sporadischen Nichterreichbarkeiten mancher Systeme kam. Es waren ca. 5-7% aller Geräte betroffen, leider vor allem Cluster-/Cloud-Systeme. Vereinzelte Systeme hatten bedauerlicherweise auch längere Nichterreichbarkeiten zu verzeichnen.

Erste sofort eingeleitete Analysen hatten ergeben, dass es sich ausschließlich um NDP (Network Discovery Protocol) Traffic handelte. Unser Team an Netzwerkadministratoren begann umgehend mit der Suche nach der Quelle und der Ursache des Anstiegs. Erste Vermutungen konzentrierten sich auf zwei mögliche Ursachen: Ein Softwarefehler in zentralen Switching-Systemen oder ein gezielter Angriff, wobei ersteres als wahrscheinlichere Ursache angenommen wurde.

Nachdem interne Eskalationen nicht schnell genug das Problem beheben konnten, wurden externe Spezialisten u.a. auch des Herstellers involviert und mit der Fehlersuche beauftragt. Im Laufe des 18.10. hatten unsere Netzwerkadministratoren das Problem erkannt und konnten es endgültig beheben. Es handelte sich um fehlerhafte Switching Komponenten in zwei Serverracks.

Im Zuge der Aufarbeitung und Analyse des Vorfalls werden wir in den nächsten Wochen Core-Routing und Core-Switching Einheiten proaktiv austauschen, um künftige Netzwerkstörungen zu vermeiden. Dieser Vorgang wird selbstverständlich rechtzeitig in einem Wartungsfenster angekündigt.

Das gesamte centron Team möchte Ihnen für Ihr Verständnis und Ihre Geduld danken. Für die entstandenen Unannehmlichkeiten bitten wir Sie um Entschuldigung.

** UPDATE 18.10.18 18 Uhr**

Die Störung wurde am 18.10. ca. 16.00 Uhr auf IPv4 Ebene behoben. Wir rechnen mit der Entstörung auf IPv6 Ebene spätestens bis 19.10.

** UPDATE **

Die sporadische Störung der Netzwerkkommunikation, die seit dem 16.10.2018 um ca. 15 Uhr besteht konnte in der Zwischenzeit sehr gut eingegrenzt werden, so dass der größte Teil aller Systeme ohne interne und externe Paketverluste erreichbar sind.
Wir sind aktuell dabei eine Lösung zu schaffen, um alle Systeme wieder in den Regelbetrieb zu überführen.
Durch den NDP/ICMP Sturm, welcher aktuell immer noch anhält ist die Netzwerkkommunikation einiger weniger Systeme leider noch gestört.
Somit waren einige Webseiten bzw. Server-Systeme nicht durchgehend erreichbar und es kam zu kurzen Ausfällen.
Unsere Administratoren arbeiten ohne Unterlass an der Behebung.

** UPDATE **

Wir arbeiten nach wie vor mit Hochdruck an der Problemlösung. Wir arbeiten bereits in höchster Eskalationsstufe. Jedes verfügbare Personal ist in diese Thematik eingebunden. Zudem wurden auch externe Techniker involviert.

** UPDATE **


** Störung der Netzwerkverbindung **


Derzeit bestehen interne Netzwerkprobleme, welche dazu führen, dass temporär keine Verbindungen in unser Rechenzentrum möglich sind.

Wir arbeiten bereits mit Hochdruck an einer Lösung, um alle Systeme schnellstmöglich wieder konstant zur Verfügung zu stellen.

In dringenden Fällen erreichen Sie uns gerne unter der Ihnen bekannten Notrufhotline.
************************************************************************************
** UPDATE 19.10.18 12:00 Hours**
Notification of disruption resolution

On 16th of October in the course of the day, there was a steep increase in internal ICMP data traffic in both of the data center sections. In some cases even more than 1 million packets per second were measured. This flood of data packets put such a strain on the core units that sporadic inaccessibilities of some systems occurred. Approximately 5-7% of all devices were affected, unfortunately mainly cluster/cloud systems. In some other cases, isolated systems also had even longer unavailabilities.

The first initiated analyses had shown that the traffic was exclusively NDP (Network Discovery Protocol). Our team of network administrators immediately began searching for the source and cause of the increase. Initial suspicions focused on two possible causes: A software failure in the central switching systems or a targeted attack, where the former was being presumed to be the more likely cause.

Since internal escalations could not resolve the problem quickly enough, external specialists, including the manufacturer, were involved and tasked with troubleshooting. In the course of the 18th of October our network administrators had identified the problem and were finally able to solve it. These involved faulty switching components in two server racks.

In the conclusion to the processing and analysis of the incident, we will proactively exchange core routing and core switching units in the coming weeks in order to avoid future network disruptions. This process will of course be announced in time with specific a maintenance window.

The entire centron team would like to thank you for your understanding and patience. We apologize for any inconveniences caused by this.

** UPDATE 18.10.18 18:00 Hours**

The disruption has been resolved on IPv4 basis on 18.10.2018 at around 16:00 Hours CEST. We are expecting to resolve the disruption on IPv6 basis at the latest on 19.10.2018.

** UPDATE **

In the meantime, the sporadic disturbance of the network communication, which has existed since 10/16/2018 at around 3 pm, can be very well limited so that the majority of systems can be reached without internal and external packet losses.
We are currently in the process of creating a solution to bring all systems back to normal operation.
Due to the NDP / ICMP storm, which currently still persists, the network communication of a few systems is unfortunately still disturbed.
Thus, some websites or server systems were not consistently accessible and there were short failures.
Our administrators are constantly working to fix it.

** UPDATE **

We are still working on a solution to solve the current network problem. The highest escalation level has already been reached. Every available staff is involved in this topic, in addition to that, we contacted external technicians.

** UPDATE **

** network connection interruptions **

There is currently a network problem which may lead to temporary loss of connections to our data center.

We are already working on a solution to restore a consistent availability of all systems as quickly as possible.

For urgent matters you may reach us under the well-known emergency hotline.

Patchday abgesagt / cancelled

Von:
2018-10-17 22:00:00 CEST
Bis:
2018-10-18 02:00:00 CEST (voraussichtlich)

Meldung:
*** Patchday abgesagt ***
Der aktuelle Patchday kann aufgrund unserer aktuellen Netzwerkstörung nicht stattfinden. Wir informieren Sie so bald wie möglich über einen Ersatztermin.
*** Patchday abgesagt ***


Für Serversysteme sind monatlich neue Sicherheitsaktualisierungen verfügbar.
Die Installation dieser wichtigen Updates erfordert einen Neustart der Systeme.
Der Neustart erfolgt zwischen 22:00 und 02:00 Uhr (UTC+02:00).
In diesem Zeitraum sind die einzelnen Systeme für jeweils ca. 60 Minuten nicht erreichbar.
************************************************************************************
*** Patchday cancelled ***
The current patchday is cancelled due to our current network disruption. We will inform you about a alternative date as soon as possible.
*** Patchday cancelled ***


For server systems, new security updates are available every month.
The installation of these important updates requires a reboot of the systems.
Reboot is between 22:00 and 02:00 (UTC + 02: 00).
During this period, the individual systems are not available for about 60 minutes each.