van Vimexx op 14-06-2018
Vimexx is dinsdag 12 juni 2018 getroffen door een grote stroomstoring binnen het datacenter van BIT, waar de meeste van onze servers zijn ondergebracht. De stroomstoring is ontstaan door een door BIT uitgevoerde zogenoemde "Black building" test. Al onze serverracks zijn dubbel uitgevoerd wat inhoudt dat indien de stroomvoorziening via het netstroom wordt onderbroken de noodstroomvoorziening dit overneemt. Om te testen of dit systeem werkt schakelt BIT bij een dergelijke test de netstroom naar het datacenter uit en moeten de UPS-en tijdelijk de servers voorzien van stroom totdat de generatoren opgestart zijn welke het weer van het UPS-systeem overnemen.
BIT heeft deze test dinsdag om 09:00 uur in gang gezet. De UPS-systemen, die de stroomvoorziening dus moeten overnemen nadat de netstroom was uitgeschakeld en welke voorzien zijn van honderden batterijen, vertoonde echter dusdanige problemen dat de servers maar voor enkele seconden van stroom konden worden voorzien. De generatoren, die op hun beurt het UPS-systeem moesten overnemen, konden hierdoor dus niet op tijd opgestart worden, met als gevolg dat alles offline is gegaan.
Nadat de stroom was uitgevallen, heeft BIT de netstroom weer hersteld zodat de racks per stuk weer van stroom werden voorzien en konden worden opgestart. Hiermee gaat ook alle apparatuur weer aan en zou normaal gesproken de dienstverlening hersteld moeten zijn.
Helaas is het zo dat een server, switch of ander soort apparaat bij het plots wegvallen van de stroom niet altijd zijn configuratie goed kan wegschrijven. Indien het apparaat netjes afgesloten wordt, worden alle processen die op het apparaat draaien opgeslagen, afgerond en uitgeschakeld. Door het plotsklap wegvallen van de stroom heeft dit helaas niet kunnen plaatsvinden.
Onze collega's waren snel ter plaatste en zijn gelijk aan de slag gegaan om de apparatuur terug op te starten. Een groot gedeelte van onze apparatuur startte uiteindelijk ook zonder problemen op, draaide uit voorzorg een file-systeem check om eventuele fouten te herstellen en kwam online. Helaas bleven meerdere netwerkswitches en servers staan bij het bootten en kwamen niet terug online.
Toen uiteindelijk bleek dat herstel niet ging lukken, of teveel tijd in beslag ging nemen hebben we besloten de apparatuur direct te vervangen voor reserveapparatuur en zijn we begonnen met het opnieuw aansluiten en her-configureren. Hierdoor kwamen stapsgewijs ook de rest van de servers weer terug online.
Om eventuele fouten te herstellen hadden de servers na het wisselen van de apparatuur allemaal een file-systeem check nodig. Deze hebben we allemaal laten afmaken, helaas was het wel zo dat de ene server hier sneller mee klaar was dan de ander en dus sneller online kwam.
Uit de berichtgeving van BIT kwam naar voren dat de stroom snel hersteld was en dat dus het probleem verholpen zou moeten zijn. Dit klopt tot op zekere hoogte, alleen werden wij ineens geconfronteerd met het feit dat veel apparatuur kapot was gegaan door deze black-building test en de configuraties ervan verloren waren gegaan.
Ook wij vragen ons af waarom BIT een dergelijke test uitvoert om 09:00 uur op een doordeweekse werkdag of waarom voor een dergelijke test niet eerst gecontroleerd kan worden of de UPS en de bijbehorende batterijen goed werken en voldoende vermogen hebben. Voldoet de UPS dan weet je dat deze de stroomtoevoer kan opvangen bij het afsluiten van het vaste stroomnet.
Verder vinden we het een kwalijke zaak dat wanneer wij als bedrijf bewust kiezen voor een volledig redundante stroomvoorziening en servers ook redundant aansluiten, we met een eenvoudige 'stroomtest' alsnog volledig zonder stroom komen te zitten. We zullen over deze kwesties dan ook uitgebreid in gesprek gaan met BIT en aangeven dat we dit op deze manier echt niet kunnen accepteren.
Ondertussen heeft BIT alle batterijen van de UPS-systemen vervangen en is alles gecontroleerd en doorgetest waarmee beide UPS-systemen weer terug in productie zijn. Dit is direct na het verhelpen van het stroomprobleem in gang gezet waardoor we een beperkte tijd zonder UPS-systemen hebben gefunctioneerd.
Aankomende dagen zullen we, naast het uitgebreid helpen en te woord staan van onze klanten, ook de volledige storing evalueren. Ondanks een dergelijke overmachtssituatie zullen ook wij nogmaals kijken of onze protocollen aangepast moeten worden om de kans op een dergelijke storing voor de toekomst nog kleiner te maken.
Wij bieden bij deze nogmaals onze excuses aan voor de ontstane situatie en dit ongemak en bedanken daarnaast onze klanten voor de vele motiverende steunbetuigingen!