Hardware.Info is vandaag het grootste gedeelte van de dag offline geweest. Inmiddels is de site weer in de lucht, maar op dit moment wordt nog een back-up van alle afbeeldingen teruggezet. Daardoor zullen vermoedelijk pas in de loop van de avond alle afbeeldingen weer zichtbaar zijn.
Het was de goden verzoeken: vorige week wist ondergetekende op het HWI HQ nog trots te melden dat we heel 2013 geen enkel serieus probleem met onze servers hadden gehad en voor het eerst sinds de oprichting een heel jaar niet in ons datacenter waren geweest voor serveronderhoud. Dergelijke zaken moet je klaarblijkelijk niet roepen: gisteravond vlak voor middernacht reageerde onze webserver Scorpius ineens niet meer. Wat eigenlijk niet zou moeten kunnen bleek toch gebeurd: een RAID 0+1 array van vier SAS-schijven waarop alle webserver-bestanden staan, was door de Intel RAID-controller geheel kwijtgeraakt.
We hebben in eerste instantie een en ander nog via remote KVM proberen op te lossen, maar dat bleek geen soelaas te bieden. Vandaar dat we afgelopen nacht nog naar ons datacenter in Amsterdam zijn afgereisd. Ook daar bleek het array niet te redden. Vanwege een domme configuratiefout - Muphy's Law blijkt weer eens te kloppen - bleek bovendien dat op het array niet enkel de webserver bestanden stonden. Op het array stonden helaas ook enkele vitale bestanden van het Linux-besturingssysteem, de rest daarvan staat grotendeels op twee eigen SSD's. Ofwel: de server opstarten lukte ook niet meer.
De vijf servers van Hardware.Info, met als onderste webserver Scorpius, waarvan de RAID-array vannacht de geest gaf.
Tegen 4:00 uur vannacht hebben we besloten de reparatiepogingen te staken, het array "op te geven" en de webserver mee naar ons kantoor in Voorburg te nemen. Daar zijn we dit begonnen met het volledig herinstalleren van de server op basis van off-site back-ups van bestanden en configuratie. Aangezien we de bestaande schijven van het oude RAID 0+1 array niet meer vertrouwden, hebben we eind van de ochtend de vier SAS-schijven van 600 GB ingewisseld voor twee van 1 TB die nu in RAID 1 staan. Langs deze weg danken we Quibus Computers Enzo uit Leiden voor de snelle en daadkrachtige hulp bij het leveren van de vervangende schijven.
Na het terugzetten van de belangrijkste webserverbestanden is de webserver met nieuw RAID-array in de loop van de middag teruggebracht naar Amsterdam, waarna de site rond 14:30 weer in de lucht was.
De site is - als het goed is - technisch weer helemaal functioneel, al zijn we nog steeds bezig om alle functionaliteit na te lopen. Loop je ergens tegen problemen aan, laat het ons dan vooral weten. Op dit moment wordt er wel nog steeds een back-up van alle afbeeldingen die op de site gebruikt worden, teruggezet. Dat zal vermoedelijk nog een paar uur duren, in de loop van de avond moeten alle afbeeldingen weer zichtbaar zijn.
Hoe het kan dat een RAID 0+1 array er zonder waarschuwing het leven laat blijft een raadsel. Als de vervelende configuratiemisser er niet was geweest, was de downtime te overzien geweest omdat dan enkel een back-up teruggeplaatst moest worden. Nu belandden we in een worst case scenario: een complete herinstallatie van de server.
Uiteraard hebben we onze les geleerd en zullen we zo spoedig mogelijk onderzoeken wat we moeten ondernemen om problemen als deze in de toekomst te vermijden.
Onze excuses voor het ongemak en onze dank voor jullie begrip.
[Update 31-12-2013 15:05]
De gisteren geplaatste schijven blijken zoals gevreesd de hoge I/O-load van Hardware.Info niet helemaal aan te kunnen. Vandaar dat we zojuist nog vlak voor de jaarwisseling twee Intel DC S3500 480GB SSD's voor de belangrijkste serverbestanden hebben bijgeplaatst. De prestaties van de site zijn nu weer in orde. Op dit moment worden de afbeeldingen naar de SSD's gekopeerd. Zodoende zullen de komende uren nog afbeeldingen missen op de site.