Un gros incendie a détruit une partie du centre de données strasbourgeois d’OVH 🆕

Nicolas Furno |

Un incendie violent s’est déclaré vers quatre heures ce matin au centre de données strasbourgeois d’OVH, le numéro un de l’hébergement en Europe. Malgré la mobilisation sur place d’une centaine de pompiers, d’une quarantaine d’engins et malgré l’aide des secours allemands venus en renfort, l’incendie a entièrement détruit l’un des bâtiments qui hébergeaient des serveurs. Un autre bâtiment a été partiellement détruit, et deux autres ont été épargnés, mais restent encore isolés.

Le feu a été maîtrisé vers 5h30, mais les pompiers sont toujours sur place pour l’éteindre entièrement. Il n’y a eu fort heureusement aucune victime humaine, les quelques employés d’OVH présents sur place ont pu quitter les lieux à temps. Le bilan matériel est en revanche lourd pour l’hébergeur : le bâtiment SBG2 a été complètement détruit et son voisin SBG1 l’a été partiellement.

SBG3 et SBG4 ont été épargnés par les flammes, mais l’arrivée électrique sur tout le site ayant été coupée, l’entreprise conseille de ne pas compter sur ces installations. Le créateur d’OVH Octave Klaba a indiqué sur Twitter que l’accès au site était impossible et qu’il ne fallait pas compter sur un redémarrage aujourd’hui. Les serveurs stockés dans SBG1 et SBG2 sont soit détruits, soit inaccessibles jusqu’à nouvel ordre, sachant qu’il faudra reconstruire l’un des bâtiments.

Pendant l’incendie (photo @ITA6768).

Pour information, MacGeneration est hébergé par OVH, mais dans un centre de données différent. L’incendie à Strasbourg n’a pas d’impact négatif sur nos services, mais plusieurs sites sont indisponibles ce matin, dont des sites officiels. Cet incident tombe en tout cas bien mal pour l’hébergeur, qui se préparait justement à entrer prochainement en bourse.

MàJ le 10/03/2021 10:38 : à dix heures, Octave Klaba, qui s’est rendu sur place, indique qu’ils envisagent d’entrer dans SBG3 pour évaluer les dégâts. Un plan va être mis en place pour redémarrer le site, au moins pour SBG3 et SBG4, peut-être SBG1 si les dégâts ne sont pas trop important.

MàJ le 10/03/2021 11:15 : les serveurs dans SBG3 sont tous en bon état, même s’ils restent éteints pour le moment. OVH va mettre en place un plan pour leur remise en ligne, sans donner d’estimation de temps pour le moment.

MàJ le 10/03/2021 11:43 : la moitié de SBG1 est détruit, d’après Octave Klaba. On comprend mieux pourquoi en regardant cette vue aérienne du site, fournie par Google Maps (via lafibre.info) : le bâtiment SBG2 qui a été totalement détruit est celui sous l’épingle rouge, au centre du site. SBG1 est situé à sa gauche et sa structure en deux parties explique pourquoi la moitié a été détruite. SBG3 est placé à sa droite et les pompiers ont réussi à maîtriser l’incendie à temps, si bien que ses serveurs n’ont pas été endommagés.

Vue du dessus…
Et depuis le côté ce matin. Sur cette photo, on voit bien que la première rangée de SBG1, créé avec des conteneurs, a été touchée par l’incendie, mais pas la seconde.

Reste que pour relancer l’activité, il faut attendre que l’incendie soit entièrement éteint, s’assurer de la sécurité de l’ensemble et vérifier en particulier que le circuit électrique fonctionne encore correctement. Il va falloir faire preuve de patience…

MàJ le 10/03/2021 13:12 : première esquisse de plan de relance pour SBG1, SBG3 et SBG4, sur une à deux semaines. OVH devra reconstruire les alimentations électriques des sites et vérifier les matériels réseau ainsi que les liaisons en fibre optique. Le plus important à retenir de cette première annonce d’Octave Klaba, c’est qu’il faudra plusieurs jours dans le meilleur des cas pour un retour à la normale.

MàJ le 10/03/2021 16:14 : le plan de retour à la normale commence à se dessiner, avec deux dates données par Octave Klaba. SBG1 et SBG4 doivent être relancés dès ce lundi 15 mars, date à laquelle le site sera à nouveau connecté au réseau internet d’OVH. Le retour de SBG3 est prévu pour le vendredi suivant, soit le 19 mars.

SBG2 ayant été détruit entièrement, il n’y a pas de date pour un éventuel retour. À la place, OVH a prévu de transférer tous ses clients sur ses centres de données de Roubaix et Gravelines. Dix mille serveurs seront ajoutés dans le mois à venir pour répondre à la demande et remplacer ce qui a disparu dans les flammes.

MàJ le 10/03/2021 20:24 : vous pouvez suivre le journal de l'intervention à cette adresse.


avatar YetOneOtherGit | 

@eX0

“Les règles du backup c’est 3/2/1.”

Si c’était aussi simple 😉

Mais c’est une bonne base 😎

avatar eX0 | 

@YetOneOtherGit

L’énoncé est simple et les solutions pullulent.

avatar iftwst | 

@adrien1987

Oui vraiment étonnant qu’OVH n’ait pas une redondance distante pour permettre de maintenir fonctionnement des sites qu’ils hébergent.

avatar pocketalex | 

il y a les hébergements partagés, dont j'imagine que les serveurs sont répliqués

et il y a les serveurs dédiés loués, et ça ... c'est un peu à toi de gérer ce qu'il y a dedans

avatar jul69 | 

@pocketalex

+1

avatar koko256 | 

@adrien1987

C'est la différence entre réplication et haute disponibilité. En coût il doit y a avoir un facteur mille pour avoir un système qui switche automatiquement sur le backup (ça c'est pour ma solution commerciale, il y a aussi des geeks qui arrivent à faire des prouesses avec des outils libres).

avatar xDave | 

Oui c'est chaud ce qui leur arrive.
-https://twitter.com/ITA6768/status/1369557522437308416/-

Backup/Backup/Redondance/Plan d'urgence.

avatar Nicolas Furno | 

@xDave

Ah oui, c'est impressionnant. Merci pour le lien, j'ai glissé la photo.

avatar shaba | 

Je suppose que ce genre de boîte a des sauvegardes miroirs stockées sur des serveurs distants géographiquement ?

avatar armandgz123 | 

@shaba

J’imagine que oui, j’espère

avatar byte_order | 

pour les données dont ils avaient la responsabilité, oui. Les serveurs mutualisés, les VPS avec option de sauvegarde automatique souscrites.
Par contre pour les serveurs dédiés et autres vps sans option de backup automatique, non, c'est au client de s'en occuper comme bon lui semble.

Par exemple je loue un serveur dédié. Bon, coup de bol, il est sur le datacenter de Roubaix. Mais si il était à Strasbourg, il m'appartiendrait d'avoir un backup pour pouvoir redéployer asap sur un autre serveur dédié que OVH va me proposer. Enfin, sûrement pas immédiatement, car ils doivent être sérieusement en manque de serveurs, là, quand même.

avatar shaba | 

@byte_order

D’accord merci !

avatar raoolito | 

+1 aux commentaires précédents. Depuis quand un centre qui brule réduirait à néant les données dessus ? ou sont les sauvegardes miroir etc ?
peut-être qu’ils ne peuvent pas les activer tres rapidement ceci dit, mais bon, quand meme…

Accessoirement, l’incendie vient d’où? une prise chinoise pas chere utilisée dans un coin ?

avatar Nicolas Furno | 

@raoolito

On va peut-être leur laisser le temps d'éteindre complètement l'incendie, on verra ensuite pour connaître la cause ?

Pour les sauvegardes, OVH n'en propose pas systématiquement, c'est souvent aux clients de gérer. Et même quand on utilise le système de sauvegarde intégré, elles sont en effet faites par défaut sur place, pas forcément dans le même bâtiment, mais dans le même centre de données.

avatar raoolito | 

@nicolasf

oui bien sur pour l’incendie. Mais parfois on deja des indications de par là ou le feu a pris par exemple.
sinon ok pour la sauvegarde, mais sur le meme site c’est quand meme nul je trouve.

avatar pocketalex | 

moi je m'étonne qu'un tel batiment, avec de telles données critiques, ne dispose pas de dispositif anti incendie plus sérieux

C'est sur qu'avec la consommation électrique de ce monstre, un court-circuit fait plus de dégats qu'une simple prise 220V, mais tout de même je suis étonné qu'un tel incendie puisse y avoir lieu, ce n'est pas une fabrique de tissu ni un stockage de foin, c'est de la tôle et du plastique partout, entouré de béton.

avatar raoolito | 

@pocketalex

« moi je m'étonne qu'un tel batiment, avec de telles données critiques, ne dispose pas de dispositif anti incendie plus sérieux »

C’est peut-être lui qui a pris feu?? 😳

avatar Nicolas Furno | 

@pocketalex

Attendons le post-mortem pour en juger. Les photos montrent un incendie vraiment violent, j’imagine mal quel dispositif pourrait lutter contre ça.

avatar pocketalex | 

@Nicolas

rarement un batiment brûle d'un coup. ça commence par un petit feu dans un petit coin, et c'est là ou la sécurité doit jouer son rôle. Si l'incendie se propage, il peut devenir incontrolable et c'est pas une douchette au plafond qui va éteindre une pièce entière en flammes

La mairie d'annecy a connu un incendie du à un court cirtcuit électrique, mais c'est surtout la toiture en bois ancien qui a mangé, et le batiment date de plusieurs siècles.

Idem pour Notre Dame, le feu a démarré doucement, mais à un certain moment d'intensité, les poutres de la toiture, qui ne brulent pas comme ça, sont parties à toute vitesse (on a vu les images)

Mais là, on parle d'un batiment moderne avec assez peu de matières inflammables (moquettes, rideaux, mobilier en bois, papier), du coup je suis étonné de l'ampleur de l'incendie, pas sur la fin (tout le batiment) car comme dit, une fois que c'est parti à un certain niveau, c'est quasiment inarrêtable, mais plutot sur le début

avatar Nicolas Furno | 

@pocketalex

On ne sait pas exactement ce qui s’est passé, mais OVH dit bien qu’il n’y avait rien à faire pour l’arrêter, sous entendu c’était violent dès le départ.

On sait en revanche que la structure est en métal avec des planchers en bois, ce qui n’a peut être pas aidé. Mais il faudra attendre leur retour pour savoir ce qui s’est passé précisément.

avatar IceWizard | 

@pocketalex

« Idem pour Notre Dame, le feu a démarré doucement, mais à un certain moment d'intensité, les poutres de la toiture, qui ne brulent pas comme ça, sont parties à toute vitesse (on a vu les images) »

A Notre-Dame, le feu a démarré lentement et a été détecté par l’un des capteurs thermiques. Une personne a été vérifier le point chaud avec une caméra thermique et n’a rien trouvé.. parce que les débiles qui avaient installés le système s’étaient trompé dans le mapping de certains capteurs (il y en avait plus d’un millier).

Si l’ordinateur de contrôle avait eu la bonne localisation du point chaud, l’incendie aurait été maitrisé avant même de démarrer. C’est fou cette histoire .. des milliards de dégâts parce qu’un système préventif anti-incendie a été mal configuré et surtout NON TESTÉ !

C’est peut-être la même entreprise qui a installé le système de prévention des incendies, à Strasbourg ?

avatar YetOneOtherGit | 

@IceWizard

“Si l’ordinateur de contrôle avait eu la bonne localisation du point chaud, l’incendie aurait été maitrisé avant même de démarrer. C’est fou cette histoire .. des milliards de dégâts parce qu’un système préventif anti-incendie a été mal configuré et surtout NON TESTÉ !”

La quantité de grave pb fruit d’erreurs informatiques ou de laisser faire coupables s’accumule avec les décennies.

Dans son remarquable ouvrage de vulgarisation “L’hyperpuissance de l’informatique” l’immense Gérard Berry en dresse un inventaire effrayant

https://www.odilejacob.fr/catalogue/sciences/mathematiques/hyperpuissanc...

Un ouvrage dont je recommande fortement la lecture 🧠💪

avatar IceWizard | 

@YetOneOtherGit

« La quantité de grave pb fruit d’erreurs informatiques ou de laisser faire coupables s’accumule avec les décennies. »

Les erreurs ça arrive tout le temps. C’est normal d’en faire. D’où la nécessité de faire des tests avant de valider un système complexe, ce qui n’a pas été fait à Notre-Dame.

avatar YetOneOtherGit | 

@IceWizard

"Les erreurs ça arrive tout le temps. C’est normal d’en faire. D’où la nécessité de faire des tests avant de valider un système complexe, ce qui n’a pas été fait à Notre-Dame."

Tu te méprends sur la portée de mon propos qui abondait dans ton sens 😉

Après tu croise encore des Dev In Name Only pour qui “tester c’est douter” 🤢

avatar Marcos Ickx | 

@YetOneOtherGit

Dans la boîte pour laquelle je travaille, on me reprochait souvent mes longs délais dans mes développements.

Mais faut savoir que 80% du code, c’était pour tester les 20% restants.

Pages

CONNEXION UTILISATEUR