Amazon S3 : une erreur de saisie à l'origine de la panne qui a grippé une partie d'internet

Mickaël Bazoge |

Les plus grandes catastrophes résultent parfois de petites choses toutes bêtes. Mardi soir, une partie d’internet — des sites web et des services en ligne, dont iCloud — n’était plus accessible. En cause : un gros plantage des serveurs S3 d’Amazon Web Services (AWS), un des plus importants hébergeurs au monde (lire : Quand Amazon S3 tousse, tout internet s'enrhume). Quatre heures plus tard, la panne était réparée. Mais que de frayeurs !

Amazon a donné l’explication du bug. Le matin de la panne, des membres de l’équipe S3 étaient en train de débogguer le système de facturation. Pour ce faire, ils ont dû déconnecter un petit nombre de serveurs. Mais durant l’opération, une des commandes a été mal saisie, ce qui a provoqué le retrait d’un nombre de serveurs bien plus grand que prévu.

Deux sous-systèmes S3 s’appuyaient sur les serveurs déconnectés ; un d’entre-eux gérait les métadonnées et les informations de localisation de tous les “objets” S3 de la région (à savoir le nord de la Virginie). Le deuxième sous-système s’occupait lui de la gestion du stockage et avait besoin de son confrère pour bien fonctionner. Durant le redémarrage de ces sous-systèmes, d’autres services AWS ont été touchés.

S3 est capable de tenir le choc d’une perte de plusieurs serveurs. Les ennuis ont été plus importants durant le redémarrage, une procédure visiblement complexe et plus longue que le reboot d’un Mac. La croissance « massive » du service d’hébergement ces dernières années, l’opération de redémarrage et la vérification « nécessaire » pour valider l’intégrité des métadonnées a demandé plus de temps que prévu, explique l’entreprise.

Ce qu’on retiendra de cette histoire, c’est que l’effet domino d’une bête erreur de saisie a provoqué une belle pagaille. Pour pallier ce genre de bug, Amazon va prendre des dispositions et faire en sorte que ses systèmes se rétablissent plus rapidement… S3 va aussi s’arranger pour éviter autant que possible les fautes de frappe.

Tags
avatar moon21 | 

on est bien peu de chose... ;)

avatar deltiox | 

Tiens
Régis travaille chez Amazon maintenant ?
?

avatar r e m y | 

@deltiox
Je ne sais pas si c'est Regis qui a encore frappé, mais si les techniciens d'Amazon tapent les commandes avec une syntaxe aussi sûre que certains écrivent en Français sur les forums ou réactions aux News, je suis surpris qu'il n'y ait pas plus de plantage...
?

avatar MacGyver | 

he he, on est tous humains et c'est la qu'on voit qu'un petit caillou peu gripper une grosse machine

avatar fredseg | 

> disconnect *.*

Ah merde.

avatar DG33 | 

@fredseg
Ne m'en parle pas, j'ai dû il y a quelques années démarrer mon PC familial avec un DVD Linux doté d'un utilitaire permettant de formater un disque externe dans un format exotique non géré par Windows (de mémoire afin qu'il soit reconnu par FreeBox, Windows et MacOS ?)
La PC démarre, je lance l'utilitaire (pas peu fier de jouer au Geek Linuxien pour la première fois de ma vie), je choisis le type de formatage et clic + Oops + Mer...
Évidemment c'était positionné sur C:
"Régis sors de ce corps !" ?
"Gaston, avais-tu par hasard fait une sauvegarde à peu près totale et surtout très récente ?" ?
Si un autre sur moi avait fait cela ?

avatar fte | 

@DG33

Ouai, lorsque je dois faire ce genre de manip et que je ne sais pas l'outil, mon réflexe est de débrancher tout ce qui n'est pas nécessaire à l'opération.

J'aime bien un petit proverbe très adapté à l'informatique : seuls les paranoïaques survivront. Tellement vrai.

avatar anti2703 | 

Ils auraient pu accuser la femme de ménage... ils auraient eu l'air moins con comme ça ^^

avatar scanmb (non vérifié) | 

J'ai glissé Chef !

avatar Patrick | 

"Il n'y a que ceux qui font rien qui ne font pas d'erreur"
On a parlé de "tousser" pas d'un état "grippal"
La bonne chose, c'est que ça permettra de prendre des dispositions afin que cela ne se reproduise plus et d'être plus proactifs en cas pb.

avatar Kriskool | 

Un jour une guerre sera déclenchée suite à une erreur de saisie....

avatar r e m y | 

@Kriskool

Quelqu'un jouant avec la valise nucléaire pourrait se trumper....
"Oups désolé Kim Jong.... je voulais envoyer un tweet et c'est un missile de croisière qui est parti. En même temps, les effets sont hyper réalistes sur ce gros smartphone qu'ils m'ont donné en arrivant... là j'ai utilisé le bouton qui représente un feu d'artifice"

avatar IceWizard | 

@Kriskool
"Un jour une guerre sera déclenchée suite à une erreur de saisie...."

On est passé a deux doigts de la gaffe dans les années 80, quand le Norad a détecté une attaque nucléaire massive en provenance de l'Union Soviétique. Les USA se préparaient à riposter quand un gars a dis "On dirais la simulation d'attaque de la semaine dernière. Vérifions .. ". Vérification faite, un bug informatique avait lancé la simulation d'attaque sur les écrans, comme une vraie frappe nucléaire. Terrifiant ..

avatar harisson | 

Une bonne grosse usine à gaz ce S3 o_O

avatar Armand07 | 

Ce soir-là sur Amazon Prime, les dialogues et sous-titres étaient très très décalés. je ne sais pas si ça a à voir avec cette panne ...

avatar codeX | 

Voila ce que c'est quand on confond 11 et *

avatar HellTiger | 

Effeti papillon .

avatar scanmb (non vérifié) | 

J'ai lu un truc sur "cloudflare leak" dans net-toolbox; une fuite de données de septembre àfevrier .
Avez-vous des informations, svp ?

CONNEXION UTILISATEUR