Comme promis (lire : Skype est revenu et il offrira des crédits), Skype s'est expliqué via son blog officiel sur la panne géante qui a touché tous les services de Skype entre le 22 et le 23 décembre. Lars Rabbe, directeur technique de Skype, détaille aussi bien les causes de la panne que ce qu'a prévu son entreprise pour éviter que la panne se reproduise.

La panne n'est pas liée à une attaque, mais à une combinaison malheureuse de problèmes qui a conduit à l'arrêt total du service pendant environ 24 heures. La panne a commencé avec une surcharge sur une partie des serveurs responsables du chat par clavier. Ces serveurs ont alors logiquement envoyé des messages d'erreur aux clients Skype. La panne aurait dû en rester là, mais une version précédente de Skype 5 Windows avait un bug en particulier sur la gestion de ces messages d'erreur. Tous les utilisateurs n'ayant pas fait la mise à jour (environ 50 % des utilisateurs Windows) ont alors immédiatement eu un plantage de leur client Skype.
Les autres versions de clients Skype, dont la version Mac ou celle disponible sur l'App Store, n'étaient pas concernés par le bug. Mais Skype ne fonctionne pas sur un réseau traditionnel de serveurs et clients : le géant de la VOIP utilise en fait la technologie Peer-to-peer (P2P) qui fait que chaque logiciel est tantôt client, tantôt serveur. Dans ce réseau, il y a des "supernodes", des nœuds indispensables au bon fonctionnement du réseau (ce sont eux, notamment, qui permettent les connexions entre deux clients). Au cours du plantage initial, 25 à 30 % des supernodes ont planté eux aussi.
Ce plantage d'une partie importante des supernodes du réseau Skype a alourdi la charge sur tous les autres supernodes encore disponibles. C'est la procédure normale : en cas de problème sur un nœud, le nœud est désactivé et son travail est réparti entre les autres nœuds. Sauf que la panne est intervenue au pire moment : juste avant le pic de connexion du matin aux États-Unis, à un moment où le réseau de Skype est très sollicité. Facteur aggravant, tous les utilisateurs de l'ancienne version de Skype qui a planté ont, logiquement, redémarré le logiciel. Au démarrage, le client Skype a plus besoin du réseau qu'en temps normal, et ces redémarrages massifs simultanément au plantage des supernodes a conduit à une réaction en chaîne et l'arrêt de tous les supernodes du réseau Skype.
Cette panne est exceptionnelle par son ampleur. Un tel cas de figure est extrêmement rare et les réseaux P2P sont normalement censés mieux les gérer que les réseaux traditionnels. L'ampleur du problème explique le temps nécessaire aux équipes de Skype pour rétablir le réseau, un temps sans doute allongé par la période des fêtes. Pour éviter qu'une telle panne se reproduise, Skype s'engage à forcer les mises à jour à la manière de Chrome, pour éviter qu'une si large part d'utilisateurs ne fassent pas les mises à jour. Cela devrait éviter le maintien de logiciels anciens et buggués sur le réseau. Skype va aussi améliorer sa procédure de détection de problèmes pour y apporter une réponse plus rapide et plus efficace. Enfin, l'entreprise annonce qu'elle va investir encore plus en 2011 sur les infrastructures, pour limiter les surcharges du type de celle qui a provoqué la panne géante.
En attendant, Skype fait monter le buzz avec une page spéciale qui précède certainement des annonces concernant le chat vidéo au CES qui se tiendra la semaine prochaine à Las Vegas.


La panne n'est pas liée à une attaque, mais à une combinaison malheureuse de problèmes qui a conduit à l'arrêt total du service pendant environ 24 heures. La panne a commencé avec une surcharge sur une partie des serveurs responsables du chat par clavier. Ces serveurs ont alors logiquement envoyé des messages d'erreur aux clients Skype. La panne aurait dû en rester là, mais une version précédente de Skype 5 Windows avait un bug en particulier sur la gestion de ces messages d'erreur. Tous les utilisateurs n'ayant pas fait la mise à jour (environ 50 % des utilisateurs Windows) ont alors immédiatement eu un plantage de leur client Skype.
Les autres versions de clients Skype, dont la version Mac ou celle disponible sur l'App Store, n'étaient pas concernés par le bug. Mais Skype ne fonctionne pas sur un réseau traditionnel de serveurs et clients : le géant de la VOIP utilise en fait la technologie Peer-to-peer (P2P) qui fait que chaque logiciel est tantôt client, tantôt serveur. Dans ce réseau, il y a des "supernodes", des nœuds indispensables au bon fonctionnement du réseau (ce sont eux, notamment, qui permettent les connexions entre deux clients). Au cours du plantage initial, 25 à 30 % des supernodes ont planté eux aussi.
Ce plantage d'une partie importante des supernodes du réseau Skype a alourdi la charge sur tous les autres supernodes encore disponibles. C'est la procédure normale : en cas de problème sur un nœud, le nœud est désactivé et son travail est réparti entre les autres nœuds. Sauf que la panne est intervenue au pire moment : juste avant le pic de connexion du matin aux États-Unis, à un moment où le réseau de Skype est très sollicité. Facteur aggravant, tous les utilisateurs de l'ancienne version de Skype qui a planté ont, logiquement, redémarré le logiciel. Au démarrage, le client Skype a plus besoin du réseau qu'en temps normal, et ces redémarrages massifs simultanément au plantage des supernodes a conduit à une réaction en chaîne et l'arrêt de tous les supernodes du réseau Skype.
Cette panne est exceptionnelle par son ampleur. Un tel cas de figure est extrêmement rare et les réseaux P2P sont normalement censés mieux les gérer que les réseaux traditionnels. L'ampleur du problème explique le temps nécessaire aux équipes de Skype pour rétablir le réseau, un temps sans doute allongé par la période des fêtes. Pour éviter qu'une telle panne se reproduise, Skype s'engage à forcer les mises à jour à la manière de Chrome, pour éviter qu'une si large part d'utilisateurs ne fassent pas les mises à jour. Cela devrait éviter le maintien de logiciels anciens et buggués sur le réseau. Skype va aussi améliorer sa procédure de détection de problèmes pour y apporter une réponse plus rapide et plus efficace. Enfin, l'entreprise annonce qu'elle va investir encore plus en 2011 sur les infrastructures, pour limiter les surcharges du type de celle qui a provoqué la panne géante.
En attendant, Skype fait monter le buzz avec une page spéciale qui précède certainement des annonces concernant le chat vidéo au CES qui se tiendra la semaine prochaine à Las Vegas.
