La panne d’Amazon S3 : force et faiblesse du Cloud IT

Le 28 février dernier, AWS a subi une nouvelle panne sur son service S3 (stockage). Le problème est survenu sur la région de Virginie Nord. AWS a dévoilé les résultats de son enquête :

  • une équipe autorisée a utiliser des commandes pour retirer un petit groupe de serveurs d’un sous-ensemble S3
  • manque de chance : des commandes sont mal saisies
  • conséquence : un grand nombre de serveurs est retiré de l’ensemble S3 !
  • manque de chance 2 : ce sous-système gère l’index, des métadonnées et des informations de localisation de toutes les objets stockés de la région concernée. Ce sous-ensemble est nécessaire pour gérer get, list, put et delete. Et un autre sous-ensemble a été atteint.
  • conséquence 2 : une réaction en chaine s’est faite 

AWS souligne que les sous-systèmes S3 sont faits pour supporter le retrait ou la chute de fortes capacités avec un impact limité ou nul pour les utilisateurs. 

Cependant, la chute des sous-systèmes a obligé les équipes Amazon à redémarrer le systèmes d’index. Il a fallu 1h28 pour que l’ensemble du sous-système Index soit totalement rétabli. Puis, les autres services impactés ont commencé à retrouver une activité normale. 

AWS a annoncé que les fonctions de retrait des serveurs seront modifiés pour que l’opération se réalise plus lentement et de nouvelles sécurités seront déployées. 

La morale de l’histoire : une panne AWS n’est pas une nouveauté, Azure connait aussi des pannes, ainsi que tout fournisseur de services. Mais la dépendance des utilisateurs (entreprises) envers le fournisseur cloud est de nouveau pointée du doigt. Cela montre la force du cloud et la faiblesse et par conséquence, la force et la faiblesse de son IT. Avoir une redondance de son Cloud IT est simple sur des services basics mais sur des IT complexes, c’est une toute dimension. Le DSI doit être pro-actif sur ce sujet et non passif. 

François Tonic