No início da semana foi notícia uma falha nos serviços da armazenamento na cloud da Amazon, que acabou por afetar várias empresas norte-americanas e até entidades governamentais clientes do S3 – Simple Storage Service. Não terão sido muitos os sites ou serviços online alojados na cloud da Amazon que ficaram indisponíveis por causa do problema, mas terão sido alguns milhares os que ficaram lentos e com dificuldade de processar operações. Investigação concluída ao problema, a empresa está em condições de confirmar que a falha se deveu a um erro humano.

A empresa explica que um dos programadores estava a trabalhar para resolver um problema que provocava a lentidão no sistema de faturação do S3. Com esse objetivo pretendida colocar temporariamente alguns servidores offline, uma prática habitual.

No entanto, a introdução errada de informação num dos comandos necessários para desencadear a operação deu uma escala não prevista ao evento e acabou por deixar indisponíveis um número de servidores maior que o previsto. Isso desencadeou uma reação em cadeia e uma sequência de falhas  que se estendeu a todo o S3 e acabou mesmo por afetar outros serviços da Amazon.   

A explicação da Amazon começa assim: “os servidores removidos inadvertidamente davam suporte a outros dois subsistemas do S3. Um desses subsistemas, o subsistema índice, gere os metadados e a informação de localização de todos os objetos S3 na região”.... e prolonga-se por várias linhas que explicam detalhadamente como um erro simples foi alastrando a toda uma plataforma, com milhares de utilizadores e acabou a influenciar o tráfego web.

Na explicação a empresa também admite que levou mais tempo que o previsto a restaurar os serviços e que por isso mesmo aproveitou a situação para introduzir novos mecanismos de segurança, capazes de garantir que situações do mesmo género não voltam a acontecer. Um das medidas previne a possibilidade de desligar tantos servidores em simultâneo de forma praticamente imediata.