Em algum lugar esta noite no norte da Virgínia, um grupo de AWS os administradores provavelmente estão desfrutando de uma bebida depois de um muito longo dia de solução de problemas.
Amazon Web Services sofreu uma cascata de fracassos Segunda-feira em sua região US-EAST-1, causando várias interrupções em uma variedade estonteante de serviços em nuvem, incluindo AWS Lambda, Amazon API Gateway, Amazon Appflow, Amazon Aurora DSQL Service e outros.
Como acontece com muita frequência, o culpado foi a configuração incorreta do DNS. Vai entender.
Das 15 regiões da AWS em todo o mundo, a US-EAST-1 é provavelmente a maior, com clusters de data centers espalhados pelos condados de Loudoun, Prince William e Fairfax. E, a julgar pela interrupção de hoje, muitas das maiores empresas atuais têm pelo menos uma presença na região.
A AWS já está quase totalmente recuperada, segundo a empresa, com o backlog de serviços dos clientes sendo concluído nas próximas horas. Snapchat, Reddit, Venmo e outros serviços em nuvem dependentes da AWS também estão apresentando recuperação.
Como o US-EAST-1 caiu
O problema se manifestou pela primeira vez por volta das 3h EDT, quando vários serviços relataram aumento nas taxas de erro de resolução de DNS dos endpoints da API do DynamoDB. Esse problema foi relatado em três horas e, às 6h, a equipe estava confiante de que, após um período de aceleração, os serviços logo estariam a todo vapor.
“Podemos confirmar que os serviços e recursos globais que dependem do US-EAST-1 também se recuperaram. Continuamos a trabalhar para uma resolução total e forneceremos atualizações à medida que tivermos mais informações para compartilhar”, escreveram eles. otimista no log às 6h03
Quase todos os serviços recuperados, claro. As solicitações para lançar novas instâncias EC2 (ou serviços que iniciam instâncias EC2, como ECS) ainda encontraram taxas de erro na região US-EAST-1. Inicialmente, o suposto culpado eram caches obsoletos, que precisavam ser liberados.
A equipe de administração permaneceu confiante de que poderia resolver facilmente o problema do EC2, embora duas horas depois ainda ocorressem erros ao iniciar instâncias do EC2. Eles aconselharam não lançar instâncias com esta região designada como zona de disponibilidade.
Pior ainda, o serviço Lambda, instável desde o início, também estava começando a ter problemas de recuperação significativos. E à medida que a manhã avançava, uma praga de serviços AWS desativados atormentou a equipe de administração.
Mais problemas com EC2
“Podemos confirmar erros significativos de API e problemas de conectividade em vários serviços na região US-EAST-1”, escreveram eles às 10h14. Eles rastrearam o problema até a rede interna EC2, que prejudicou DynamoDB, SQS, Amazon Connect e outros serviços.
O problema acabou sendo o sistema de monitoramento dos balanceadores de carga que estava sobrecarregando o serviço Lambda.
A última mensagem, postada às 18h48 EDT, observou que os lançamentos do EC2 foram restaurados, embora haja um atraso de duas horas de trabalho para serviços que exigem lançamentos do EC2, como o Redshift, bem como um atraso de análises e dados de relatórios.
Impacto generalizado nas principais empresas online
Embora apenas uma única região tenha sido afetada, isso provaria ter um impacto profundo em muitos dos maiores serviços em nuvem da Internet. O site Downdetector, que informa sobre a disponibilidade de serviços em nuvem, viu um grande fluxo de interrupções de serviços AWS ao longo do dia, a maioria deles na região US-EAST-1.
Fonte: Downdetector
Isto, por sua vez, causou problemas para as muitas empresas que dependem na AWS. Downdetector relatou problemas relacionados ao AWS 3d hoje em Snapchat, Música da Apple, Reddit, Venmo, Painel de porta, Hulu e Amazônia em si. O grau em que foram impactados é presumivelmente medido pela forma como dependeram desta região específica.

Café Codificado é um portal dinâmico e confiável criado especialmente para desenvolvedores. Nosso foco é entregar:
Dicas práticas para programação, produtividade, frameworks, testes, DevOps e muito mais;
Notícias atualizadas, acompanhando tendências e lançamentos do mundo da tecnologia, compiladas com relevância e sem jargões desnecessários.
O que você encontra aqui:
Artigos objetivos e comandáveis — Tutoriais, tutoriais passo-a-passo e dicas que vão direto ao ponto.
Cobertura das tecnologias que estão em alta — do universo da IA, computação em nuvem e segurança à engenharia de software e criatividade em código.
Conteúdo para todos os níveis — de iniciantes buscando praticidade, a profissionais em busca de insights estratégicos e aperfeiçoamento.
Comunidade ativa — textos humanizados, perguntinhas instigantes e espaço para você contribuir com reflexões e comentários.