Подробности краха систем Amazon
Amazon опубликовала отчёт о масштабном падении своих систем 19 октября. Проблема была в системе управления DNS сервиса DynamoDB: из-за ошибки в автоматизации возникла гонка состояний, и посыпались остальные сервисы.
Рассинхрон шёл между двумя DNS Enactor’ами — один очищал данные, второй обновился. В системе возникла ошибка, IP-адреса узла потёрлись, и отвалились подключения к DynamoDB, включая компонент под виртуалки EC2 и конфиг сетей. Как восстановили, начался лизинг для EC2-серверов, но их было столько, что аренда истекала раньше обновлений. Пошла лавина тайм-аутов, которую вручную остановили через пару часов. А на это наложились отложенные сетевые операции. По итогам отвалилось всё, что зависело от EC2.
Результат известен: сутки даунтайма всего и вся с ущербом в сотни миллиардов. В общем, очередное напоминание, что никакого облака нет — это просто чей-то компьютер. И когда он единая точка отказа для тысяч систем, рано или поздно получишь удивлённое лицо Пикачу их юзеров.