Ошибка в облаке Amazon опрокинула миллионы ресурсов, включая Steam, Signal, McDonald's и миллионы других
Компания Amazon в течение многих часов пыталась устранить последствия сбоя, из-за которого миллионы сайтов перестали работать или открывались с большой задержкой. Причина оказалась банальной.
Минус весь регион
Облачные сервисы Amazon AWS вышли из строя, и работники компании до сих пор пытаются восстановить функционирование её многочисленных сервисов. По состоянию на момент написания этого материала проблемы регистрируются на нескольких ключевых сервисах в Северной Вирджинии.
В бюллетенях Amazon указывается, что причиной выхода из строя является некорректное разрешение DNS для конечной точки API DynamoDB в регионе US-EAST-1. Иными словами, ошибка в сетевом пути привела к тому, что огромное количество сервисов - как самой Amazon, так и всех тех, кто полагается на её инфраструктуру (а это миллионы сайтов) оказались либо полностью выведенными из строя, либо испытывают существенные задержки в соединениях. Сервисы Amazon в регионе US-EAST-1 используются многочисленными общемировыми ресурсами, так что проблема носит глобальный характер.
«Облачные сервисы создавались специально для того, чтобы обеспечить бесперебойную работу сервисов, полагающихся на них. Однако в очередной раз демонстрируется справедливость тезиса о том, что любая система устойчива настолько, насколько крепко её слабейшее звено, - говорит Михаил Зайцев, эксперт по информационной безопасности компании SEQ. - Как выясняется, сбой DNS-разрешения к одной-единственной точки может отправить в нокаут бесчисленное количество ресурсов, что противоречит самой идее облака».
По данным издания Bleeping Computer, сбой привёл к недоступности ресурсов по всем регионам, в том числе в Европе и США.
Кого свалило
Среди затронутых сервисов - PrimeVideo, магазин игр Steam, игры Fortnite, Clash of Clans, Clash of Royals, Palworld и Roblox, мессенджеры Snapchat и Signal, ИИ-чатбот Perplexity, дизайн-платформа Canva, видеосервис Hulu, стиминг Disney+, криптобиржа Coinbase Global, трейдинговая платформа Robinhood, приложение McDonald's и многие другие.
Ошибка была исправлена в окрестностях двух часов ночи по Тихоокеанскому времени, т.е. около полудня по Москве. После этого компания начала рапортовать о признаках восстановления. Некоторые сервисы возобновили работу уже через 45 минут.
«Мы продолжаем работу над полным восстановлением запуска новых экземпляров (instances) EC2 в регионе US-EAST-1. Мы рекомендуем запускать экземпляры EC2 без привязке к конкретной зоне доступности (AZ), чтобы обеспечить EC2 гибкость в выборе подходящей зоны. Сбои в новых активациях EC2 затрагивают такие сервисы, как RDS, ECS и Glue. Рекомендуем настроить группы Auto Scaling для одновременного использования нескольких зон доступности, чтобы Auto Scaling мог автоматически управлять запуском экземпляров EC2», - говорится в публикации Amazon, от 4:48 утра по Тихоокеанскому времени. Ещё 20 минут спустя компания отчиталась о восстановлении обработки очередей SQS через Lambda Event Source Mappings и о начале обработки прежних SQS-сообщений.