Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Amazon опубликовала подробный отчет о масштабном сбое, который 20 октября парализовал работу многих сайтов, сервисов, приложений и даже игр. Причиной стал сбой в автоматизированном ПО DynamoDB — это система хранения данных для корпоративных клиентов Amazon Web Services (AWS), на которой завязаны тысячи компаний и государственных структур по всему миру.
В норме DynamoDB поддерживает сотни тысяч записей в системе доменных имен (DNS). Именно через DNS компьютеры находят друг друга в интернете. Обычно сбои устраняются автоматически, без участия инженеров. Но в тот раз 20 октября ПО выдало пустую DNS-запись для дата-центров Amazon в Северной Вирджинии. По задумке, DynamoDB должна была самостоятельно исправить ошибку, но этого не произошло.
И тут закрутилось: из-за неполадки тысячи сервисов и их клиентов не могли соединиться с базой данных — произошёл сбой в DNS. В результате, не работали или работали с перебоями популярные сайты и приложения: собственно Amazon, устройства Alexa, Bank of America, Snapchat, Canva, Reddit, Apple Music, Apple TV, Lyft, Duolingo, Fortnite, Disney+, Venmo, Doordash, Hulu, PlayStation и Eight Sleep (кровати с интернет-подключением для регулировки параметров). Одни сервисы тормозили, другие вообще исчезли из Сети.
Amazon официально извинилась за происшедшее. Компания отметила, что обычно гарантирует высокий уровень доступности своих сервисов, но понимает, насколько их решения важны для бизнеса клиентов, приложений и конечных пользователей. Amazon пообещала получить урок из этой ситуации и сделать всё, чтобы подобное не повторялось.
Amazon снова заблудилась в своих лабиринтах автоматизации. Баг в DynamoDB — ключевом сервисе AWS, которым пользуется полмира, оставил пустую DNS-запись для центра в Вирджинии. Результат? Масштабная катастрофа: Amazon, Bank of America, Instagram, Fortnite и даже умные кровати залетели в офлайн.
Заявления про автоматизацию и самовосстановление звучат как комедия: автоматика должна была исправить всё сама, а в итоге инженеры устраняли аврал вручную. Разумеется, компания рассыпается в извинениях и клянется, что такого больше не повторится. Но у кого нет дня сурка на IT-кухне, пусть первым бросит роутер?
Стоит обратить внимание на усиление зависимости мира от облачных сервисов — один баг способен отключить глобальные финансовые, развлекательные и бытовые системы. Но сериал явно не кончился: ждать следующей серии осталось недолго.