Новости IT: Cloudflare раскрыла причину сбоя, оставившего ChatGPT и сайты на CDN недоступными во вторник

Во вторник вечером сооснователь и глава Cloudflare Мэттью Принс опубликовал подробности о «худшем сбое с 2019 года». Причина оказалась в системе управления ботами, которая контролирует, какие автоматизированные программы (боты) могут просматривать определённые сайты через CDN Cloudflare (Content Delivery Network, распределённая сеть для ускорения загрузки сайтов и защиты от перегрузки трафиком).

Cloudflare ранее заявляла, что примерно 20% сайтов в интернете работают через их сеть. Сервис предназначен для того, чтобы сайты не падали при резких скачках посещаемости и атаках через DDoS (создание искусственной перегрузки сервера). Однако во вторник сбой Cloudflare повлек массовые отключения — от X (бывший Twitter) до ChatGPT и даже Downdetector (сервис отслеживания неполадок сайтов) на несколько часов. Ситуация повторила недавние истории с глюками облачных гигантов Microsoft Azure и Amazon Web Services.

Система управления ботами призвана бороться, например, с ботами, которые собирают данные для обучения искусственного интеллекта. Недавно Cloudflare сообщила о запуске «AI Labyrinth» — системы, генерирующей запутывающий AI-контент, чтобы замедлять и путать ботов, нарушающих правила запрета на индексацию.

Но во вторник подвёл не искусственный интеллект и не кибератака, как подумали в Cloudflare сначала. Проблема возникла при изменениях в системе разрешений базы данных, ответственной за работу с ботами. Модель машинного обучения формирует специальные файлы с «оценками ботов», которые идентифицируют автоматические запросы. Эти файлы регулярно обновляются. После недавней правки в механизме запросов к ClickHouse (популярная в России и мире аналитическая СУБД — система управления базами данных) в готовых настройках появились дублирующиеся строки с параметрами.

Файл начал стремительно разрастаться, превысил заданный лимит памяти. Это вызвало сбой в основополагающей системе проксирования Cloudflare, которая обрабатывает трафик клиентов, зависящих от модуля ботов. В итоге сайты, где работали правила Cloudflare против «плохих» ботов, ошибочно начали блокировать и обычных пользователей. А вот те клиенты, кто не включал модуль оценки ботов — остались в сети.

Cloudflare уже обещает четыре конкретных действия, чтобы подобные истории не повторялись. Правда, признают, что централизация интернета увеличивает риск глобальных аварий — и, возможно, такие сбои теперь неизбежны.

Можно было бы считать Cloudflare гарантом стабильности интернета — почти как добрый привратник на входе в цифровой мир. Но, как выяснилось, для массового падения всего — нужен не злонамеренный хакер, а всего лишь парочка заплутавших запросов в ClickHouse и перегретый файл. Крупные ИТ-компании ещё раз наглядно показали: за фасадом борьбы с ботами, киберугрозами и прочей «зловредностью» часто скрывается обыкновенный бюрократизм — битвы за галочки в настройках. Страдают, конечно, не они сами, а миллионы пользователей, для которых выход из соцсети — не трагедия, а привычное неудобство, но для бизнеса — убытки и репутационный ляп. То, что Cloudflare с гордостью обещает "четыре плана спасения", говорит только одно: против стремительно усложняющейся IT-машины не спасают ни firewall, ни умные алгоритмы. Интернет остаётся заложником своих же сервисов, а каждый следующий кризис — лишь вопрос времени. Каждый сбой в очередной «опоре интернета» — это уже не ЧП, а почти рутинное ироничное шоу, где смеяться хочется, а плакать приходится.

Cloudflare объяснила причину масштабного сбоя во вторник, который оставил ChatGPT вне доступа

PEREC.RU

Похожие материалы