Cloudflare создает «Лабиринт ИИ», чтобы заманить веб-скрейпинг-ботов в ловушку

Cloudflare заманивает веб-скрейпинг-ботов в «Лабиринт ИИ»
Cloudflare, одна из крупнейших компаний в сфере интернет-инфраструктуры, объявила о запуске нового инструмента под названием AI Labyrinth, который нацелен на борьбу с веб-скрейперами, крадущими данные с сайтов для обучения ИИ без разрешения. В блоге компании сообщается, что, когда она обнаруживает "неприемлемое поведение ботов", этот бесплатный инструмент заманивает этих скрейперов на путь ссылок к страницам-заслонкам, созданным ИИ, которые "замедляют, запутывают и тратят ресурсы" тех, кто действует недобросовестно.
Сайты долгое время использовали подход системы доверия с помощью robots.txt — текстового файла, который предоставляет или отказывает в разрешении на скрейпинг, однако ИИ-компании, даже такие известные, как Anthropic и Perplexity AI, были обвинены в игнорировании этого правила. Cloudflare приводит цифры: она обрабатывает более 50 миллиардов запросов от веб-скрейперов в день, и хотя у неё есть инструменты для обнаружения и блокировки злонамеренных ботов, это часто заставляет злоумышленников переключаться на новые тактики в "никогда не заканчивающейся гонке вооружений".
Cloudflare утверждает, что вместо блокировки ботов, AI Labyrinth борется с ними, заставляя их обрабатывать данные, не имеющие никакого отношения к реальным данным данного сайта. Компания также говорит, что этот инструмент функционирует как "потенциально опасная приманка", привлекая ИИ-скрейперов, которые продолжают следовать по ссылкам на поддельные страницы дальше, в то время как обычный человек этого не сделает. Это облегчает определение злонамеренных ботов для списка нехороших игроков Cloudflare и помогает выявлять "новые модели ботов и подписи", которые иначе могли бы остаться незамеченными. Согласно сообщению, эти ссылки не должны быть видимы обычным посетителям сайта.
Вы можете узнать больше о том, как работает AI Labyrinth, в блоге Cloudflare, но вот несколько дополнительных деталей из поста:
Мы обнаружили, что генерирование разнообразного набора тем сначала, а затем создание контента для каждой темы, дает более разнообразные и убедительные результаты. Для нас важно, чтобы мы не создавали неточный контент, способствующий распространению дезинформации в Интернете, поэтому создаваемый нами контент реален и связан с научными фактами, но не относится к сайту, с которого ведется скрейпинг.
Администраторы сайтов могут подключить использование AI Labyrinth, перейдя в раздел управления ботами на панели управления Cloudflare и включив его. Компания утверждает, что это "только первая итерация использования генеративного ИИ для борьбы с ботами". Она планирует создать "целые сети связанных URL-адресов", и боты, которые попадут туда, будут иметь трудности с определением их поддельности. Как отмечает Ars Technica, AI Labyrinth напоминает Nepenthes, инструмент, предназначенный для ухода скрейперов на "месяцы" в аду из данных, сгенерированных ИИ.

Cloudflare создает «Лабиринт ИИ», чтобы заманить веб-скрейпинг-ботов в ловушку

Похожие материалы