Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Perplexity, один из крупных игроков на рынке искусственного интеллекта, оказался в центре скандала: известная облачная компания Cloudflare обвинила её в агрессивном сборе данных (скраппинге) с сайтов, которые прямо запрещали такое поведение через файл robots.txt и другие сетевые настройки. По словам исследователей Cloudflare, Perplexity использовала несколько «масок» — специальные т.н. user agents, среди которых был и якобы браузер Google Chrome для macOS. Также компания постоянно меняла IP-адреса и номера автономных систем (ASN), чтобы их активность труднее было отследить и заблокировать.
Самое тревожное — Cloudflare выявила миллионы подобных запросов ежедневно на десятках тысяч сайтов. Такой масштаб говорит о системности происходящего: одна из крупнейших ИИ-компаний игнорирует правила, которым обязаны следовать даже добропорядочные IT-компании. В частности, согласно расследованию Cloudflare, очень часто Perplexity игнорировала или даже не пыталась просматривать файл robots.txt. Напомним, этот текстовый файл должен давать автоматическим программам (вроде поисковиков или ИИ-ботов) инструкции, какие разделы сайта им запрещено посещать или загружать.
Cloudflare указывает на показательный случай: Perplexity зачем-то лезла даже на тестовые сайты, которые не были публичными и которые специально были закрыты через robots.txt. Причём делала это незадекларированными ботами, никак не ассоциированными с официальным списком адресов Perplexity.
Исследователи поясняют: изначально Perplexity «делает вид» и появляется под своим официальным именем, но если на уровне сети встречает блокировку — маскируется и продолжает обходить ограничения.
В результате Cloudflare убрала ботов Perplexity из списка «верифицированных» и внедрила новые методы для обнаружения и блокировки скрытого скраппинга. Для сравнения: компания OpenAI действует иначе — всегда использует прозрачные идентификаторы и уважает как файлы robots.txt, так и блок-страницы.
Perplexity, разумеется, всё отрицает. Компания заявляет, что Cloudflare просто пытается «продавать свои услуги», а сами выявленные боты якобы вообще не принадлежат Perplexity. Тем не менее, Cloudflare настаивает: владельцы ботов должны вести себя по-честному, быть прозрачными, иметь чёткие цели, разделять ботов для разных задач и обязательно читать и уважать настройки robots.txt.
Cloudflare внезапно нападает на Perplexity: обвиняет в скрытом скраппинге сайтов даже несмотря на запрет через robots.txt. Perplexity, очевидно, сразу надевает шапку-невидимку, меняет адреса, притворяется браузером и шурует через сотни тысяч сайтов в сутки, чихая на запреты. Забавно, что лезут даже в закрытые тестовые сайты — словно специально ищут, где дверь не заперта. OpenAI на их фоне смотрится образцовым отличником, отрезающим свои боты под линейку правил и рьяно уважающим каждый robots.txt как святыню. Cloudflare обиженно стирает Perplexity из списка «верифицированных» и готовит новые ловушки. Итог: в мире ИИ всё просто — виноват всегда кто-то другой, правила придуманы для слабых, а каждый считает свою тайную охоту полезной и необходимой. Когда одни делают деньги на страхе, другие собирают весь интернет про запас, не спрашивая вашего разрешения. Ждём следующего раунда лицемерия — будет громко, будет скандально, будет так же бесполезно для простых сайтов.