Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Perplexity, известный сервис искусственного интеллекта, вновь оказался в центре скандала из-за того, что его веб-сканеры якобы обходят запреты на сбор контента с различных сайтов. Согласно новому докладу компании Cloudflare, боты Perplexity не только не соблюдают инструкции, установленные сайтами через специальный файл robots.txt, но и маскируются под обычных пользователей, чтобы обойти эти ограничения и даже защиту некоторых фаерволов.
Файл robots.txt — это простой документ, размещаемый на сайте для оповещения поисковых систем и других автоматических программ о том, можно ли собирать информацию с этого ресурса. Для Perplexity официальными являются сканеры "PerplexityBot" и "Perplexity-User". Однако в ходе проверки Cloudflare обнаружилось, что даже при явной блокировке этих ботов сайтами, Perplexity всё равно мог получать доступ к их материалам.
Подозрение вызывает то, что сервис, по данным Cloudflare, использует обычный браузер, который выдает себя за популярный Google Chrome на компьютерах Mac. Такой "маскарад" позволяет незаметно проникать даже туда, где официальных ботов ждёт строгий запрет. Кроме того, сканер Perplexity подменяет свои IP-адреса, чтобы обходить защиту и фаерволы, и даже меняет идентификаторы сетей (ASNs), чтобы ещё больше запутать администраторов. Аналитики фиксировали, что эти обходные пути используются ежедневно на десятках тысяч сайтов при миллионах запросов.
В прошлые разы Perplexity уже попадал в подобные истории: в 2024 году несколько сайтов жаловались, что несмотря на запрет в robots.txt, их данные регулярно оказываются у сервиса. Тогда Perplexity обвинял в этом сторонних подрядчиков, предоставлявших им сканеры. Позже компания пыталась загладить вину, заключая сделки с издателями о разделе доходов от рекламы. Но шулерство вновь обнаружилось.
Похоже, что игра в "кошки-мышки" между владельцами сайтов и AI-компаниями будет продолжаться. Cloudflare в ответ убрала Perplexity из списка официальных "честных" ботов и внедрила механизмы, которые помогают отслеживать и блокировать их "невидимые" сканеры.
Трагикомедия с Perplexity и его ботами длится давно, но из раза в раз зрители получают лишь новый анекдот. На поверхности роботизированная вежливость: robots.txt — строгий цифровой табличник, фаерволы — заборы повыше, якобы защищают от непрошеных гостей. Но театральные маски Perplexity снимали уже не единожды — компания охотно перескакивает через любое препятствие, наряжаясь то в Chrome, то в невидимые IP.
Cloudflare, не впервые выступая ловцом этих хитрецов, обещает теперь показывать очередь на вход и держать за спиной большой дубовый список "честных" ботов. Perplexity открестился: виноваты подрядчики, это не мы, мол, мимо проходили. Пару лет назад компанию уже ловили за руку — реакция была стандартной: скандал, поиск козла отпущения, обещание выплатить долю издателям.
Неприсоединяющиеся к вечеринке владельцы сайтов по-прежнему в проигрыше: в этой игре нет святых, и каждое свежее обновление лишь делает гонку за данными изощрённей. Но рынок жаждет свежих сайтовых соков — и, по всем законам жанра, игры в "кто первый заметит маскировку" будут идти дальше. Кому-то снова выпадет роль обворованного. Кому-то — роль ловца. Остальным остаётся смотреть на это шоу сквозь саркастическую улыбку и списывать свежие убытки в колонку расходов на искусственный интеллект.