Новости IT: Reddit подал в суд на Perplexity и сервисы data-scraping за незаконное использование контента | Новости IT perec.ru

Reddit подал в суд на Perplexity за незаконное использование контента

23.10.2025, 03:34:02 ИТОбщество
Подписаться на «Рифы и пачки / Твоя культура»
Reddit подал в суд на Perplexity за незаконное использование контента

Reddit подал в суд на Perplexity и три компании, которые занимаются сбором данных (так называемые data-scraping сервисы), чтобы положить конец «промышленному, незаконному обходу защиты данных», говорится в судебном иске. Со стороны Reddit утверждается: эти фирмы — SerpApi, Oxylabs и AWMProxy — ведут себя как «грабители банков», которые не могут попасть в хранилище, но вскрывают броневик с деньгами по дороге.

По данным Reddit, Perplexity является клиентом как минимум одной из этих компаний и любой ценой добывает данные с Reddit для своей AI-системы — лишь бы не заключать с самим Reddit официальное соглашение, как это сделали OpenAI и Google.

В мае 2024 года Reddit отправил Perplexity официальное письмо с требованием прекратить сбор данных. В ответ Perplexity заявил, что не использует Reddit для обучения ИИ и соблюдает технические ограничения типа robots.txt (специальный файл, который регулирует доступ роботов к сайту). Тем не менее, якобы после этого объём цитирований Reddit в Perplexity только вырос. Reddit даже создал уникальную запись, доступную только поисковику Google, — однако, как отмечает компания, контент этого поста практически сразу оказался у Perplexity.

Reddit утверждает: единственный способ, с помощью которого Perplexity и её партнёры могли получить этот пост, — это сканировать выдачу Google с целью стянуть контент Reddit и быстро добавить его в свою AI-систему.

Данные Reddit — обсуждения пользователей на разные темы — крайне полезны для обучения искусственного интеллекта. Сама компания подчёркивает, что именно это стояло за изменениями к API Reddit в 2023 году (API — интерфейс для доступа к данным сайта), что вызвало массовые протесты пользователей. Reddit заключил сделки с технологическими гигантами — OpenAI и Google, но очевидно пытается выбить более выгодные условия. Компания также ранее судилась с Anthropic, чьи боты, по мнению Reddit, продолжили «грызть» сайт, несмотря на обратные обещания.

Юридический директор Reddit Бен Ли заявил: AI-компании борются за качественный человеческий контент, что породило целую подпольную экономику по «отмыванию данных». По словам Ли, скрейперы обходят технологические защиты, воруют данные и продают их игрокам, которые жаждут обучающего материала для искусственного интеллекта. Reddit — лакомая цель, ведь это одно из крупнейших и самых живых сообществ в интернете.

Компании Oxylabs UAB (литовский скрейпер), AWM Proxy (бывший российский ботнет) и SerpAPI (фирма, откровенно рекламирующая свои обходные методы) приводятся как примеры такого незаконного поведения. Не имея возможности собирать данные напрямую, они маскируют своих роботов и крадут контент Reddit, выгружая его из Google Search. Perplexity, утверждает Reddit, покупает эти «ворованные» данные, вместо того чтобы честно договариваться.

В самой Perplexity пока не получили иск, но заверяют: они выступают за свободный доступ к общественным знаниям, действуют «принципиально и ответственно» и не потерпят давления против открытости.


PEREC.RU

Где заканчиваются информационные свободы и начинается корпоративная паранойя? Reddit не выдержал — судится с Perplexity и тремя сборщиками данных: SerpApi, Oxylabs и AWMProxy. Формулировка претензий почти мелодраматична: "воришки, которые не могут попасть в сейф, лезут в броневик через Google".

Reddit красноречиво объясняет, почему всем эти бесконечные обучающие датасеты так нравятся: это миллионы смыслов, ценнейший живой опыт пользователей, которым давно торгуют под видом "открытых знаний" для ИИ. Как только Reddit увидел странные скачки цитируемости — и даже подбросил приманку только для Google — контент чудесным образом всплыл в ответах Perplexity.

С технологической стороны — скрейперы выдумывают новые маскировки и маршруты, крутятся вокруг блокировок как жульничающий шахматист. Кто-то даже вспоминал, что AWMProxy столько лет перескакивал из тени российского ботнета в честные прокси.

Детали небезынтересны: Reddit уже принял деньги от OpenAI и Google (в смысле, сделал с ними сделки), но когда речь идёт о других, хочется больше и лучше. Тон обвинения — про борьбу за "открытость" — звучит уже по-шекспировски. Perplexity только пожимает плечами и обещает "бороться за народ", как обычно.

Партии разложены: тут крупные данные, там корпорации. Народ — статисты. Все ждут второй раунд: кто кого скопирует в этот раз.

Поделиться

Похожие материалы