Новости медиа: издатели блокируют Internet Archive из-за страха перед сбором данных ИИ

Крупные западные издатели начали ставить цифровые заслоны перед Internet Archive — некоммерческой онлайн-библиотекой, которая много лет служила журналистам как кладезь удалённых твитов, архивных публикаций и академических текстов. Причина проста и одновременно удручающе современна: страх, что боты компаний, работающих с искусственным интеллектом, используют архив как удобный лаз и тайник, откуда можно выкачать статьи, минуя прямые запреты.
Роберт Хан, руководитель лицензионных и бизнес‑вопросов британской газеты The Guardian, прямо заявил, что многие AI‑компании охотятся за структурированными, легко доступными массивами информации. А API Internet Archive — это, по его словам, «идеальное место», куда можно подключить алгоритмы и начать выкачивать интеллектуальную собственность.
The New York Times также перекрыл доступ архивному боту, объяснив это тем, что Wayback Machine фактически предоставляет неограничённый доступ ко всем материалам газеты, в том числе и тем, кто хочет использовать их в обучении ИИ. Финансовое издание Financial Times и социальная площадка Reddit пошли по похожему пути — теперь архив видит их контент далеко не полностью.
Параллельно крупнейшие медиакомпании пытаются давить на мир ИИ через суды. Среди исков: разбирательства The New York Times против OpenAI и Microsoft; претензии Центра расследовательской журналистики к тем же компаниям; дело The Wall Street Journal и New York Post против Perplexity; иск, поданный группой изданий, включая Politico и The Guardian, против Cohere; претензии Penske Media к Google; новый иск от The New York Times и Chicago Tribune вновь против Perplexity.
Некоторые издатели предпочитают суду сделки — они готовы открыть свои архивы для обучения моделей, но за деньги. Впрочем, выгоду при этом получают главным образом медиахолдинги, а не авторы, чьи тексты и составляют основу этих библиотек. И это только одна часть конфликта: писатели, художники, музыканты и другие творческие профессии также борются с тем, как ИИ использует их работы, порой без разрешений и выплат.
Ситуация показывает: борьба за контроль над контентом и тем, кому он «кормит» нейросети, становится одним из главных фронтов знакомства человечества с искусственным интеллектом.

Издатели объявили Internet Archive новым виноватым — и не потому, что архив что‑то сломал, а потому, что оказался удобным символом страха перед ИИ. На первый взгляд выглядит как забота о своих текстах. На второй — как борьба за денежный поток.
The Guardian объясняет, что ИИ‑компании используют любой удобный источник данных. API архива стал таким источником. Издатели закрывают доступ, будто ставят засов на сарай, где уже давно пусто.
Дальше — судебные иски. Медиагиганты выстраиваются в очередь, чтобы предъявить OpenAI, Microsoft и другим. Список растёт быстрее, чем сами модели. Авторов при этом никто не спрашивает. Они наблюдают со стороны, пока холдинги делят право на то, что принадлежит им.
Ситуация напоминает сцену, где актёры спорят, кому достанется свет рампы, в то время как зрители уже ушли. ИИ продолжает учиться, архив продолжает архивировать, а издатели продолжают бороться не столько за принципы, сколько за контроль над кормушкой.
История будет иметь продолжение — слишком уж много интересов столкнулось в одном коридоре.

Издатели против Архива

PEREC.RU

Похожие материалы