Reddit блокирует Internet Archive: что это значит?

Reddit решил блокировать доступ популярного онлайн-архива Internet Archive, а точнее, его сервису Wayback Machine, к большей части своего контента. Это решение принято после того, как Reddit заметил, что компании, занимающиеся разработкой искусственного интеллекта, массово скачивают (скрейпят) данные Reddit через архивные копии страниц. Теперь Wayback Machine сможет индексировать только главную страницу Reddit.com. Это, по сути, даст возможность Интернет-архиву разве что заглядывать на витрину — узнать, какие заголовки были популярны в тот или иной день, но не более.

По словам представителя Reddit Тима Ратшмидта, "Internet Archive предоставляет услуги для открытого интернета, однако мы зафиксировали случаи, когда компании с ИИ нарушают правила платформ, в том числе наши, и добывают данные через Wayback Machine".

Internet Archive исторически занимается сохранением веб-страниц и других культурных артефактов. Его сервис Wayback Machine позволяет увидеть сайт в том виде, в каком он был в разные даты прошлого. Однако Reddit считает, что его контент не весь должен оставаться там навечно. «Пока Internet Archive не сможет лучше защищать свои ресурсы и соблюдать правила платформы (например, сокращать доступ к удалённому контенту ради приватности пользователей), мы ограничиваем его доступ к Reddit, чтобы защитить наших пользователей», — сообщил Ратшмидт.

Ограничения начинают вступать в силу с сегодняшнего дня, и Reddit заранее предупредил Internet Archive о своих планах. Также Reddit уже не первый раз выражает обеспокоенность по поводу того, что контент можно вытягивать из Internet Archive.

Стоит отметить, что Reddit уже не впервые борется со сборщиками данных: когда AI-компании стали в промышленных масштабах скачивать их данные, Reddit тут же перекрыл доступ для подобных инструментов, если только им не платят. В частности, компания заключила соглашение с Google о доступе к своим данным для поиска и обучения искусственного интеллекта — разумеется, за деньги. Вскоре Reddit ограничил доступ и другим крупным поисковикам — теперь, чтобы парсить Reddit, надо платить. Нашумевшие изменения API в 2023 году, из-за которых многие сторонние приложения были вынуждены закрыться (и это привело к протестам), Reddit также объяснил желанием закрыть халявщикам-ИИ доступ.

Вдобавок Reddit вступил в партнёрство по искусственному интеллекту с компанией OpenAI, а в июне даже подал в суд на Anthropic, обвинив её в несанкционированном сборе данных даже после того, как Anthropic заявила, что прекратила такие действия.

Internet Archive пока официально никак не прокомментировал решение Reddit.

Reddit совсем не стесняется своих приёмов: заблокировать тот Интернет-архив, чтобы не только искусственный интеллект, но и обычные люди напрочь забыли, что творилось на страницах Reddit месяц-другой назад. Якобы заботятся о нашей приватности — но если хорошо заплатить, пожалуйста, каким бы вы ни были скрейпером.

Wayback Machine оставили только главное окно — вуайеристам дадут подглядеть, какие заголовки были в моде, но детали обсуждений останутся в прошлом. Забавно, что те, кто раньше кричал о свободе информации, теперь выставляют ценник за вход: Google, OpenAI — заходите, только купюры не забудьте.

Ещё один штукатурочный слой на фасаде новой цифровой этики — спорить с Reddit тут не получится. Сами архивариусы из Internet Archive даже не нашли слов для ответа: невидимая рука рынка заклеила им рот, а пользователи могут махать в след уходящей эпохе открытого Интернета. И если вы мечтали однажды узнать, как выглядел ваш пост десятилетней давности — забудьте, теперь это привилегия корпораций. Браво, технологии, ещё один шаг назад в светлое прошлое, но уже без свидетелей.

Reddit блокирует Internet Archive: что это значит?

PEREC.RU

Похожие материалы