Википедия сталкивается с ненасытными ботами ИИ
Фонд Викимедиа сообщил о 50-процентном увеличении использования пропускной способности для загрузки мультимедийного контента с января 2024 года. Но это не из-за того, что человеческие читатели вдруг начали испытывать ненасытный аппетит к потреблению статей Википедии и просмотру видео или скачиванию файлов из Wikimedia Commons. Нет, всплеск использования произошел из-за ИИ-ботов, или автоматических программ, которые скребут открыто лицензированные изображения, видео, статьи и другие файлы Викимедиа для обучения моделей генеративного искусственного интеллекта.
Этот резкий рост трафика от ботов может замедлить доступ к страницам и ресурсам Викимедиа, особенно во время событий с высоким интересом. Например, когда Джимми Картер скончался в декабре, повышенный интерес к видео его президентских дебатов с Рональдом Рейганом вызвал медленную загрузку страниц для некоторых пользователей. Викимедиа готова к увеличению трафика от человеческих читателей во время таких событий, и пользователи, смотревшие видео Картер, не должны были вызывать проблем. Но «объем трафика, генерируемого ботами-скребками, беспрецедентен и создает растущие риски и затраты», заявила Викимедиа.
Фонд объяснил, что человеческие читатели, как правило, ищут конкретные и часто похожие темы. Например, когда что-то становится актуальным, многие люди ищут одно и то же. Викимедиа создает кэш запрашиваемого несколько раз контента в ближайшем к пользователю центре данных, что позволяет быстрее предоставлять контент. Но статьи и контент, которые не запрашивались в течение некоторого времени, должны предоставляться из основного центра данных, что требует больше ресурсов и, следовательно, обходится Викимедиа дороже. Поскольку ИИ-боты склонны массово читать страницы, они обращаются к малоизвестным страницам, которые должны быть предоставлены из основного центра данных.
Викимедиа сообщила, что, при более близком рассмотрении, 65 процентов ресурсоемкого трафика поступает от ботов. Это уже вызывает постоянные нарушения работы команды надежности сайта, которая должна постоянно блокировать скребковые программы, прежде чем они значительно замедлят доступ к страницам для реальных читателей. Сейчас реальная проблема, как утверждает Викимедиа, заключается в том, что «расширение произошло по большей части без достаточной атрибуции, что является ключевым моментом для привлечения новых пользователей к участию в движении». Фонду, который полагается на пожертвования людей для продолжения работы, необходимо привлечь новых пользователей и заставить их заботиться о его деле. "Наш контент бесплатен, наша инфраструктура - нет", - заявила организация. Викимедиа теперь ищет устойчивые способы для разработчиков и повторных пользователей получить доступ к своему контенту в наступающем финансовом году. Это необходимо, потому что она не видит признаков того, что трафик, связанный с ИИ, скоро замедлится.