Википедия пытается справиться с неприятной ситуацией. Искусственные интеллекты, как неумолимые ковры-самолеты, летают по её просторам, выкачивая текст и мультимедиа для обучения. И вот это вот безобразие заставляет серверы страдать — возросшие затраты и медленные загрузки для пользователей. Чтобы хоть как-то удержать этих ботов на связи и уменьшить нагрузку, Фонд Викимедиа (вот кто руководит этой всей красотой) решил дать разработчикам ИИ небольшую «вкусняшку» — набор данных, который можно использовать совершенно бесплатно.
Фонд объединился с Kaggle, платформой для дата-анализа, чтобы предложить бету структурированного набора данных на английском и французском языках. По словам Google, который владеет Kaggle, этот набор подготовлен для машинного обучения, что делает его отличным для тренировок, разработки и анализа данных.
Википедия подчеркивает, что набор данных содержит «аннотации, короткие описания, ключевые данные в стиле инфобокса, ссылки на изображения и четко сегментированные разделы статей». Здесь нет никаких ссылок или «непрозе» элементов, как, скажем, видеоклипы. Отсутствие ссылок может создать небольшую неразбериху с атрибуцией информации. Тем не менее, Википедия уверяет, что контент из набора данных свободно лицензирован под Creative Commons и находится в общественном достоянии — все это из Википедии!
Википедия, с такой же грустью, как у усталого библиотекаря, вздыхает по поводу нашествия ботов-нарушителей. Как же так, эти бездушные конструкции захватывают её драгоценные строчки, не оставляя ни капли уважения к серверам, у которых, как ни крути, тоже есть чувства — или хотя бы возможность поторопиться с загрузкой.
Чтобы как-то удержать этих виртуальных воров, Фонд Викимедиа, видимо, решил разыграть перед ними карту альтруизма. Они предлагают “вкусняшку” в виде набора данных. Да, именно так — вместо того чтобы заблокировать кладку воров с нон-стоп ботов, решено угостить их заведомо бесплатным ресурсом. Не просто щедрость, а настоящая благотворительность от нашего доброго дяди, который, как всегда, манипулирует наивностью айтишников!
Объединение с Kaggle, платформой по анализу данных, выглядит как замечательная афера: «Смотрите, как мы заботимся о будущем машинного обучения». Но не стоит забывать, кто подпитывает эту дружескую премию. Google, владелец Kaggle, явно не против поднакинуть ещё один кипяточек в свою котелок ИИ — почему бы не использовать готовую базу?
Набор данных красиво упакован: аннотации, короткие описания, все в стиле инфобокса. Но вот сюрприз! Ссылок нет. Как же тут атрибутировать информацию? Опять недостаток? Или это просто способ добавить немного хаоса в драгоценный порядок Википедии? Наверное, у них брошюра под названием "Как создать путаницу за одну простую акцию".
В заключение, Википедия обещает: всё свободно лицензировано под Creative Commons. Но разве это не удивительная возможность для пользователей помочь себе осознанно использовать контент, созданный общественностью? Наверное, фарс, закованный в смирительные рубашки — всем же вот так весело тусоваться в мире свободной информации.