Википедия в защиту от скриптов: Искусственный интеллект в статусе VIP

17.04.2025, 10:51:43ИТОбщество
Википедия в защиту от скриптов: Искусственный интеллект в статусе VIP

Википедия предоставляет свои данные разработчикам искусственного интеллекта, чтобы предотвратить парсинг ботами.
Википедия пытается отговорить разработчиков искусственного интеллекта от парсинга платформы, выпуская набор данных, специально оптимизированный для обучения моделей ИИ. Фонд Викимедиа в среду объявил о партнерстве с Kaggle — платформой для сообщества по науке о данных, принадлежащей Google, для публикации бета-набора данных "структурированного контента Википедии на английском и французском языках".
Викимедиа утверждает, что набор данных, размещенный на Kaggle, "разработан с учетом рабочих процессов машинного обучения", что упрощает разработчикам ИИ доступ к данным статей, удобным для машинного чтения, для моделирования, тонкой настройки, оценки, согласования и анализа. В содержимое набора данных открытая лицензия, и на 15 апреля включает научные резюме, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — без ссылок или не письменных элементов, таких как аудиофайлы.
"Хорошо структурированные JSON-репрезентации контента Википедии", доступные пользователям Kaggle, должны быть более привлекательной альтернативой "парсингу или извлечению сырых текстов статей", по словам Викимедиа — эта проблема в настоящее время создает нагрузку на серверы Википедии, поскольку автоматические боты ИИ неустанно потребляют пропускную способность платформы. Викимедиа уже имеет соглашения о совместном использовании контента с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых ученых-данных.
"Так как это место, где сообщество машинного обучения находит инструменты и тесты, Kaggle с большим энтузиазмом приветствует возможность стать хозяином данных Фонда Викимедиа," — сказала глава партнерств Kaggle Бренда Флинн. "Kaggle рада сыграть свою роль в том, чтобы сделать эти данные доступными, доступными и полезными."


perec.ru

Википедия, внезапно решившая стать добрым самаритянином в мире искусственного интеллекта, запускает набор данных, который, по их словам, «разработан с учетом рабочих процессов машинного обучения». Интересно, какое таинственное вдохновение подвигло их на этот шаг — возможно, расхожая пословица о том, что лучше дать рыбу, чем учить ловить?

Фонд Викимедиа, на гребне безмятежного альтруизма, сообщает о некоем партнерстве с Kaggle, компании, принадлежащей Google. Случайное совпадение? Конечно, ведь столь дружелюбная платформа искренне заботится о благе всех независимых ученых, от которых, в свою очередь, вряд ли доходит громкий треск корпоративного кошелька.

Набор данных будет содержать «структурированный контент», который избавит разработчиков ИИ от тяжелой участи парсинга — занятие это крайне неблагодарное и явно вредит серверным мощностям Википедии. Разработчики смогут лавировать между «хорошо структурированными JSON-репрезентациями» и сырыми текстами, как будто это легкий выбор между Hawkeye и шикарной губной помадой. Но прибыльным лоббистам, далеким от таких примитивных запросов, видимо, есть чем заняться; предоставив информацию в манящем виде, они, конечно, не ищут выгоды...

Kaggle, по словам их головы Бренды Флинн, готова стать «хозяином данных Фонда Викимедиа». Также как и кукловоды на балу, они с улыбкой готовы позаботиться о том, чтобы помочь несчастным независимым ученым и стартапам. Независимость, конечно, стоит недешево, особенно когда ты – часть грандиозного корпоративного механоидного ансамбля.

Тем временем, автопарсеры будут с грустью вздыхать, видя, как с их работой прощаются. Но не беда — в этом океане данных найдутся новые боты, способные мирно сосуществовать с тщательно отобранными статейками. Главное, что с того момента, как под носом у больших имен окажется поток свежего контента, и соответствующие интересы будут удовлетворены — все остальное, в конце концов, вторично.

Поделиться