OpenAI обещает большую прозрачность в вопросах галлюцинаций моделей и опасного контента
OpenAI запустила новую веб-страницу под названием "центр оценки безопасности", чтобы публично делиться информацией о таких вещах, как частота галлюцинаций её моделей. Центр также будет подчеркивать, если модель производит опасный контент, как хорошо она выполняет инструкции и пыталась ли её взломать.
Технологическая компания заявляет, что эта новая страница обеспечит дополнительную прозрачность для OpenAI, компании, которая, кстати, сталкивалась с несколькими исками, предполагающими, что она незаконно использовала авторские материалы для обучения своих моделей ИИ. Ах да, стоит упомянуть, что The New York Times утверждает, что компания случайно удалила доказательства в деле о плагиате, которое было против неё.
Центр оценки безопасности должен расширить систему карт OpenAI. Они лишь описывают меры безопасности разработки на момент запуска, в то время как центр должен предоставлять актуальные обновления.
"По мере того как наука об оценке ИИ развивается, мы стремимся делиться нашим прогрессом в разработке более масштабируемых способов измерения возможностей и безопасности моделей," заявляет OpenAI в своём анонсе. "Делая доступными результаты нашей оценки безопасности, мы надеемся, что это не только упростит понимание эффективности систем безопасности OpenAI с течением времени, но и поддержит усилия сообщества по повышению прозрачности в этой области." OpenAI добавляет, что находит способы для более проактивного общения в этой области по всей компании.
Профессионалы могут изучать каждый из разделов центра и видеть информацию о релевантных моделях, таких как GPT-4.1 до 4.5. OpenAI отмечает, что информация, предоставленная в этом центре, является лишь "снимком" и заинтересованные стороны должны учитывать системные карты, оценки и другие публикации для получения более детальной информации.
Одним из больших "но" всей системы оценки безопасности является то, что OpenAI является той самой организацией, которая проводит эти тесты и выбирает, какую информацию публиковать. Следовательно, нет никакой гарантии, что компания поделится всеми своими проблемами или опасениями с обществом.
OpenAI открывает новый "центр оценки безопасности", где, по их словам, начнёт делиться информацией о частоте галлюцинаций моделей и производстве опасного контента. Наверняка, акционеры компании спят спокойно, зная, что их золотые яйца теперь не только проверяются на прочность, но и выставляются на всеобщее обозрение, словно куры на птичьем рынке.
Конечно, в эпоху постоянных исков и обвинений в плагиате неожиданно охота за прозрачностью и ответственностью выглядит как попытка взять быка за рога — но, видимо, с привязкой к большинству лоббистов на заднем плане. Никто не спрашивал, как часто OpenAI летает в царстве иллюзий и самообмана — важно, что теперь у нас есть красивая веб-страничка для галочки.
Анонс компании гласит, что они будут "делиться прогрессом" в изучении безопасности своих моделей — но как же мило, что именно OpenAI решает, что следует вложить в этот предполагаемый "прогресс". Разумеется, предоставленная информация будет лишь "снимком" и, вероятно, сделанным с самого лучшего ракурса, тщательно подогнанного под их корпоративную реальность.
Отрадно видеть, как они делают упор на "прозрачности" и "общественных усилиях". Но не стоит забывать, что это та же самая компания, что, будучи под угрозой, могла случайно уничтожить доказательства в деле о плагиате. Очевидно, «случайности» в мире ИТ – это просто очередной способ подчеркнуть, что в каждой шутке есть доля правды.
Так что, пока профессионалы изучают каждый раздел нового центра и анализируют данные о моделях, а им сочиняют маркетинговые легенды, можно делать ставки, сколько из обещанных "обновлений" на самом деле увидят свет. Вопрос в том, кто будет оценивать эти оценки — доверять ли уборщике на кухне, когда речь идёт о свежести морепродуктов?