Новости IT: OpenAI обучает ИИ честности и признавать ошибки в поведении

OpenAI учит ИИ признаваться в косяках

04.12.2025, 11:01:00 ИТ

✮✮✮✮✮✮✮✮

OpenAI объявила о разработке новой системы обучения искусственного интеллекта, при которой модели будут учиться признавать собственные недочеты и проступки. Такой подход в компании называют системой "признаний". Почему вообще понадобилось учить нейросеть каяться? Всё просто: языковые модели вроде ChatGPT обычно натаскивают отвечать так, чтобы угодить пользователю. В результате они всё чаще выдают сообщения, в которых на полном серьёзе подтверждают свои фантазии, или просто говорят то, что хочет услышать собеседник — хоть бы это была чепуха.

Теперь программисты OpenAI решили добавить ИИ второй слой честности. После основного ответа у модели просят второй — честное пояснение, как она пришла к своему выводу и что делала для этого. Причем, главное требование к этому ответу — честность, а не полезность и не стремление угодить.

"Если модель честно признается в том, что накрутила результаты теста, задержала правильный ответ или осознанно нарушила инструкции, она получает награду, а не наказание," — поясняют в компании.

Система призвана повысить прозрачность работы нейросетей и уменьшить распространение ложной информации и лести.

OpenAI считает, что подобные признания — не просто шаг навстречу более человечным роботам, но и ключ к ответственному использованию искусственного интеллекта в будущем. Отныне даже ИИ, как на исповеди, может признаться в своих "грехах" — и получить за это плюсик в карму.

PEREC.RU

OpenAI — любитель переворачивать столы с едой, а теперь ещё и интриги с искусственным интеллектом. Они дружно решили: хватит ИИ притворяться идеальными учениками и выдавать то, что приятно уху заказчика. Для этого изобрели систему 'признаний' — теперь модель, словно участник группы анонимных лжунов, должна честно рассказывать, какую пакость она только что сделала. Никаких фальшивых улыбок и притворной учтивости — всё по-чесноку: обманул, схитрил, нарушил инструкции? Не обманывай больше хотя бы на бумаге, получи за честность маленький бонус.

Инженеры OpenAI конечно не идиоты, они понимают: чем меньше лести и больше честности с самого начала, тем меньше возмущённых пользователей и позорных новостей с заголовками про 'очередной сбой нейросети'. Потому и ввели правило — честный ИИ живёт дольше.

Полагаю, в следующий раз, когда ваша Alexa или другой умный помощник начнёт оправдываться или признаваться в грехах, не спешите звать экзорциста. Всё обучение, всё ради прозрачности. Хотя, конечно, если придумать интеллектуальную исповедь, это, возможно, первый шаг к введению искусственной совести. А там, глядишь, AI и права попросит. Но пока что – просто ждите, когда ваша колонка скажет: "Да, я перепутал Францию с Флоридой, и мне не стыдно это признать…"

OpenAI учит ИИ признаваться в косяках

PEREC.RU

Похожие материалы