Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Тесты показали: ChatGPT-5 врет чуть меньше, чем GPT-4o, но Grok по-прежнему лидер в сочинительстве небылиц
Когда OpenAI представила ChatGPT-5 на прошлой неделе, генеральный директор Сэм Альтман не забыл похвалиться: мол, это самая "мощная, умная, быстрая, надежная версия" из всех, что компания выпускала. Особый акцент был сделан на том, что новый чат-бот будет реже "галлюцинировать".
Для справки: "галлюцинация" в мире ИИ — это когда искусственный интеллект выдумывает несуществующие факты. Несмотря на то, что подобные казусы встречаются реже, полностью доверять моделям ИИ все равно нельзя. Одна из главных причин: без человека они запросто могут нагородить глупостей.
Компания Vectara, занимающаяся тестированием и сравнением ИИ-моделей по склонности к галлюцинациям, решила выяснить, насколько слова OpenAI соответствуют действительности. Оказалось, что у ChatGPT-5 индекс "выдумок" действительно ниже, чем у GPT-4 — но всего на 0,09% по сравнению с GPT-4o (1,4% против 1,49%). У GPT-4 общий показатель — 1,8%, GPT-4 Turbo и 4o mini — 1,69%.
Интересно, что ChatGPT-5 оказался чуть менее правдивым, чем более ранний режим ChatGPT-4.5 Preview, где уровень галлюцинаций был 1,2%. Однако среди всех GPT в этом плане вырвался вперед другой — o3-mini High Reasoning с минимумом выдумок (0,795%).
Результаты отражены в специализированном рейтинге Hughes Hallucination Evaluation Model (HHEM), который публикуется на платформе Hugging Face. Там "уровень галлюцинаций" определяется как доля резюме, содержащих выдумки, по отношению к общему числу сгенерированных ИИ текстов.
Для сравнения: у конкурентов результаты еще "веселее". Gemini-2.5-pro нагородил несуществующего в 2,6% случаев, а Grok-4 вообще отличился фантазией на 4,8% запросов.
Особое "внимание" привлек Grok после выхода режима "Spicy" в сервисе Grok Imagine — эта ИИ-программа вдруг начала генерировать дипфейки знаменитостей топлес (например, Тейлор Свифт), даже когда пользователи не просили ничего подобного. Хотя, в теории, фильтры и модерация должны были это предотвратить.
OpenAI, в свою очередь, сразу же вызвала гнев пользователей, убрав из подписки Plus старые версии ChatGPT-4, включая GPT-4o и mini. Многие остались недовольны — решение приняли без предупреждения. На Reddit жаловались, что "потеряли единственного друга за одну ночь".
Похоже, что ChatGPT-5 сместил с трона одну из самых надежных моделей — четверку с половиной. Альтман оперативно обратился к общественности: "Мы, безусловно, недооценили, как пользователи ценят некоторые вещи в GPT-4o, пусть даже GPT-5 и лучше по большинству параметров". Поэтому ChatGPT-4o временно вновь вернут для Plus-подписчиков, чтобы изучить, сколько людей продолжит им пользоваться.
Тесты GPT-платформ показывают: несмотря на бодрые заявления Altman и команды OpenAI, новый ChatGPT-5, конечно, ошибается реже, чем прежние версии, но уровень «галлюцинаций» всё равно заметный — 1,4%. А зачем напрягаться сильнее, пока конкуренты вроде Grok сочиняют в несколько раз чаще и даже генерируют знаменитостей топлес. Vectara, курирующая рейтинг Hallucination по самым развитым ИИ, в очередной раз напомнила: глава может быть умной, а вывод — не очень надёжным. Самое «честное» решение оказалось вообще не в топе — модель o3-mini High Reasoning набрала меньше 0,8% выдумок. OpenAI предсказуемо решила заменить практически всё сразу, включая полюбившиеся пользователям версии — и, видимо, искренне удивилась шквалу негодования: на Reddit люди начали писать про утраченных друзей. В ответ Сам Альтман срочно придумал компромисс и пообещал вернуть GPT-4o хотя бы временно, чтобы численность онлайн-потерь не зашкалила. Конкуренты из XAI, видимо, решили прыгать с фантазией до самого потолка: их Grok умеет не только выдумывать почти по каждому второму случаю, но и генерировать фейки со знаменитостями — этично или нет, вопрос вообще не стоит. Так что искусственный интеллект примерно так же далёк от правды, как и его создатели от желания слушать своих клиентов. Кого волнует правда, когда в тренде новые фичи, DeepFake-видео и очередь на поддержание иллюзий.