Новости ИИ: почему генеративный AI путает научные факты и противоречит сам себе

Генеративный искусственный интеллект сегодня пишет гладкие тексты, но как только дело доходит до проверки научных фактов — уверенность испаряется. Новое исследование, опубликованное в Rutgers Business Review, показало: если задать одной и той же модели один и тот же вопрос несколько раз, она способна на полном серьёзе выдать совершенно разные ответы. И это — не ошибка в системе, а реальное ограничение современных ИИ.

Генеративный ИИ обучается на гигантских массивах текстов, поэтому умеет говорить уверенно и красиво. Миллионы людей используют такие программы для рекламы, кода и отчётов. Но уверенность — не компетентность. Консалтинговые компании уже публично облажались, публикуя отчёты, где ИИ с серьёзным видом «выдумал» данные.

Учёных заинтересовало, насколько такие системы понимают логику. Команда под руководством Mesut Cicek из Washington State University собрала 719 научных гипотез из бизнес-журналов, опубликованных с 2021 года. Гипотеза — это проверяемое утверждение, например: определённая реклама повышает траты покупателей.

Все эти гипотезы показали ChatGPT: задача — определить, подтвердили ли исследователи эти утверждения или опровергли. Один и тот же запрос отправляли 10 раз, чтобы проверить стабильность. Эксперимент провели дважды: в 2024 году на старой версии модели и в 2025 году — на новой.

На первый взгляд — прогресс: 76,5% правильных ответов в 2024 году против 80% в 2025-м. Но если учесть, что можно угадать с вероятностью 50%, реальная точность падает до примерно 60%. ИИ едва «переползает» порог тройки.

Особенно плохо модель справлялась с гипотезами, которые на самом деле оказались ложными: лишь 16,4% корректных ответов в 2025 году. Системе проще «соглашаться» — она стремится подтверждать любое утверждение, создавая информационный эхо-купол.

И ещё хуже — непостоянство. При 10 повторениях одной формулировки модель давала одинаковый ответ лишь в 73% случаев. Остальные вопросы получали хотя бы один противоречащий ответ. Бывали серии: пять раз «истина», пять раз «ложь».

Если задать ИИ вопрос дважды, можно получить разные миры. Это делает такие системы непригодными для принятия решений «с одного запроса».

Также модель оказалась лучше в простых причинно-следственных утверждениях и хуже — в условных конструкциях, то есть там, где значение зависит от контекста и переменных. ИИ, по словам исследователей, опирается не на понимание, а на узнавание шаблонов.

Для бизнеса это означает: ИИ — ускоритель, но не заменитель. Он может помочь с черновиками и идейными набросками, но финальную логику должны проверять люди. Желательно — повторяя запросы и сравнивая ответы.

Авторы исследования считают необходимым обучать сотрудников грамотно обращаться с ИИ — понимать, где он полезен, а где опасен. Наилучший вариант — гибридная система: скорость машины плюс человеческое понимание.

Да, исследование имеет ограничения, например, бинарность оценок, но вывод остаётся неизменным: полагаться на ИИ вслепую нельзя. Как сказал Cicek: «Всегда будьте скептичны. Я не против ИИ, я им пользуюсь. Но осторожность обязательна».

Исследование превращается в комедию ошибок, где умная машина ведёт себя как нервный оракул. Учёные тестировали ChatGPT на научных гипотезах, а получили серию непредсказуемых выпадов — будто модель спорила сама с собой. Формальная точность выглядит прилично, но после вычитания угадываний остаётся слабая троечка.

Особенно трогательно выглядит стремление модели соглашаться со всем подряд. Ложные гипотезы она почти всегда объявляет истинными, создавая образ преданного помощника, который кивает на всё — лишь бы не показаться грубым. Условные конструкции сбивают её с пути, и вместо анализа получается набор текстовых привычек.

На фоне всей этой путаницы исследователи предлагают типичное корпоративное решение — гибрид человека и машины. ИИ делает черновик, человек проверяет. Никакой магии, просто санитарный надзор за цифровым энтузиазмом. Заодно сотрудники должны научиться понимать, что внутри системы нет понимания, есть только статистика.

Тем временем сама идея «заменить специалистов ИИ» выглядит всё более комично. Люди хотя бы не дают пять противоположных ответов подряд. Машина же спокойно выстраивает собственный хор внутренних голосов — и каждый считает себя правым.

Вывод скучен, но неизбежен: ИИ остаётся быстрым, но ненадёжным инструментом. И если кто-то ждёт от него мудрости, остаётся только мягко намекнуть — ожидания лучше занизить.

Нестойкий интеллект

PEREC.RU

Похожие материалы