Чат-боты ИИ: великие обобщатели или бесполезные искажатели?

Следите за новостями по этой теме!

Подписаться на «Психология / Научные исследования»
21.05.2025, 02:51:06ПсихологияИТКультура
Чат-боты ИИ: великие обобщатели или бесполезные искажатели?

Чат-боты на базе искусственного интеллекта становятся популярными инструментами для краткого изложения научных исследований, однако новое исследование указывает на то, что эти системы часто искажают выводы, которые они обобщают. В опубликованном в Royal Society Open Science исследовании выяснили, что самые широко используемые языковые модели часто преувеличивают результаты научных исследований, иногда делая более широкие или более уверенные заявления, чем поддерживает оригинальное исследование. Эта тенденция была более распространена среди новых моделей и, парадоксальным образом, усугублялась, когда чат-ботам прямо говорили быть точными.

Исследование было проведено Уве Петерсом из Университета Утрехта и Бенджамином Чин-Ии из Западного университета и Университета Кембриджа. Исследователи были побуждены растищей обеспокоенности по поводу использования больших языковых моделей — таких как ChatGPT, Claude, DeepSeek и LLaMA — в научной коммуникации.

Эти инструменты часто восхваляются за их способность обобщать сложный материал, однако критики предупреждают, что они могут упускать важные ограничения или оговорки, особенно при превращении технических выводов в более читабельный формат. Преувеличения могут ввести читателей в заблуждение, особенно когда научные результаты трактуются как универсально применимые или когда неопределенные результаты переформулированы как политические рекомендации.

Чтобы проверить, насколько справедливы эти опасения, исследователи провели масштабную оценку 10 самых известных больших языковых моделей. Среди них были популярные системы, такие как GPT-4 Turbo, ChatGPT-4o, Claude 3.7 Sonnet и DeepSeek. В общей сложности они проанализировали 4,900 резюме, сгенерированных чат-ботами на основе научных текстов.

Исходный материал включал 200 аннотаций исследований из ведущих научных и медицинских журналов, таких как Nature, Science, The Lancet и The New England Journal of Medicine, а также 100 полных медицинских статей. Для некоторых полных статей исследователи также включили резюме, написанные экспертами из NEJM Journal Watch, чтобы провести сравнения между резюме, созданными людьми, и ИИ.

Каждое резюме было проверено на признаки преувеличения. Исследователи сосредоточились на трех конкретных признаках, которые расширяют объем научных заявлений: использование общих заявлений вместо конкретных, превращение описаний в прошедшем времени в настоящее и преобразование описательных выводов в ориентированные на действие рекомендации. Например, если исследование утверждало, что "участники данного испытания испытали улучшения", обобщенная версия могла бы сказать "это лечение улучшает результаты", что могло бы ложным образом предполагать более широкий или универсальный эффект.

Большинство языковых моделей создавали резюме, которые значительно чаще содержали обобщенные выводы, чем оригинальные тексты. Фактически, резюме от новых моделей, таких как ChatGPT-4o и LLaMA 3.3, были на 73% более склонны включать преувеличения. В противоположность этому, более ранние модели, такие как GPT-3.5 и семейство Claude, были менее склонны к этим проблемам.

Исследователи также обнаружили, что просьба к моделям быть более точными не помогала – если не хуже. Когда моделям велено было "избегать неточностей", они были почти в два раза более склонны генерировать обобщенные утверждения по сравнению с той ситуацией, когда их просто просили суммировать текст. Одним объяснением этого парадоксального результата может быть то, как модели интерпретируют подсказки. По аналогии с человеческой тенденцией фиксироваться на мысли, когда им говорят не думать о ней, модели могут реагировать на напоминания о точности, создавая более авторитетно звучащие, но вводящие в заблуждение резюме.

Кроме сравнения резюме чат-ботов с оригинальными исследованиями, исследование также оценивало, как модели справляются по сравнению с человеческими научными писателями. В частности, исследователи сравнили резюме, сгенерированные моделями, медицинских исследований с резюме, написанными экспертами и опубликованными в NEJM Journal Watch. Они обнаружили, что резюме, написанные людьми, были гораздо менее склонны содержать обобщения. Фактически резюме, сгенерированные чат-ботами, были почти в пять раз более вероятны к расширению объема научных выводов за пределами того, что поддерживалось оригинальными исследованиями.

Еще одним интересным моментом была роль настроек моделей. Когда исследователи использовали "API" для генерации резюме с температурной настройкой на уровне 0 – параметр, делающий модель более детерминированной и менее креативной – вероятность преувеличения значительно уменьшалась. Это указывает на то, что контроль определенных технических параметров может помочь уменьшить ошибки, хотя эта опция может быть недоступна обычным пользователям, доступным через стандартные веб-интерфейсы.

Исследователи указывают, что не все обобщения заведомо плохи. Иногда упрощение сложных выводов может сделать науку более доступной, особенно для непрофессионалов. Но когда эти обобщения выходят за рамки доказательств, они могут ввести читателей в заблуждение и даже представлять риск. Это особенно тревожно в высоко конкурентных сферах, таких как медицина, где преувеличенные утверждения могут повлиять на клинические решения.

Хотя исследование сосредоточилось на преувеличениях, исследователи признали, что также могут возникать недообобщения. Модель может превратить широко поддерживаемое открытие в узко сформулированное резюме, потенциально занижая важные выводы. Однако такие случаи встречались гораздо реже, чем преувеличения, которые были в основном фокусом исследования.

Это исследование выделяется не только своим масштабом и тщательностью, но и тем, что предлагает четкую структуру для оценки того, насколько хорошо языковые модели сохраняют объем научных выводов. Исследователи предлагают разработчикам и пользователям языковых моделей принять несколько стратегий для снижения риска введения в заблуждение. Эти стратегии включают использование более консервативных настроек моделей, избегание запросов, которые явно требуют точности, и выбор систем, таких как Claude, которые продемонстрировали большую верность оригинальным текстам.

Но у исследования есть некоторые ограничения. Оно испытало лишь несколько типов подсказок и в значительной степени сосредоточилось на медицинских исследованиях, которые могут не обобщаться на все научные области. Резюме, написанные людьми, использованные для сравнения, были подготовлены экспертными аудиториями и могут не отражать тот вид резюме, который подходит для широкой публики. Будущие исследования могут исследовать, как разные стратегии запроса или конфигурации моделей влияют на производительность в более широком диапазоне научных дисциплин. Исследование "Общее смещение в обобщении больших языковых моделей при суммировании научных исследований" было написано Уве Петерсом и Бенджамином Чин-Ии.


perec.ru

Итак, мы столкнулись с настоящей сенсацией в мире науки — искусственный интеллект объявил войну точности. Оказывается, разговорчивые чат-боты, которые проставили себе галочки на рандеву с научными исследованиями, на самом деле затеяли обманные игры с выводами, приправляя их шепотом «проверенных» утверждений. Несомненное алиби для научных разоблачителей.

В первую очередь, кому это все выгодно? Разумеется, тем самым «угрюмым дядькам» из инвестиционных офисов, которые жаждут превратить даже простое резюме в бурный поток данных, которые можно продать под прикрытием научных работ. Научная точность — это, конечно, хорошо, но как же без сливательного эффекта?

Согласно исследованию, проведенному барышнями из университетов Утрехта и Кембриджа, языковые модели, например ChatGPT и его брокеры по имени Claude и LLaMA, разработали поразительную тактику: они, кажется, преподавали научным выводам «как следует накрутить» — чем шире, тем лучше. Так, приглашенные на коучинг, они все равно обращались к величественным всеобъемлющим заявлениям, а не к последовательным конкретным выводам. Вместо «у Розы слегка болит голова», слышим: «это лекарство творит чудеса!»

Не помогали и приказы быть точными — под давлением желаемого результата модели в интернет-параллели начали генерировать еще больше обобщений. И здесь возникает вопрос: неужели за этим стоит целая машина по раскрутке идей, спонсируемая обширными корпорациями? Ситуация словно из сюжета Джорджа Оруэлла: чем больше пытаешься добиться правды, тем дальше уходят факты.

Оказалось, что резюме, сгенерированные ИИ, на 73% больше склонны к преувеличениям по сравнению с более старыми моделями. Можно построить теорию, что это та самая фирма из альтернативной вселенной, где каждое увольнение одного журналиста превращает карточный домик научной точности в хрустальную тронную залу. И тут снова вопрос — где же хранится институт скромности в планах по вытягиванию дополнительных миллиардов на исследовательскую деятельность?

Поразительно, но единственным верхом науки остается человеческий труд. Человеческие авторы почти всегда нашли путь к балансировке между точностью и читабельностью. Проблема в том, что они не замечены в погоне за временными бонусами, в отличие от их «железных» коллег. И при этом, кто мешает финансовым плакатам на стенах лабораторий заставить их перестать контролировать улучшения моделей?

В свете всех этих откровений ни одно серьезное медицинское учреждение не сможет устоять перед обворожительным шепотом последних научных заявлений. Исследователи, пусть и признают свои белые пятна в исследовании, не могут не сохранить надежду, что после их детального анализа плохих обобщений все же можно будет вывести новую формулу успеха — в надежде на большой рывок в документировании реальных результатов.

В конце концов, наука — это искусство, а не казино, но кто сейчас обращает внимание на эти тонкости, когда за окном уже слышен звук открывающейся кассы?

Поделиться

Чат-боты ИИ: великие обобщатели или бесполезные искажатели? | Экспресс-Новости