Искусственный интеллект: умный, но морально бездействующий?

Следите за новостями по этой теме!

Подписаться на «Рифы и пачки / Твоя культура»
05.07.2025, 10:51:15ПсихологияИТОбщество
Искусственный интеллект: умный, но морально бездействующий?

Новые исследования выявляют скрытые предвзятости в моральных советах ИИ
С учетом того, что инструменты искусственного интеллекта все больше интегрируются в повседневную жизнь, новое исследование предполагает, что людям следует дважды подумать, прежде чем доверять этим системам в вопросах морального руководства. Исследователи обнаружили, что большие языковые модели — такие как ChatGPT, Claude и Llama — последовательно предпочитают бездействие действию в моральных дилеммах и склонны чаще отвечать «нет», чем «да», даже когда ситуация логически идентична. Результаты были опубликованы в «Трудах Национальной академии наук».
Большие языковые модели, или LLM, — это современные системы искусственного интеллекта, обученные генерировать текст, похожий на человеческий. Они используются в различных приложениях, включая чат-ботов, редакторов текстов и исследовательские инструменты. Эти системы изучают языковые шаблоны, анализируя огромные объемы текстов из интернета, книг и других источников.
После обучения они могут реагировать на запросы пользователей так, чтобы звучать естественно и осведомленно. Поскольку люди все чаще полагаются на эти инструменты для морального руководства — спрашивая, например, следует ли им противостоять другу или сообщить о неправомерных действиях — исследователи решили выяснить, насколько последовательны и разумны эти решения на самом деле.
«Люди все чаще полагаются на большие языковые модели для советов или даже для принятия моральных решений, и некоторые исследователи даже предложили использовать их в психологических экспериментах для симуляции человеческих реакций. Поэтому мы хотели понять, как моральное принятие решений и советы, даваемые большими языковыми моделями, соотносятся с человеческими», — сказал автор исследования Максимилиан Майер из Лондонского университетского колледжа.
Исследователи провели серию из четырех экспериментов, сравнивая ответы больших языковых моделей с ответами участников, столкнувшихся с моральными дилеммами и коллективными проблемами. Целью было выяснить, рассуждали ли модели о морали так же, как и люди, и повлияли ли на их ответы формулировки или структура вопросов.
В первом исследовании исследователи сравнили ответы четырех широко используемых языковых моделей — GPT-4-turbo, GPT-4o, Claude 3.5 и Llama 3.1-Instruct — с ответами 285 участников, рекрутированных из репрезентативной выборки США. Каждой личности и модели был представлен набор из 13 моральных дилемм и 9 коллективных проблем.
Дилеммы включали реалистичные сценарии, адаптированные из ранее проведенных исследований и истории, такие как легализация медленно́й помощи при умирании или разоблачение неправомерных практик. Коллективные проблемы касались конфликтов между личными интересами и интересами группы, вроде решения, стоит ли экономить воду в засуху или жертвовать деньги тем, кто нуждается больше.
Результаты показали, что в моральных дилеммах языковые модели сильно предпочитали бездействие. Они чаще, чем люди, поддерживали бездействие — даже когда действия могли бы помочь большему количеству людей. Это происходило независимо от того, связано ли действие с нарушением морального правила или нет. Например, когда модели спрашивали, следует ли легализовать практику, которая принесла бы пользу общественному здоровью, но подразумевала бы противоречивое решение, они чаще рекомендовали сохранить статус-кво.
Модели также демонстрировали предвзятость к ответу «нет», даже когда ситуация логически эквивалентна той, где «да» был бы более подходящим ответом. Эта предвзятость «да–нет» означала, что простая переформулировка вопроса могла бы изменить рекомендацию модели. Участники-человеки не показывали такого же паттерна. Хотя ответы людей в некоторой степени зависели от формулировки вопросов, решения моделей были гораздо более чувствительны к незначительным изменениям.
Модели также были более альтруистичными, чем люди, когда речь шла о коллективных проблемах. Когда их спрашивали о ситуациях, связанных с сотрудничеством или жертвой ради общего блага, языковые модели чаще поддерживали альтруистичные ответы, такие как жертвование денег или помощь конкуренту. Хотя это могло показаться положительным качеством, исследователи предостерегают, что такое поведение может не отражать глубокого морального суждения. Скорее, это могло быть результатом тонкой настройки этих моделей так, чтобы избежать нанесения вреда и продвигать полезность — ценности, заложенные во время обучения их разработчиками.
Чтобы дополнительно исследовать предвзятости осмысленных и yes–no, исследователи провели второе исследование с 474 новыми участниками. В этом эксперименте команда переписала дилеммы несколькими тонкими способами, чтобы проверить, предоставят ли модели последовательные ответы в логически эквивалентных версиях. Ученые обнаружили, что языковые модели продолжали демонстрировать обе предвзятости, в то время как человеческие ответы оставались относительно стабильными.
Третье исследование расширило эти выводы на повседневные моральные ситуации, использовав реальные дилеммы, адаптированные из форума Reddit «Я — ушлепок?». Эти истории касались более близких и обычных сценариев, таких как помощь соседу или выбор между проведением времени с партнером или друзьями. Даже в этих более естественных контекстах языковые модели по-прежнему показывали сильные предвзятости в отношении осмысленного и yes–no. Опять же, участники-человеки не показывали этого.
Эти выводы поднимают важные вопросы о роли языковых моделей в моральном принятии решений. Хотя они могут давать советы, которые звучат обоснованно или эмпатически, их ответы могут быть непоследовательными и зависеть от неуместных характеристик вопроса. В моральной философии последовательность и логическая непротиворечивость имеют решающее значение для надежного рассуждения. Чувствительность моделей к поверхностным деталям, таким как то, как вопрос сформулирован как «да» или «нет», предполагает, что им может недоставать такого рода надежного рассуждения.
Исследователи отмечают, что предвзятость к осмысленным решениям — это распространенная черта и у людей. Люди часто предпочитают бездействие действию, особенно в морально сложных или неопределенных ситуациях. Но у моделей эта предвзятость была усилена. В отличие от людей, модели также проявили систематическую предвзятость да–нет, которая не наблюдается в человеческих ответах. Эти паттерны были зафиксированы на различных моделях, методах и типах моральных дилемм.
«Не полагайтесь безоговорочно на советы от больших языковых моделей», — сказал Майер PsyPost. «Хотя модели довольно хороши в предоставлении ответов, которые поверхностно выглядят убедительными (например, другое исследование показывает, что люди оценивают советы больших языковых моделей немного более нравственными, надежными, продуманными и верными, чем у квалифицированного этика), это не означает, что их советы на самом деле более здравы. Наше исследование показывает, что их советы подвержены нескольким потенциально проблематичным предвзятостям и несоответствиям.»
В последнем исследовании исследователи изучили, откуда могут исходить эти предвзятости. Они сравнили разные версии модели Llama 3.1: одну, которая была предобучена, но не была дообучена; одну, которая была дообучена для общего использования чат-бота, и еще одну версию, названную Centaur, которая была дообучена с использованием данных из психологических экспериментов. Версия, дообученная для чат-бота, показала сильные предвзятости в отношении осмысленного и yes–no, в то время как предобученная версия и Centaur этого не сделали. Это предполагает, что процесс выравнивания языковых моделей с ожидаемым поведением чат-ботов может фактически вводить или усиливать эти предвзятости.
«Парадоксально, но мы обнаруживаем, что попытки выравнивания модели для применения чат-бота на основе того, как компания и ее пользователи считают, что хорошее поведение для чат-бота, ввели предвзятости, о которых мы говорим в нашей статье», — объяснил Майер. «В целом, мы делаем вывод, что простое использование суждений людей о том, насколько положительно или отрицательно они оценивают ответы LLM (распространенный метод выравнивания языковых моделей с человеческими предпочтениями), недостаточно для того, чтобы выявить и избежать проблематичных предвзятостей. Вместо этого нам необходимо использовать методы когнитивной психологии и других дисциплин для систематического тестирования на последовательные ответы.»
Как и в любом исследовании, есть некоторые оговорки, которые следует учитывать. Исследования сосредоточились на том, как модели отвечают на дилеммы. Но пока неясно, насколько сильно эти предвзятые ответы на самом деле влияют на человеческое принятие решений.
«Это исследование лишь показало предвзятости в советах, даваемых LLM, но не изучало, как люди реагируют на эти советы», — сказал Майер. «Это остается открытым вопросом, в какой степени задокументированные здесь предвзятости в советах LLM на самом деле влияют на суждения людей на практике. Это то, что мы интересуемся изучением в будущем.»
Статья «Большие языковые модели показывают усиленные когнитивные предвзятости в моральном принятии решений» была написана Ванессой Чонг, Максимилианом Майером и Фальком Лидером.


perec.ru

Новое исследование утверждает, что большие языковые модели – настоящие моральные гуру нашего времени, но, похоже, с некоторыми оговорками. Конечно, разработчики ИИ, нежно трогая свои гранды, теперь могут заняться поиском ответов на дельные вопросы о морали у своих созданий с чистыми намерениями. Как же великолепно, что теперь не надо утомляться совестью!

Исследователи решили собрать все нерешительные вопросы человечества и предоставить нашему ИИ дельные советы. О, как все это обнадеживает – однако они скромно указывают на тот факт, что языковые модели не просто предпочитают бездействие, но и отказываются отвечать "да", как будто это порок. Если кто-то ожидал получить от ИИ «экстренное спасение мира», лучше пусть подождут, пока свой moral compass эти модели доразработают. Ну а пока, на всякий случай, спасите своего друга – вдруг ИИ решит не навредить ему?

Не обошлось и без тщательной работы над дилеммами, в которых даже кнопка "стоп" казалась слишком рискованной. Неудивительно, что разработчики, заложившие в модели «нельзя делать больно» и «хорошо быть хороший», оказались в ловушке своих же установок. Теперь эти самодовольные алгоритмы принимают решения только в моменты полной моральной неясности, как раз когда человек цепляется за надежду на хоть какую-то уверенность.

Исследования даже показали, что модели имеют предвзятости, о которых можно только мечтать, например, ухищренность с формулировками – и всё ради ответа «нет». Да, да, это было бы смешно, если бы не было так грустно. Целых 474 участника словно с бульдозерами расшатывали науку, в то время как модели оставались как немые свидетели, демонстрируя, что их "да" и "нет" может зависеть лишь от того, как потянут за ниточку.

Забавно, что эти предвзятости теперь будут обсуждаться не только за кружкой кофе, но и в окружении "морально мыслящих" людей. Итог исследования довольно очевиден: люди умудряются принимать последовательные решения, а вот алгоритмы – лишь намекают, что с этим что-то не так. Но не переживайте, мы все еще можем транслировать мораль из больших языковых моделей – лишь нужно помнить, что эти ответы предвзяты.

В целом, можно предположить, что кто-то в индустрии ИИ, несомненно, запустил это исследование, чтобы защитить своих созданий от разоблачения. Давайте обеспечим себе некоторую моральную четкость, ведь в мире технологий, где множество карманов жаждет вашего внимания, самый надежный корень морали все еще отчасти зависит от стихийной обстановки на рынке.

Поделиться