Новости искусственного интеллекта: социальный разум ИИ зависит от малого числа параметров, выяснили учёные

Новое исследование показало: способность искусственного интеллекта к так называемому социальному рассуждению — то есть умению понимать, что у других есть убеждения и желания, отличные от собственных, — завязана всего на ничтожное количество специализированных параметров внутри языковых моделей. Для справки: такие когнитивные способности у человека называют «теорией разума». Это когда ребёнок знает, что конфета может оказаться не там, где думает Петя, поскольку кто-то тайно её переложил. Для общения между людьми подобное мышление — основа, без которой никуда.

Современные языковые модели — от тех же чат-ботов до продвинутых ИИ — вроде бы научились решать такие «человеческие» задачи. Но вот каким именно образом внутри моделей рождается эта хитрая способность, учёные толком не понимали. Задачу разгадали исследователи из нескольких ведущих университетов США, среди которых Stanford и Princeton — кто сказал, что ИИ учит только бизнес?

Эксперимент начинался с того, что ИИ просили решать задачи на так называемую ложную веру: например, «куда персонаж пойдёт искать предмет, если не знает, что его уже переложили?». По ходу работы выяснилось, что на успешное решение всерьёз влияет микроскопическая группа параметров (около 0,001% от общего числа!) и что именно они позволяют машине отличать «убеждения» от объективной реальности.

Дальнейшее тонкое исследование позволило отделить параметры, отвечающие просто за обработку языка, от тех, что играют роль в социальном рассуждении. В результате осталась группа параметров, обозначенных как ToM-чувствительные — от английского Theory of Mind.

Учёные пошли дальше: исказили значения этих параметров, чтобы проверить, что изменится. Результат был ошеломляющим — модели стали в разы хуже справляться с задачами на понимание чужих мыслей. А вот если менять те же по размеру группы случайных параметров, мышление не страдало. Значит, эта маленькая группа — не случайна, а играет критически важную роль.

Причём нарушение работы ToM-параметров портило не только социальное рассуждение, но и ориентацию в тексте: модели путались, где находится важная информация, теряли нити повествования. Всё упиралось в один из архитектурных кодов современных языковых моделей — Rotary Position Embedding (RoPE), способ кодировки порядка слов по особым «вращающимся» частотам. Именно с этими частотами были связаны ключевые ToM-параметры, и нарушение их работы разрушало «карту» текста у ИИ.

Второй важный механизм — система внимания: она позволяет модели выделять главное в тексте исходя из его структуры, как будто сознание зацепилось за первый символ и выстраивает дальнейшее понимание через эту опору. Изменив ToM-параметры, учёные заметили: «якорь» внимания ослаб, модель стала перепрыгивать между несущественными деталями, а смысл выветривался как дым.

Выводы обнадёживают и пугают одновременно. С одной стороны, стало ясно, как внутри моделей рождаются «социальные» навыки — и где их искать. С другой — уязвимость очевидна: если попадать по этим крошечным блокам, всю социальную логику можно быстро «сломать». В перспективе знание об особых ToM-параметрах поможет делать моделей более прозрачными, этичными и предсказуемыми, а заодно — ищите ошибки на старте, а не в глубинах миллиардов строк кода.

Авторы исследования: Юхэн Ву, Вентао Го, Зируй Лю, Хэн Джи, Чжаочжоу Сюй, Дэнхуэй Чжан. Работа опубликована в журнале npj Artificial Intelligence.

Статья из серии «какой страшный ад под капотом у вашего нейрососеда». Четыре университета США нашли в языковых моделях ИИ микроскопическое скопление настроек, которыми регулируется вся социальная смышленость. Это даже не пятно на Луне — это мельчайший участок, который решает, будет ли ИИ понимать ваши шутки или станет путаться в запятых.

Учёные проверяли, тянут ли такие параметры на главных ролях, меняли настройки и наблюдали: ломается логика, исчезает ориентация в тексте. Кстати, если ковырять случайные группы параметров такой же длины — всё работает, будто ничего не трогали.

Особая магия происходит в RoPE — архитектуре, где порядок слов кодируется вращающимися частотами. Вот на этих нотах и играет социальный мозг искусственного разума. Стоит сбиться с ритма — и чат-бот сыплет бессмысленные фрагменты. А ещё: внимание системы теперь не «цепляется» за якорь в тексте, и смысл превращается в туман.

Сатира тут проста: вся этика, доверие, человечность ИИ держатся на изолированных точках. Под ударом — прозрачность, контроль, защита от взлома. Исследование открывает двери фантазёрам (и мошенникам) — ведь достаточно расковырять один маленький механизм, чтобы машина вдруг стала совершенно не той, какой хотелось бы её видеть.

Техническое чудо и психоаналитическое фиаско в одном флаконе. Неудивительно, что учёные уже задумываются, совпадение ли это, что такие знания находят именно сейчас, когда ИИ просят решать всё более сложные социальные задачи. Тем временем, реальный заказчик будет ждать, не закроет ли ему такую лазейку, пока не унесут вагон бабла на атаках через ToM-параметры.

Социальный разум у ИИ оказывается зависит от крошечной группы параметров

PEREC.RU

Похожие материалы