Следите за новостями по этой теме!
Подписаться на «Психология / Научные исследования»Нейробиологи используют имплантаты мозга и ИИ для картирования обработки языка в реальном времени.
Новое исследование, опубликованное в журнале Nature Communications, предлагает подробный взгляд на то, как человеческий мозг поддерживает естественный разговор. Объединив записи intracranial (внутричерепные) активности мозга с продвинутыми языковыми моделями, исследователи обнаружили, что речь и слушание активируют обширные области мозга, особенно в лобной и височной долях. Эти сигналы мозга не только соответствовали произносимым или воспринимаемым словам, но и отслеживали переключения между говорением и слушанием. Выводы предполагают, что повседневный разговор требует четко скоординированной сети, которая обрабатывает как содержание речи, так и процесс смены ролей.
Разговор — это динамическая, непрерывная активность, требующая от мозга постоянного переключения между пониманием и производством языка. Большинство предыдущих исследований изучали эти навыки изолированно, используя искусственные задачи — такие как чтение списков слов или повторение сценарных предложений. Эти упрощенные эксперименты предлагают ценные инсайты, но не могут уловить непрерывный, свободный характер настоящего разговора. Чтобы преодолеть это ограничение, авторы нового исследования использовали уникальный подход. Они записали активность мозга у людей, участвующих в спонтанных беседах, а затем проанализировали эти сигналы, используя мощные модели обработки естественного языка.
«Это удивительно — углубиться в нейронные основы естественного разговора, особенно сейчас», — сказал автор исследования Цзинь Кай, преподаватель нейрохирургии в Массачусетской общей больнице.
«Изучение нейронного обеспечения потенциально безграничных способов, которыми мы производим и понимаем речь в естественном разговоре, давно является сложной задачей. Тем не менее, недавние достижения моделей обработки естественного языка сделали возможным прямое исследование этой нейронной активности. Кажется, это правильный момент, чтобы использовать эти мощные вычислительные инструменты для раскрытия нейронных секретов того, как мы так свободно общаемся».
Исследователи изучили 14 человек, проходящих клиническое лечение эпилепсии. В рамках их медицинской помощи эти люди имели электроды, имплантированные в мозг для мониторинга судорог. С их согласия исследователи воспользовались этой редкой возможностью записать мозговую активность во время естественного разговора. Участники участвовали в несценированных диалогах с экспериментатором, обсуждая повседневные темы, такие как фильмы или личные переживания. Эти разговоры длились до 90 минут и включали более 86 000 слов у всех участников.
Для анализа того, как мозг кодировал эти разговоры, исследователи использовали заранее обученную модель искусственного интеллекта, известную как GPT-2, которая является типом модели обработки естественного языка (NLP). NLP — это область искусственного интеллекта, которая фокусируется на том, чтобы дать компьютерам возможность понимать и обрабатывать человеческий язык. GPT-2 преобразует каждое слово в многомерный вектор на основе его контекста в предложении. Эти представления слов фиксируют сложные черты языковой структуры и значения, не опираясь на явные лингвистические правила. Сравнивая эти представления с активностью мозга, регистрируемой во время производства речи и понимания, команда могла оценить, какие области мозга отслеживали язык в реальном времени.
Результаты показали, что как разговор, так и слушание активировали широкую сеть областей мозга. Активность была особенно выражена в лобной и височной долях, включая области, традиционно связанные с обработкой языка. Нейронные сигналы не просто реагировали на речь, но и тесно совпадали с конкретной последовательностью и контекстом используемых слов. Это было истинно независимо от того, говорил ли человек или слушал.
«Одним из особенно поразительных аспектов наших результатов было соответствие, которое мы наблюдали между паттернами активности в человеческом мозге и представлениями, изученными глубокими обучающими моделями NLP», — сказал Кай в интервью PsyPost. «Степень, в которой эти искусственные системы уловили нюансы обработки языка, которые отражались в нейронной активности во время живого разговора, оказалась достаточно удивительной. Это открывает захватывающие возможности для будущих исследований, чтобы использовать эти искусственные системы в качестве инструментов для дальнейшего декодирования внутренней динамики мозга во время общения».
Для подтверждения того, что мозговые сигналы отражали значимую обработку языка — а не просто звуки или моторную активность — исследователи провели два контролирующих условия. В одном из них участники слушали и повторяли сценарные предложения. В другом — они говорили и слышали псевдослова, которые имитировали английский по ритму и звуку, но не имели реального значения. В обоих случаях соответствие между активностью мозга и представлениями языковой модели резко упало. Это указывает на то, что наблюдаемые нейронные паттерны были конкретными для реального, значимого общения.
Исследование также изучало, как мозг обрабатывает переходы между говорением и слушанием — это важная часть любого разговора. Используя точные данные о времени, исследователи обнаружили, когда участники переключались. Они нашли различные паттерны активности мозга во время этих переходов. Некоторые области увеличивали активность перед тем, как человек начинал говорить, в то время как другие изменялись, когда они начинали слушать. Интересно, что многие из этих же областей также отслеживали конкретное содержание языка разговора, предполагая, что мозг интегрирует информацию как о том, что говорится, так и о том, кто говорит и кто слушает.
У всех участников 13 % участков мозга показали значительные изменения в активности мозга во время переходов от слушания к говорению, и 12 % — во время обратного перехода. Эти паттерны варьировались по частотным диапазонам и областям мозга, и различия были более выражены на более низких частотах во время перехода к слушанию. Эти сигналы пересекались с теми, которые участвовали в обработке значений слов, предполагая, что мозг использует общие цепи для управления как содержанием, так и потоками общения.
Исследователи также посмотрели, как различные виды мозговой активности коррелировали с различными слоями языковой модели. Более низкие слои модели представляют отдельные слова, в то время как более высокие слои захватывают более сложные, на уровне предложений, значения. Исследователи обнаружили, что активность мозга во время разговора наиболее сильно соответствовала более высоким слоям модели. Это предполагает, что мозг не просто реагирует на отдельные слова, но и отслеживает более широкую структуру и значение того, что говорится.
Эти выводы подтверждаются в различных моделях и участниках. Независимо от того, использовали ли исследователи GPT-2, BERT или другие модели с различными размерами и методами тренировки, они постоянно находили, что активность мозга отражала лингвистическую информацию. Процент нейронных участков, показывающих корреляции, также возрастал с увеличением сложности модели, что укрепляет аргументы о том, что эти модели фиксируют значимые черты обработки человеческого языка.
«Наши результаты показали невероятную сложность того, что мы делаем без усилий каждый день: ведем беседу», — объяснила Кай. «Это показывает, что когда мы говорим и слушаем, огромные и взаимосвязанные области нашего мозга активно участвуют в обработке не только самих слов, но также их конкретного смысла в потоке беседы и в роли, которую играет тот, кто говорит, и кто слушает. Это исследование показывает, что даже на первый взгляд простые обмены мнениями вовлекают динамическую и сложную нейронную организацию, демонстрируя удивительную силу человеческого мозга, позволяющего нам соединяться и общаться с помощью языка».
Однако у исследования были некоторые ограничения. Участники были пациентами с эпилепсией, и размещение электродов варьировалось в зависимости от их клинических потребностей. Это может повлиять на то, насколько обобщаемы выводы для более широкой популяции. Кроме того, использованные модели основывались на письменном тексте, а не на разговорном языке, что означало, что интонация и тон не были уловлены. Исследователи утверждают, что это только начало. Будущая работа могла бы изучить, как акустические особенности влияют на нейронные реакции или даже попытаться декодировать смыслы мыслей только из активности мозга.
«Наша работа в первую очередь служит демонстрацией этих различий, а не глубоким изучением их основных механизмов», — сказала Кай. «Нам нужны будущие исследования для выявления конкретных лингвистических и когнитивных элементов. Кроме того, мы полагаемся на модели NLP, основанные на текстах, что означает, что мы еще не полностью захватили богатство разговорного языка, так как акустические подсказки не были интегрированы в наш анализ».
«Следующий шаг включает семантическое декодирование. Это значит, что нужно перейти от простого выявления активных областей мозга во время разговора к декодированию значения слов и концепций, которые обрабатываются. В конечном итоге комбинация исследований, раскрывающих нейронные механизмы, и результаты декодирования может дать глубокие инсайты в нейронную репрезентацию языка».
«Это действительно захватывающий момент для исследований нейробиологии языка», — добавила Кай. «Комбинация методов записи внутричерепной активности и быстрых достижений в моделировании искусственного интеллекта предлагает замечательные возможности для раскрытия механизмов мозга, отвечающих за общение, и разработки полезных инструментов для восстановления коммуникационных способностей для тех, кто потерял речь».
Исследование «Модели обработки естественного языка раскрывают нейронные динамики человеческого разговора» было написано Цзинь Кай, Алексом Е. Хаджиниколау, Энджелique С. Полк, Даниелем Дж. Сопером, Тянь Ся, Александром Ф. Вангом, Джоном Д. Ролтсон, Р. Марком Ричардсоном, Зивом М. Уильямсом и Сидни С. Кэшем.
Нейробиологи наконец-то решили, что пора поговорить с мозгом живого человека, используя имплантаты и искусственный интеллект. А что, как не клиническая эпилепсия, поможет нам попасть туда, куда обычные ученые, похоже, даже не мечтали соваться? Участники исследования страдали от судорог, а теперь ещё и стали объектами подопытных кроликов.
Исследование, которое, похоже, провели сами нейробиологи во главе с Цзинь Каем, обещает нам глубокие инсайты в то, как мы непрерывно болтаем друг с другом — хотя не ясно, кто именно на это подписывался. Вот вам удобный повод для использования больных людей: мол, они же просто «неизвестные пациенты», которых можно размять для науки. И ведь не забудьте сказать, что это ради общечеловеческого блага.
Далее исследование обосновывает, что, оказывается, разговор требует «четко скоординированной сети» мозговых функций. Кто бы мог подумать, что наш мозг не просто клубок нервных клеток, а хорошо слаженная система? Вообще-то следить за динамичным процессом общения с помощью электрических имплантатов — это, конечно, шаг в сторону, но кого волнует эта этика, когда на кону кажется столь гениальное исследование?
Используемая модель GPT-2, родом из волшебного мира искусственного интеллекта, восхитительно фиксирует паттерны активности мозга. Да, включив блогеров и других интернет-персон, можно было бы получить возбуждение, но вот — ученые попирают этикет, зацикливаясь на словах «язык» и «мозг». Это просто гениальный переход к тому, чтобы перекрыть кислород неврастеников, осуждающих святые дела науки.
Но как всегда, у такого замечательного проекта есть и свои «недостатки». Исследование основано на малюсенькой выборке, и эта выборка — пациенты с эпилепсией. Так что же, они теперь недостойны обсуждения в лучшем обществе? Исследователи хлопают в ладоши, обосновывая, что будут продолжать «изучать акустические особенности». Вот только никому не обрезать языки не очень хочется.
Так что в конечном счете, обсуждая возможности будущих исследований, можно лишь усмехнуться: все эти мощные инструменты и нереальные проекты по «восстановлению коммуникационных способностей» только оттягивают момент, когда кто-то эти способности не потеряет, глядя на всех этих мозговых «магистров». Научная комедия в действии — следующая остановка «декодирование мыслей» из мозговой активности. А там, глядишь, и до совсем фантастического недалеко.