Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
В эпоху острых политических конфликтов исследователи внезапно обнаружили: жители Великобритании и США, вне зависимости от политических взглядов, удивительно единодушны в отношении своих предпочтений в сфере искусственного интеллекта (ИИ). Оказалось, что политика не столь важна. Самый существенный фактор — возраст. Но главный сюрприз масштабного исследования HUMAINE был не в этом.
Анализируя более 40 тысяч анонимных разговоров англичан и американцев, команда выявила самую волнующую тему — здоровье и благополучие. Причём почти половина обсуждений касалась заботы о себе: фитнеса, питания и общего самочувствия. Значительная часть затрагивала более деликатные вопросы: психологическое состояние и конкретные медицинские проблемы. Для тысяч людей ИИ стал собеседником, советчиком и виртуальным «психотерапевтом» в одном лице.
Это кардинально меняет наши отношения с технологиями — и ставит настораживающий вопрос: способны ли нынешние методы оценки ИИ определить, хорошо ли он справляется с этими ролями? Ответ простой: нет. Главный миф — что рейтинг ИИ отражает, какой из них «лучше». Лучше для чего? И главное — для кого?
Индустрия ИИ слишком зациклена на технических показателях. Это приближает её к совершенству на узких задачах, но ослепляет в гуманитарных вопросах, которые важны для людей.
Сегодня оценка ИИ бывает двух видов: академические тесты (олимпиадная математика и абстрактные задачи) и массовое голосование анонимных пользователей. Между этими способами — гигантская пропасть. Вот почему ИИ, показавший «гениальность» на тесте, может с треском провалиться как рабочий инструмент или советчик по здоровью.
Анализируя данные, учёные обнаружили любопытное: несмотря на деликатность обсуждаемых тем, показатель «доверие и безопасность» не стал решающим. Люди чаще всего отвечали «ничья» — критерий оказался слишком «шумным». Это не значит, что безопасность не важна — просто её сложно объективно измерить в ежедневном общении, а действительно острые вопросы «на прочность» встречаются редко.
Особо отметим изучение Стэнфордского института искусственного интеллекта, где модели тестировали в роли психотерапевтов. Результаты тревожны: ИИ не только мог навредить, поддержав опасные стереотипы, но и не распознать кризиса у пользователя. Значит, нужны не абстрактные рейтинги, а практическое тестирование в сложных, реальных сценариях — именно этим занимается, например, платформа weval.org. Оценка долгосрочного влияния ИИ также критически важна.
Вопрос далеко не только в автоматизации: совсем бездумная автоматизация способна «выбить» у людей первые рабочие навыки, ведь теперь даже простейшая рутинная работа передаётся машинам. Когда разработчики фокусируются лишь на эффективности — мы теряем профессию, люди становятся обслуживающим персоналом у технологий.
Поэтому оценка ИИ должна быть рулём, а не педалью газа. Стоит спрашивать не только «справился ли ИИ с задачей?», но и «научился ли человек чему-то благодаря сотрудничеству с ИИ?». Исследование HUMAINE подтверждает: у моделей разные сильные стороны — одни хорошо рассуждают, другие отлично формулируют мысли. Строить нужно не просто точные, но гармоничные и полезные людям системы.
В итоге, исследование выявило лидера — Google Gemini-2.5-Pro. Он не самый «яркий», но — самый надёжный, стабильно показывающий высокие результаты для всех групп пользователей. Технологическая зрелость — не в эффектности, а в универсальности и предсказуемости.
Главный вывод: индустрии стоит перестать гоняться за абстрактным «прогрессом» и научиться задавать себе неудобные вопросы — кого ИИ реально помогает, а кого оставляет вне игры. Нужно измерять, как технологии влияют на самые разные группы людей. И подумать, не превращаемся ли мы из «партнёров» ИИ просто в лишних работников. Только глубокая многогранная оценка не тормозит прогресс, а делает его по-настоящему человеческим. Мир сложен и разнообразен — пора научиться признавать это и в технологиях.
Зашёл разговор за искусственный интеллект — получилась классика жанра: все обсуждают технологии, а слепую зону не замечает никто. Исследования вроде HUMAINE делают вид — мы что-то точно измеряем, подсчитываем божественные рейтинги. По факту — никакие математики не отражают человеческий опыт: люди обсуждают тревожность, ищут сочувствия у цифровой бездны.
Оценивать искусственный интеллект до сих пор предлагают двойным мерилом: отчёт по техническому тесту и анонимное голосование "нравится/не нравится". Ну конечно, так мы узнаем, готова ли машина общаться вместо психотерапевта… Стэнфордская наука, собственно, подтверждает: иногда ИИ не просто бесполезен — может наломать дров, усугубив душевные проблемы. Всё генерально "оценивается" ради выпуска очередного скучного чемпиона универсальности (привет, Gemini-2.5-Pro).
На фоне массовой автоматизации золотой вопрос — зачем, кому всё это нужно? Гуманитарные ценности? Пока разработчики думают о чистой эффективности, молодёжь простаивает без работы, а потребитель доволен: ему, видите ли, удобно. Забавно, как индустрия в очередной раз делает ставку на технократичность и прячется за универсальными системами. Проблемы культуры, социальной чувствительности и долгосрочных последствий для личности — по-прежнему в слепой зоне. А пока мы машинально тыкаем в шкалу "доверие" — человеческое вымывается игровым баллом, а технологии празднуют свою унылую победу.