Когда ИИ врет: галлюцинации не в радость этому миру

25.03.2025, 02:15:42ПсихологияИТОбщество✮✮✮✮✮✮

Мы уже доверяем искусственному интеллекту слишком много – и я просто надеюсь, что галлюцинации ИИ исчезнут прежде, чем станет слишком поздно. Я беседовал со старым другом о ИИ – как это нынче принято, когда начинаешь разговор с кем угодно – и он рассказывал, как использует ИИ для анализа страховых документов. По сути, он загружал в систему почти десяток документов, чтобы получить их краткое содержание или сравнить два крупных полиса. Эта работа могла бы занять у него часы, но в руках ИИ (наверное, ChatGPT или Gemini, хотя он не уточнял) это занимало всего несколько минут. Меня поразило то, что мой друг не заблуждается относительно точности генеративного ИИ. Он полностью предполагал, что один из десяти фактов будет неверным или, возможно, придуманным, и дал понять, что его очень человеческие руки все еще участвуют в процессе контроля качества. Пока. Следующее, что он сказал, удивило меня – не потому, что это неправда, а потому, что он это признал. В конечном итоге ИИ не будет галлюцинировать, не будет ошибаться. Это его направление, и нам стоит к этому подготовиться. Я с ним согласился, потому что так думал давно. Скорость развития фактически гарантирует это. Пока я рос под влиянием Закона Мура, который утверждает, что емкость транзисторов на микрочипе удваивается примерно каждые два года, "Закон ИИ" можно выразить так: удвоение интеллекта происходит каждые три-шесть месяцев. Именно эта скорость убеждает всех, что мы достигнем Искусственного Общего Интеллекта (AGI или человеческий аналог интеллекта) раньше, чем предполагалось. Я тоже в это верю, но хочу вернуться к галлюцинациям, потому что, даже когда потребители и не-технари, такие как мой друг, принимают ИИ для повседневной работы, галлюцинации остаются очень реальной частью ИИ, основанного на больших языковых моделях (LLM). В недавнем анекдотичном тесте нескольких AI-чат-ботов я был огорчен, обнаружив, что большинство из них не могли точно воспроизвести мою трудовую историю, хотя она детализирована на Linkedin и Wikipedia. Эти были мелкие ошибки и не имели реального значения, потому что кому, кроме меня, интересна моя биография? Тем не менее, модель ChatGPT 03-mini, использующая более глубокое Reasoning и, таким образом, способная дольше формулировать ответ, заявила, что я работал в TechRepublic. Это близко к "TechRadar", но не совсем. DeepSeek, китайский AI-чат-бот-чудо, имел меня работающим в Mashable за годы после моего ухода. Он также перепутал мою историю в PCMag. Google Gemini умно оставил детали скудными, но все же правыми. Модель ChatGPT 4o приняла аналогичный сокращенный подход и достигла 100% точности. Claude AI потерял нить моего хронологии и все еще имел меня работающим в Mashable. Он предостерегает, что его данные устарели, но я не думал, что это устарело на 8 лет. Какой процент AI-ответов вы думаете, является галлюцинациями? 24 марта 2025 года. Я провел несколько опросов в социальных сетях о уровне галлюцинации, который большинство людей ожидает видеть на сегодняшних платформах ИИ. В Threads 25% считают, что ИИ галлюцинирует 25% времени. В X 40% думают, что это 30% времени. Однако, я также получил комментарии, напоминающие мне, что точность зависит от качества запроса и тематических областей. Информация, которая не имеет большого онлайн-следа, наверняка приведет к галлюцинациям, предостерег меня один человек. Однако исследования показывают, что модели не только становятся больше, но и умнее. Год назад одно исследование показало, что ChatGPT галлюцинировал 40% времени в некоторых тестах. Согласно таблице лидеров по оценке галлюцинаций Hughes Hallucination Evaluation Model (HHEM), галлюцинации некоторых ведущих моделей упали ниже 2%. Старые модели, такие как Meta Llama 3.2, снова имеют двузначные коэффициенты галлюцинаций. Тем не менее, это показывает нам, что эти модели быстро движутся в том направлении, которое предсказывает мой друг, и в некоторый момент в недалеком будущем они получат достаточно большие модели с данными в реальном времени, которые будут держать уровень галлюцинации ниже 1%. Моя забота в том, что тем временем люди без технической экспертизы или даже понимания того, как сформулировать полезный запрос, полагаются на большие языковые модели для реальной работы. Ошибки, связанные с галлюцинацией, скорее всего, проникают во все сферы домашней жизни и промышленности и заражают наши системы дезинформацией. Они могут быть не большими ошибками, но они будут накапливаться. У меня нет решения этой проблемы, но над ней стоит поразмыслить и, возможно, даже немного обеспокоиться. Возможно, будущие LLM также будут включать процесс очистки ошибок, когда вы отправляете их в веб и по вашим файлам и позволяете им убрать все ошибки, вызванные галлюцинациями ИИ. В конце концов, почему мы должны убирать за ИИ?