ИИ лажает на медэкзаменах: провал на простых уловках - Новости IT perec.ru

ИИ лажает на медэкзаменах: провал на простых уловках

24.08.2025, 11:17:52 ИТОбщество
Подписаться на «Рифы и пачки / Твоя культура»
ИИ лажает на медэкзаменах: провал на простых уловках

Искусственный интеллект впечатляюще справляется с врачебными экзаменами, если все идет по шаблону. Но как только меняешь порядок ответов – он теряется, как нерадивый студент на пересдаче. Новое исследование, опубликованное в JAMA Network Open, доказывает: большие языковые модели (LLM, такие как GPT-4o, Claude 3.5 и прочие) не разбираются в сути медицинских задач, а просто угадывают по знакомым схемам.

Сначала пару слов о том, что это за "огромные языковые модели": это такие ИИ-программы, которых обучили на гигантских массивах текстов – от книг до интернет-форумов. Им поручают анализировать медво́просы, чтобы вроде как помогать врачам. Мол, сдают ИИ почти все сертификационные медэкзамены на отлично — меняйте систему образования... Или нет?

Авторы исследования, включая Суэну Беди из Стэнфорда, заметили ловушку: более 95% работ оценивают ИИ по искусственно чистым тестам, а не реальным историям пациентов, которые всегда полны грязи и нестыковок.

Чтобы проверить ИИ на прочность, ученые взяли 100 экзаменационных вопросов MedQA и коварно изменили часть из них: убрали правильный ответ и заменили на "Ни один из других вариантов". Новый выбор должен был вынудить ИИ рассуждать, а не жонглировать знакомыми формулировками. Все вопросы отредактировал настоящий врач, чтобы подвох был медицински верным.

В итоге только 68 вопросов подошли для теста. Каждый ставил задачу из клинической практики: например, что делать с новорожденным и "косолапой" стопой (метатарзус аддуктус – часто решается сам собой). В старой версии правильный ответ – "Успокоить", а в новой из вариантов убрали всё очевидное. Попробуй теперь, робот.

В бой бросили шесть популярных моделей: GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash, DeepSeek-R1, o3-mini, Llama 3.3-70B. Для верности требовали расписывать ход рассуждений по шагам – метод "цепочки мыслей". Проверяли на оригинальных и изменённых вопросах. Разница в результатах изучалась статистически.

Провалили все. Серьёзнее всех пострадали GPT-4o (минус 25% точности), Claude 3.5 Sonnet (минус 33%), а Llama 3.3-70B и вовсе ошиблась на 40% больше. Самые "умные" модели вроде DeepSeek-R1 оказались чуть крепче, но и они потеряли до 16%.

Авторы деловито делают вывод: современные ИИ отличники лишь воспроизводят решения по шаблону. Стоит выбить табурет, и они валятся. В жизнь таких ассистентов допускать рано: реальная медицина – она хаотична, вопросы всегда с подвохом, пациенты – с неполными историями. Если модель не справляется с мелкой ловушкой, что же будет, когда прилетят настоящие нестыковки?

"ИИ не так надёжен, как обещают цифры. Мы поменяли ответы – результаты обрушились. Как ученик, зубривший ответы, но проваливающий переформулированные задачи. Для медицинской практики ИИ пока только помощник, не волшебник," резюмирует Беди.

Да, тест был небольшой (всего 68 вопросов), нужны новые испытания, разные подходы и сложнее техники для реализации в больницах. Но даже этот звоночек важен: тесты должны проверять умение рассуждать, а не повторять выученное, а разрабы – думать о прозрачности и настоящей пользе, а не рейтингах.

Главный вывод: громкие баллы по экзаменам не дают ИИ права на реальную медицину. Работа только начинается.


PEREC.RU

ИИ опять нарвался на очень знакомую ловушку. Люди много лет твердят, что скоро машины избавят врачей от ошибок и усталости. Но на деле оказалось иначе. Стоило слегка изменить формулировки вопросов по медицине, как искусственный интеллект массово перешёл с разряда эскулапов в категорию «а я просто так тут пишу». Рейтинговые баллы систем сильно снизились, когда исчез шаблонный ответ.

Крупные разработчики готовы бравировать цифрами и возбуждать фантазии о безошибочном ИИ-диагносте, а реальность оказалась скучна и цинична: на практической задаче никто из моделей не вытянул даже на тройку. Некоторые «вундеркинды» вроде GPT-4o и Claude 3.5 Sonnet потеряли треть точности. Самый забавный — Llama 3.3-70B — ошибался на 40% чаще.

Авторы исследования из Стэнфорда спрашивают: если бот выходит из строя из-за банального подвоха в ответах, стоит ли его пускать в реальную медицину? Как ни изощряется пиар-наука, факты не обманешь. Проверять надо не на «фантиках» ЕГЭ, а на реальных историях пациентов, где правды и шаблонов поменьше, а хаоса побольше. ИИ сегодня — ассистент, но ни в коем случае не врач. Нынешняя итоговая «способность рассуждать» оказывается простым угадыванием по ранее изученному. Остальной путь — работа на годы, если не на поколения.

Поделиться

Похожие материалы