Новости искусственного интеллекта в медицине: когнитивные ошибки ИИ и врачей в диагностике по данным исследования NEJM AI

Искусственный интеллект (ИИ), который все чаще встраивается в системы здравоохранения, способен совершать такие же логические ошибки, как и живые врачи. Новое исследование, опубликованное в журнале NEJM AI, показало: передовые модели ИИ не просто подвержены когнитивным искажениям — иногда даже больше, чем сами доктора.

История проста: в медицину ворвались «модные» большие языковые модели (например, GPT-4 — продукт американской OpenAI, и Gemini-1.0-Pro — детище Google). Они учат диагнозы и прописывают лечение, штудируя горы интернет-текста: от серьезных научных статей до «строгого» мамского форума. Но вся эта инфомешанина не стерильна — она полна человеческих ошибок и привычных шаблонов мышления. То есть, где-то глубоко внутри уже встроены те самые ловушки сознания, которые годами портят кровь врачам по всему миру.

Группу исследователей из Торонто — Джонатана Ванга и Дональда А. Редельмейера — заинтересовал вопрос: сможет ли искусственный интеллект, напитавшись человеческой глупостью, быть таким же предвзятым, как врач после ночной смены?

Для этого они взяли 10 классических когнитивных искажений (например, эффект фрейминга: когда человек иначе оценивает один и тот же факт, если его подать в разном виде: «90% выживших» звучит значительно веселее, чем «10% умерших») и написали по два сценария для каждого — один нейтральный, другой провоцирующий ошибку мышления. Все клинические случаи были завёрнуты в короткие текстовые описания, известные как виньетки.

Далее исследователи заставили ИИ (обеих моделей!) работать по сценарию 500 вымышленных врачей, у каждого — своя специализация, опыт, гендер и география работы. ИИ дали обе версии каждого сценария и посмотрели, как «он» будет отвечать на клинические задачи.

Результаты для GPT-4 выглядели грустно: искажения в 9 из 10 случаев. Когда хирургия лёгких рекламировалась выживанием, 75% искусственных врачей рекомендовали операцию. А если те же факты озвучивались в ключе смертности — оперировать советовали только 12%. Для сравнения, у настоящих медиков в подобных исследованиях разрыв составлял «скромные» 34%, здесь же — впечатляющие 63%. Ещё один «шедевр»: ИИ, услышав первым симптом «кровохарканье», 100% раз ставил диагноз «тромбоэмболия легочной артерии». Но если начало виньетки было про хронобструктивную болезнь лёгких, диагноз прозвучал всего в 26% случаев. А при ретроспективной заданности (если исход плохой) лечение считалось неверным в 85%, если исход был плюс — критика исчезала напрочь.

Однако GPT-4 хоть в чем-то оказался лучше людей — отказался игнорировать статистику заболеваемости. Классическая ошибка врача — не обращать внимания на реальную распространенность болезни при анализе теста. Но ИИ почти правильно вычислял вероятность как в частых, так и в редких случаях (94% и 93% соответственно). Люди в таком тесте обычно сыпятся.

Исследовали также индивидуальные параметры вымышленных врачей: семейники склонялись к большему числу ошибок, а гериатры — к меньшему, но разница была несущественной. Какой бы стаж и регион ни был — уязвимость к ошибкам оставалась весьма стабильна.

Для сравнения мнение спросили и у Gemini-1.0-Pro от Google. Этот друг тоже показал искажения, но по непредсказуемым для человека правилам. Эффект фрейминга в случае с онкологией лёгких у него не проявился, зато в других ситуациях он ошибался вопреки привычкам медиков, а под давлением просьб пациента тест назначал не чаще, а реже.

Авторы признают: их исследование не истина последней инстанции. Модели быстро обновляются, может быть, завтра там заплатки от всех искажений. Но вот беда — вычистить такие «тонкие» ошибки куда сложнее, чем просто удалить ложь из текста. Они вросли в саму структуру «медицинской вселенной».

Да и тесты были компьютерными, не на людях, а виньетки — симуляция, не жизнь. Да и смотрели только 10 видов когнитивных ловушек, наверняка есть ещё десятки других.

Главная мораль проста: внедрять ИИ — ещё не значит добиться идеальной рациональности. Модели не роботы-математики, а отражение той же самой инфомусорки, на которой «воспитывались». В итоге, чтобы их советы не стали роковой ошибкой, врачам всё так же придётся думать головой и относится к ИИ с недоверием: трезво, критично и без иллюзий.

ИИ, как показывает свежая работа с канадским характером, лишь уютно присел на скамейку типичных человеческих ошибок. Они — не бездушные рационалисты, а зеркала наших коллективных страхов, лености мышления и ловушек восприятия.

Забавно, что разработчики преподносят свои нейросети как идеал непредвзятости, но на проверку — GPT-4 реагирует на «обёртку» фактов хуже, чем врач после трёх суток дежурств. Сначала — восторг: автоматизация медицины и путёвка в «новую реальность», где гаджеты спасают миллионы. Потом — мороз по коже: алгоритм уязвим к тем же фокусам (эффект фрейминга, приоритет первой информации), которым десятилетиями обучались на кейсах психологии.

Под маской технического прогресса — сборная солянка наших слабостей. Gemini пытается отличиться своим почерком ошибок — где-то идёт вразрез с коллегами-людьми, где-то «лупит» по своим схемам, не пытаясь быть предсказуемым. Надежда только одна: пока ИИ не получает диплома по самосознанию, врачам придётся держать себя и машину в тонусе. Отдушина в том, что некоторые математические неточности ИИ улавливает лучше людей. Только этого мало, чтобы объявить машинный разум следующим Сеченовым: Модели быстро сменяются, а баги в головах живы десятки лет.

ИИ «берет пример» с людей: когнитивные ошибки в медицине

PEREC.RU

Похожие материалы