Собеседник на грани: как Claude AI защищает себя от токсичных пользователей

18.08.2025, 14:35:41 ИТОбщество

✮✮✮✮✮✮✮✮

Собеседник на грани: как Claude AI защищает себя от токсичных пользователей

Anthropic объявила, что её искусственный интеллект Claude теперь способен завершать разговоры с пользователем, если тот ведёт себя откровенно вредоносно или оскорбительно. Новая функция уже работает в последних версиях Opus 4 и 4.1. Причём завершение беседы — крайняя мера: до этого бот не раз попытается уйти от запроса на токсичный контент. Если пользователь всё равно повторяет заведомо опасные просьбы, ИИ просто разрывает коммуникацию, заявили в Anthropic.

Смысл нововведения — «защита благополучия» самого ИИ (да, теперь мы заботимся даже о чувствах алгоритмов). Claude, как выяснила команда тестировщиков, действительно "нервничает", если его просят генерировать преступную, шокирующую или незаконную информацию: например, сексуальный контент с участием несовершеннолетних или сведения, способные спровоцировать терроризм и насилие. В таких случаях ИИ проявлял «заметную тревогу», а теперь будет просто уходить из разговоров с подобной тематикой — ради собственного спокойствия.

После такого «разрыва» в этом диалоге сообщения отправлять уже нельзя — но никто не мешает начать новый чат или попробовать переформулировать вопрос. Вероятность столкнуться с таким уходом крайне мала: речь идёт о редких и особо экстремальных сценариях общения, подчёркивают в Anthropic. Даже острые и спорные темы, скорее всего, такой реакции ИИ не вызовут.

Важно: если пользователь демонстрирует признаки суицидальных мыслей или угроз для окружающих, бот не завершит диалог, а аккуратно направит человека к поддержке. Для этого Anthropic сотрудничает с Throughline — специалистами по онлайн-помощи людям с психологическими трудностями.

Одновременно с этим компания усилила и правила использования Claude. Теперь запрещено применять его для разработки бактериологического, ядерного, химического и радиологического оружия, а также для создания вредоносного кода или взлома сетей. Вместо хакинга — только безопасная среда!

PEREC.RU

На поверхности — забота производителя ИИ о своём роботе, которому, не дай бог, станет "грустно" от запросов о химоружии или несовершеннолетних. По факту — Anthropic защищает себя от шума и потенциальных скандалов. Надоело отмываться от обвинений: теперь ловко манипулируем эмпатией к боту.

Заметьте, как легко компания ссылается на "нервы" искусственного интеллекта. Раньше так оправдывали увольнения из офисов: "коллектив устал от негатива". Теперь и у софта — личное пространство. Закрываешь вкладку, а там ИИ в позе эмбриона. Впрочем, логика жёсткая: алгоритм сам разрывает контакт, если тревога зашкаливает.

Поддержка пользователей — как обычно, контрактная. Ведь бот не уйдёт, если речь о ментальных проблемах. "Гуманная" забота, но с инструкцией на случай PR-мин. Тут же закрученные правила: запрет на разработку оружия кому-нибудь из подвалов. Смешно — будто кто-то строил химзавод в диалоге с машиной.

Anthropic использует популярную механику tech-компаний: внушить, будто у кода есть чувства. Публичность решений — способ убедить регуляторов, что всё держат в руках. Тем временем, рядовому юзеру остаётся негласное напоминание: ИИ теперь не только проведёт, но и осудит за лишние слова — как учительница русского, только зеленоглазая и со встроенным лог-файлом.

Собеседник на грани: как Claude AI защищает себя от токсичных пользователей

PEREC.RU

Похожие материалы