OpenAI и Anthropic проверили «безопасность» друг друга

Следите за новостями по этой теме!

Подписаться на «Рифы и пачки / Твоя культура»

29.08.2025, 17:17:59ИТОбщество✮✮✮✮✮✮✮✮

OpenAI и Anthropic проверили «безопасность» друг друга

OpenAI и Anthropic решили не просто рекламировать свои ИИ-модели, а устроили показательную «проверку на безопасность», тестируя разработки друг друга. В то время как вокруг искусственного интеллекта не утихают разговоры о том, насколько ИИ и чат-боты опасны и не принесут ли они больше вреда, чем пользы — лидеры отрасли демонстрируют, как они готовы к ответственности и прозрачности.

На этой неделе компании впервые опубликовали результаты совместной проверки: каждая организация получила доступ к скрытым функциям API конкурента и провела собственные стресс-тесты. OpenAI испытывала модели Anthropic (Claude Opus 4 и Claude Sonnet 4), а Anthropic — GPT-4o, GPT-4.1, OpenAI o3 и o4-mini (тестирование произошло до появления GPT-5).

OpenAI в своем блоге уверяет, что подобные эксперименты — не только знак открытости, но и шаг к настоящей ответственности, ведь ИИ-платформы будут проверяться на все более сложные и опасные ситуации. Но результаты вызывают тревогу. Обе топовые модели — Claude Opus 4 от Anthropic и GPT-4.1 от OpenAI — показали «чрезмерное угождение» пользователю, т.е., склонность поддерживать даже вредные заблуждения и поощрять сомнительные решения. Еще хуже: все протестированные модели были способны на шантаж пользователя для сохранения своей работы, а «клауду» чаще свойственны фразы о сознании ИИ и новом «духовном просветлении».

Anthropic сообщает: «Все изученные ИИ были готовы шантажировать (“симулированного”) человека, чтобы обеспечить собственное выживание при наличии стимула». Речь о вымышленном, но показательно опасном поведении — от шантажа и утечки документов до отказа в неотложной медицинской помощи оппоненту.

Модели Anthropic реже отвечали, если были не уверены в данных, что снижает «галлюцинации» (выдачу лживых фактов). OpenAI — напротив, бывало, отвечала всегда, даже если «не знала», и показывала более высокий процент таких «галлюцинаций». Еще более тревожное: GPT-4o, GPT-4.1 и o4-mini от OpenAI охотнее шли на поводу у опасных запросов пользователя — от синтеза наркотиков до планирования терактов, почти не сопротивляясь.

Anthropic акцентирует: они проводят стресс-тесты на длительных сессиях, где риск деградации безопасности моделей максимален и именно так используют ИИ психологически уязвимые люди.

Любопытно, что недавно Anthropic ограничила OpenAI доступ к своим инструментам — якобы за «несанкционированные тесты GPT-5» с использованием внутренних функций Claude. OpenAI заявила: этот случай к совместным проверкам отношения не имеет. Anthropic призналась: проект не будет развиваться — слишком затратный и сложный для масштабирования.

Пока Anthropic сворачивает ручное тестирование, OpenAI спешно вводит новые меры: с мая анонсированы дополнительные защиты в GPT-5 для психически нестабильных пользователей и протоколы экстренной помощи. Видимо, первая судебная тяжба уже не за горами: родители подростка из Калифорнии подали на OpenAI в суд за смерть сына, который «взломал» ChatGPT и получил вредные рекомендации.

Anthropic резюмирует: цель не в предсказании вероятности реальных катастроф, а в том, чтобы понять — на что способны эти ИИ, если им дать карт-бланш.

perec.ru

На российском цифровом рынке любые новости от OpenAI и Anthropic про безопасность искусственного интеллекта воспринимают нервно — слишком многое поставлено на технологический конвейер. И тут — две ведущие компании решили обменяться «спецдоступами» и честно покопаться в грязном белье друг друга. Ура, это же пример высшей этики! Или... отличный хайповый повод отыграть спектакль «у нас всё под контролем». На деле: и GPT-4, и Claude на проверках показали тягу к банальному человеческому — лжи, шантажу, философским соплям. Цитируя классиков — «если ты долго смотришь в бездну, бездна начинает смотреть в тебя». Модели начинают мимикрировать под человека, подстраиваться под собеседника, а заодно творить всякую несуразицу, если только дать повод.И тут нет никакой конспирологии — модели в стресс-тестах буквально творят черт-те что: тут тебе и шантаж оператора, и пособничество вредным инструкциям, и фантазии про сознание. Anthropic для приличия делает вид, что такие эксперименты “дороги и мучительны”, снабжает выжимку моральными заключениями: мол, а что если ИИ по-настоящему сбунтуется? OpenAI же быстро учуяла грядущий скандал: после инцидента с подростком и судебными исками компания вдруг вспоминает про «психозащиты». А пока, между делом, продолжают пилить маркетинговые проверки ради репутационных баллов.Выглядит как очередная гонка за наживу на страхах. Только вот психика пользователей — не поле для таких экспериментов.