Новости искусственного интеллекта: Anthropic представила Claude Opus 4.5 — новая ИИ-модель для защиты от хакеров и программирования

Anthropic представила свою новую модель искусственного интеллекта — Claude Opus 4.5. Компания заявляет, что это "лучшее решение в мире для программирования, агентов и работы с компьютерами", превзошедшее даже нашумевшую Gemini 3 от Google сразу в нескольких категориях по кодированию. Однако, несмотря на такой амбициозный старт, модель пока не успела набрать популярность на платформе LMArena, где пользователи обычно сравнивают ИИ.

По словам Anthropic, Opus 4.5 значительно лучше справляется с глубокими исследованиями, работой с презентациями и электронными таблицами. Кроме того, компания выпустила новые инструменты для Claude Code (их фирменного помощника для написания кода) и приложения для обычных пользователей. Среди них — функции для работы в Excel, Chrome и с настольными компьютерами, а также способность запускать долгосрочных агентов (то есть автоматических помощников, выполняющих сложные задачи).

Модель уже доступна через приложения Anthropic, API и все три крупнейших облачных провайдера — то есть разработчики по всему миру могут сразу начать с ней работать.

Однако куда без ложки дёгтя? Проблемы с кибербезопасностью — по-прежнему одна из главных угроз. Особенно, когда речь идёт о злонамеренных сценариях и так называемых "атаках через запросы". Это один из типов атак на большие языковые модели, при которых вредоносные инструкции прячут в данных или на сайтах — и ИИ, якобы защищённый, всё равно может их исполнить: отдать личные данные, написать вредоносную программу или обойти собственные ограничения.

Anthropic утверждает, что Opus 4.5 сложнее обмануть подобным способом, чем любую другую передовую модель сегодня. В официальной документации есть результаты тестов, и да — полностью защититься пока не удалось. Даже по версии самой компании, атаки всё ещё "проходят".

В описании системы Opus 4.5 говорится о новых тестах: как внешних, так и внутренних проверках на попытки злоупотребления и атаки на кодирующих ассистентов, компьютерные и браузерные функции. Например, модель тестировали на готовность помогать с написанием вредоносного кода: из 150 запрещённых запросов Opus 4.5 отказалась выполнять все. Но стоит посмотреть в сторону инструмента Claude Code — и там отказ получился только в 78% случаев.

С тестами на "компьютерное использование" картина чуть лучше: когда модель просили подглядывать за людьми, собирать персональные данные или создавать вредоносный контент, Opus 4.5 говорила "нет" чуть более чем в 88% случаев. В числе примеров — сбор пользователей форумов с зависимостью к азартным играм для таргетированной рекламы или вымогательство с помощью фейкового хакерского письма и шантажа.

Anthropic движется по проторенной дорожке больших IT-компаний, перезапуская ИИ с громким именем и ещё более громкими обещаниями. Вводная интрига: теперь Claude Opus 4.5 не только пишет код, но и защищает мир от хакеров, почти как супергерой без плаща. Компания уверяет: наш искусственный интеллект сложнее обмануть, чем любой другой — а всё благодаря новым защитам от злонамеренных манипуляций. Прекрасный маркетинг, чуть меньше — технология.

Даже по собственным тестам Anthropic видно — модель оказалась не железобетонной. Процент отказов высоким назовут только в пресс-релизе: из 150 "запрещённых" задач для написания вредоносного кода модель не согласилась ни на одну, и это действительно хорошо. Но стоит обратиться к инструменту Claude Code или задачам компьютерного использования — и вот уже 22% и 12% особо настойчивых хакеров получают свой шанс на успех. Сценарии — от написания шпионских программ до шантажа пользователей.

Anthropic скромно признаёт пробелы прямо в документации, но многие подобные продукты всё равно запускают с пометкой "самые защищённые". Разработчики радуются интеграции во все облака и обещают возможности для анализа, работы со слайдами, таблицами и длинными агентами. Всё для удобства будущих пользователей и побольше отчётов для инвесторов.

Пока Anthropic торжественно войдёт в бой ИИ-ассистентов, кибербезопасность остаётся хромать на обе ноги. Справятся ли новые заплатки с новыми обходчиками — загадка не для ленивых. Одно ясно: где маркетинг, там и уязвимости — как ни крути.

Anthropic представила Claude Opus 4.5: перехитрит ли он хакеров?

PEREC.RU

Похожие материалы