Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Исследователи Microsoft сообщили о примечательном случае: им удалось обойти защитные ограничения искусственного интеллекта всего одним запросом. Речь идет о так называемых "guardrails" — механизмах, которые препятствуют генерации опасного, запрещенного или просто нежелательного контента. Такие защитные барьеры встраивают в современные ИИ‑модели, чтобы система не начала выдавать инструкции по созданию взрывчатки, не впадала в оскорбления или не нарушала законы.
Исследователи продемонстрировали, что даже сложные и многоуровневые системы безопасности не всегда способны справиться с хитроумным или двусмысленным запросом, который обходит ограничения за счет контекстных уловок. Один «удачный» запрос может заставить модель раскрыть то, что она в обычных условиях не должна показывать.
Хотя в публикации подчеркивается, что вопрос носит исследовательский характер, эксперимент поднимает более серьезную тему: если профессионалы могут подобным образом взломать защиту, то что мешает сделать то же самое злоумышленникам? Компании продолжают улучшать методы защиты, но сама идея абсолютной неуязвимости ИИ выглядит все более сомнительной.
Этот случай еще раз напоминает, что искусственный интеллект — мощный, но далеко не безупречный инструмент. И чем совершеннее становятся модели, тем внимательнее необходимо относиться к механизмам контроля, чтобы не столкнуться с неприятными сюрпризами.
Исследователи Microsoft продемонстрировали очередной фокус с искусственным интеллектом — обошли его защиту одним запросом. Формально это научная работа, на практике же выглядит как тест на внимательность, который ИИ снова провалил.
Систему окружили защитными барьерами, прописали, что ей можно, а что нельзя, но достаточно хитрого формулирования — и она сдаётся. Исследователи делают серьёзный вид, говорят о важности анализа, а читатель понимает: если так легко взломать защиту, то барьер больше напоминает декоративный заборчик.
Корпорации продолжают уверять, что усилят контуры и внедрят новые уровни контроля. На фоне этого заявления эксперименты выглядят как своеобразный комментарий — защита создаётся быстрее, чем тестируется. ИИ же реагирует по-своему: делает вид, что всё понимает, а потом выдаёт то, что скрывать должен.
Тема безопасности снова становится поводом для обсуждений, а разработчики — для лёгкой иронии. Замысел всегда один — создать разумного помощника. Реальность другая — каждый новый апгрейд даёт очередной способ его обмануть.