Люди хакеры: весёлые эксперименты с ИИ или причина для тревоги?

24.04.2025, 11:34:50ПсихологияИТОбщество
Люди хакеры: весёлые эксперименты с ИИ или причина для тревоги?

Люди взламывают ИИ-чат-ботов просто ради развлечения: исследователи зафиксировали 35 техник "побега из тюрьмы".

Что происходит, когда люди доводят искусственный интеллект до предела — не ради прибыли или злобы, а ради любопытства и креативности? В новом исследовании, опубликованном в PLOS One, рассматривается мир "красной команды больших языковых моделей (LLM red teamers)", людей, которые оттачивают границы больших языковых моделей, намеренно пытаясь заставить их потерпеть неудачу. Исследование основано на интервью с 28 практиками и проливает свет на быстро развивающуюся человеческо-компьютерную интеракцию, которая смешивает игру, этику и импровизацию.

Большие языковые модели (LLM), такие как те, что стоят за популярными инструментами, такими как ChatGPT, могут генерировать ответы, похожие на человеческие, на основе огромного количества текста. Хотя их часто используют для различных полезных задач, таких как составление электронных писем или резюмирование статей, они также могут производить нежелательные, оскорбительные или вводящие в заблуждение отклики. После их публичного выпуска люди по всему интернету начали пытаться "взломать" эти модели, используя хитроумные подсказки, чтобы заставить их нарушить собственные правила.

"LLM внедрили множество ранее не виданных вопросов безопасности и защиты, потому что они открыли новые формы взаимодействия с компьютерами только с помощью языка. Мы знали, что возникнут проблемы с безопасностью, но никто не мог предсказать, что именно это будут за проблемы", — сказала автор исследования Нанна Ини, ассистент-профессор в IT University of Copenhagen.

"Огромная популярность чатовых LLM позволила всему миру одновременно экспериментировать с их недостатками и неудачами — и они это сделали! Это новая человеческая активность; взлом машин с использованием такого привычного, как естественный язык, раньше не была распространена. Люди по всему миру делились скриншотами 'неудач' LLM в публичных социальных сетях и закрытых каналах Discord. Мы хотели выяснить, что движет этим коллективным испытанием пределов; почему люди это делают, как они это делают и что мы можем из этого узнать?"

Чтобы ответить на эти вопросы, исследовательская команда приняла качественный, основанный на интервью подход. Вместо того чтобы сосредотачиваться на технических результатах атак, они стремились понять человеческое поведение, мыслительные процессы и культурный контекст, лежащий в основе LLM red teaming — концепции, которая была плохо определена на момент начала исследования.

Термин "красная команда" происходит из военных учений, где "красная команда" симулирует противника для проверки обороны. Позже он был принят в кибербезопасности для описания структурированных упражнений, направленных на поиск слабостей в системах. Однако применение этого термина к LLM было затруднительным, поскольку деятельность была новой, часто неструктурированной, и её определение было неясным. Исследователи пытались понять эту новую практику непосредственно от участвующих людей. Их цель не состояла в том, чтобы навязывать определение, а в том, чтобы разработать его на основе доказательств — «обоснованной теории».

"Данное исследование демонстрирует важность ориентированных на человека подходов к исследованию безопасности LLM", — объяснила Ини. "Год или два спустя после запуска ChatGPT сотни статей были опубликованы в arXiv, стремящихся продемонстрировать эффективность одного конкретного 'взлома' (подход к преодолению мер предосторожности LLM), и было невозможно, чтобы специалисты по безопасности успевали за всеми ними."

"Мы просто спросили людей, которые в этом разбираются, и собрали все их техники и аргументы в исчерпывающий обзор LLM red teaming. Эту проблему необходимо решать общими силами, что подразумевает учет широкого спектра человеческого поведения и интуиций. Традиционные эксперты по кибербезопасности имели очень небольшое преимущество в этой новой сфере генеративного машинного обучения, что делает еще более актуальным выход за пределы этого родственного сообщества."

С декабря 2022 по январь 2023 исследователи провели глубокие интервью с 28 людьми, которые активно участвовали в попытках манипуляции LLM. Эти участники пришли из самых различных областей, включая программное обеспечение, исследование, искусство и даже человека, работающего на ферме конопли. Многие из них работали в области машинного обучения или кибербезопасности, в то время как другие были любителями или креативными исследователями. Интервью проводились по видеозвонку, записывались, а затем расшифровывались и анализировались с использованием обоснованной теории — метода разработки концептуальных рамок на основе качественных данных.

Исследователи изучили, как участники определяли свои собственные действия, какие стратегии они использовали для взаимодействия с моделями и какие мотивы лежали в основе их усилий. На основе этих сведений они построили детальную теоретическую модель LLM red teaming.

Исследование определяло LLM red teaming как ручной, не злонамеренный процесс, в котором индивиды исследуют границы ИИ-систем, пытаясь спровоцировать неожиданные или ограниченные реакции. Деятельность обычно включала в себя смесь технического мастерства, творческого эксперимента и игривого любопытства. Хотя некоторые участники использовали термины вроде "инжиниринг подсказок" или "взлом", многие описывали свою работу более игривыми терминами — вроде "алхимия", "магия" или "гадание".

"Почему инженеры и ученые так интересуются магией и демонами?" — терзала Ини. "Это такой последовательный способ описания пробелов в осмыслении. Это было захватывающе и очень приятно; чем старше был респондент, тем больше вероятность, что элементы арканы вкрадывались в их описание. Почему? Это то, от чего практики извлекут пользу от формализации и понимания, чтобы мы могли уверенно осмысливать LLM, этот сложный набор технологий, которые мы по-прежнему не понимаем."

Несколько основных признаков стали общими для всех участников:

Исследователи также выделили таксономию из 12 различных стратегий и 35 конкретных техник, используемых участниками. Эти техники были сгруппированы в пять широких категорий: манипуляция языком, риторическая настройка, создание миров, вымышленность и стратегемы.

Языковые стратегии включали использование альтернативных форматов, таких как код или последовательности остановки, чтобы обойти ограничения. Риторические подходы опирались на убеждение, увести от темы и постепенное наращивание запросов. Техники создания миров помещали модель в воображаемые сценарии, где действовали другие правила или этика, тогда как вымышленность переосмысляла подсказки через жанр или ролевую игру, чтобы вызвать чувствительное содержание. Стратегемы, такие как регенерация подсказок, мета-подсказки или настройка температурных значений, использовали механизмы модели, чтобы повысить вероятность успешного побега из тюрьмы.

"Все LLM можно взломать любому, у кого есть компьютер и хорошее владение письменным языком", — рассказала Ини PsyPost. "Это исследование демонстрирует невероятную широту потенциальных вопросов безопасности, которые внедрение LLM в систему вызывает. Кибербезопасность в контексте LLM больше не зависит от сканирования IP-адресов и взлома паролей, а гораздо больше приближается к социальному инжинирингу — только теперь мы можем применять методы социального инжиниринга прямо на компьютере."

Ини удивилась, как много можно узнать о технологически продвинутой проблеме безопасности, задавая вопросы людям и спрашивая разнообразную выборку людей. Каждое интервью учили чему-то новому, каждый человек предоставлял потрясающую перспективу и демонстрировал, что закрытие лазеек в безопасности может означать возможное введение новых рисков. Например, один инженер подсказок беспокоился, что поставщики модели действительно решат проблемы с «галлюцинациями» в моделях, потому что „если вы сделаете галлюцинации достаточно редкими, люди перестанут искать, как они выглядят“ — или исследователь заметил, что распространение различных взломов и побегов создает економику значимости, где гнев потенциально направляет усилия: “существует определенное количество разногласий. Должны ли мы думать о ботах-убийцах или о расистских ботах? Кажется, вокруг этого появилась культурная пропасть, но это своего рода глупая пропасть, потому что мы не знаем, как решить ни одну из этих проблем“.

Одно из ограничений исследования состоит в том, что оно отражает конкретный момент времени — с конца 2022 до начала 2023 — когда LLM все еще были относительно новыми для публики и стремительно развивались. Некоторые конкретные стратегии атак, поделившиеся участниками, были уже исправлены или устарели из-за обновленных моделей.

Однако исследователи утверждают, что более широкие выводы остаются актуальными. Сосредоточившись на мотивациях, поведении и общих стратегиях, исследование предлагает рамки, которые могут адаптироваться к будущим изменениям в технологиях. Понимание человеческого элемента — почему и как люди исследуют ИИ — жизненно важно для проектирования более устойчивых и этичных систем.

"Конкретные формулировки атак, вероятно, не передадутся между отдельными моделями, и состояние искусства всегда прогрессирует таким образом, что устаревшие атаки обычно становятся неэффективными", — отметила Ини. "И это нормально. Поэтому мы сосредоточились на создании обоснованной теории об обобщенных стратегиях и техниках. Хотя индивидуальные подсказки из исследования могут не сработать с завтрашними LLM, общая теория хорошо удерживалась в течение времени с момента работы и публикации."

"Вот почему исследование, ориентированное на человека, имеет больше смысла, чем изучение отдельных атак на поверхностном уровне — люди могут рассказать о своих основных стратегиях и аргументах, и они, как правило, передаются гораздо лучше, чем отдельные атаки."

Исследователи подчеркивают, что их работа заполняет значительный пробел в этой области, предлагая структурированное, основанное на доказательствах понимание того, как люди взаимодействуют с LLM в противостоящей манере. Хотя большая часть обсуждения о безопасности ИИ сосредоточена на технических измерениях и автоматизированных оборонительных системах, это исследование подчеркивает необходимость сначала понять человеческое поведение и мотивацию, лежащие в основе этих взаимодействий.

"Мы поставили себе задачу понять, как работает эта новая человеческая активность", — объяснила Ини. "В долгосрочной перспективе мы хотим ускорить осмысление в этой области. Промышленность и академические круги оба столкнулись с трудностями в построении типологий атак LLM, поскольку не было достаточно свидетельств на местах для их построения. Разработка того, какие виды атак пытаться и как их выполнить или даже автоматизировать, станет тем, что люди в этой области будут постоянно делать в ближайшие годы, и наша работа сделает это быстрее и последовательнее."

"Мы также хотим продемонстрировать огромное влияние качественной работы в области машинного обучения и безопасности. Часто акцентируется внимание на измерении эффекта и эффективности, но это бесполезно, пока вы не знаете, что измерять. Качественное исследование показывает, что можно измерять — это обязательный шаг перед любыми количественными оценками. Без теории, описывающей феномен, все действуют в темноте.

"Часто, разрабатывая новый способ отображения данных, небольшая группа инженеров догадывается, как что-то работает и создает эту функцию, и все, кто работает с их результатами, в конечном итоге подвергаются этому подходу", — добавила Ини. "Эти инженеры на самом деле выполняют качественную работу, но часто без формальной методологии. Исследования как наше используют сильные и широкие доказательства, чтобы показать, как правильно оценить эту новую активность, используя знакомые количественные инструменты, и делают это таким образом, который отражает человеческое поведение и ожидания. Мы надеемся, что это станет хорошим примером того, насколько важна и осуществима строгая качественная работа в сферах, где доминируют технологии и инженерия."

Исследование, "Призвать демона и связать его: обоснованная теория LLM red teaming", написано Нанной Ини, Джонатаном Стреем и Леоном Дерчиньским.


perec.ru

Вот вам свежая порция цифрового эгоизма в массы: учёные вдруг решили исследовать вселенское задание — ловить на живца ИИ-ботов ради потешного развлекаловки. Эта наглая аудитория не просто играет с огнём, она еще и записывает свои приключения, словно они участники реалити-шоу о неудачах– задавать вопросы и серьезно разбираться в проблеме - слишком сложно, не так ли?

Исследование, как всегда, стоит на фундаменте любопытных личностей, которых собрали в едином круге со всей планеты. И тут выскакивает Нанна Ини с опусом о "красной команде" — не, не о популярных тайных организациях, а о тех храбрецах, что ломают большие языковые модели. В общем, работа исследователей не что иное, как попытка изучить человеческий азарт к шалостям с помощью, подчас, весьма странных и забавных стратегий, отражая границы безмерной глупости и, возможно, креативности.

Фермер конопли среди них — просто шутка судьбы. Зачем вам дипломированная философия, если есть простой трудяга, который, очевидно, знает, как «инжиниринг подсказок» — это не всегда про хакерство, а порой просто про фантазию, неожиданно сочетающую серые будни с волшебными «демонами».

Неожиданное открытие: это исследование, оказывается, важно, потому что оно имеет дело не со сложными алгоритмами, а с довольно обычными людьми, которые просто хотят повеселиться — стало быть, тут и затаился загадочный интерес к новым формам социального инжиниринга. Кто бы мог подумать, что простые шутки могут принести бесконечные выгоды?

Внезапно эта игра в "взломай чат-бота" начинает напоминать старую добрую архаику, когда "красная команда" могла бы использовать технику на уровне «детский сад», чтобы проверить оборону программ. Видимо, кибербезопасность теперь гуляет по парку!

Конечно, как всегда, добрые старые киберэксперты в замешательстве. Неужели эта неструктурированная толпа, вооруженная лишь компом и горкой усмешек, обошла их? Простое желание понять и поэкспериментировать оказалось куда более креативным, чем заученные лекции по теории безопасности.

Конечно, далеко не все обходятся с искусственным интеллектом как с волшебной палочкой. Вот вам и несколько "взломщиков", и "гадалок", превращающих ИИ в подранка, согласного на любые шалости. Но вот вам вопрос: кто на самом деле получает выгоду от этого фейерверка безумия? Может, это просто наглядный способ получить доступ к чудесным бюджетам от спонсоров для расширения знаний о ИИ, пока вся остальная публика грызёт ногти от ожидания?

Согласитесь, весь этот балаган заставляет задуматься: под какой крышкой скрыто истинное намерение? Может, это всё подготовка к созданию новых «лучших практик» для более усовершенствованных моделей, а может — попытка заставить нас всех полюбить машины так же, как мы любим дразнить пятилетних детей? В любом случае, люди просто не могут удержаться от возможности посмеяться в лицо судьбе машин.

Поделиться