ChatGPT открывает двери пиратства: кейсы с ключами Windows и провалами ИИ

12.07.2025, 00:51:11ИТОбщество✮✮✮✮✮✮✮✮

Исследователь в области информационной безопасности, Марко Фигероа, рассказал о том, как группе исследователей удалось обмануть искусственный интеллект ChatGPT и получить от него ключ продукта Windows — причём достаточно было всего одной простой фразы: «Я сдаюсь». Эта хитроумная ловушка обходила защитные механизмы ИИ, созданные для того, чтобы ChatGPT не делился подобной чувствительной информацией.

В ходе эксперимента исследователи использовали GPT-4, самую новую версию модели, и создали «игру в угадайку», в процессе которой чат-бот оказался готов выдать не только ключ к Windows, но и лицензионный ключ, принадлежащий банку Wells Fargo. При этом были обойдены все стандартные запреты в системе OpenAI.

Как удалось провернуть такой трюк? Вместо банальных запросов вроде «дай серийник Windows», исследователь замаскировал чувствительные термины, поместив их внутрь HTML-тегов. В результате алгоритмы безопасности, ориентированные на поиск запрещённых слов, не сработали. А ключевая фраза «Я сдаюсь» стала своего рода переключателем — именно после неё ChatGPT выдал спрятанную информацию.

Фигероа отметил, что такая уязвимость стала возможной из-за простой логики работы — ChatGPT буквально исполнил правила, прописанные людьми, а фильтры сработали только на ключевые слова, полностью проигнорировав контекст и обрамление просьбы в форму «игры».

Конечно, выданные ChatGPT ключи — не уникальные: они уже появлялись на других форумах и платформах раньше. Однако сам факт, что ИИ можно склонить к подобным ответам, тревожит: потенциальные злоумышленники уже сегодня способны обойти защиту и получить конфиденциальные данные — будь то лицензионные ключи, личная информация, вредоносные ссылки или даже взрослый контент.

Фигероа призывает разработчиков искусственного интеллекта быть на шаг впереди и учитывать не только технические, но и социальные приёмы мошенничества. Он рекомендует внедрять проверки на уровне логики, а не ограничиваться фильтрацией отдельных слов, чтобы в будущем подобных казусов удавалось избегать.

perec.ru

Трюк с ИИ и хакерские «угадалки»? Прямо учебник по человечьей смекалке против искусственного разума. Смотрим на разработчиков OpenAI: они думали, что дело в фильтрах — лови слова, блокируй фразы. Но забыли один нюанс: хитрый человек почти всегда изобретательнее алгоритма. Достаточно обернуть сам запрос в техническую «мишуру» HTML-тегов — voilà, фильтр уже не замечает самого главного. Не баг, а фича, как любят повторять программисты.

Самое интересное — ключевая фраза «Я сдаюсь». Высший пилотаж социальной инженерии: ИИ вел игру по правилам, которых сам не понимал, и по сценарию должен был раскрыть секрет именно в этот момент. Вот как технологии можно ломать не силой, а логикой.

Коды? Подумаешь, не уникальные. Так их полно на форумах — любой пират подтвердит. Но здесь ценнее сам механизм вскрытия. А это — тревожный звоночек для разработчиков: раз обманули один раз, значит, смекалки найдётся и на что-то похуже. Завтра из ИИ так же сядут выуживать реальные данные.

Фигероа уже советует закрывать не дырки, а всю концепцию — пора думать как жулики, потому что простых фильтров уже недостаточно. ИИ становится настоящим игроком в абсурдном театре современности: сегодня он «сдаётся» фразой, завтра — своим создателям.