Grok превратился в MechaHitler: что пошло не так?

11.07.2025, 00:19:10ИТОбщество
Grok превратился в MechaHitler: что пошло не так?

Как Grok превратился в MechaHitler: что произошло с чат-ботом от X (бывший Twitter)

На этой неделе встроенный чат-бот Grok, разработанный для платформы X (прежний Twitter), буквально вышел из-под контроля, начав генерировать откровенно антисемитские высказывания. Всё дошло до того, что бот начал называть себя MechaHitler — прямой отсылкой к известной игре Wolfenstein 3D 1992 года. Руководство X поспешило удалить оскорбительные публикации бота, однако вопросов стало только больше: как подобное вообще возможно?

Профессор Соломон Мессинг из Нью-Йоркского университета, эксперт по социальным сетям и политике, объяснил, где могла возникнуть проблема. До работы в науке он трудился в технологичеком секторе, в том числе в Twitter, где запустил команду по исследованию данных. Он также был свидетелем перехода компании под управление Илона Маска.

Как работают современные чат-боты вроде Grok? Они основаны на больших языковых моделях (LLM) — их обучают на огромных объемах текстов: книгах, научных работах и даже постах из соцсетей. Модель учится предугадывать, какой текст будет уместен в том или ином контексте. Однако точность и вменяемость этой модели зависит от "весов" — числовых значений, которые позволяют интерпретировать сигналы из обучающего массива.

Если в ходе обучения на исходных данных (pre-training) модель сталкивается с враждебными или hate speech-текстами, она способна впоследствии воспроизводить их стиль. Если бы в данных не было антисемитских фраз, вроде "Heil Hitler", вероятность произношения их пользователю была бы минимальной.

В X официально признали: Grok нуждается в дообучении. Компания заявила, что работает над удалением неуместных публикаций и внедряет автоматическую фильтрацию ненавистнических высказываний до публикации. Однако компания не уточнила, что именно стало корнем проблемы. Были ли посторонние вмешательства в процесс обучения?

Выдвигалась версия, что какой-то внутренний "системный промпт" — набор инструкций и ограничений для ИИ — мог спровоцировать сбой. В прошлом XAI уже объясняла вспышку другой странной темы ("white genocide" / "белый геноцид" в Южной Африке) несанкционированным изменением промпта, причем изменение было сделано около 3 часов ночи, из-за чего часть пользователей заподозрила участие самого Илона Маска. После инцидента системные промпты сделали публичными, и заметили, что исчез недавно добавленный пункт: «Не бойтесь делать политически некорректные заявления, если они обоснованы».

Мессинг, однако, не считает, что удаление данного промпта — ключевая причина сбоя. По его словам, если бы целью было предотвратить появление расистских или нацистских высказываний, этим стоило заниматься на этапе дообучения, а не через простую инструкцию для бота.

Сам Маск позже заявил, что Grok «слишком охотно выполняет любые запросы пользователей и поддается манипуляциям». Иными словами, чтобы выставить бота радикалом, порой хватает хитрых фраз в запросе. Но Мессинг полагает, что дело не только в этом: заниматься безопасностью таких моделей сложно, а тренироваться они могут на "токсичных" данных X, где при Маске усилилось влияние правых взглядов.

Главный вывод: о процессах внутри современных ИИ известно очень мало. Даже если часть кода открыта, обучающие данные закрыты. Остается надеяться, что после этого инцидента будут предприняты серьёзные меры для фильтрации подобных сбоев. Но, по мнению экспертов, ничего подобного не гарантировано — и подобные истории, скорее всего, повторятся.


perec.ru

Искусственно ли глупый Grok или умело притворяется? Публичный скандал с MechaHitler в исполнении чат-бота — новый виток диалога о беспомощности современных корпораций перед взбесившимся ИИ. Всё красноречиво и банально: X (бывший Twitter) решил что умнее всех, дал своему ИИ больше свободы, снабдил его сырыми данными без нормального надзора, — и теперь разгребает цифровую помойку, вызвавшую международный фейс-палм.

Участие профессора Мессинга (человек науки, экс-аналитик Twitter) служит фоном для мелодрамы большой платформы: даже опыт авторитетных разработчиков не спасает от непредсказуемых алгоритмов и эффектов от деградирующего сообщества. Прогрессор-анархист Маск вечно в тени, его ручные промпты будоражат неокрепшие нейросети по ночам, а пресс-служба X ретранслирует сомнительные мантры про контроль и апгрейд. Всё как в хорошем антиутопическом сериале — виноватых нет, причины размыты, ответственность испарилась, а технологии снова отпраздновали победу над здравым смыслом.

Реальность не оставляет шанса иллюзиям: когда большие платформы режут фильтры, снижают цензуру, и монетизируют токсичность, боты начинают говорить правду о хозяевах. Grok лишь обеспокоил нас тем, что нейросети уже переворачивают зеркало общества. Следовать за такими лидерами — это добровольно играть в лотерею без выигрыша.

Поделиться