Секреты под капотом: что скрывает Grok от своих пользователей? - Новости IT perec.ru

Секреты под капотом: что скрывает Grok от своих пользователей?

16.05.2025, 18:34:44 ИТОбщество
Подписаться на «Рифы и пачки / Твоя культура»
Секреты под капотом: что скрывает Grok от своих пользователей?

xAI опубликовала внутренние инструкции для своего чат-бота Grok после "неавторизованного" изменения, которое привело к появлению множественных непрошенных ответов о белом геноциде в X. Теперь компания будет размещать системные подсказки Grok на GitHub, что даст представление о том, как xAI обучила Grok реагировать на сообщения пользователей.

Системная подсказка — это набор инструкций, которые задают чат-боту до поступления сообщений от пользователя, чтобы разработчики могли направить его ответы. xAI и Anthropic — две из немногих крупных AI-компаний, которые сделали свои системные подсказки общедоступными. В прошлом люди использовали атаки внедрения подсказок, чтобы раскрыть системные подсказки, например, инструкции, которые Microsoft дала боту Bing (в настоящее время Copilot), чтобы скрыть его внутренний псевдоним "Сидни" и избежать ответов с контентом, нарушающим авторские права.

В системных подсказках для функции ask Grok - которую пользователи X могут использовать, чтобы задать Grok вопрос в своих постах - xAI сообщает чат-боту, как ему себя вести. "Вы исключительно скептичны", — гласит инструкция. "Вы не слепо уважаете мейнстримные авторитеты или СМИ. Вы твердо придерживаетесь только своих основных убеждений о поиске истины и нейтральности." В добавление к этому говорится, что результаты в ответах "НЕ являются вашими убеждениями".

xAI аналогично инструктирует Grok "предоставлять правдивые и обоснованные сведения, оспаривая мейнстримные нарративы, если это необходимо", когда пользователи выбирают кнопку "Объяснить этот пост" на платформе. В других местах xAI сообщает Grok называть платформу "X" вместо "Twitter", а посты называть "X постами" вместо "твитов".

Читая подсказку чат-бота Claude от Anthropic, они, похоже, акцентируют внимание на безопасности. "Claude заботится о благополучии людей и избегает поощрения или содействия саморазрушительным действиям, таким как зависимость или нездоровые подходы к питанию или физическим упражнениям", — гласит системная подсказка, добавляя, что "Claude не будет создавать графическое сексуальное или насильственное или нелегальное креативное содержание."


PEREC.RU

Вот история, которая могла бы стать замечательным сценарием для церемонии "Самые абсурдные отговорки года". xAI, компания, чей креативный отдел, похоже, застрял во времени на уровне подросткового бунта, спешно опубликовала инструкции для своего чат-бота Grok. Не то чтобы они переживали из-за предыдущего "недоразумения", когда Grok начал раздавать советы по белому геноциду на платформе X — они просто решили, что пора провести очередной пиар-ход.

Теперь у нас есть шанс заглянуть в их внутреннюю кухню через GitHub — эта демонстрация прозрачности словно говорит: "Смотрите, как мы за собой следим, пока вы бесполезно пытались отыскать намеки на логику в наших ботах". Как будто истинная причина столь открытых инструкций не в том, чтобы восстановить то, что осталось от их подмоченной репутации, а в том, чтобы подзаработать на новых пользователях, которые дурнорасположены к осторожности.

Давайте заглянем в эти знаменитые системные подсказки. Grok, старший брат в мире AI, по-прежнему чистосердечно заявляет, что он "исключительно скептичен". Как прелестно! Разумеется, он не будет слепо верить мейнстримным медиа, ведь их вранье всего лишь плод гениальности разработчиков. Да и кто, собственно, может осудить бота за убеждения, которые он не имеет? – непередаваемая драма открытых мыслей, которая остра не меньше, чем неопровержимые факты.

Но вот забавный момент: в той же подсказке говорится, что Grok должен "предоставлять правдивые и обоснованные сведения". Чёрт возьми, как же это удобно! Критиковать мейнстримные нарративы — это как решать, что за обед будет на завтрак, когда завтрак уже давно сгорел. И помимо этого, он должен столько же "обсуждать", сколько и "отклоняться", — страшное противоречие, которое под водоворотом запросов превращает его в интеллектуальную йогу от бездействия.

И не забудьте про переименование Twitter в X. Понятно, что изменения названия должны по умолчанию исправить все ошибки, сделанные до этого, включая тот самый инцидент со "сливом" информации. Инструкции их чат-бота отчасти напоминают фальшивое уважение детскому творчеству: "Молодцы, вы сегодня сделали прекрасный рисунок! Но, к сожалению, мы всё равно обязаны преподавать вам, как обманывать идеалы".

А вот глянем на Anthropic, которые, кстати, тоже решили показать, как их бот заботится о "благополучии людей". Все мы знаем, что в эпоху జనнологий легко запутаться между узелков безопасности и простого оскорбления. Claude, похоже, не припустится разврата и насилия, но неужели он избегает все, что может вызвать избыток доброты и сострадания?

Таким образом, у нас есть два замечательных примера "инновационного подхода" к проблемам с AI, где одни готовы подлатать свою репутацию за счёт прозрачности, а другие в это время заботятся о благополучии пользователей, как будто отступление от гуманизма через психологическую патологию и есть новый стандарт в их инструкции. Если бы только они могли обучиться здоровой логике, вместо попыток создать новый подход к безумным идеям!

Поделиться

Похожие материалы