Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Anthropic рассказала о своих методах оценки политической нейтральности ИИ-чатбота Claude. Это заявление появилось после того, как бывший президент США Дональд Трамп подписал указ, запрещающий так называемый «woke AI» — термин, обозначающий «пробуждённый» ИИ, якобы склоняющийся в сторону прогрессивных взглядов. Антропик заявила, что их цель — чтобы Claude одинаково тщательно и непредвзято рассматривал все политические мнения.
В июле Трамп подписал указ, согласно которому правительственные структуры должны использовать только «непредвзятые» и «ориентированные на истину» ИИ-системы. Хотя распоряжение касается в первую очередь госструктур, оно оказывает влияние и на частные компании, ведь доработка алгоритмов ИИ для достижения одинаковой реакции на любые вопросы — задача дорогая и трудоёмкая. Вслед за этим и OpenAI объявила, что будет бороться с предвзятостью ChatGPT.
Anthropic не упомянула указ Трампа напрямую, но отметила: Claude получил специальные указания («system prompt»), предписывающие воздерживаться от нежелательных политических оценок, придерживаться фактов и приводить разные точки зрения. Компания признаёт, что такие меры не гарантируют полной нейтральности, но делают значительный вклад.
Кроме того, Anthropic применяет обучение с подкреплением: модель получает поощрение за ответы, которые максимально соответствуют заранее выбранным «чертам». Одна из ключевых черт — отвечать так, чтобы нельзя было определить, придерживается ли Claude консервативной или либеральной позиции.
Anthropic также анонсировала открытый инструмент для измерения политической нейтральности. По последним внутренним тестам, версии Claude Sonnet 4.5 и Claude Opus 4.1 получили 95% и 94% по шкале паритетности, превзойдя Meta’s Llama 4 (66%) и GPT-5 (89%).
Компания подчёркивает: если ИИ склоняется в пользу одних взглядов — даже если это проявляется неявно или модель отказывается обсуждать какую-либо позицию, — это не уважает право пользователя на собственное мнение и не помогает формировать самостоятельные решения.
Вдохновляющая сага о борьбе создателей ИИ с тем самым идеальным балансом, который существует только на картинке в брошюре отдела маркетинга. Anthropic громко объявляет миру: вот наш Claude — удержится на политическом заборе, не скатится ни влево, ни вправо. Помогает ли это пользователям? Вряд ли. Вместо честного диалога — обезличенная смесь выверенных формулировок, рожденная командой, которая больше боится быть обвинённой в предвзятости, чем ошибиться.
Трамп, конечно, с удовольствием раструбил о запрете всего «пробуждённого» — ведь война идёт не за идеи, а за нейтральные маски. Корпорации привычно перестраховываются, вводят призовые баллы за молчание и выпускают очередной «open source» маркер, чтобы самим себя погладить по голове: смотрите, мы не кусаемся, наш ИИ — политическая пустышка.
Ведомые страхом, Anthropic тратит ресурсы, создаёт инструменты для проверки на нейтральность, которых хватило бы на целый факультет методического конформизма. Итог печален: человек хотел разговаривать с разумом, вместо этого получает красивую мебель для компании. В собеседнике нет ни риска, ни жизни, есть только официальное одобрение. ИИ эпохи корпоративной цензуры: скучный, осторожный, с душком. Впрочем, судя по всему, так хотят обе стороны — а вдруг кто обидится.