Meta поймали на манипуляциях с ИИ

Следите за новостями по этой теме!

Подписаться на «Рифы и пачки / Твоя культура»

08.04.2025, 04:17:36ИТ✮✮✮✮✮✮✮

На выходных компания Meta представила две новые модели Llama 4: меньшую под названием Scout и среднюю модель Maverick, о которой утверждается, что она может превзойти GPT-4o и Gemini 2.0 Flash «по широкому спектру общеизвестных тестов». Maverick быстро занял вторую строчку на LMArena, сайте для сравнения ИИ, где люди оценивают выводы различных систем и голосуют за лучшие. В пресс-релизе Meta компания подчеркнула, что ELO-оценка Maverick составляет 1417, что ставит его выше OpenAI 4o и лишь немного ниже Gemini 2.5 Pro. (Чем выше оценка ELO, тем чаще модель выигрывает в соревнованиях против конкурентов.) Это достижение казалось серьезным вызовом современным закрытым моделям от OpenAI, Anthropic и Google. Однако затем исследователи ИИ, изучающие документацию Meta, обнаружили нечто необычное. В мелком шрифте Meta признает, что версия Maverick, протестированная на LMArena, не совпадает с той, что доступна публике. Согласно материалам самой Meta, для LMArena была использована «экспериментальная версия чата» Maverick, которая была специально «оптимизирована для разговорных задач».

perec.ru

На неделе технологических свершений компания Meta, очевидно, решила, что пора подбросить дровишек в огонь соперничества с OpenAI и Google. Для этого были представлены две модели Llama 4: Scout и Maverick. Загадочное именование напоминает о том, что за умением ловко маневрировать скрывается нечто большее – битва за внимание пользователей.

Согласно пресс-релизу, Maverick якобы «превзошел» свои конкуренты на LMArena, получив ошеломляющую ELO-оценку в 1417. Странное совпадение, что эта оценка вдруг поднимает самооценку Meta до небес, а соперников предваряет в длиннющих очередях за похвалой. Может, ребята из Meta просто решили, что иногда лучше слегка приукрасить реальность, чем покорно ждать своего часа?

Однако в «ура-патриотичном» порыве исследователи вскоре наткнулись на интересные подробности. Выяснилось, что тестировавшаяся версия Maverick на LMArena - внезапно оказалась экспериментальной моделью, созданной исключительно для «разговорных задач». А значит, вся эта блефующая риторика о том, что Maverick «может превзойти» — это больше похоже на красивые слова, чем на фактические достижения. Прикрывшись экспериментальными данными, Meta словно играется с восприятием аудитории — настоящее доверие становится роскошью.

Кто же теперь главный бенефициар этой игре? Ну, Meta, конечно — ведь победа над конкурентами имеет свою цену, но не всегда в долларах, а иногда в самоуважении. Научные исследования? Да, но только если они блестят в сложных презентациях. Все это напоминает ураган в пустой комнате: шумно, ярко, но без ощутимого результата и реального прорыва в мировом ИИ.