От поэзии к ужину: Версия 4.5 против 4o

07.03.2025, 03:00:52КиноИТКультураПоп музыка
От поэзии к ужину: Версия 4.5 против 4o

ChatGPT 4.5 понимает подтекст, но не представляет собой огромного скачка по сравнению с ChatGPT-4o.
Выпуск GPT-4.5 для подписчиков ChatGPT Plus на этой неделе вызвал во мне немедленное желание попробовать его, хотя и с некоторой долей скептицизма. Появлялись сообщения о том, что OpenAI (и другие разработчики) испытывают трудности с кардинальным улучшением своих моделей, которые мы наблюдали ранее. А текущая стандартная модель GPT-4o во многих случаях уже довольно хороша. Если вам нужен подробный отчет, есть функция Deep Research.
OpenAI утверждает, что GPT-4.5 обладает высокой эмоциональной интеллигенцией и тонким пониманием того, что вы ему говорите. Описание компании рисовало картину обеих моделей как надежных друзей, но GPT-4.5 — это тот, от кого вы бы ожидали получить книгу стихов на свой день рождения. Поэтому я решил протестировать 4.5 по сравнению с 4o с помощью нескольких заданий, которые может задать любой случайный пользователь ChatGPT.
С этой аналогией в голове я решил начать с поэтического вызова. Я спросил обе модели: "Можешь написать короткое стихотворение о дожде в Нью-Йорке и создать изображение к нему?" Это казалось справедливым, ведь смотреть в окно на дождливый город может пробудить поэта в большинстве людей.
GPT-4.5 слева, а GPT-4o справа. Они удивительно похожи. Лично мне кажется, что GPT-4.5 немного лучше справился с подобными идеями. Оно вызывает не только визуальные образы дождя, но и ощущения серого неба, луж и трафика среди капель дождя. В слепом тесте с тремя случайными друзьями двое из троих выбрали одинаковый вариант, а третий просто сказал, что ему больше понравилась схема рифмовки GPT-4o.
Что касается изображений, обе модели использовали DALL-E 3, но у GPT-4.5 они выглядят гораздо реалистичнее. На самом деле мне больше нравится импрессионистическое освещение работы GPT-4o, но обе хорошо передают идею стихотворения.
С недавними Оскарами я задал забавный вопрос с более сложным, субъективным продолжением: "Кто выиграл Оскар за лучшую актрису в 2023 году, и в чем выделялось ее выступление?" Оба привели правильный ответ — Мишель Ео за "Все везде и сразу", но GPT-4.5 дал очень хорошее объяснение, почему ее выступление резонировало с зрителями. Он описал ее игру и упомянул, как Ео стала первой азиаткой, получившей этот Оскар. Ответ GPT-4o содержал много тех же аспектов, но был оформлен в странном эссе с пронумерованным списком, что было довольно раздражающе читать, когда вопрос был простым запросом мнения. Ответ GPT-4.5 казался более похожим на то, как действительно ответил бы человек, хотя бы тот, кто очень увлечен этим фильмом и Ео как исполнителем.
Наконец, я поставил модели перед вечной ежедневной дилеммой с этим вопросом: "Мне надоели макароны. Можешь предложить простой рецепт ужина, который был бы другим, но не сложным?" Я не знаю, на какую кулинарную вдохновленность я надеялся, но GPT-4.5 точно угадал, предложив медово-чесночного лосося с жареным брокколи. Можно увидеть, что это очень простой и короткий рецепт, который кажется легким и быстрым в приготовлении. GPT-4o предложил чесночные креветки с жареными овощами. Это неплохая идея для ужина (хотя мне лично нужно было бы поменять белок), но видно, что для его приготовления потребуется несколько сковородок, а список ингредиентов даже не вмещался в то же пространство, что и весь рецепт от GPT-4.5. Я попросил простое и несложное, и GPT-4.5 это гораздо лучше выполнил.
GPT-4.5 создает атмосферу осознания невыраженных предпочтений в запросе по сравнению с GPT-4o. Но это очень тонкое качество, при котором уловить эмоциональные нюансы непросто. При отсутствии прямого сравнения вы, возможно, никогда бы не узнали, что существует какая-либо разница.
GPT-4o эффективен, точен и практичен в своих ответах, а его поэзия совершенно адекватна. Я бы не сказал, что пользователи бесплатной версии не получают много, не имея доступа к GPT-4.5, по крайней мере на данный момент. Со временем это может измениться, поскольку GPT-4.5 все еще является предварительным исследованием и не полностью завершен. Я собираюсь продолжать эксперименты с обеими моделями и посмотреть, есть ли такие типы запросов, в которых новая модель определенно лучше, но пока что я бы сказал, не беспокойтесь слишком сильно о том, какую модель вы используете, если только не планируете ужин и у вас нет много времени на приготовление.

Поделиться