Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
OpenAI представила генерацию изображений для модели 4o – вот всё, что вам нужно знать о обновлении ChatGPT.
Хотя это не будет очередные 12 дней новостей от OpenAI – по крайней мере, мы на это надеемся – компания, стоящая за ChatGPT, провела быструю прямую трансляцию 25 марта 2025 года.
Новости? Об этом не жалейте! Хотя AI-гигант и держал свои карты близко к груди, OpenAI все же представила нативную генерацию изображений для модели 4o. Эта информация делает тизерное изображение, на котором кто-то пишет «Прямая трансляция в 11:00 по Тихоокеанскому времени» на классной темно-зеленой доске, значительно более понятным.
У OpenAI теперь значительно улучшенные навыки генерации изображений, и это произошло сразу после того, как Google добавил нативную генерацию изображений в свою модель Gemini в AI Studio.
Далее вы можете увидеть живой блог TechRadar во время мероприятия, где генеральный директор OpenAI Сэм Альтман провел нас через новости и обновления с тех пор, как трансляция закончилась, и мы проверили новую функциональность.
Что ж, название трансляции проливает гораздо больше света на то, чего можно ожидать ... гораздо больше, чем первоначально тизерное изображение. Название - «Генерация изображений 4o в ChatGPT и Sora», так что это означает, что мы, вероятно, получим улучшения в создании изображений внутри ChatGPT и Sora. Упоминание последнего может означать более общие улучшения для генерации видео из текста.
Осталось чуть меньше 15 минут!
Прямая трансляция OpenAI началась, и в преддверии 14:00 восточного времени / 11:00 тихоокеанского времени / 18:00 по Гринвичу нас балуют различными изображениями. Некоторые из них пересекаются, но обновляются каждые несколько секунд и демонстрируют различные стили.
В описании прямой трансляции говорится, что мы услышим Сэма Альтмана, Габриэля Гоха, Прафуллу Дариала, Лю Лю, Аллана Джабри и Мэнчao Чжона, обсуждающих генерацию изображений 4o.
Итак, мы стартуем — Сэм Альтман называет это одно из самых интересных достижений, и это нативная генерация изображений в модели 4o. Он быстро отметил, что это «огромный шаг вперед» и то, о чем OpenAI с нетерпением хотелось сообщить на протяжении долгого времени. Альтман заметил, что лучший способ объяснить это — показать на практике, так что мы уже на демонстрации. Всего через несколько секунд после запроса OpenAI продемонстрировала изображение с тем, что команда назвала «идеальным текстом». Кажется, произошел скачок в понимании запроса и создании изображения с четким текстом и уникальным эффектом перспективы.
На второй демонстрации команда OpenAI сделала селфи и затем попросила ChatGPT превратить его в «аниме стиль». Это заняло несколько секунд, но то, что было запрошено, действительно сгенерировалось. Вы можете увидеть это выше.
Сэм Альтман был quick, чтобы отметить, что улучшенная генерация изображений начинает быть доступной сейчас в ChatGPT и Sora для платных пользователей, и она также будет доступна для бесплатных пользователей.
Мы также видим процесс нативной генерации изображений в модели 4o, преобразующего созданное селфи в «AGI мем».
Сэм Альтман также намекнул, что нативная модель генерации изображений в 4o предназначена быть немного провокационной, если это то, что вы запрашиваете. Ключевое слово здесь – «в пределах разумного», и, безусловно, многие пользователи будут ставить это под тест.
Теперь вторая демонстрация запрашивает цветное изображение, описывающее теорию относительности, с добавлением юмора. Альтман также отметил, что модель генерации изображений немного медленнее, но результат намного выше по качеству.
Учитывая, что улучшенная генерация изображений уже доступна — или по крайней мере, стала доступна — редактор TechRadar по актуальным вопросам, Ланс Уланов, уже протестировал эту функцию. Ланс сделал селфи и загрузил его в ChatGPT через приложение для iPhone. Затем он попросил превратить его в аниме-стиль. В первый раз ему дали полную шевелюру, но затем исправили, когда он попросил сделать его лысым.
Вернувшись к живым демонстрациям, OpenAI показывает, что теперь мы можем общаться с ChatGPT более визуально. Это значит, что вы можете задавать запросы на изображения, и она будет запоминать контекст.
В этом примере было отправлено фото монеты, и затем команда попросила ChatGPT сделать его прозрачным, среди прочего.
OpenAI определенно охватила довольно много за всего лишь 15~ минут. Сэм Альтман и команда дебютировали нативную генерацию изображений в модели 4o. Затем представили несколько демонстраций, и прежде чем это завершилось, мы уже протестировали функцию в приложении ChatGPT для iPhone.
Теперь, как и объявила OpenAI, улучшенная модель уже поступает к платным пользователям, но также скоро будет доступна и для бесплатных пользователей. Альтман также подтвердил, что в конечном итоге она будет доступна в API.
Мы только что проверили генерацию изображений в модели 4o через другой тест, на этот раз запросив комикс в стиле «Нутряшек» Чарльза Шульца. Несмотря на то что ChatGPT признала запрос, она отклонила его из-за авторских прав. Вместо этого получившаяся забавная комикс-строка выполнена в аналогичном стиле, с двумя знакомыми персонажами, которые имеют новые имена и другие качества, отличающие их от оригинала.