Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»Я попробовал новый инструмент генерации изображений AI от Gemini — вот 5 способов получить лучшее искусство от Google Flash 2.0.
Создание искусства AI развивается с дикой скоростью, и Google только что добавил в игру еще одного серьезного соперника через Gemini Flash 2.0. Вы можете поиграть с новым инструментом создания изображений в Google AI Studio.
Gemini Flash, как и следует из названия, очень быстрый, заметно быстрее, чем DALL-E 3 и другие создатели изображений. Эта скорость может означать более низкое качество изображений, но это не так, особенно с учетом всех изменений и обновлений в способности модели производить изображения. Тем не менее, если вы хотите получить действительно хорошие результаты, вам нужно знать, как разговаривать с AI. После множества проб и ошибок я составил пять советов по получению самого лучшего искусства от Gemini Flash 2.0. Некоторые из них могут показаться похожими на советы по другим создателям искусства AI, потому что так оно и есть, но это не делает их менее полезными в этом контексте.
Самая интересная новая функция в создании изображений Gemini Flash заключается в том, что он подходит не только для одиночных иллюстраций, но и может помочь вам создать визуальную историю, генерируя серию связанных изображений с последовательным стилем, настроением и обстановкой.
Чтобы начать, вам просто нужно попросить его рассказать историю и как часто вы хотите, чтобы иллюстрация сопровождала действие. Результат будет включать эти изображения, которые будут сопровождать текст.
Для своего проекта я попросил AI: «Создать историю о героическом детском драконе, который защищал фею-королеву от злого волшебника в 3D мультяшном анимационном стиле. Для каждой сцены создайте изображение». Я увидел, что начало появляться выше. И если есть проблема, вы можете переработать любую часть истории, и модель снова сгенерирует изображение соответственно.
Если вы скажете Gemini сделать «собаку в парке», вы можете получить размытый золотистый ретривер, сидящий где-то на бессмысленно зеленом фоне. Но если вы скажете: «Пухлый золотистый ретривер, сидящий на деревянной скамейке в Центральном парке осенью, с красными и оранжевыми листьями, разбросанными по земле», вы получите именно то, что представляете.
Модели AI процветают на деталях. Чем больше вы предоставите, тем лучше будет ваше изображение. Итак, для вышеуказанного изображения вместо того, чтобы просто попросить «футуристический город», я запросил «Ретро-футуристический городской пейзаж на закате, с неоновыми вывесками, сверкающими в розовом и синем, летящими автомобилями в небе, и людьми в одежде ретро-футура». Семь секунд спустя результат пришел.
Одно из моих любимых вещей в новом Gemini Flash состоит в том, что вы можете вести с ним беседу, не теряя скорости. Это означает, что вам не нужно делать все правильно с первого раза. После генерации изображения вы можете буквально пообщаться с AI, чтобы внести изменения. Хотите изменить цвета? Добавить персонажа? Сделать освещение более атмосферным? Просто спросите.
В наборе изображений выше я начал с запроса «Уютный уголок для чтения с камином, книжными полками, полными романов, и большим уютным креслом». Затем я уточнил, попросив сделать это «ночью с мягким, теплым освещением», затем последовал вопрос: «Добавить спящего кота на кресле», и в конце я попросил AI «Подарить комнате винтажную, викторианскую эстетику». Окончательный результат слева выглядит почти так же, как я себе представлял, и заставляет Gemini чувствовать себя искусственным помощником, который может подстраиваться под то, что я хочу, не начиная с нуля каждый раз.
Google похвастался, что Gemini полон знания о реальном мире, что означает, что вы можете получить историческую точность, реалистичные культурные детали и правдивые изображения, если вы спросите об этом. Конечно, это требует конкретности. Например, если вы попросите о «викингском воине», вы можете получить что-то, что больше похоже на персонажа из Игры престолов. Но если вы скажете: «Исторически точный викингский воин 9 века, одетый в детализированную кольчужную броню, с круглым деревянным щитом и традиционным норвежским шлемом», вы получите нечто гораздо более точное.
В качестве теста я попросил AI сделать «Древний майянский город на рассвете, с высокими каменными пирамидами, пышными джунглями вокруг и людьми, одетыми в традиционные майянские одежды». Это не идеально, но выглядит гораздо ближе к реальности, чем предыдущие версии, которые иногда возвращались с чем-то, похожим на египетскую пирамиду.
Большинство моделей AI для изображения давно страдали от рендеринга текста, превращая слова в нечитаемые каракули. Даже лучшие модели сегодня, которые могут это делать, требуют времени на выполнение, и правильный результат может занять несколько попыток. Но Gemini Flash удивительно хорошо интегрирует текст в изображения быстро и четко. Однако быть очень конкретным может помочь. Так я создал изображение выше, попросив AI: «Создать винтажный туристический постер, на котором написано 'Посетите Лондон' крупным шрифтом в ретро-типографии, с изображением города в стиле иллюстрации».