Google DeepMind запускает две новые модели ИИ, которые помогут роботам выполнять физические задачи, даже если они не прошли подготовку. Первая модель, называемая Gemini Robotics, представляет собой модель, сочетающую в себе визуальные данные, язык и действия, способную понимать новые ситуации, даже если не была на них обучена.
Gemini Robotics основана на Gemini 2.0, последней версии флагманской модели ИИ от Google. Во время пресс-брифинга старший директор и руководитель робототехники Google DeepMind Каролина Парада заявила, что Gemini Robotics "основывается на многомодальном понимании мира Gemini и переносит его в реальный мир, добавляя физические действия как новую модальность".
Новая модель делает прорывы в трех ключевых областях, которые, по словам Google DeepMind, имеют решающее значение для создания полезных роботов: общность, интерактивность и ловкость. В дополнение к способности обобщать новые сценарии, Gemini Robotics лучше взаимодействует с людьми и их окружением. Она также умеет выполнять более точные физические задачи, такие как складывание бумаги или открывание крышки бутылки.
"Хотя мы достигли прогресса в каждой из этих областей индивидуально в прошлом с общей робототехникой, мы [значительно] увеличиваем эффективность во всех трех областях с помощью одной модели," - сказала Парада. "Это позволяет нам создавать более способных роботов, которые более ответственные и более устойчивы к изменениям в их окружении."
Google DeepMind также запустила Gemini Robotics-ER (или эмуляция рассуждений), которую компания описывает как продвинутую визуальную языковую модель, способную "понимать наш сложный и динамичный мир".
Как объясняет Парада, когда вы собираете обед в коробку и у вас на столе лежат предметы, вам нужно знать, где они находятся, как открыть коробку для обеда, как взять предметы и куда их положить. Это вид рассуждений, на который, как ожидается, будет способен Gemini Robotics-ER. Он предназначен для робототехников для подключения к существующим низкоуровневым контроллерам — системе, управляющей движениями робота, позволяя им включать новые способности, управляемые Gemini Robotics-ER.
Что касается безопасности, исследователь Google DeepMind Викас Синдхвани сообщил репортерам, что компания разрабатывает "многоуровневый подход", добавив, что модели Gemini Robotics-ER "обучены оценивать, безопасно ли выполнять потенциальное действие в данной ситуации". Компания также выпускает новые критерии и структуры для дальнейшего исследования безопасности в области ИИ. В прошлом году Google DeepMind представила свою "Конституцию робототехники", набор правил, вдохновленных Исаком Азимовым, которым должны следовать ее роботы.
Google DeepMind работает с Apptronik, чтобы "создать новое поколение гуманоидных роботов". Также “доверенным тестировщикам” предоставляется доступ к модели Gemini Robotics-ER, включая Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools. "Мы очень сосредоточены на создании интеллекта, который сможет понимать физический мир и действовать в этом физическом мире," - сказала Парада. "Мы очень рады использовать это в различных проявлениях и многих приложениях для нас."