Новые роботы от Google: их способности могут испугать вас (или нет)

12.03.2025, 16:15:06ИТ
Новые роботы от Google: их способности могут испугать вас (или нет)

Google DeepMind запускает две новые модели ИИ, которые помогут роботам выполнять физические задачи, даже если они не прошли подготовку. Первая модель, называемая Gemini Robotics, представляет собой модель, сочетающую в себе визуальные данные, язык и действия, способную понимать новые ситуации, даже если не была на них обучена.

Gemini Robotics основана на Gemini 2.0, последней версии флагманской модели ИИ от Google. Во время пресс-брифинга старший директор и руководитель робототехники Google DeepMind Каролина Парада заявила, что Gemini Robotics "основывается на многомодальном понимании мира Gemini и переносит его в реальный мир, добавляя физические действия как новую модальность".

Новая модель делает прорывы в трех ключевых областях, которые, по словам Google DeepMind, имеют решающее значение для создания полезных роботов: общность, интерактивность и ловкость. В дополнение к способности обобщать новые сценарии, Gemini Robotics лучше взаимодействует с людьми и их окружением. Она также умеет выполнять более точные физические задачи, такие как складывание бумаги или открывание крышки бутылки.

"Хотя мы достигли прогресса в каждой из этих областей индивидуально в прошлом с общей робототехникой, мы [значительно] увеличиваем эффективность во всех трех областях с помощью одной модели," - сказала Парада. "Это позволяет нам создавать более способных роботов, которые более ответственные и более устойчивы к изменениям в их окружении."

Google DeepMind также запустила Gemini Robotics-ER (или эмуляция рассуждений), которую компания описывает как продвинутую визуальную языковую модель, способную "понимать наш сложный и динамичный мир".

Как объясняет Парада, когда вы собираете обед в коробку и у вас на столе лежат предметы, вам нужно знать, где они находятся, как открыть коробку для обеда, как взять предметы и куда их положить. Это вид рассуждений, на который, как ожидается, будет способен Gemini Robotics-ER. Он предназначен для робототехников для подключения к существующим низкоуровневым контроллерам — системе, управляющей движениями робота, позволяя им включать новые способности, управляемые Gemini Robotics-ER.

Что касается безопасности, исследователь Google DeepMind Викас Синдхвани сообщил репортерам, что компания разрабатывает "многоуровневый подход", добавив, что модели Gemini Robotics-ER "обучены оценивать, безопасно ли выполнять потенциальное действие в данной ситуации". Компания также выпускает новые критерии и структуры для дальнейшего исследования безопасности в области ИИ. В прошлом году Google DeepMind представила свою "Конституцию робототехники", набор правил, вдохновленных Исаком Азимовым, которым должны следовать ее роботы.

Google DeepMind работает с Apptronik, чтобы "создать новое поколение гуманоидных роботов". Также “доверенным тестировщикам” предоставляется доступ к модели Gemini Robotics-ER, включая Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools. "Мы очень сосредоточены на создании интеллекта, который сможет понимать физический мир и действовать в этом физическом мире," - сказала Парада. "Мы очень рады использовать это в различных проявлениях и многих приложениях для нас."

Поделиться