Gemini только что стал физическим лицом, и вам стоит подготовиться к роботизированной революции. Google Gemini умеет делать множество вещей, что происходит на экране, включая генерацию текста и изображений. Однако новая модель, Google Robotics, представляет собой модель языка действий, которая переносит генеративный ИИ в физический мир и может значительно ускорить гонку за созданием гуманоидных роботов.
Gemini Robotics, который Google DeepMind представил в среду, улучшает способности Gemini по трем ключевым направлениям:
Каждое из этих направлений существенным образом влияет на успех робототехники на рабочем месте и в неизвестных окружениях.
Генерализация позволяет роботу использовать обширные знания Gemini о мире и его предметах, применять их к новым ситуациям и выполнять задачи, на которых он никогда не обучался. В одном из видео исследователи показывают пару роботизированных рук, управляемых Gemini Robotics, и просят их "сделать слэм-данк" в настольной баскетбольной игре. Хотя робот никогда не видел эту игру ранее, он взял маленький оранжевый мяч и забросил его в пластиковую сетку.
Google Gemini Robotics также делает роботов более интерактивными и способными реагировать не только на изменяющиеся устные команды, но и на непредсказуемые условия. В другом видео исследователи просят робота положить виноград в миску с бананами, но потом они начинают двигать миску, в то время как робот настраивает свои действия и всё равно умудряется положить виноград в миску.
Google также продемонстрировал ловкость робота, который может выполнять такие действия, как игра в крестики-нолики на деревянной доске, стирание надписей с белой доски и складывание бумаги в оригами.
Вместо того чтобы часами обучаться каждой задаче, роботы реагируют на постоянные инструкции на естественном языке и выполняют задачи без дополнительного руководства. Это впечатляюще.
Естественно, добавление ИИ к робототехнике – это не новшество. В прошлом году OpenAI объединился с Figure AI для разработки гуманоидного робота, способного выполнять задачи на основе устных инструкций. Как и в Gemini Robotics, визуальная языковая модель Figure 01 работает с речевой моделью OpenAI для ведения диалогов о задачах и изменении приоритетов.
В демонстрации гуманоидный робот стоит перед тарелками и сушилкой. Его спрашивают о том, что он видит, и он перечисляет, но затем собеседник меняет задачу и просит что-то поесть. Не теряя ни секунды, робот берет яблоко и подает его.
Хотя большинство того, что Google показал в видео, были безтелесные роботизированные руки и руки, выполняющие широкий спектр физических задач, есть и грандиозные планы. Google сотрудничает с Apptroniks, чтобы добавить новую модель в своего гуманоидного робота Apollo.
Google свяжет все это с дополнительным программным обеспечением и новой усовершенствованной визуальноязыковой моделью под названием Gemini Robotics-ER (осознанное рассуждение). Gemini Robotics-ER улучшит пространственное мышление роботов и, как ожидается, поможет разработчикам стремительно связывать модели с существующими контроллерами.
Это должно улучшить быструю способность роботов рассуждать и сделать возможным быстрое определение способов захвата и использования незнакомых объектов. Google называет Gemini Robotics-ER комплексным решением и утверждает, что "может выполнять все необходимые шаги для управления роботом прямо из коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода".
Google предоставляет модель Gemini Robotics-ER нескольким компаниям, занимающимся робототехникой, включая Boston Dynamics (создателей Atlas), Agile Robots и Agility Robots.
В целом, это потенциальный подарок для разработчиков гуманоидной робототехники. Тем не менее, поскольку большинство из этих роботов предназначены для фабрик или все еще находятся в лабораторных условиях, может пройти некоторое время, прежде чем у вас в доме появится робот с улучшениями от Gemini.