Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
Когда Meta огорошила IT-индустрию — купив у Scale AI данных почти на 14,3 миллиарда долларов — реакция последовала молниеносно. Крупнейшие конкуренты и клиенты, такие как Google, Microsoft и OpenAI, тут же стали держаться подальше от платформы, внезапно оказавшейся на стороне их прямого оппонента. Но суть не в скандале крупных сделок и даже не в страхе конкуренции. Главная интрига — роль объёма данных в развитии физического ИИ, то есть систем, действующих не в виртуальном, а в реальном, материальном мире: роботах, дронах, AR-устройствах.
До сих пор считалось: "Чем больше данных — тем умнее искусственный интеллект". Логика проста: побольше текста, побольше картинок, и вот уже «мозг» машины становится гением. Но на практике для физических ИИ всё работает иначе. Тут огромное количество случайно собранной информации чаще не помогает, а напротив — вредна. Особенно если эти данные плохо описывают реальные пространства, физику объектов, взаимодействие света и материалов.
В классических задачах ИИ — вроде распознавания текстов или десятков тысяч 2D-картинок — такой подход сработал. Но робот на складе или хирургический ассистент — это не чат-бот, который листает интернет. Физический ИИ сталкивается с реальным миром: навигация, освещение, формы, размеры, опасности.
Сегодня в отрасли меняется подход: уходят от принципа «максимум сырых данных», переходят к «малому, но идеально подобранному набору». Например, компания NVIDIA создала свой уникальный набор физического ИИ — это 15 Тб траекторий и сценариев, а не просто фотоданных из интернета. Это решает самую большую проблему: обычные ИИ ошибаются не просто в деталях, а могут привести к аварии, порче техники и даже к травмам людей.
На практике это работает так: представьте автоматический погрузчик, который ошибётся с размерами палеты из-за плохого датасета, или робота-хирурга, принимающего гнущийся инструмент за твёрдую ткань — потому что никто не показал ему разницу. В физическом ИИ цена ошибки — поломки и человеческие жизни.
Лидеры отрасли переходят к трём принципам. Первый: чётко определять метрики качества — точность глубины, разнообразие освещения, реалистичность динамики. Второй: в разработке датасетов участвуют не только ИТ-шники, но и настоящие инженеры, фотограмметристы и профессионалы, знающие реальные риски и редкие случаи. Третий: вся система работы с данными замыкается в цикл — ошибки на тестах тут же становятся задачами для обучения. Такой подход резко повышает надёжность и адаптивность роботов.
В ближайшие годы физический ИИ выйдет за пределы лабораторий — в склады, больницы, стройки. Те, кто будет использовать «ширпотребные» данные, быстро отстанут: решение — создавать точные, насыщенные разметкой наборы данных. Это позволит не только повысить безопасность, но и сильно упростить внедрение новых роботов в различных условиях.
Новая гонка искусственного интеллекта — не про количество, а про качество. Кто первым это поймёт — выиграет и рынок, и доверие пользователей.
Meta тратит миллиарды на Scale AI, надеясь, что горы данных помогут захватить рынок искусственного интеллекта. По иронии судьбы, таким подходом она скорее подставляет себя — и других. Ведь для современных физических ИИ (роботы, AR, медицинские ассистенты) накопление случайных, плохо размеченных данных ведёт не к развитию, а к авариям. Компаниям старой школы нравится упаковывать гигабайты 2D-картинок – мол, чем больше кормить ИИ, тем умнее станет. Но инженеры, которым приходится объяснять роботу, где конец палеты, а где – рабочая рука, давно знают: без granular структур и меток – ждать беды.
Пока одна часть Big Tech занимается аукционом: «кто купит больше сырых байтов», NVIDIA тихо внедряет структурированные 3D-наборы, куда заложено 15 Тб реальных сценариев и обезличенных траекторий. Рынок внезапно прозрел: оказывается, за каждым миллионом строк скрывается риск поломки, травмы или миллиардных убытков. Вместо «собирай всё подряд» теперь рулят три принципа: метрики реального качества, участие профессионалов и обратная связь через прототипы. Пока массы в восторге от Mega-Scale AI, умные игроки делают ставку на точность и скрупулёзность, а не на шоу из нулей и единиц.
Разделение IT-мира простое: одни навсегда остаются на вечере «Big Data» без завтрака, другие ловят момент — и переходят к «Smart Data». Рынок утонет в заголовках про сделки, а настоящая борьба будет идти за инженерные нюансы, которые в офисах Meta никто не обсуждает.