🤖
Что произошло: прорыв в управлении гуманоидными роботами

Figure AI представила Helix — первую Vision-Language-Action (VLA) модель, которая позволяет гуманоидному роботу одновременно разговаривать, видеть и действовать. Система управляет 35 степенями свободы, работает на частоте 200 Гц и может поднять тысячи объектов, которых никогда не видела. Всё обучено на 500 часах видео, что в 200 раз меньше, чем требовалось конкурентам.

Почему это важно:
• Первая система, которая одновременно «думает» медленно (понимает язык) и действует быстро (контролирует робота)
• Кардинально снизила требования к данным для обучения гуманоидов
• Доказала, что VLA может масштабироваться на реальных роботах, а не только на видео

Проблема, которую решала Figure AI

До Helix разработчики гуманоидных роботов выбирали между двумя крайностями. С одной стороны, существовали системы на основе больших языковых моделей (ВЯМ), которые понимали человеческие команды, но реагировали медленно — примерно 7–9 раз в секунду. Для робота, выполняющего точные движения (например, захват хрупкого предмета), это было слишком медленно. С другой стороны, были специализированные алгоритмы управления, которые работали на частоте 200 Гц и выше, но требовали тысячи часов данных конкретного робота и не могли обобщать на новые ситуации.

Helix разрешила этот конфликт необычным образом: система использует две разные нейросети, работающие на разных скоростях и специализирующиеся на разных задачах.

Архитектура Helix: две системы вместо одной

Представьте себе человека, который одновременно водит автомобиль и ведёт беседу. Когда вы разговариваете, вы «думаете» медленно и анализируете содержание. Когда вы управляете рулём, вы действуете быстро и почти бессознательно. Helix работает по тому же принципу.

🧠
System 2 (S2): Медленное мышление

Это большая языковая модель с 7 миллиардами параметров. S2 видит, что происходит в комнате, читает естественную команду человека («Подними печенье») и создаёт внутреннее понимание сцены. Работает на частоте 7–9 Гц (7–9 раз в секунду). Это медленнее, чем реальное время, но достаточно для «размышлений».

Пример работы: S2 смотрит на видео, видит печенье на столе, человека рядом и команду «Подними печенье» — и понимает, что нужно сделать. Передаёт эту информацию дальше в виде латентного вектора (сжатого представления смысла).
System 1 (S1): Быстрое действие

Это специализированная нейросеть с 80 миллионами параметров (в 87 раз компактнее, чем S2). S1 отвечает только за одно: преобразовать понимание S2 в точные движения робота. Работает на частоте 200 Гц — примерно столько же, сколько человеческое ухо различает звуки.

Пример работы: S1 получает от S2 понимание «печенье на столе нужно поднять». S1 вычисляет положение каждого суставного двигателя, каждого пальца, контролирует силу хвата, скорость движения — в 200 раз в секунду проверяет, что всё идёт правильно, и подстраивается.

Две системы обучались вместе на одних и тех же данных, так что они научились работать в унисон. S2 передаёт S1 только самую важную информацию, S1 не перегружается лишними вычислениями.

Откуда взяли данные: революция в разметке

Обычно для обучения робо-манипуляторов требуется собрать десятки или сотни тысяч примеров. Figure AI решила это иначе.

Сначала компания собрала видео, на которых люди дистанционно управляли роботом Figure 02 (телеоперируемое управление). За счёт этого были накоплены примерно 500 часов видео с реальными движениями реального робота.

Затем Figure использовала VLM (ту же самую S2) для автоматической разметки этого видео: модель просматривала видео и автоматически писала, что именно робот делает в каждый момент. Люди не писали инструкции вручную — нейросеть это делала за них. Это экономит примерно 95 % времени на разметку данных.

Результат: вместо 100 000+ примеров, как требовалось конкурентам, Figure обучила Helix на 500 часах видео.

Zero-shot генерализация: робот поднимает то, чего не видел

Когда Figure показала демонстрацию Helix, сотрудники компании просили систему поднять объекты, которые вообще не входили в данные обучения. Система успешно справлялась.

Робот поднимал хрупкие сухофрукты, которые легко деформируются. Поднимал прозрачное стекло. Поднимал ткань и осторожно её складывал. Один из самых впечатляющих кейсов: робот посмотрел на кактус и, когда его попросили «Pick up the desert item» («Поднеси пустынный предмет»), правильно понял, что речь идёт о кактусе, и осторожно взял его за горшок.

Как это работает? Потому что S2 (большая языковая модель) была предварительно обучена на интернет-масштабном текстовом и изображительном материале. Она уже знает, что кактус связан с пустыней, что стекло хрупко, что ткань мягкая. Когда робот видит новый объект, S2 использует это знание для интерпретации сцены. S1 только переводит интерпретацию в движения.

Многороботная координация: впервые роботы договариваются

В одной из демонстраций Figure показала двух роботов Figure 02, управляемых общей Helix-системой. Один робот просят: «Hand the cookies to the robot on your right» («Передай печенье роботу справа»). Робот смотрит, находит печенье, видит другого робота справа, передаёт печенье, второй робот принимает и убирает его в шкаф.

Это впервые в истории VLA — система контролирует несколько физических агентов, которые координируют свои действия, исходя из естественного языка. Никакого специального кода для левого vs правого робота не требуется. Helix выучила это из данных.

Конкурентный ландшафт: где Helix впереди

На рынке VLA-моделей есть несколько игроков.

Google RT-2 была одной из первых (март 2023 г.), но контролирует только около 7 степеней свободы (в основном манипулятор, параллельный захват). Требует около 10 000 демонстраций.

UC Berkeley OpenVLA опубликована как open-source (март 2024 г.), но требует 100 000+ эпизодов обучения и контролирует примерно 10 степеней свободы.

MIT Diffusion Policy (октябрь 2022 г.) использует другой подход (диффузионные модели вместо трансформеров), но требует 50 000+ примеров и работает медленнее.

Helix контролирует 35 степеней свободы (почти весь верхний корпус гуманоида) и требует всего 500 часов видео.

📊
Сравнение VLA-систем

Helix (Figure):
• 35 DoF | 200 Гц | 500 часов | Тысячи объектов | Commercial ✅

RT-2 (Google):
• 7 DoF | 10 Гц | 10 000+ демо | Сотни объектов | Research/Limited

OpenVLA (Berkeley):
• 10 DoF | 40 Гц | 100 000+ примеров | Сотни объектов | Open-source

Diffusion Policy (MIT):
• 7 DoF | 50 Гц | 50 000+ примеров | Десятки объектов | Research

Коммерческий контекст: Figure AI как инвестиционная история

Figure AI — это стартап, основанный в 2022 году, с фокусом на гуманоидных роботов общего назначения. После представления Helix компания получила серьёзное финансирование.

В сентябре 2025 года Figure закрыла Series C на 1 миллиард долларов с валюацией 39 миллиардов долларов. Инвесторы включили NVIDIA (чип H100 питает S1 и S2), Microsoft, Intel Capital, Brookfield и другие гиганты.

Первый коммерческий клиент: Toyota (декабрь 2024 г.). Toyota развёртывает Figure 02 роботов на заводах для различных производственных задач — сварка, сборка, обработка деталей. Helix управляет этими роботами через естественный язык, что значительно упрощает переобучение рабочих.

Амбиция Figure: тысячи гуманоидов, работающих в промышленности и доме к 2030 году.

Рынок гуманоидных роботов: где это может вырасти

По прогнозам Grand View Research, рынок гуманоидных роботов составлял примерно 1,84 миллиарда долларов в 2025 году. К 2034 году ожидается рост до 7,75 миллиардов долларов (CAGR 17,3 %).

Более оптимистичные прогнозы (MarketsandMarkets) предсказывают рост до 15,26 миллиардов при CAGR 39,2 % — если разработчики смогут быстро масштабировать производство.

Основные области применения:

Промышленность: автомобильное производство (сварка, сборка, упаковка), электроника, логистика.

Здравоохранение: помощь пациентам с ограниченной мобильностью, реабилитация, физиотерапия.

Домашняя помощь: уборка, приготовление пищи, организация, уход за пожилыми людьми.

Розница и сервис: работа с покупателями, управление складами, доставка.

Ограничения Helix и вызовы для масштабирования

Несмотря на прорыв, Helix имеет ограничения.

Верхняя часть тела только: Система управляет руками, туловищем и головой, но не ногами. Figure 02 имеет ноги, но Helix их не контролирует. Это нормально для задач за столом, но ограничивает мобильность.

Встроенные вычисления: S1 работает на встроенных GPU, что ограничивает объём обработки. При попытке добавить больше функций система может замедлиться.

Цена робота: Figure 02 стоит, вероятно, 150–300 тысяч долларов (точная цена не разглашается). Для массового рынка нужны роботы в 10–50 раз дешевле.

Конкуренция ускоряется: Tesla работает над Optimus, Boston Dynamics — над своим humanoid, 1X Technologies (валюация 1 миллиард) развивает EVE, UBTECH получила 1 миллиард в Series B.

Будущее: что ждёт Helix

Масштабирование данных: Figure планирует увеличить объём обучающих данных в 1000 раз. Это может значительно улучшить способность Helix к обобщению.

Интеграция нижних конечностей: Вероятно, Figure разработает Helix-FullBody для контроля всего робота, включая ноги.

Открытие весов? Маловероятно в ближайшие 2–3 года. Figure держит Helix как конкурентное преимущество.

Коммерциализация: Figure планирует начать серийное производство Figure 02 в 2025–2026 годах. Цена вероятно упадёт до 100–150 тысяч долларов за пару лет.

Инвестиционный тезис: почему Helix меняет игру

Helix не просто улучшила существующие подходы. Она доказала, что гуманоидные роботы могут обучаться быстро и дёшево, если правильно спроектировать архитектуру нейросети.

До Helix инвесторы беспокоились: смогут ли стартапы собрать достаточно данных для обучения? Как быстро масштабировать? Helix ответила: можно обучить за 500 часов видео и один NVIDIA H100.

Это меняет экономику для целого сектора. Вместо разработки специализированного алгоритма для каждой задачи, компании теперь могут использовать один унифицированный фреймворк (похожий на Helix) и быстро адаптировать его под новые сценарии.

Риски остаются: конкуренция, регулятивные препятствия, вопрос окупаемости для домашнего рынка. Но технология явно работает, и масштабирование уже начинается.

Ключевые метрики Helix / Источники информации

Архитектура: Dual-system (7B параметров S2 + 80M параметров S1) | Встроенные NVIDIA GPU | Развёрнуто на Figure 02 humanoid

Производительность: 35 степеней свободы | 200 Гц управления | Zero-shot обобщение на тысячи объектов

Данные для обучения: 500 часов телеоперируемого видео + автоматическая разметка VLM

Первый клиент: Toyota (серийное производство Figure 02, декабрь 2024)

Конкурентное преимущество: Наиболее компактная (80M S1) и быстрая (200 Hz) VLA для полной манипуляции гуманоида

Материал подготовлен на основе официального блога Figure AI (19 февраля 2025), пресс-релизов Figure AI о Series C и Toyota partnership (сентябрь–декабрь 2024), аналитических отчётов Grand View Research и MarketsandMarkets о рынке гуманоидных роботов, технических статей о Vision-Language-Action моделях и публикаций Crunchbase по инвестициям в робототехнику. Информация актуальна на 26 ноября 2025 года.