2026 Форум Чжунгуаньцунь — Годовая конференция|Лидеры в области телесного интеллекта обсуждают проблему данных и прорыв в сценариях

robot
Генерация тезисов в процессе

(Источник: Beijing Business Today)

27 марта 2026 года на ежегодной конференции Форума Чжунгуаньцунь 2026 «Форум по передовым направлениям ИИ с открытым исходным кодом» состоялся круглый стол, посвященный телесному интеллекту (具身智能). Согласно «Докладу о развитии Китая за 2025 год», опубликованному Центром исследований развития Госсовета, развитие индустрии телесного интеллекта в Китае находится на стадии становления; ожидается, что к 2030 году объем рынка достигнет 4000 миллиардов юаней, а к 2035 году превысит один триллион юаней. На старте этой триллионной гонки ведущие представители таких компаний, как Galaxy General, Qiansxun Intelligent, Xingdong Yuan и другие, провели глубокий диалог вокруг построения «пирамида данных», архитектуры «мозг-малый мозг» и путей внедрения в реальные сценарии, обсудив ключевые вызовы и идеи прорыва на 2026 год, когда телесный интеллект выйдет из лабораторий к масштабируемым прикладным решениям.

Ван Хэ, основатель Galaxy General: Пирамида данных будет широко применяться в 2026 году

Год 2025 в сегменте телесного интеллекта был полностью «зажжен»: капитал хлынул, моделей появлялось всё больше и больше, а некоторые концепции становятся всё более ясными, включая определения «мозга» и «малого мозга» человекоподобного робота.

«Большой мозг» отвечает за выводы от восприятия и познания до планирования действий, а «малый мозг» с помощью этих выводов робастным способом выполняет действия на собственном теле с высокой гибкостью и стабильностью. Когда большой и малый мозг объединяются, открываются задачи, связанные с манипуляциями, навигацией, движениями всего тела и т. д.

На уровне данных телесный интеллект формирует четкую пирамиду: в основании — данные интернета, выше — данные о человеческом поведении, еще выше — синтетические данные, на вершине — данные реального мира. Эта пирамида данных была выстроена в 2025 году и в 2026 году будет широко использоваться. Тогда вся технология сопряжения VLA (модель зрительно-языковых действий) и world action model (модель действий в мире) получит по-настоящему качественный скачок.

Си Юэ, сооснователь Xingdong Yuan: построение «data flywheel» — ключ к прорыву

Сейчас главная трудность телесного интеллекта всё еще связана с данными. Чтобы робот мог действительно автономно работать на заводе или в спецсреде, необходимо собирать данные в реальной среде. Но сценарии сложно раскрывать, массовый сбор данных дорог и занимает очень много времени.

На данный момент общепринятое решение — копировать реальные сценарии: развернуть в тренировочном полигоне среду 1:1. Однако этого недостаточно, чтобы решить все проблемы: приходится полагаться на инженеров, чтобы собирать, обучать и развертывать данные, а затем снова и снова повторять цикл. Этот подход крайне неэффективен и к тому же дорог.

Наше решение — построить «data flywheel» — цикл данных от сбора до закрытого цикла модели, — чтобы робот в реальной среде автономно обрабатывал corner case (пограничные случаи) и непрерывно повышал свою эффективность. Мы также изучаем режимы сбора данных, где данные собираются в сочетании человека и реальной машины.

Гао Ян, сооснователь Qiansxun: 2025 — это эпоха телесного интеллекта GPT-2.0, а 2026 — будет эпохой GPT-3.0

В моем понимании у телесного интеллекта тоже есть этапы вроде GPT-2.0, GPT-3.0 и т. п.: 2025 год — это эра 2.0, когда были решены многие базовые вопросы инфраструктуры на уровне данных, и сделаны предварительные приготовления к масштабированию эффекта; а фокус работ в 2026 году будет смещаться на обработку всё более крупных моделей, всё большего количества данных и обеспечение масштабируемого результата.

По правде говоря, в ходе развития очень трудно по-настоящему разглядеть, на каком именно этапе мы сейчас находимся — это состояние «как в тумане». Я определяю раннюю фазу 2025 года как период 2.0 или 3.0, потому что у некоторых моделей уже есть определенные базовые способности к обобщению — как у GPT-2.0: есть базовый диалог, но во многих случаях говорят неверно. По результатам совместных исследований в академической среде и в индустрии очень вероятно, что в конце 2026 года или в середине 2027 года появятся модели, подобные GPT-3.0.

Чжан Пэн, сооснователь Zhi Square: валидация сценариев — ключевое слово 2025 года

Самое важное в 2025 году — внедрить валидацию сценариев на практике, чтобы робот вышел из лаборатории в реальную среду. В 2026 году больше предстоит решить вопрос о том, как делать модель робота всё лучше.

На техническом уровне нужно добиться прорыва в обобщаемости реальных сценариев: с точки зрения архитектуры модели и системного проектирования дать роботу возможность адаптироваться к большему числу сценариев с меньшими затратами — это для отрасли очень серьезный вызов. Мы надеемся собирать больше данных в реальных сценариях, и на основе этих данных, используя синтез и тому подобные методы, создавать больше ценности и снижать затраты. В реальной среде именно трехстороннее слияние — модели, аппаратных средств и системы сценариев — должно вместе решать проблемы.

Репортер Beijing Business Today Вэй Вэй

Огромный поток новостей и точные разъяснения — всё в приложении Sina Finance APP

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить