具身智能入门：从 VLA 到世界模型，机器人如何学会理解物理世界

梳理具身智能的核心技术路线，结合最新开源模型与数据集，为初学者提供系统性学习路径

进阶约 35 分钟

具身智能入门：从 VLA 到世界模型，机器人如何学会理解物理世界

梳理具身智能的核心技术路线，结合最新开源模型与数据集，为初学者提供系统性学习路径

本文从第一性原理出发，系统梳理具身智能的核心技术路线：VLA（视觉-语言-动作模型）如何将感知与动作耦合，世界模型如何让机器人预判未来，全身控制如何实现手脚腰身的协同。结合 OpenHLM、μ₀、TacForeSight、LabVLA、StableVLA、FineVLA、AstraBrain-WBC、Curr-0、Qwen-Robot Suite 等最新开源模型与数据集，剖析数据瓶颈、推理延迟、泛化鲁棒性等关键挑战，并提供从理论到实践的学习路径。

agent model-deployment vla world-model

引言：机器人智能的核心矛盾

当你在视频中看到一台机械臂听懂指令、拿起杯子，或者一个人形机器人走进厨房把杂物归位，很容易产生一种错觉：机器人已经开始像人一样理解世界了。

但把问题拆到最底层，答案朴素得多。

机器人策略本质上是一个函数：它接收观测作为输入（摄像头像素、关节角度、夹爪阻力等），输出动作（电机位置和力矩）。所有复杂的算法、训练方法和数据扩展理论，都是为了得到这个函数的一个足够好的版本。

然而，这个看似标准的机器学习问题，在物理世界中遇到了三个独特的挑战：

实时性：大语言模型可以花3秒思考下一个 token，但机器人倒咖啡时，动作必须在事件发生过程中同步生成。模型不仅需要正确，还必须快到当答案送达时，“正确性”依然有意义。

数据稀缺：机器人数据来自遥操作，每一小时数据都意味着人类劳动成本。更糟的是，每种机器人、每种夹爪、每个实验室都产生彼此不兼容的小型数据集，形成“数据孤岛”。

泛化困难：训练分布外的光照、遮挡、物体材质变化，都可能导致模型性能断崖式下降。

本文围绕这些挑战，梳理具身智能的三大核心技术路线：VLA 模型、世界模型、全身控制，并结合最新开源工作，为初学者提供系统性的学习路径。

一、VLA：视觉-语言-动作模型

1.1 从“大脑”到“小脑”的拆分

现代机器人模型通常分成两个部分：一个负责理解，一个负责行动。

主干通常是一个大模型（VLM），在海量互联网图文数据上训练，已经“知道”世界是什么样的——杯子就是杯子，把东西收起来意味着放回合理位置。这个部分更像一个缓慢、审慎的规划者。

动作专家是一个小得多的快速模型，唯一任务是将主干形成的理解细化为平滑的电机控制指令。

这种架构被称为视觉-语言-动作模型（Vision-Language-Action Model，VLA）。NVIDIA 的 GR00T N1、Physical Intelligence 的 π₀ 都采用这种拆分方式：一个 VLM 负责场景推理，一个独立的动作头负责生成实际动作。

1.2 动作生成的两种范式

离散式：模型一次只生成一个动作，执行后再重新观测。直观但速度慢，小错误不断累积，最终让机器人偏离能力边界。

动作分块：模型一次性预测一小段未来动作序列，作为一个平滑的整体执行。这个想法由斯坦福 Tony Zhao 等人提出，名为 ACT（Action Chunking with Transformers）。它只需要约十分钟示教数据，就能学会高精度任务（如打开半透明调料杯），成功率达 80%-90%。

当前生成平滑动作块的前沿方法是流匹配（Flow Matching）——通过扩散过程将带噪声的潜变量逐步细化为连贯轨迹。π₀ 和 GR00T 中的动作专家都采用此技术。

1.3 边缘端 vs 云端：大脑放在哪里？

边缘端：延迟几乎为零，但受限于硬件，模型必须压缩。

云端：可运行更大模型，但每个动作需网络往返，延迟成为敌人。

以 π₀.₅ 为例，在高端 GPU 上完成一次感知与动作循环约需 274 毫秒，其中 80% 时间花在流匹配细化上。而边缘端 3Hz 控制循环每个周期仅约 330 毫秒，几乎没有余量。

1.4 开源 VLA 模型一览

模型机构特点数据规模

OpenVLA斯坦福等7B 参数，开源 VLA 标杆公开数据集 π₀ / π₀.₅Physical Intelligence流匹配动作头，强泛化大规模内部数据 GR00T N1NVIDIASystem 2 VLM + System 1 动作合成+真实数据 Qwen-RobotManip阿里巴巴跨15种机器人本体，38100小时数据全开源 FineVLA港大+阿里细粒度语言控制，10维标注97万条轨迹

FineVLA 是一个值得关注的新工作：它让 VLA 模型不仅能完成任务，还能按照人类指定的方式执行——用哪只手、从哪个角度接近、接触物体哪个部位，都可以通过语言控制。其最佳混合策略在 RoboTwin 仿真中达到 86.8% 成功率，比基线提升 15 个百分点。

二、世界模型：让机器人学会“预判”

2.1 为什么需要世界模型？

VLA 模型建立了“观测→动作”的映射，但它无法建模动作对环境带来的变化。机器人需要理解：如果我这样推杯子，它会怎么动？如果桌面摩擦变大，原来的动作还有效吗？

世界模型回答了这个问题：给定当前状态和动作，预测世界接下来会变成什么样。

2.2 三种世界模型路线

像素空间世界模型：预测未来每一帧像素。直观但昂贵——模型可能花大量力气学习光照、纹理和背景，而不是机器人真正关心的接触、力和物体运动。

潜空间世界模型：将世界压缩到 compact latent space 中预测。更高效，但可能变成黑盒，难以解释和干预。

结构化世界模型：预测少量语义交互点的运动轨迹。马里兰大学提出的 μ₀ 就是代表——它预测 3D interaction traces（物体部件、工具、手、接触区域的运动轨迹），既 compact 又可解释。μ₀ 的预训练数据约 200K episodes、13M frames，冻结后接轻量 action expert，真实机器人成功率超过 π₀.₅。

2.3 世界动作模型（WAM）

新加坡国立大学的综述将世界动作模型（World Action Model，WAM）定义为：将未来预测嵌入动作决策链路，依靠未来表征完成动作生成、筛选或校验。

WAM 与 VLA、普通世界模型的核心区别：

模型类型定义是否预测未来未来是否用于动作

VLAp(ao,l)否否世界模型p(o'o,a,l)是否 WAM联合建模 p(s_{t+1:H}, a_{t:H-1}c)是是

综述提出 WAM 的三大设计哲学：

渲染解码型：完整生成像素画面再解码动作（如 UniPi）

仅隐态型：跳过像素解码，从中间隐变量解码动作（如 Fast-WAM）

无视频生成型：完全移除视频生成主干，基于特征/几何表征预测（如 FLARE）

趋势是“Dream Less, Act More”——逐步放弃完整像素渲染，转向轻量化隐式表征。

2.4 因果世界模型

Aether AI 将技术路线定义为因果世界模型（Causal World Models）：相比只预测下一个状态，更关心模型能否识别真正影响结果的变量，理解变量间的因果结构，并在行动前模拟不同干预的后果。

其四层架构包括：

Causation Transformer：识别因果影响而非统计依赖

模块化神经架构：按因果机制（接触、支撑、重力等）拆分模块

因果世界模型：核心层，模拟干预后果

智能体层：基于因果推理做决策

2.5 触觉世界模型

它石智航联合多机构提出的 TacForeSight 首次将腕部力觉作为未来触觉状态的先导信号，预测短时接触演化。核心模块 Force-Guided Tactile World Model 将双指触觉场编码为紧凑潜变量，利用高频力/力矩信号预测未来触觉演化，支持 20Hz 实时推理，在接触密集型任务中平均完成率近 80%。

三、全身控制：从“会走路的双臂平台”到协调全身

3.1 移动操作（Loco-Manipulation）

人形机器人不应只是“手臂+移动平台”，而应是一个能协调手、腰、腿、脚共同完成任务的运动整体。OpenHLM（清华大学）针对这一问题提出面向人形机器人全身移动操作的开源 VLA 配方。

OpenHLM 通过三阶段实验确定关键设计：

全身控制器与遥操作接口：面向机器人关节空间的全身遥操作最适合数据采集

VLA 迁移：非人形机器人数据预训练仍提供有价值先验；多步 flow 生成动作优于单步

低成本数据扩展：站定遥操作数据和手持终端演示数据（HuMI）可帮助 VLA 扩展到新任务

在长程语言条件任务上，OpenHLM 用不到一半的演示时长，取得 87.5% 平均任务进度，远超 GR00T N1.6（57.5%）和 Ψ₀（48.8%）。

3.2 全身灵巧操作

Curr-0（Current Robotics）通过 Single Policy 将移动、全身姿态协调与手部精细操作统一。基于 21,000 小时人类行为数据（含 2,800 小时全身示教）训练，使用自研 HumanEx 全身外骨骼数据采集系统，让人类穿戴外骨骼在真实场景中自然完成任务。

3.3 运动基础模型

AstraBrain-WBC 0.5（银河通用）是全球首个人形机器人全身实时运控基础模型，基于 20 亿帧人类动作数据训练，参数规模 8040 万。首次在运动控制领域验证 Scaling Law：

数据从 200 万帧扩展到 20 亿帧，零样本追踪成功率从 83.26% 提升至 92.58%

采用 GPT 风格因果 Transformer 架构，推理延迟仅 0.39ms

零样本泛化全新动作（篮球、拳击、舞蹈等），无需针对单个任务重新训练

四、数据瓶颈与解决方案

4.1 数据稀缺的根源

机器人数据来自遥操作，采集成本高、场景单一、硬件异构。GR00T 团队将其描述为“数据孤岛”组成的群岛，而非统一的数据海洋。

4.2 四大应对策略

策略一：仿真合成数据

NVIDIA 发现，在 GR00T 训练中混入合成数据，相比只使用真实数据性能提升 40%。LabVLA（浙大+上海 AI Lab）构建知识增强仿真数据引擎 RoboGenesis，将科学原理编码进仿真环境，自动生成实验室操作数据。

策略二：人类第一视角视频

Meta 的 Ego4D 项目收集超 3000 小时人类第一视角视频。佐治亚理工的 EgoMimic 发现：额外增加一小时人类手部数据，对机器人的提升效果超过额外增加一小时机器人数据。

策略三：跨本体数据对齐

Qwen-RobotManip 提出三维对齐体系：表征对齐（统一 80 维状态-动作向量）、动作对齐（相机坐标系末端执行器增量位姿）、行为对齐（通过执行历史自动识别机器人本体）。对齐后，数据规模化才能持续提升性能。

策略四：细粒度标注

FineVLA 从 10 个开源数据集汇总 97 万条轨迹，通过 DTW 聚类筛选 47159 条代表性样本，沿十个维度（执行体、目标物体、接触方式、轨迹方向等）标注，平均描述词数从 9.3 增至 96.8。混合细粒度指令训练，成功率提升 15 个百分点。

五、鲁棒性与部署挑战

5.1 视觉鲁棒性

真实世界中，传感器噪声、运动模糊、光照变化、镜头油污等因素都会使 VLA 模型性能下降。StableVLA（北大、清华等）提出轻量级 Information Bottleneck Adapter（IB-Adapter），在视觉特征进入策略模型前进行信息筛选，抑制噪声通道，保留任务相关语义。在 14× 更小 backbone、80× 更小训练数据下，仍取得有竞争力的 zero-shot robustness。

5.2 推理延迟与部署

π₀.₅ 单次推理约 274ms

μ₀ 单次预测约 0.29s

AstraBrain-WBC 0.5 优化后仅 0.39ms

TacForeSight 支持 20Hz 实时推理

延迟是物理世界智能的核心约束。云端大模型 vs 边缘端小模型的取舍，将长期存在。

六、学习路径与资源推荐

6.1 理论学习

第一性原理：理解机器人策略本质是函数，阅读 Interlatent 的《Modern AI Robotics from First Principles》

VLA 架构：阅读 OpenVLA、π₀ 论文，理解 VLM + 动作头的拆分逻辑

世界模型：阅读 μ₀、TacForeSight 论文，理解结构化预测的价值

全身控制：阅读 OpenHLM、Curr-0 论文，关注移动与操作的耦合

6.2 动手实践

仿真环境：使用 RoboTwin、LIBERO、LabUtopia 等基准

开源模型：部署 OpenVLA、Qwen-RobotManip、FineVLA

数据工具：尝试 FineVLA-Tool 进行细粒度标注，使用 RoboGenesis 生成合成数据

6.3 关键论文与项目

方向代表性工作开源地址

VLAOpenVLA, π₀, Qwen-RobotManipGitHub / Hugging Face 世界模型μ₀, TacForeSight, Genie 3GitHub 全身控制OpenHLM, Curr-0, AstraBrain-WBCGitHub 鲁棒性StableVLAGitHub 细粒度控制FineVLAGitHub 科学具身LabVLAGitHub

七、未来展望

具身智能正在从“演示级”走向“部署级”。核心趋势包括：

少预测、多行动：逐步舍弃像素渲染，转向轻量化隐式表征

因果建模：从相关性走向因果干预，让机器人理解“如果这样做，世界会如何改变”

数据飞轮：人类第一视角视频 + 仿真合成 + 跨本体对齐，降低对昂贵机器人数据的依赖

全身协同：从“会走路的双臂平台”到真正协调全身的通用机器人

正如 LLM 有 words，机器人可能需要 traces——μ₀ 的 3D interaction traces 或许就是机器人的“物理语言”。未来，随着视觉、触觉、力觉等多模态感知进一步融合，机器人将逐渐学会像人一样预判世界、适应世界。

FAQ

VLA 和传统机器人控制方法有什么区别？ 传统方法通常将感知、规划、控制拆分为独立模块，每部分需要人工设计特征或规则。VLA 通过端到端学习，用一个模型直接从观测映射到动作，利用大规模数据学习通用先验，泛化能力更强。但 VLA 不建模环境动态，无法预判动作后果，因此常与世界模型结合使用。

世界模型一定要生成像素画面吗？ 不一定。像素生成计算开销大，且大量视觉信息对控制无用。当前趋势是预测潜空间表征（如 JEPA 特征）或结构化表示（如 3D interaction traces），只保留控制必需的信息。μ₀ 和 TacForeSight 都证明了非像素世界模型的有效性。

如何解决机器人数据稀缺问题？ 主要有四条路径：1）仿真合成数据（如 RoboGenesis）；2）人类第一视角视频（如 Ego4D）；3）跨本体数据对齐（如 Qwen-RobotManip 的三维对齐）；4）细粒度标注增强数据效率（如 FineVLA）。实践中通常组合使用。

全身控制的关键难点是什么？ 核心是移动与操作的耦合。传统方法将行走和操作分开处理，导致动作割裂。OpenHLM 和 Curr-0 表明，需要统一策略同时协调手脚腰身，并设计合适的遥操作接口和数据采集方案。AstraBrain-WBC 则从运动基础模型角度，验证了大规模数据+Transformer 架构可以零样本泛化全新动作。

具身智能领域有哪些值得关注的开源项目？ 推荐：OpenVLA（VLA 标杆）、μ₀（结构化世界模型）、OpenHLM（全身控制）、FineVLA（细粒度语言控制）、Qwen-Robot Suite（全栈套件）、LabVLA（科学具身）、StableVLA（鲁棒性）。所有项目均在 GitHub 开源，适合入门学习和二次开发。

所属主题：AI Agent 与多智能体

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

具身智能入门：从 VLA 到世界模型，机器人如何学会理解物理世界

引言：机器人智能的核心矛盾

一、VLA：视觉-语言-动作模型

1.1 从“大脑”到“小脑”的拆分

1.2 动作生成的两种范式

1.3 边缘端 vs 云端：大脑放在哪里？

1.4 开源 VLA 模型一览

二、世界模型：让机器人学会“预判”

2.1 为什么需要世界模型？

2.2 三种世界模型路线

2.3 世界动作模型（WAM）

2.4 因果世界模型

2.5 触觉世界模型

三、全身控制：从“会走路的双臂平台”到协调全身

3.1 移动操作（Loco-Manipulation）

3.2 全身灵巧操作

3.3 运动基础模型

四、数据瓶颈与解决方案

4.1 数据稀缺的根源

4.2 四大应对策略

五、鲁棒性与部署挑战

5.1 视觉鲁棒性

5.2 推理延迟与部署

六、学习路径与资源推荐

6.1 理论学习

6.2 动手实践

6.3 关键论文与项目

七、未来展望

FAQ

Documentation

Getting Started

Learn more