EN

具身智能入门:从 VLA 到世界模型,机器人如何学会理解物理世界

梳理具身智能的核心技术路线,结合最新开源模型与数据集,为初学者提供系统性学习路径

返回教程列表
进阶35 分钟

具身智能入门:从 VLA 到世界模型,机器人如何学会理解物理世界

梳理具身智能的核心技术路线,结合最新开源模型与数据集,为初学者提供系统性学习路径

本文从第一性原理出发,系统梳理具身智能的核心技术路线:VLA(视觉-语言-动作模型)如何将感知与动作耦合,世界模型如何让机器人预判未来,全身控制如何实现手脚腰身的协同。结合 OpenHLM、μ₀、TacForeSight、LabVLA、StableVLA、FineVLA、AstraBrain-WBC、Curr-0、Qwen-Robot Suite 等最新开源模型与数据集,剖析数据瓶颈、推理延迟、泛化鲁棒性等关键挑战,并提供从理论到实践的学习路径。

引言:机器人智能的核心矛盾

当你在视频中看到一台机械臂听懂指令、拿起杯子,或者一个人形机器人走进厨房把杂物归位,很容易产生一种错觉:机器人已经开始像人一样理解世界了。

但把问题拆到最底层,答案朴素得多。

机器人策略本质上是一个函数:它接收观测作为输入(摄像头像素、关节角度、夹爪阻力等),输出动作(电机位置和力矩)。所有复杂的算法、训练方法和数据扩展理论,都是为了得到这个函数的一个足够好的版本。

然而,这个看似标准的机器学习问题,在物理世界中遇到了三个独特的挑战:

  • 实时性:大语言模型可以花3秒思考下一个 token,但机器人倒咖啡时,动作必须在事件发生过程中同步生成。模型不仅需要正确,还必须快到当答案送达时,“正确性”依然有意义。
  • 数据稀缺:机器人数据来自遥操作,每一小时数据都意味着人类劳动成本。更糟的是,每种机器人、每种夹爪、每个实验室都产生彼此不兼容的小型数据集,形成“数据孤岛”。
  • 泛化困难:训练分布外的光照、遮挡、物体材质变化,都可能导致模型性能断崖式下降。
  • 本文围绕这些挑战,梳理具身智能的三大核心技术路线:VLA 模型、世界模型、全身控制,并结合最新开源工作,为初学者提供系统性的学习路径。

    一、VLA:视觉-语言-动作模型

    1.1 从“大脑”到“小脑”的拆分

    现代机器人模型通常分成两个部分:一个负责理解,一个负责行动。

  • 主干通常是一个大模型(VLM),在海量互联网图文数据上训练,已经“知道”世界是什么样的——杯子就是杯子,把东西收起来意味着放回合理位置。这个部分更像一个缓慢、审慎的规划者。
  • 动作专家是一个小得多的快速模型,唯一任务是将主干形成的理解细化为平滑的电机控制指令。
  • 这种架构被称为视觉-语言-动作模型(Vision-Language-Action Model,VLA)。NVIDIA 的 GR00T N1、Physical Intelligence 的 π₀ 都采用这种拆分方式:一个 VLM 负责场景推理,一个独立的动作头负责生成实际动作。

    1.2 动作生成的两种范式

    离散式:模型一次只生成一个动作,执行后再重新观测。直观但速度慢,小错误不断累积,最终让机器人偏离能力边界。

    动作分块:模型一次性预测一小段未来动作序列,作为一个平滑的整体执行。这个想法由斯坦福 Tony Zhao 等人提出,名为 ACT(Action Chunking with Transformers)。它只需要约十分钟示教数据,就能学会高精度任务(如打开半透明调料杯),成功率达 80%-90%。

    当前生成平滑动作块的前沿方法是流匹配(Flow Matching)——通过扩散过程将带噪声的潜变量逐步细化为连贯轨迹。π₀ 和 GR00T 中的动作专家都采用此技术。

    1.3 边缘端 vs 云端:大脑放在哪里?

  • 边缘端:延迟几乎为零,但受限于硬件,模型必须压缩。
  • 云端:可运行更大模型,但每个动作需网络往返,延迟成为敌人。
  • 以 π₀.₅ 为例,在高端 GPU 上完成一次感知与动作循环约需 274 毫秒,其中 80% 时间花在流匹配细化上。而边缘端 3Hz 控制循环每个周期仅约 330 毫秒,几乎没有余量。

    1.4 开源 VLA 模型一览

    模型机构特点数据规模

    OpenVLA斯坦福等7B 参数,开源 VLA 标杆公开数据集 π₀ / π₀.₅Physical Intelligence流匹配动作头,强泛化大规模内部数据 GR00T N1NVIDIASystem 2 VLM + System 1 动作合成+真实数据 Qwen-RobotManip阿里巴巴跨15种机器人本体,38100小时数据全开源 FineVLA港大+阿里细粒度语言控制,10维标注97万条轨迹

    FineVLA 是一个值得关注的新工作:它让 VLA 模型不仅能完成任务,还能按照人类指定的方式执行——用哪只手、从哪个角度接近、接触物体哪个部位,都可以通过语言控制。其最佳混合策略在 RoboTwin 仿真中达到 86.8% 成功率,比基线提升 15 个百分点。

    二、世界模型:让机器人学会“预判”

    2.1 为什么需要世界模型?

    VLA 模型建立了“观测→动作”的映射,但它无法建模动作对环境带来的变化。机器人需要理解:如果我这样推杯子,它会怎么动?如果桌面摩擦变大,原来的动作还有效吗?

    世界模型回答了这个问题:给定当前状态和动作,预测世界接下来会变成什么样。

    2.2 三种世界模型路线

    像素空间世界模型:预测未来每一帧像素。直观但昂贵——模型可能花大量力气学习光照、纹理和背景,而不是机器人真正关心的接触、力和物体运动。

    潜空间世界模型:将世界压缩到 compact latent space 中预测。更高效,但可能变成黑盒,难以解释和干预。

    结构化世界模型:预测少量语义交互点的运动轨迹。马里兰大学提出的 μ₀ 就是代表——它预测 3D interaction traces(物体部件、工具、手、接触区域的运动轨迹),既 compact 又可解释。μ₀ 的预训练数据约 200K episodes、13M frames,冻结后接轻量 action expert,真实机器人成功率超过 π₀.₅。

    2.3 世界动作模型(WAM)

    新加坡国立大学的综述将世界动作模型(World Action Model,WAM)定义为:将未来预测嵌入动作决策链路,依靠未来表征完成动作生成、筛选或校验。

    WAM 与 VLA、普通世界模型的核心区别:

    模型类型定义是否预测未来未来是否用于动作

    VLAp(ao,l)否否 世界模型p(o'o,a,l)是否 WAM联合建模 p(s_{t+1:H}, a_{t:H-1}c)是是

    综述提出 WAM 的三大设计哲学:

  • 渲染解码型:完整生成像素画面再解码动作(如 UniPi)
  • 仅隐态型:跳过像素解码,从中间隐变量解码动作(如 Fast-WAM)
  • 无视频生成型:完全移除视频生成主干,基于特征/几何表征预测(如 FLARE)
  • 趋势是“Dream Less, Act More”——逐步放弃完整像素渲染,转向轻量化隐式表征。

    2.4 因果世界模型

    Aether AI 将技术路线定义为因果世界模型(Causal World Models):相比只预测下一个状态,更关心模型能否识别真正影响结果的变量,理解变量间的因果结构,并在行动前模拟不同干预的后果。

    其四层架构包括:

  • Causation Transformer:识别因果影响而非统计依赖
  • 模块化神经架构:按因果机制(接触、支撑、重力等)拆分模块
  • 因果世界模型:核心层,模拟干预后果
  • 智能体层:基于因果推理做决策
  • 2.5 触觉世界模型

    它石智航联合多机构提出的 TacForeSight 首次将腕部力觉作为未来触觉状态的先导信号,预测短时接触演化。核心模块 Force-Guided Tactile World Model 将双指触觉场编码为紧凑潜变量,利用高频力/力矩信号预测未来触觉演化,支持 20Hz 实时推理,在接触密集型任务中平均完成率近 80%。

    三、全身控制:从“会走路的双臂平台”到协调全身

    3.1 移动操作(Loco-Manipulation)

    人形机器人不应只是“手臂+移动平台”,而应是一个能协调手、腰、腿、脚共同完成任务的运动整体。OpenHLM(清华大学)针对这一问题提出面向人形机器人全身移动操作的开源 VLA 配方。

    OpenHLM 通过三阶段实验确定关键设计:

  • 全身控制器与遥操作接口:面向机器人关节空间的全身遥操作最适合数据采集
  • VLA 迁移:非人形机器人数据预训练仍提供有价值先验;多步 flow 生成动作优于单步
  • 低成本数据扩展:站定遥操作数据和手持终端演示数据(HuMI)可帮助 VLA 扩展到新任务
  • 在长程语言条件任务上,OpenHLM 用不到一半的演示时长,取得 87.5% 平均任务进度,远超 GR00T N1.6(57.5%)和 Ψ₀(48.8%)。

    3.2 全身灵巧操作

    Curr-0(Current Robotics)通过 Single Policy 将移动、全身姿态协调与手部精细操作统一。基于 21,000 小时人类行为数据(含 2,800 小时全身示教)训练,使用自研 HumanEx 全身外骨骼数据采集系统,让人类穿戴外骨骼在真实场景中自然完成任务。

    3.3 运动基础模型

    AstraBrain-WBC 0.5(银河通用)是全球首个人形机器人全身实时运控基础模型,基于 20 亿帧人类动作数据训练,参数规模 8040 万。首次在运动控制领域验证 Scaling Law:

  • 数据从 200 万帧扩展到 20 亿帧,零样本追踪成功率从 83.26% 提升至 92.58%
  • 采用 GPT 风格因果 Transformer 架构,推理延迟仅 0.39ms
  • 零样本泛化全新动作(篮球、拳击、舞蹈等),无需针对单个任务重新训练
  • 四、数据瓶颈与解决方案

    4.1 数据稀缺的根源

    机器人数据来自遥操作,采集成本高、场景单一、硬件异构。GR00T 团队将其描述为“数据孤岛”组成的群岛,而非统一的数据海洋。

    4.2 四大应对策略

    策略一:仿真合成数据

    NVIDIA 发现,在 GR00T 训练中混入合成数据,相比只使用真实数据性能提升 40%。LabVLA(浙大+上海 AI Lab)构建知识增强仿真数据引擎 RoboGenesis,将科学原理编码进仿真环境,自动生成实验室操作数据。

    策略二:人类第一视角视频

    Meta 的 Ego4D 项目收集超 3000 小时人类第一视角视频。佐治亚理工的 EgoMimic 发现:额外增加一小时人类手部数据,对机器人的提升效果超过额外增加一小时机器人数据。

    策略三:跨本体数据对齐

    Qwen-RobotManip 提出三维对齐体系:表征对齐(统一 80 维状态-动作向量)、动作对齐(相机坐标系末端执行器增量位姿)、行为对齐(通过执行历史自动识别机器人本体)。对齐后,数据规模化才能持续提升性能。

    策略四:细粒度标注

    FineVLA 从 10 个开源数据集汇总 97 万条轨迹,通过 DTW 聚类筛选 47159 条代表性样本,沿十个维度(执行体、目标物体、接触方式、轨迹方向等)标注,平均描述词数从 9.3 增至 96.8。混合细粒度指令训练,成功率提升 15 个百分点。

    五、鲁棒性与部署挑战

    5.1 视觉鲁棒性

    真实世界中,传感器噪声、运动模糊、光照变化、镜头油污等因素都会使 VLA 模型性能下降。StableVLA(北大、清华等)提出轻量级 Information Bottleneck Adapter(IB-Adapter),在视觉特征进入策略模型前进行信息筛选,抑制噪声通道,保留任务相关语义。在 14× 更小 backbone、80× 更小训练数据下,仍取得有竞争力的 zero-shot robustness。

    5.2 推理延迟与部署

  • π₀.₅ 单次推理约 274ms
  • μ₀ 单次预测约 0.29s
  • AstraBrain-WBC 0.5 优化后仅 0.39ms
  • TacForeSight 支持 20Hz 实时推理
  • 延迟是物理世界智能的核心约束。云端大模型 vs 边缘端小模型的取舍,将长期存在。

    六、学习路径与资源推荐

    6.1 理论学习

  • 第一性原理:理解机器人策略本质是函数,阅读 Interlatent 的《Modern AI Robotics from First Principles》
  • VLA 架构:阅读 OpenVLA、π₀ 论文,理解 VLM + 动作头的拆分逻辑
  • 世界模型:阅读 μ₀、TacForeSight 论文,理解结构化预测的价值
  • 全身控制:阅读 OpenHLM、Curr-0 论文,关注移动与操作的耦合
  • 6.2 动手实践

  • 仿真环境:使用 RoboTwin、LIBERO、LabUtopia 等基准
  • 开源模型:部署 OpenVLA、Qwen-RobotManip、FineVLA
  • 数据工具:尝试 FineVLA-Tool 进行细粒度标注,使用 RoboGenesis 生成合成数据
  • 6.3 关键论文与项目

    方向代表性工作开源地址

    VLAOpenVLA, π₀, Qwen-RobotManipGitHub / Hugging Face 世界模型μ₀, TacForeSight, Genie 3GitHub 全身控制OpenHLM, Curr-0, AstraBrain-WBCGitHub 鲁棒性StableVLAGitHub 细粒度控制FineVLAGitHub 科学具身LabVLAGitHub

    七、未来展望

    具身智能正在从“演示级”走向“部署级”。核心趋势包括:

  • 少预测、多行动:逐步舍弃像素渲染,转向轻量化隐式表征
  • 因果建模:从相关性走向因果干预,让机器人理解“如果这样做,世界会如何改变”
  • 数据飞轮:人类第一视角视频 + 仿真合成 + 跨本体对齐,降低对昂贵机器人数据的依赖
  • 全身协同:从“会走路的双臂平台”到真正协调全身的通用机器人
  • 正如 LLM 有 words,机器人可能需要 traces——μ₀ 的 3D interaction traces 或许就是机器人的“物理语言”。未来,随着视觉、触觉、力觉等多模态感知进一步融合,机器人将逐渐学会像人一样预判世界、适应世界。

    FAQ

    VLA 和传统机器人控制方法有什么区别? 传统方法通常将感知、规划、控制拆分为独立模块,每部分需要人工设计特征或规则。VLA 通过端到端学习,用一个模型直接从观测映射到动作,利用大规模数据学习通用先验,泛化能力更强。但 VLA 不建模环境动态,无法预判动作后果,因此常与世界模型结合使用。

    世界模型一定要生成像素画面吗? 不一定。像素生成计算开销大,且大量视觉信息对控制无用。当前趋势是预测潜空间表征(如 JEPA 特征)或结构化表示(如 3D interaction traces),只保留控制必需的信息。μ₀ 和 TacForeSight 都证明了非像素世界模型的有效性。

    如何解决机器人数据稀缺问题? 主要有四条路径:1)仿真合成数据(如 RoboGenesis);2)人类第一视角视频(如 Ego4D);3)跨本体数据对齐(如 Qwen-RobotManip 的三维对齐);4)细粒度标注增强数据效率(如 FineVLA)。实践中通常组合使用。

    全身控制的关键难点是什么? 核心是移动与操作的耦合。传统方法将行走和操作分开处理,导致动作割裂。OpenHLM 和 Curr-0 表明,需要统一策略同时协调手脚腰身,并设计合适的遥操作接口和数据采集方案。AstraBrain-WBC 则从运动基础模型角度,验证了大规模数据+Transformer 架构可以零样本泛化全新动作。

    具身智能领域有哪些值得关注的开源项目? 推荐:OpenVLA(VLA 标杆)、μ₀(结构化世界模型)、OpenHLM(全身控制)、FineVLA(细粒度语言控制)、Qwen-Robot Suite(全栈套件)、LabVLA(科学具身)、StableVLA(鲁棒性)。所有项目均在 GitHub 开源,适合入门学习和二次开发。