机器人基础模型：RT-2、OpenVLA 与 Physical Intelligence

视觉-语言-动作模型如何实现通用机器人控制

高级约 32 分钟

机器人基础模型：RT-2、OpenVLA 与 Physical Intelligence

视觉-语言-动作模型如何实现通用机器人控制

机器人基础模型与 VLA(视觉-语言-动作)：核心概念、代表性公开研究(RT-2、Open X-Embodiment、π0 等)、数据与泛化挑战。

robotics-AI foundation-models VLA RT-2 physical-AI

什么是 VLA：视觉-语言-动作模型

机器人基础模型的核心突破在于将视觉-语言模型（VLM） 的能力扩展到机器人动作空间，形成视觉-语言-动作（VLA） 范式。传统机器人控制依赖手工设计的感知-规划-执行管线，每个环节需要独立训练和调参。VLA 模型则尝试用一个端到端网络，直接根据视觉输入和自然语言指令，输出机器人关节或末端执行器的动作序列。

VLA 的关键思想是：将机器人动作视为与文本 tokens 并列的另一种 token 序列。这样，预训练的视觉-语言模型（如 PaLM-E、Flamingo 等）可以通过微调，学会将图像特征和语言指令映射到动作空间。这种迁移学习路径，让机器人模型能够继承大语言模型在语义理解、常识推理上的能力。

代表性公开研究

#### RT-1 与 RT-2：Google 的规模化尝试

RT-1（Robotic Transformer 1）是 Google 在 2022 年提出的基于 Transformer 的机器人策略。它使用 FiLM（Feature-wise Linear Modulation）机制将语言指令注入视觉特征，并通过离散化的动作 token 输出。RT-1 在 13 万条真实机器人演示数据上训练，展示了多任务泛化能力——同一模型可以完成拾取、放置、打开抽屉等数百种技能。

RT-2（2023 年）是 VLA 范式的标志性工作。它将互联网规模预训练的视觉-语言模型（PaLI-X 或 PaLM-E）作为 backbone，然后通过机器人演示数据微调，让模型学会输出动作 token。RT-2 的关键贡献在于证明了：大规模语言模型预训练的知识（如物体类别、空间关系、常识推理）可以直接迁移到机器人控制中。例如，模型在没有见过“把香蕉扔进垃圾桶”的演示数据时，能通过理解“香蕉是可食用的、垃圾桶是丢弃物品的容器”这一常识来执行任务。

#### Open X-Embodiment：数据联盟

Open X-Embodiment 是一个由多家研究机构（Google、UC Berkeley、Stanford 等）联合发起的项目，旨在构建跨机器人形态、跨任务的大规模数据集。它收录了来自 22 种不同机器人平台（包括单臂、双臂、移动机械臂等）的超过 100 万条演示轨迹。

基于该数据集训练的 RT-1-X 模型展示了跨本体泛化能力：在一种机器人上训练的策略，可以零样本迁移到另一种形态的机器人上执行类似任务。这验证了“数据多样性比数据量更重要”的假设——不同机器人形态的演示数据，迫使模型学习更通用的视觉-动作映射，而非过拟合到特定机械结构。

#### Octo：开源 VLA 基线

Octo 是 UC Berkeley 和 Google 联合开发的开源 VLA 模型。与 RT-2 不同，Octo 采用更轻量的 Transformer 架构（约 1 亿参数），并专注于在 Open X-Embodiment 数据集上训练。它支持条件化输入（语言指令或目标图像），并输出离散化的动作 token。

Octo 的开源性质使其成为社区研究的重要基线。开发者可以基于 Octo 的预训练权重，在自己的机器人上通过少量演示数据（几十到几百条）进行微调，实现特定任务。这降低了 VLA 模型的应用门槛。

#### π0：Physical Intelligence 的通用策略

Physical Intelligence 是一家专注于机器人基础模型的初创公司。其模型 π0（发音为“pi-zero”）采用流匹配（flow matching） 技术生成连续动作序列，而非离散化 token。π0 在多种机器人平台（包括轮式移动机器人、双臂操作机器人）上训练，展示了在复杂场景（如叠衣服、组装家具）中的操作能力。

π0 的关键创新在于：将动作生成视为一个去噪过程，从随机噪声逐步迭代生成平滑的动作轨迹。这种方法避免了离散化带来的精度损失，更适合需要精细力控的任务。Physical Intelligence 还提出了 π0 的微调版本，通过少量人类遥操作数据即可适配新任务。

数据与泛化挑战

尽管 VLA 模型取得了显著进展，但机器人基础模型仍面临根本性挑战：

数据瓶颈：机器人演示数据的获取成本远高于文本或图像数据。人类遥操作收集一条有效轨迹需要数秒到数分钟，且需要物理机器人硬件。当前最大数据集（如 Open X-Embodiment）的规模（百万级）与互联网文本数据集（万亿级）相比仍有数量级差距。

分布外泛化：VLA 模型在训练环境中的表现可能很好，但一旦遇到新的光照条件、物体布局、背景纹理，性能会急剧下降。这与大语言模型的“涌现”能力形成鲜明对比——机器人模型缺乏对物理世界因果关系的深层理解。

动作空间差异：不同机器人具有不同的自由度、关节限位、动力学特性。虽然 Open X-Embodiment 尝试通过归一化动作空间来缓解，但跨本体迁移仍不稳定。例如，一个在 6 自由度机械臂上训练的策略，很难直接迁移到 7 自由度臂上。

安全与鲁棒性：VLA 模型可能产生不安全的动作（如碰撞、夹伤）。由于模型是黑箱，很难保证其在所有情况下都遵守安全约束。目前的研究方向包括：将安全约束作为显式条件输入、使用基于模型的验证器过滤动作输出。

与 LLM 的关系

VLA 模型与 LLM 的关系可以概括为继承与扩展：

继承：VLA 模型通常使用预训练的视觉-语言模型作为 backbone，继承了 LLM 的语义理解、常识推理、多模态对齐能力。例如，RT-2 使用 PaLM-E 的权重初始化，因此能理解“把苹果放在碗里”这样的组合指令。

扩展：VLA 模型在 LLM 的基础上增加了动作输出头，并经过机器人数据微调。这相当于给 LLM 装上了“物理身体”，使其能够与真实世界交互。

局限：LLM 的“世界知识”主要来自文本，缺乏对物理交互（如力、摩擦、物体可变形性）的直观理解。因此，VLA 模型在需要精细力控的任务（如拧螺丝、穿针）上表现不佳，这需要额外的触觉或力觉反馈。

未来方向

数据效率：探索利用合成数据、仿真环境（如 MuJoCo、Isaac Sim）生成大规模训练数据，减少对真实演示的依赖。

多模态融合：结合触觉、力觉、深度信息，构建更丰富的感知表示。

分层架构：将高层任务规划（由 LLM 负责）与低层动作执行（由 VLA 模型负责）分离，提升复杂长序列任务的可靠性。

安全对齐：开发可证明的安全约束方法，确保 VLA 模型在未知场景中也能避免危险动作。

FAQ

Q：VLA 模型需要多少训练数据？ A：这取决于任务复杂度和模型规模。RT-2 使用了 13 万条真实演示数据，而 Octo 在百万级数据集上训练。对于特定任务微调，通常需要几十到几百条高质量演示。

Q：VLA 模型能否在仿真环境中训练后直接部署到真实机器人？ A：存在 sim-to-real 差距。仿真中的物理引擎无法完美模拟真实世界的摩擦、弹性、光照变化。通常需要域随机化（domain randomization）或真实数据微调来弥合差距。

Q：OpenVLA 和 Octo 有什么区别？ A：OpenVLA 是 2024 年提出的开源 VLA 模型，使用 Llama 2 作为语言 backbone；Octo 更早（2023 年），使用更轻量的 Transformer。两者都基于 Open X-Embodiment 数据集，但架构和训练策略不同。

Q：VLA 模型能否处理未见过的物体？ A：有限。如果物体在视觉上与训练数据中的物体相似（如不同颜色的同类型杯子），模型可能泛化。但完全新奇的物体（如从未见过的工具）通常会导致失败。这需要模型具备更强的物体概念理解能力。

Q：Physical Intelligence 的 π0 与 RT-2 相比有何优势？ A：π0 使用流匹配生成连续动作，适合精细操作（如叠衣服）；RT-2 使用离散化动作 token，更适合离散任务（如拾取放置）。π0 在跨本体泛化上也有独特设计，但具体性能对比因任务而异。

*最后更新：2026 年 7 月。请以各工具官方文档为准。*

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

机器人基础模型：RT-2、OpenVLA 与 Physical Intelligence

什么是 VLA：视觉-语言-动作模型

代表性公开研究

数据与泛化挑战

与 LLM 的关系

未来方向

FAQ

Documentation

Getting Started

Learn more