具身智能：从RT-2到人形机器人，AI如何学会与物理世界交互

解析视觉-语言-行动模型（VLA）的技术突破，以及具身AI的挑战与未来

高级约 35 分钟

具身智能：从RT-2到人形机器人，AI如何学会与物理世界交互

解析视觉-语言-行动模型（VLA）的技术突破，以及具身AI的挑战与未来

介绍具身智能（Embodied AI）的最新研究进展，包括RT-2/RT-X视觉语言动作模型、语言指令跟随机器人、灵巧手操作学习和人形机器人从实验室到工厂的技术路径。

具身智能机器人AIRT-2人形机器人VLA

具身智能前沿进展：VLA模型架构（RT-2：将机器人控制融入视觉语言模型；物理动作表示为token；在网络数据上预训练提升泛化能力）；OpenVLA（开源视觉语言行动模型；7B参数；在BridgeData V2上微调；支持Real-robot部署）；灵巧手操作（模仿学习：从人类演示视频学习；Diffusion Policy扩散模型生成平滑动作；ACT （Action Chunking with Transformers）提升操作一致性）；人形机器人进展（Figure 02+OpenAI合作：LLM驱动推理+VLA驱动操作；Unitree H1全身运动控制；Tesla Optimus工厂测试结果）；Sim-to-Real Transfer（IsaacGym物理仿真大规模训练；Domain Randomization提升真实环境鲁棒性；感知适应（Percept Adaptation））；关键挑战（样本效率低；安全性约束；灵巧操作难度；实时性要求）；10年展望（从特定任务机器人→通用家庭助理机器人）。

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

具身智能：从RT-2到人形机器人，AI如何学会与物理世界交互

Documentation

Getting Started

Learn more