世界模型:从理论到具身智能的下一块拼图

梳理 JEPA、Kairos、γ-World 等核心进展,揭示世界模型如何驱动具身智能迈向新阶段

返回教程列表
进阶25 分钟

世界模型:从理论到具身智能的下一块拼图

梳理 JEPA、Kairos、γ-World 等核心进展,揭示世界模型如何驱动具身智能迈向新阶段

世界模型正成为继大模型之后的新技术焦点,旨在让 AI 理解物理规律、预测动作后果并自主规划。本文从杨立昆的 JEPA 理论出发,解析世界模型的核心定义、分层规划架构与能量模型基础;随后介绍 Kairos 在四项评测中的领先表现、γ-World 的多 Agent 扩展能力,以及原力灵机、加速进化、Jiuwen Symbiosis 等产业实践。最后探讨数据飞轮、开源生态与未来挑战,为开发者提供从理论到落地的全景视角。

引言:从语言到物理——AI 的下一个战场

过去几年,大语言模型(LLM)在文本生成、代码编写和数学推理上取得了惊人突破。但一个尴尬的事实是:AI 仍然不会给自己倒一杯水。

这种“高智商、低体能”的困境被 Moravec 悖论精准概括——对人类婴儿来说轻而易举的行走、抓取、避障,对 AI 却是极难的任务。根本原因在于,现有模型缺乏对物理世界的常识理解:它们不知道重力、摩擦力、物体恒存性,也无法预判自身动作的后果。

世界模型(World Model)正是为解决这一问题而生。它试图让 AI 构建一个对物理世界运行规律的内部表征,从而能够进行因果推理、动作规划与零样本适应。本文将从理论、技术、产业三个维度,系统梳理世界模型的最新进展与未来方向。

世界模型的理论基石

什么是世界模型?

杨立昆(Yann LeCun)在 2026 年瑞士联邦理工讲座中给出了清晰定义:世界模型是一个基于动作/干预的因果模型。它接收系统观测结果与人为动作,预测干预带来的结果。关键区别在于,世界模型不在原始数据细节上做预测,而是在抽象表征空间完成预测,主动忽略噪声与不可预测的细节。

这一定义澄清了常见误解:世界模型 ≠ 数字孪生、全量模拟器或视频生成系统。它是一个面向动作的抽象预测器,核心目标是支持推理与规划。

JEPA:联合嵌入预测架构

JEPA(Joint Embedding Predictive Architecture)是实现世界模型的核心技术。与传统的生成式模型(如 VAE、扩散模型)不同,JEPA 不要求预测每个像素,而是学习数据的抽象表征,在表征空间中进行状态预测。这使得它对高维、连续、带噪声的数据(如视频、传感器)天然友好。

JEPA 的训练面临一个关键挑战:表征崩溃(Representation Collapse),即模型失去有效表征能力。解决方案主要有两种:

  • 对比方法:降低正样本能量、提升负样本能量,但高维场景扩展性差。
  • 正则化方法(AMI Labs 主推):约束低能量空间的体积,如 SIGReg(各向同性高斯正则化)、VCReg、Barlow Twins 等。
  • JEPA 家族已衍生出多个成熟模型:

  • I-JEPA:面向静态图像,衍生出 DINOv3 通用视觉基础模型。
  • V-JEPA:面向视频与动态场景,在 EK100、SSv2 等基准刷新纪录,可学习直观物理常识。
  • LeWorldModel (LeWM):端到端 JEPA 世界模型,在机器人规划任务中优于 DINO-WM、PLDM 等竞品。
  • 分层规划与安全约束

    世界模型支持多抽象层级、多时间尺度的分层规划:

  • 高层级:负责长期、远距离预测,表征精简,生成子目标。
  • 低层级:负责短期、近距离预测,保留细节,执行具体动作。
  • 安全护栏:全层级施加约束,保障系统可控。
  • 例如“从办公室前往机场”的任务:顶层选择机场与交通方式,中层规划路线与避障,底层执行行走、抓取等动作。这种架构使世界模型能够处理复杂长周期任务。

    前沿进展:从单人到多 Agent 的世界模型

    Kairos:4B 参数击败 28B 的冠军世界模型

    大晓机器人推出的 Kairos 世界模型在 RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen Bench 四项国际评测中均获第一,且参数规模仅 4B。

    核心技术

  • 原生统一架构:将多模态理解、视频生成与状态预测整合到同一模型,而非在现有模型上后训练改造。
  • 自研混合线性注意力机制全局状态共享机制,使三种能力协同运行。
  • 训练数据:超十万小时 human-centric 真实场景数据 + 数百万小时互联网视频,结合显式模仿学习与隐空间强化学习。
  • 关键表现

  • RoboTwin 2.0(双臂操作):平均成功率 96.1%,超过 G0.5、starVLA 等模型。
  • LIBERO-Plus(场景泛化):89.0 分,首次超越主流 VLA 路线(如 Pi 0.5)。
  • WorldModelBench Robot:4B 参数以 9.30 分击败 28B 的 Lingbot。
  • DreamGen Bench:物理遵循与总平均分双项第一。
  • Kairos-4B 还是首个能在端侧直接驱动机器人本体的具身世界模型,减少了中间转换延迟,让世界模型从“认知系统”向“执行系统”延伸。

    γ-World:多 Agent 共享世界的实时交互

    英伟达联合清华大学等机构推出的 γ-World,将世界模型从单人模式扩展到多人共享空间。其核心创新包括:

  • SRAE(单纯形旋转 Agent 编码):将 N 个 Agent 映射到旋转角度空间中正则单纯形的 N 个顶点上,任意两个顶点距离相等,无需学习参数即可实现身份对称与可扩展。双玩家训练后,可零样本泛化到四玩家。
  • SHA(稀疏枢纽注意力):引入可学习的 Hub Token 作为中介,将跨 Agent 注意力代价从 O(N²) 降到 O(N)。
  • 蒸馏流水线:教师模型(双向扩散)生成高质量数据,学生模型(分块因果)通过 KV 缓存实现 24 FPS 实时推理。
  • γ-World 在虚拟游戏与真实机器人协作场景中均验证了有效性,为多机器人协作、自动驾驶多车交互等场景提供了基础。

    产业落地:从数据飞轮到开源生态

    原力灵机:模型与场景的双向奔赴

    原力灵机与 Atomix 的合并,代表了“具身大模型”与“真实场景数据”的强强联合。原力灵机的 DM0 模型在 RoboChallenge 真机评测中全球第一,仅 2.4B 参数,融合互联网、自动驾驶与机器人操作数据,在 8 类本体上联合训练。Atomix 则在物流仓储场景积累了 500+ 项目、日均 60 万件出货量,为模型提供海量真实 Picking 数据。

    这一合并构建了“模型变强→机器人更聪明→数据更好→模型继续变强”的数据飞轮。唐文斌将 Picking 视为具身智能的“原子任务”,类似大模型时代的 Coding——具备海量数据、清晰反馈与强迁移性。

    加速进化:足球场上的 MVP 与操作系统野心

    加速进化选择机器人足球作为技术验证的最小闭环,20 年坚持这一场景。其 K1 人形机器人(3.99 万元)已在京东销售,T2 旗舰机型具备高动态能力。公司不押注端到端大模型,而是走分层落地路线:感知→决策→执行,同时开发 Booster Studio 开发工具,目标是构建具身 Agent 生态的操作系统。

    程昊认为,具身大模型成熟仍需 5-10 年,在此之前,操作系统与数据飞轮是更务实的路径。

    Jiuwen Symbiosis:开源的 physical AI 框架

    openJiuwen 社区开源的 Jiuwen Symbiosis,提出“态势感知环”架构,将认知层与执行层通过共享 Workspace 协作。其核心模块包括多模态感知、安全规划、物理执行、状态观察、观测反馈与空间记忆,支持零样本跨本体适应与长程复合任务。

    该框架采用端云协同架构:云侧 LLM/VLM 负责复杂推理,端侧昇腾 NPU 与鲲鹏 CPU 负责实时感知与执行,降低了功耗与部署成本。

    挑战与未来方向

    尽管世界模型进展迅速,但仍面临诸多挑战:

  • 数据瓶颈:真实物理交互数据获取成本高、规模有限。仿真数据存在 Sim2Real 差距。
  • 计算效率:实时推理需求与模型复杂度之间的矛盾,尤其在多 Agent 场景。
  • 安全与可解释性:黑盒模型的故障定位困难,需要更透明的架构。
  • 标准化:缺乏统一的评测基准与开源生态,不同路线难以横向对比。
  • 未来,世界模型有望与 AI Agent 深度融合,推动具身智能从实验室走向家庭、工厂与城市。同时,模型部署的轻量化与边缘化将是关键。

    结论

    世界模型正从理论走向实践,从单人走向多 Agent,从虚拟走向物理。无论是杨立昆的 JEPA 理论、Kairos 的冠军表现、γ-World 的多人交互,还是原力灵机、加速进化、Jiuwen Symbiosis 的产业探索,都指向同一个方向:让 AI 真正理解并作用于物理世界。

    对于开发者而言,现在正是深入理解世界模型、参与开源生态、在真实场景中验证技术的最佳时机。

    FAQ

    世界模型与视频生成模型有何区别? 视频生成模型旨在生成逼真的未来画面,但缺乏对物理规律和因果关系的理解。世界模型则是在抽象表征空间中进行预测,主动忽略噪声和不可预测细节,核心目标是支持推理与规划,而非像素级生成。

    JEPA 为什么比生成式模型更适合世界模型? 生成式模型必须预测每个数据细节,对高维连续数据(如视频)兼容性差。JEPA 仅学习抽象表征,在表征空间预测状态,天然适配图像、视频、传感器数据,且能避免像素级模糊与失真。

    世界模型目前面临的最大挑战是什么? 数据瓶颈是首要挑战——真实物理交互数据获取成本高、规模有限,仿真数据存在 Sim2Real 差距。此外,实时推理效率、安全可解释性、标准化评测也是亟待解决的问题。

    多 Agent 世界模型有哪些典型应用场景? 多机器人协作(如双臂操作、仓库协同)、自动驾驶多车交互、多人游戏、具身智能训练等。γ-World 已验证双玩家训练后零样本泛化到四玩家,展示了良好的扩展性。

    小型团队如何切入世界模型研究? 建议从开源框架入手,如 Jiuwen Symbiosis、Dexbotic,在仿真环境中验证算法。关注特定场景(如机器人足球、桌面操作)的最小闭环,积累数据与经验。同时可参考 LangChain 等工具链进行快速原型开发。

    世界模型与强化学习的关系是什么? 杨立昆建议优先采用模型预测控制(MPC)进行规划,仅在规划失效时用强化学习微调世界模型。世界模型本身可作为强化学习的环境模型,提供低成本、高并发的训练数据。