世界模型：从理论到具身智能的下一块拼图

梳理 JEPA、Kairos、γ-World 等核心进展，揭示世界模型如何驱动具身智能迈向新阶段

进阶约 25 分钟

AI Skill Navigation 编辑团队发布于 2026年6月13日

世界模型：从理论到具身智能的下一块拼图

梳理 JEPA、Kairos、γ-World 等核心进展，揭示世界模型如何驱动具身智能迈向新阶段

世界模型正成为继大模型之后的新技术焦点，旨在让 AI 理解物理规律、预测动作后果并自主规划。本文从杨立昆的 JEPA 理论出发，解析世界模型的核心定义、分层规划架构与能量模型基础；随后介绍 Kairos 在四项评测中的领先表现、γ-World 的多 Agent 扩展能力，以及原力灵机、加速进化、Jiuwen Symbiosis 等产业实践。最后探讨数据飞轮、开源生态与未来挑战，为开发者提供从理论到落地的全景视角。

world-model embodied-intelligence JEPA multi-agent real-time-rendering

引言：从语言到物理——AI 的下一个战场

过去几年，大语言模型（LLM）在文本生成、代码编写和数学推理上取得了惊人突破。但一个尴尬的事实是：AI 仍然不会给自己倒一杯水。

这种“高智商、低体能”的困境被 Moravec 悖论精准概括——对人类婴儿来说轻而易举的行走、抓取、避障，对 AI 却是极难的任务。根本原因在于，现有模型缺乏对物理世界的常识理解：它们不知道重力、摩擦力、物体恒存性，也无法预判自身动作的后果。

世界模型（World Model）正是为解决这一问题而生。它试图让 AI 构建一个对物理世界运行规律的内部表征，从而能够进行因果推理、动作规划与零样本适应。本文将从理论、技术、产业三个维度，系统梳理世界模型的最新进展与未来方向。

世界模型的理论基石

什么是世界模型？

杨立昆（Yann LeCun）在 2026 年瑞士联邦理工讲座中给出了清晰定义：世界模型是一个基于动作/干预的因果模型。它接收系统观测结果与人为动作，预测干预带来的结果。关键区别在于，世界模型不在原始数据细节上做预测，而是在抽象表征空间完成预测，主动忽略噪声与不可预测的细节。

这一定义澄清了常见误解：世界模型 ≠ 数字孪生、全量模拟器或视频生成系统。它是一个面向动作的抽象预测器，核心目标是支持推理与规划。

JEPA：联合嵌入预测架构

JEPA（Joint Embedding Predictive Architecture）是实现世界模型的核心技术。与传统的生成式模型（如 VAE、扩散模型）不同，JEPA 不要求预测每个像素，而是学习数据的抽象表征，在表征空间中进行状态预测。这使得它对高维、连续、带噪声的数据（如视频、传感器）天然友好。

JEPA 的训练面临一个关键挑战：表征崩溃（Representation Collapse），即模型失去有效表征能力。解决方案主要有两种：

对比方法：降低正样本能量、提升负样本能量，但高维场景扩展性差。

正则化方法（AMI Labs 主推）：约束低能量空间的体积，如 SIGReg（各向同性高斯正则化）、VCReg、Barlow Twins 等。

JEPA 家族已衍生出多个成熟模型：

I-JEPA：面向静态图像，衍生出 DINOv3 通用视觉基础模型。

V-JEPA：面向视频与动态场景，在 EK100、SSv2 等基准刷新纪录，可学习直观物理常识。

LeWorldModel (LeWM)：端到端 JEPA 世界模型，在机器人规划任务中优于 DINO-WM、PLDM 等竞品。

分层规划与安全约束

世界模型支持多抽象层级、多时间尺度的分层规划：

高层级：负责长期、远距离预测，表征精简，生成子目标。

低层级：负责短期、近距离预测，保留细节，执行具体动作。

安全护栏：全层级施加约束，保障系统可控。

例如“从办公室前往机场”的任务：顶层选择机场与交通方式，中层规划路线与避障，底层执行行走、抓取等动作。这种架构使世界模型能够处理复杂长周期任务。

前沿进展：从单人到多 Agent 的世界模型

Kairos：4B 参数击败 28B 的冠军世界模型

大晓机器人推出的 Kairos 世界模型在 RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen Bench 四项国际评测中均获第一，且参数规模仅 4B。

核心技术：

原生统一架构：将多模态理解、视频生成与状态预测整合到同一模型，而非在现有模型上后训练改造。

自研混合线性注意力机制与全局状态共享机制，使三种能力协同运行。

训练数据：超十万小时 human-centric 真实场景数据 + 数百万小时互联网视频，结合显式模仿学习与隐空间强化学习。

关键表现：

RoboTwin 2.0（双臂操作）：平均成功率 96.1%，超过 G0.5、starVLA 等模型。

LIBERO-Plus（场景泛化）：89.0 分，首次超越主流 VLA 路线（如 Pi 0.5）。

WorldModelBench Robot：4B 参数以 9.30 分击败 28B 的 Lingbot。

DreamGen Bench：物理遵循与总平均分双项第一。

Kairos-4B 还是首个能在端侧直接驱动机器人本体的具身世界模型，减少了中间转换延迟，让世界模型从“认知系统”向“执行系统”延伸。

γ-World：多 Agent 共享世界的实时交互

英伟达联合清华大学等机构推出的 γ-World，将世界模型从单人模式扩展到多人共享空间。其核心创新包括：

SRAE（单纯形旋转 Agent 编码）：将 N 个 Agent 映射到旋转角度空间中正则单纯形的 N 个顶点上，任意两个顶点距离相等，无需学习参数即可实现身份对称与可扩展。双玩家训练后，可零样本泛化到四玩家。

SHA（稀疏枢纽注意力）：引入可学习的 Hub Token 作为中介，将跨 Agent 注意力代价从 O(N²) 降到 O(N)。

蒸馏流水线：教师模型（双向扩散）生成高质量数据，学生模型（分块因果）通过 KV 缓存实现 24 FPS 实时推理。

γ-World 在虚拟游戏与真实机器人协作场景中均验证了有效性，为多机器人协作、自动驾驶多车交互等场景提供了基础。

产业落地：从数据飞轮到开源生态

原力灵机：模型与场景的双向奔赴

原力灵机与 Atomix 的合并，代表了“具身大模型”与“真实场景数据”的强强联合。原力灵机的 DM0 模型在 RoboChallenge 真机评测中全球第一，仅 2.4B 参数，融合互联网、自动驾驶与机器人操作数据，在 8 类本体上联合训练。Atomix 则在物流仓储场景积累了 500+ 项目、日均 60 万件出货量，为模型提供海量真实 Picking 数据。

这一合并构建了“模型变强→机器人更聪明→数据更好→模型继续变强”的数据飞轮。唐文斌将 Picking 视为具身智能的“原子任务”，类似大模型时代的 Coding——具备海量数据、清晰反馈与强迁移性。

加速进化：足球场上的 MVP 与操作系统野心

加速进化选择机器人足球作为技术验证的最小闭环，20 年坚持这一场景。其 K1 人形机器人（3.99 万元）已在京东销售，T2 旗舰机型具备高动态能力。公司不押注端到端大模型，而是走分层落地路线：感知→决策→执行，同时开发 Booster Studio 开发工具，目标是构建具身 Agent 生态的操作系统。

程昊认为，具身大模型成熟仍需 5-10 年，在此之前，操作系统与数据飞轮是更务实的路径。

Jiuwen Symbiosis：开源的 physical AI 框架

openJiuwen 社区开源的 Jiuwen Symbiosis，提出“态势感知环”架构，将认知层与执行层通过共享 Workspace 协作。其核心模块包括多模态感知、安全规划、物理执行、状态观察、观测反馈与空间记忆，支持零样本跨本体适应与长程复合任务。

该框架采用端云协同架构：云侧 LLM/VLM 负责复杂推理，端侧昇腾 NPU 与鲲鹏 CPU 负责实时感知与执行，降低了功耗与部署成本。

挑战与未来方向

尽管世界模型进展迅速，但仍面临诸多挑战：

数据瓶颈：真实物理交互数据获取成本高、规模有限。仿真数据存在 Sim2Real 差距。

计算效率：实时推理需求与模型复杂度之间的矛盾，尤其在多 Agent 场景。

安全与可解释性：黑盒模型的故障定位困难，需要更透明的架构。

标准化：缺乏统一的评测基准与开源生态，不同路线难以横向对比。

未来，世界模型有望与 AI Agent 深度融合，推动具身智能从实验室走向家庭、工厂与城市。同时，模型部署的轻量化与边缘化将是关键。

结论

世界模型正从理论走向实践，从单人走向多 Agent，从虚拟走向物理。无论是杨立昆的 JEPA 理论、Kairos 的冠军表现、γ-World 的多人交互，还是原力灵机、加速进化、Jiuwen Symbiosis 的产业探索，都指向同一个方向：让 AI 真正理解并作用于物理世界。

对于开发者而言，现在正是深入理解世界模型、参与开源生态、在真实场景中验证技术的最佳时机。

FAQ

世界模型与视频生成模型有何区别？ 视频生成模型旨在生成逼真的未来画面，但缺乏对物理规律和因果关系的理解。世界模型则是在抽象表征空间中进行预测，主动忽略噪声和不可预测细节，核心目标是支持推理与规划，而非像素级生成。

JEPA 为什么比生成式模型更适合世界模型？ 生成式模型必须预测每个数据细节，对高维连续数据（如视频）兼容性差。JEPA 仅学习抽象表征，在表征空间预测状态，天然适配图像、视频、传感器数据，且能避免像素级模糊与失真。

世界模型目前面临的最大挑战是什么？ 数据瓶颈是首要挑战——真实物理交互数据获取成本高、规模有限，仿真数据存在 Sim2Real 差距。此外，实时推理效率、安全可解释性、标准化评测也是亟待解决的问题。

多 Agent 世界模型有哪些典型应用场景？ 多机器人协作（如双臂操作、仓库协同）、自动驾驶多车交互、多人游戏、具身智能训练等。γ-World 已验证双玩家训练后零样本泛化到四玩家，展示了良好的扩展性。

小型团队如何切入世界模型研究？ 建议从开源框架入手，如 Jiuwen Symbiosis、Dexbotic，在仿真环境中验证算法。关注特定场景（如机器人足球、桌面操作）的最小闭环，积累数据与经验。同时可参考 LangChain 等工具链进行快速原型开发。

世界模型与强化学习的关系是什么？ 杨立昆建议优先采用模型预测控制（MPC）进行规划，仅在规划失效时用强化学习微调世界模型。世界模型本身可作为强化学习的环境模型，提供低成本、高并发的训练数据。

所属主题：AI Agent 与多智能体

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

世界模型：从理论到具身智能的下一块拼图

引言：从语言到物理——AI 的下一个战场

世界模型的理论基石

什么是世界模型？

JEPA：联合嵌入预测架构

分层规划与安全约束

前沿进展：从单人到多 Agent 的世界模型

Kairos：4B 参数击败 28B 的冠军世界模型

γ-World：多 Agent 共享世界的实时交互

产业落地：从数据飞轮到开源生态

原力灵机：模型与场景的双向奔赴

加速进化：足球场上的 MVP 与操作系统野心

Jiuwen Symbiosis：开源的 physical AI 框架

挑战与未来方向

结论

FAQ

Documentation

Getting Started

Learn more