2026北京智源大会开幕,聚焦世界模型与物理AGI
2026年6月12日,第八届北京智源大会在中关村国际创新中心开幕。大会以“技术前沿、国际视野、青年人才”为底色,汇聚两位图灵奖得主、40余位AI企业CEO与首席科学家、200余位顶尖专家学者,以及30余位30岁以下青年科学家。智源研究院院长王仲远发布年度进展报告,推出全球首个通用世界基座模型悟界·Physis-v0.1,并系统梳理了世界模型的技术分类。大会还发布了多模态神经科学大模型悟界·Brainμ1.0、AI驱动药物发现模型悟界·OpenComplex2.5等成果,展示了从“悟道”到“悟界”的技术跃迁。
世界模型:从“预测下一个词元”到“预测下一个物理状态”
智源研究院认为,人工智能正经历从大语言模型向多模态大模型再向世界模型的范式跃迁,核心是从“预测下一个词元”演进到“预测下一个物理状态”。世界模型被定义为面向真实物理世界的下一代基座模型,能感知、理解、推理时间、空间、物理规律和常识,涵盖全模态数据,并具备主动交互能力。
智源将现有世界模型技术路线分为四类:
- 以语言为中心:如VLM、VLA,在文本空间预测下一个词,无法理解物理后果。
- 以像素为中心:如Sora、Seedance等视频生成模型,学到的是像素描述的世界。
- 以三维结构为中心:如3D重建、World Labs Marble,但几何结构不代表物理状态。
- 以视觉表征为中心:如Yann LeCun的JEPA系列,预测视觉表征压缩,不等于物理规律演化。
智源推出的悟界·Physis-v0.1是全球首个通用世界基座模型,以物理隐空间表征替代传统像素、帧级预测,搭载专属物理状态编码器,支持50+复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大能力,可应用于严肃工业、具身智能、物理仿真、科学研究等场景。
具身智能与智能体:从理解到行动
智源发布了以下一个物理状态预测为核心的具身大脑悟界·RoboBrain Orca,构建“统一表征—建模—预测—交互”闭环,融合大量Ego-centric交互数据,可同时生成语言思考、视觉预测与动作决策,实现“想、看、动”三位一体,支撑机器人在物流、酒店等真实环境中的长期自主作业。
此外,智源推出了四款自主研发的智能体,分别面向心脏辅助诊断、科学发现、个人专属助理及生物安全防护等领域。
多模态与科学领域突破
- 悟界·Emu3.5:基于“预测下一个词元”范式,实现文本、图像、视频的统一理解与生成,内置时空关系与物理规律建模,相关成果于2026年1月发表在Nature正刊。
- 悟界·Brainμ1.0:全球首个理解与生成统一的多模态神经科学大模型,可将跨物种、全模态脑信号统一编码为Token,辅助阿尔兹海默症、抑郁症等疾病筛查,相关成果已刊发于Science。同时发布全球最大AI-Ready神经科学数据平台BrainToken,数据总量突破万亿级别。
- 悟界·OpenComplex2.5:可泛化、物理真实的AI驱动药物发现模型,覆盖口袋识别、反向筛选、结构预测和亲和力预测四个关键步骤,重点解决固有无序蛋白动态构象解析难题。
基础软硬件生态
智源与开源社区共建众智FlagOS,将“M款模型与N款芯片”适配难题简化为统一接入方案。FlagOS2.1支持18家芯片厂商的32款芯片,算子总数超600个,生态成员超80家,全球下载量超37.5万次,触及开发者5.6万人。
嘉宾观点与安全议题
2015年图灵奖得主Whitfield Diffie聚焦Agent时代安全,强调当前对智能体的限制(Confinement)在编程中仍不足,未来需开发形式化方法提升可靠性。2024年图灵奖得主Andrew Barto将强化学习归结为“控制、搜索与联想记忆”的三位一体,并警示奖励信号设计中的“反常实例化”风险。智源研究院理事长黄铁军与之江实验室主任王坚围绕中国AI范式演进、Agent时代新范式等议题展开对话。
大会规模与影响
本届大会共设25场论坛、200余场演讲,吸引来自谷歌、Meta、英伟达、哈佛、MIT等20余家全球顶尖机构代表,与阿里、腾讯、小米、生数科技、面壁智能等中国AI核心力量同场交流。自2019年创办以来,智源大会已累计汇聚14位图灵奖得主、过千位专家,吸引全球超千万人次参与。
相关资讯
6月13日 · 综合整理
5月18日 · Google DeepMind
4月14日 · The Decoder
4月19日 · Google AI Blog
5月22日 · OpenAI
3月15日 · OpenAI Blog
延伸阅读 · 相关教程
Advanced optical character recognition using VLMs
Generating descriptive captions for images with VLMs
Analyzing images and documents with Claude 3 Vision
Common architecture patterns for AI SaaS applications