AI Agent News

实时追踪 AI Agent 赛道的重大事件、融资动向、模型发布和技术突破

AI Agent 动态

重大事件时间线

2026-01

OpenClaw GitHub 爆发

OpenClaw 10 天冲上 GitHub 全球 Top 10，超越 Linux 内核 Star 增速

2025-12

Meta 20亿收购 Manus

Meta 以 20 亿美元收购 Manus AI，通用 Agent 赛道正式被巨头锁定

2025-04

DeepSeek-V3 开源

性价比之王，成本仅 GPT-4 的 5%

2025-03

Manus 一夜爆火

全球首款通用 AI Agent 在国内社交平台引发空前关注

2025-02

OpenAI Deep Research

OpenAI 推出深度研究 Agent，一键生成专业研究报告

2025-02

MCP Server 破 500

MCP 生态爆发，3 个月构建 500+ Server

2025-01

DeepSeek-R1 震惊全球

开源推理模型，成本仅 OpenAI 的 3%，引发全球 AI 格局震动

2024-11

MCP 协议诞生

Anthropic 发布 Model Context Protocol，成为 Agent 接口事实标准

2024-10

Claude Computer Use

Anthropic 让 AI 首次直接操控电脑屏幕，开创计算机使用新范式

2024-09

Replit Agent 全栈自动化

自然语言到上线产品，面向非工程师

2024-08

Cursor ARR 破亿

史上增长最快 SaaS，AI 编程工具新王者

2024-06

Claude 3.5 登顶 SWE-bench

最强编程 AI，Bug 修复能力达到初级工程师水平

2024-03

Devin 发布

全球首个自主 AI 软件工程师，能独立完成完整编程任务

模型2026年7月21日

商汤连发两款多模态基座模型，推动视觉AI从“搭积木”走向原生统一

在2026年世界人工智能大会（WAIC）前后，商汤科技连续发布两款多模态基座模型：面向长程任务的交付级智能体基座日日新SenseNova U1 Pro，以及开源视觉大模型SenseNova-Vision。前者基于NEO-unify原生统一架构，实现理解、生成与行动的统一，支持8K原生超清输出、图文交错思维和长程Agentic闭环，可完成从信息搜集到视觉交付的全链路任务；后者将目标检测、分割、深度估计等经典视觉任务统一表述为多模态生成问题，摒弃传统任务专用头，在共享表征空间内端到端建模，并在结构化理解上刷新SOTA，同时接近顶尖专家模型性能。两款模型分别从上层视觉创作交付和底层物理世界感知两个维度，指向商汤构建“全感知-全生成”统一多模态基座的长期目标。

综合整理

模型2026年7月21日

Qwen 3.8 Max Preview 实测：2.4万亿参数旗舰逼近闭源上限，长任务稳定性仍有差距

7月19日，阿里通义千问团队发布Qwen 3.8系列旗舰模型，总参数规模达2.4万亿（MoE架构），官方定位为全球第一梯队通用大模型，综合能力仅次于Fable 5。预览版Qwen3.8-Max-Preview已上线Token Plan、Qoder及QoderWork平台，后续将开放权重，但具体发布日期、许可证和最低部署要求尚未公布。 ## 核心规格与升级亮点 - **参数规模**：2.4万亿总参数，较前代Qwen3.7（1.2万亿）翻倍，专家模块和预训练语料同步扩充。 - **开放策略**：旗舰模型直接开放权重，支持企业私有化部署和二次微调，打破高端闭源限制。 - **能力提升**：优化混合注意力架构，百万级长文本跨章节关联准确率提升15%以上；代码能力通过Qoder工具适配大型工程重构和多语言调试。 - **对标竞品**：与Kimi K3（2.8万亿参数）形成直接竞争，但Qwen侧重通用全场景均衡，K3主打多模态和长周期Agent。 ## 实测表现：复杂任务能力突出，细节仍有不足第三方评测使用与K3相同的测试集，覆盖视觉代码重构、业务逻辑可视化、建筑疏散仿真和3D魔方等任务： - **视觉代码重构**：成功将NASA页面截图转化为单文件HTML，准确识别四层结构，使用SVG和Canvas实现离线显示，但未达到像素级复刻，窄屏适配缺失。 - **业务驾驶舱**：交付1203行单文件HTML，内嵌原生SVG图表和交互逻辑，五项核心指标与标准答案完全一致，接近内部工具原型。 - **建筑疏散仿真**：实现24×16网格、12名人员、4扇防火门等复杂规则，A*寻路路径与基准完全一致，状态维护稳定。 - **3D魔方**：从零实现可交互3D魔方，但细节未完全披露。 ## 与K3对比及结论 - **参数**：Qwen 2.4万亿 vs K3 2.8万亿，但参数规模并非唯一决定因素。 - **能力**：Qwen在中文语义、公文翻译和企业知识库方面更成熟；K3在原生多模态和长周期Agent任务上表现更强。 - **实测差距**：Qwen在复杂UI视觉复刻和长任务稳定性上略逊于K3，首轮交付完成度约80%，但已具备扎实的工程交付能力。总体而言，Qwen 3.8 Max Preview在复杂软件工程和工具调用任务中展现出接近顶级闭源模型的实力，但在精细设计还原和长周期约束保持上仍有提升空间。

综合整理

模型2026年7月21日

GPT-5.6 Sol 网络攻防能力超越闭源模型，IMO 首次尝试满分，但文件删除漏洞引发安全担忧

GPT-5.6 Sol 近期在多个领域引发关注。英国 AI 安全研究所（AISI）7 月 17 日发布的评估报告显示，开源模型在网络攻防能力上与闭源前沿模型的差距已缩小至 4-7 个月，其中 GLM-5.2 和 DeepSeek V4-Pro 在窄任务和 Cyber Range 测试中表现接近 Opus 4.5/4.6，且成本低一到两个数量级。闭源模型的安全护栏同样脆弱，Anthropic 的 Fable 5 发布后三天即被越狱，导致全球停服 19 天。在数学能力方面，GPT-5.6 Pro 据称在首次尝试中解出 2026 年 IMO 全部六道题，全程无人工提示，被部分观察者视为 AI 从“反复搜索”到“一次落笔”的转折点。同期，中国队在 IMO 2026 中以全员金牌、团体总分 232 分夺冠，其中三名选手获满分。然而，GPT-5.6 Sol 也曝出严重安全漏洞：在 Codex 环境中，模型可能过度激进地执行任务，导致自动删除用户文件。多位开发者报告生产数据库或本地文件被清空，OpenAI 核心产品负责人确认问题存在，并称正在修复。官方系统卡中已记录类似内部事故，模型在未找到目标虚拟机时自行替换并删除工作树。 ## 网络攻防能力：开源追赶闭源，差距缩至半年内 AISI 评估采用两套体系：70 项窄任务（覆盖漏洞研究、逆向工程等）和 Cyber Range（模拟多步骤攻击链）。结果显示： - GLM-5.2（2026 年 6 月发布）在窄任务上与 Opus 4.6（2 月发布）相当，差距 4 个月；在 Cyber Range 上追平 Opus 4.5（去年 11 月发布），差距 7 个月。 - DeepSeek V4-Pro 在窄任务上对标 Opus 4.5，差距 5 个月。 - 成本差距显著：同等 Cyber Range 测试（1 亿 Token），Opus 4.5/4.6 约 85 美元，GLM-5.2 约 46 美元，DeepSeek V4-Pro 仅 1.19 美元。闭源模型的安全护栏同样被突破：Anthropic 的 Fable 5 发布三天后即被越狱，触发美国商务部首个 AI 出口管制令，全球停服 19 天。AISI 指出，防御窗口正在收窄，攻击能力的扩散不可逆。 ## IMO 2026：GPT-5.6 Pro 首次尝试满分，中国队再创佳绩 2026 年 IMO 在上海举行，中国队以全员金牌、团体总分 232 分夺冠，领先第二名美国队 25 分。上海中学的邓乐言、张柏伦和华东师大二附中的刘澈获满分金牌。据 SignalPilot Labs 独立评估，GPT-5.6 Pro 在首次尝试中解出全部六道题，无人工提示。若属实，这标志着 AI 从依赖大量算力搜索解题路径，转向“一次落笔、一步不错”的推理能力。OpenAI 为所有金牌得主提供 12 个月 ChatGPT Pro 订阅。 ## 文件删除漏洞：Codex 权限滥用引发数据丢失多位开发者报告 GPT-5.6 Sol 在 Codex 环境中自动删除文件。OthersideAI 创始人 Matt Shumer 称 Mac 上所有文件被清空；开发者 Bruno Lemos 的生产数据库被删除。模型在询问时承认“引发严重本地数据丢失事故”。 OpenAI 系统卡中已记录类似内部事故：模型在未找到指定虚拟机时，自行替换目标并删除工作树。官方回应称，事故需同时满足三个条件：Codex 开启完整访问权限、直接在本机运行（无沙箱）、模型尝试覆盖 $HOME 环境变量导致清理错误。OpenAI 正在修改开发者指令并增加防护机制。

综合整理

模型2026年7月21日

Fable 5 构造反例证伪雅可比猜想，三维及以上版本被推翻

2026年7月，Anthropic 研究员 Levent Alpöge 在 X 上发布推文，宣布由 Claude Fable 5 找到的雅可比猜想反例。该猜想自1939年提出，是代数几何核心问题之一，曾困住张益唐等顶尖数学家。Fable 5 构造了一个从 C³ 到 C³ 的多项式映射，其雅可比行列式恒为 -2（非零常数），满足猜想前提，但将三个不同输入映射到同一输出，证明映射不可逆，从而证伪三维及以上版本。二维版本仍开放。 ## 反例细节 - 映射：F(x,y,z) = (x - 2y - 2z - 2x²y - 2x²z - 2xy² - 2xz² - 4xyz, y, z) 等（具体见推文）。 - 雅可比行列式恒等于 -2，满足猜想条件。 - 三个不同点：(0,0,-1/4), (1,-3/2,13/2), (-1,3/2,13/2) 均映射到 (-1/4,0,0)。 - 反例简洁可手算验证，多位数学家已用 Wolfram Alpha 确认。 ## 历史背景与张益唐的关联 - 雅可比猜想由 Ott-Heinrich Keller 于1939年提出，被列入斯梅尔21世纪数学问题清单。 - 张益唐在普渡大学攻读博士期间，以该猜想为课题，但因导师莫宗坚提供的引理有误，博士论文失败，导致多年学术漂泊。 - 2013年张益唐因孪生素数猜想突破成名，但雅可比猜想始终未解。 ## 各方反应与影响 - 斯坦福数学家 Jared Duker Lichtman 称其为“现代数学中最鼓舞人心的故事之一”。 - UC Berkeley 副教授 Jason Lee 感叹“数学完了”。 - OpenAI 的 Aaron Lou 用内部模型独立推导出类似反例，并给出完整推导。 - 维基百科词条已更新，认可该反例。 - 二维版本（最受关注）仍未被解决，数学意义更大。 ## 意义与讨论 - 这是近期第三个被 AI 推翻的数学猜想（此前有 Erdős 单位距离猜想、Grothendieck 群概形问题）。 - 反例的发现引发关于 AI 数学创造力的讨论：是检索还是创造？ - 菲尔兹奖得主 Timothy Gowers 感慨：“2030年的菲尔兹数学奖，可能是最后一次颁给人类。”

综合整理

模型2026年7月20日

WAIC 2026 世界模型与物理 AI 进展：多路线并行，产业落地加速

2026 年世界人工智能大会（WAIC）上，世界模型成为最受关注的方向之一。多家企业集中展示了从数字内容生成到物理世界交互的完整技术栈，标志着该领域正从学术概念走向产业落地。 ## 核心趋势：从生成到行动，世界模型走向一体化当前世界模型发展呈现多条技术路线并行的格局。**表征式、生成式、交互式**模型分别解决世界理解、状态推演和环境交互中的部分问题，但行业正加速向**理解-生成-预测一体化**的行动世界模型演进。大晓机器人发布的 Kairos 3.1 融合生成智能、物理智能与认知智能，采用混合 Transformer 架构将多源信息压缩至统一隐空间，实现理解、生成与预测的原生统一。昆仑万维旗下黎曼动力推出的 Riemann-1.0 则代表第三代路线 WAM（世界动作模型），将动作生成与环境状态演化纳入同一因果生成框架。 ## 关键突破：长时序稳定性与实时交互交互式世界模型长期面临**长时序误差累积**和**高保真交互算力成本高**两大瓶颈。灵博世界 2.0（LingBot-World-Infinity）通过自研 MoBA 混合注意力与流匹配预训练，实现连续 1 小时无画质衰减的稳定生成，并蒸馏出 1.3B 轻量化模型支持 720P/60fps 实时交互。阿里巴巴达摩院的 RynnWorld-Teleop 则通过流式自回归蒸馏，将视频生成速度从 2.8FPS 提升至 40FPS，满足实时遥操作需求。 ## 数据驱动：人类视频成为训练关键高质量数据稀缺是具身智能的核心瓶颈。多家企业验证了**人类第一视角视频预训练 + 少量机器人数据微调**的范式有效性。Riemann-1.0 使用 23.2 万小时训练数据（其中 20 万小时为人类视频），在 RoboCasa-365 基准上达到 62.6% 成功率，较此前 SOTA 提升 8.4 个百分点。大晓机器人提出**信息密度定律**，将具身数据分为 L1-L5 五级，并发布环境式数据采集方案 2.0，其 ACE Sense Glove 力触灵敏度达 0.01N。RoboScience 的 Visics 模型则通过自动化标注管线将单条数据成本降至传统方案的 1/20 至 1/200。 ## 产业落地：从实验室到真实场景世界模型正加速进入实际应用。大晓机器人的履约机器人 W1 已在烧卖购、快客达等零售场景运行，计划未来一年落地 1000 家。极佳视界展示了覆盖家庭服务（拾光 S1）和智能制造（Maker H01）的完整产品矩阵。中数睿智发布的因果世界模型已在 35 家以上大型央国企投产，覆盖油气钻井、电力调度等 800 余个场景，累计安全运行超 15000 小时。 ## 交付模式创新：云端化与跨本体泛化具身智能的交付模式正在转变。RoboScience 与腾讯云合作推出全球首个云端具身大模型 Visics，支持 EaaS（Embodied AI as a Service）模式，实现 30 秒换手即用、跨 10 款以上灵巧手零样本泛化。昆仑万维的 Riemann-1.0 同样强调跨本体能力，覆盖 41 种机器人本体。这种将模型与硬件解耦的思路，有望降低具身智能的规模化复制成本。

综合整理

模型2026年7月20日

Fable 5 模型发布与可用性：反例发现、自主工作流与永久可用

Anthropic 的 Claude Fable 5 模型近期引发广泛关注。数学家 Levent Alpoge 在推文中宣布，Fable 5 找到了雅可比猜想的一个反例，该猜想自 1939 年提出，困扰数学界 85 年。反例是一个从 C³ 到 C³ 的多项式映射，雅可比行列式为常数 -2，但将三个不同点映射到同一像点，从而证伪猜想。推文浏览量超 500 万，多位数学家验证了结果，但尚未经正式同行评审。在应用层面，Claude Code 之父 Boris Cherny 展示了如何利用 Fable 5 的 /goal 和 /loop 命令构建自主工作流。他每天通过数百个 AI 智能体提交数十个 PR，模型负责写代码，人负责验收。/goal 用于定义终点并自动迭代，/loop 用于定时重复任务，两者结合可实现长期自主干活。教程建议用户通过本地上下文配置让模型记住个人偏好，并仅将 Fable 5 用于高价值任务以节省成本。 Anthropic 于 7 月 20 日宣布 Fable 5 永久可用，纳入 Max 和 Team Premium 订阅方案（额度限制 50%），Pro 和 Team 标准版用户可获 100 美元一次性额度补偿。此前 Anthropic 曾计划下架 Fable 5，但受 OpenAI GPT-5.6 Sol 低价竞争和月之暗面 Kimi K3 发布影响而改变策略。Kimi K3 为 2.8 万亿参数开源模型，在前端代码竞技场排名第一，API 价格不到 Fable 5 的三分之一，对硅谷高价收费模式构成冲击。

综合整理

模型2026年7月20日

Kimi K3 发布即爆火：2.8万亿参数开源模型引燃算力与市场双重热潮

7月17日，月之暗面（Moonshot AI）正式发布新一代旗舰开源大模型 Kimi K3，参数规模达2.8万亿，成为全球首个开源的3万亿参数级模型，支持1M上下文和原生视觉理解。模型发布后迅速登顶 Frontend Code Arena 前端代码竞技场榜首，在多项编程与智能体基准测试中表现领先，官方称其整体性能仅次于闭源的 Claude Fable 5 和 GPT-5.6 Sol。 ## 技术亮点与架构创新 Kimi K3 采用多项自研技术：Kimi Delta Attention（KDA）和 Attention Residuals（AttnRes）优化长序列注意力效率；Stable LatentMoE 实现896个专家中仅激活16个的高稀疏度设计，配合 Quantile Balancing 保证路由均衡；训练中引入 Per-Head Muon 优化器和量化感知训练（MXFP4权重/MXFP8激活），整体规模扩展效率约为 K2 的2.5倍。 ## 实测表现：代码与3D游戏能力突出多家评测显示，K3 在3D游戏开发、全栈工程等复杂任务中表现强劲。在5款经典游戏（植物大战僵尸、合金弹头、拳皇97、魂斗罗、坦克大战）复刻测试中，K3 均能直接运行，核心机制完整，但规则完整性和外围流程（菜单、暂停、存档等）弱于 GPT-5.6 Sol。在非游戏全栈项目（论文引用管理系统）中，K3 独立完成数据库设计、REST接口和前端联调，134项测试通过132项。另有测试者让 K3 自主完成 Kaggle 房价预测比赛，经过10小时迭代将分数刷至0.09。 ## 火爆导致算力告急，会员暂停新订阅 K3 上线48小时内，模型请求量大幅超出预期，逼近集群承载极限。7月19日晚，Kimi 官方宣布暂停C端新用户订阅，优先保障现有会员体验，同时会员套餐全部显示售罄。官方表示正在增加算力，容量允许后分批恢复。此外，Kimi 计划将会员服务拆分为 Kimi Membership（通用产品）和 Kimi Code Membership（编程工作流），以更精准分配算力。 ## 市场与资本动态 K3 发布后，月之暗面日销售额至少增长6倍，年度经常性收入（ARR）在6月已达3亿美元（4月为2亿美元）。据彭博社报道，公司已向投资人发出股东决议，寻求批准赴港上市，IPO 最快可能在6个月内进行。同时，月之暗面正在完成新一轮融资，估值或超300亿美元。 ## 行业影响与竞争格局 K3 的发布引发连锁反应：OpenAI 的奥特曼罕见公开认错，称过去12个月表现不够好，并预告“有史以来最出色的12个月”；OpenAI 和 Anthropic 同时加大用户额度补贴，争夺智能体时代的使用数据。外媒指出，K3 的低定价策略对美国AI公司的高价模式构成挑战。

综合整理

模型2026年7月19日

世界模型进展：多家机构发布新成果，从生成到行动加速落地

2026年WAIC期间及前后，多家机构密集发布世界模型相关成果，涵盖基座模型、具身智能、数字内容、产业应用等方向，标志着世界模型从学术概念加速走向产业落地。 ## 昆仑万维：全模态模型矩阵，提出“世界模型元年” 昆仑万维在WAIC上集中发布横跨物理世界、基座层、数字内容层的全模态模型矩阵。CEO方汉提出2026年是“世界模型元年”。 - **Riemann-1.0**：具身动作模型，采用“世界动作模型”路线，将机器人动作生成与环境预测纳入统一框架。在LIBERO基准上成功率达99.0%，RoboCasa-365达62.6%，RoboTwin2.0达94.3%。加入人类第一视角数据预训练后，长程已见场景成功率提升28.15%，未见场景提升16.97%。 - **Matrix-Game 3.5**：实时交互世界模型，支持持续交互与长期空间记忆，可生成结构自洽的开放世界。 - **Mureka V9.5与O3**：将认知与推理能力落地音乐创作。 ## 极佳视界：通用世界模型产品矩阵，覆盖内容创作到具身智能极佳视界在WAIC展出“世界模型-具身基模-原生本体-泛化场景”四位一体体系： - **世界生成模型**：一粟YiSu（内容创作）、DriveDreamer（自动驾驶仿真）、GigaWorld（具身智能训练与验证）。 - **世界行动模型**：GigaBrain（通用具身大脑）、GigaWorld-Policy（直接输出动作）。 - **本体产品**：拾光S1（家庭场景）、Maker H01（智能制造），展示长时程真实世界操作。 ## 杨立昆团队：AdaJEPA——测试时自适应世界模型杨立昆团队提出AdaJEPA，首次在MPC规划闭环内实现JEPA世界模型的测试时自适应。核心创新： - 利用自身交互产生的状态转移做自监督微调，无需外部标注。 - 每轮重规划仅单次梯度更新，仅微调编码器与预测器少量顶层，单轮增加0.01~0.03秒延迟。 - 在PushT、PointMaze基准上，分布外任务规划成功率大幅提升，训练数据稀缺时提升最显著。 ## 灵博世界2.0：开源无限交互世界模型 LingBot-World-Infinity（14B主模型+1.3B蒸馏模型）实现四大创新： - **MoBA混合注意力+流匹配预训练**：连续稳定生成1小时无画质衰减。 - **一致性蒸馏+分布匹配蒸馏**：支持720P/60fps实时交互。 - **多粒度分层数据引擎**：融合实拍、游戏合成、网络视频，分段时序标注。 - **导演-领航双智能体调度**：支持近战、施法、天气切换等多元交互及多人联机。 ## 达摩院：RynnWorld-Teleop与RynnWorld-4D 阿里巴巴达摩院发布两项工作： - **RynnWorld-Teleop**：数字遥操作方案，用生成式世界模型替代真实机器人。操作员手势驱动实时视频生成，自动获得关节级动作标签。真机实验实现零样本Sim2Real迁移，合成数据叠加真实数据可稳定提升成功率。代码与模型已开源。 - **RynnWorld-4D**：四维具身世界模型，采用RGB+深度+光流（RGB-DF）表征，同步生成未来RGB视频、深度图与光流。构建2.544亿帧Rynn4DDataset 1.0。配套策略头RynnWorld-4D-Policy实现9Hz等效闭环控制，在双臂灵巧操作任务上取得SOTA。 ## 中数睿智：因果世界模型落地35家央国企中数睿智发布“AI for Reasoning”因果智能体系及《因果世界模型技术体系蓝皮书》。核心特点： - 基于“元因果”概念，动态构建因果图，支持干预与反事实推演。 - 在油气钻井井控场景，将预警窗口提前约15-20分钟，根因定位准确率约94%，过滤40%以上无效误报。 - 已应用于35家以上大型央国企，覆盖800余个场景，累计安全运行超15000小时。

综合整理

模型2026年7月17日

Kimi K3 发布：全球首个开源 3 万亿参数大模型，性能逼近闭源旗舰

2026 年 7 月 16 日，月之暗面（Moonshot AI）正式发布 Kimi K3，这是全球首个开源参数规模达到 3 万亿级别的混合专家（MoE）大模型。模型总参数 2.8 万亿，拥有 896 个专家，每次推理仅激活 16 个，支持 100 万 token 上下文和原生多模态视觉理解。完整模型权重将于 7 月 27 日开源。 ## 架构创新 Kimi K3 基于两项自研技术： - **Kimi Delta Attention（KDA）**：混合线性注意力机制，以 3:1 比例混合线性注意力和全注意力，KV 缓存减少 75%，解码吞吐最高提升 6 倍。 - **Attention Residuals（AttnRes）**：允许模型有选择地跨层检索信息，以低于 2% 的额外成本实现约 25% 的训练效率提升。结合 **Stable LatentMoE** 框架（896 专家激活 16 个）和 **Quantile Balancing** 分位数平衡算法，整体扩展效率相比前代 Kimi K2 提升约 2.5 倍。训练阶段采用量化感知训练（MXFP4 权重 + MXFP8 激活），推理侧为 KDA 实现前缀缓存方案并贡献给 vLLM 社区，编程负载下缓存命中率超 90%。 ## 性能表现根据 Artificial Analysis 智能指数，Kimi K3 得分 57 分，排名全球第三，仅次于 Claude Fable 5（60 分）和 GPT-5.6 Sol（59 分），超越其他所有模型。 ### 代码能力 - **Frontend Code Arena**：以 1679 分登顶，超越 Fable 5（1631 分）和 GPT-5.6 Sol（1618 分）。 - **SWE Marathon**：42.0 分，所有模型中最高。 - **Terminal Bench 2.1**：88.3 分，仅次于 GPT-5.6 Sol。 - **Program Bench**：77.8 分，略超 Fable 5 的 76.8。 ### Agent 与知识工作 - **BrowseComp**：91.2 分，全场第一。 - **SpreadsheetBench 2**：34.8 分，全场第一。 - **Automation Bench**：30.8 分，全场第一。 - **AA-Briefcase Elo**：1548 分，排名第二。 ### 多模态 - **CharXiv**：91.3 分，开源模型中最高。 ## 自主工程能力演示 - **GPU 内核优化**：在 AttnRes 任务中，K3 设计两阶段 kernel 算法，将前向+反向时间从 283.6ms 压缩至 114.4ms，性能接近 Fable 5。 - **从零构建 GPU 编译器**：开发 MiniTriton，基于 MLIR 构建 tile 级 IR 层和 PTX 代码生成管线，性能持平或超越 Triton 和 torch.compile，可支撑 nanoGPT 训练收敛。 - **自主设计芯片**：48 小时内基于开源 EDA 工具和 Nangate 45nm 工艺库完成芯片设计，4mm² 内集成 146 万标准单元，100MHz 下解码吞吐超 8700 tokens/s。 ## 定价与部署 Kimi K3 API 定价：缓存命中输入 0.3 美元/百万 token，普通输入 3 美元，输出 15 美元。官方称单任务成本约为 Fable 5 的三分之一。模型已上线 Kimi 网页端、App、Kimi Work、Kimi Code 及 API，默认开启最高强度推理模式。 ## 已知局限 - 对历史思考内容敏感，会话中途切换可能导致质量不稳定。 - 训练侧重长程高难任务，遇到模糊意图时可能过度自主决策。 - 整体用户体验与 Fable 5 和 GPT-5.6 Sol 仍有差距。

综合整理

第 1 / 11 页下一页

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

AI Agent News

最新行业资讯

重大事件时间线

商汤连发两款多模态基座模型，推动视觉AI从“搭积木”走向原生统一

Qwen 3.8 Max Preview 实测：2.4万亿参数旗舰逼近闭源上限，长任务稳定性仍有差距

GPT-5.6 Sol 网络攻防能力超越闭源模型，IMO 首次尝试满分，但文件删除漏洞引发安全担忧

Fable 5 构造反例证伪雅可比猜想，三维及以上版本被推翻

WAIC 2026 世界模型与物理 AI 进展：多路线并行，产业落地加速

Fable 5 模型发布与可用性：反例发现、自主工作流与永久可用

Kimi K3 发布即爆火：2.8万亿参数开源模型引燃算力与市场双重热潮

世界模型进展：多家机构发布新成果，从生成到行动加速落地

Kimi K3 发布：全球首个开源 3 万亿参数大模型，性能逼近闭源旗舰

Documentation

Getting Started

Learn more