模型
Kimi K2.7 Code 发布:代码与Agent能力提升,Token消耗降低30%
月之暗面于近日发布Kimi K2.7 Code,这是K2系列首款专攻代码的专项模型,已在HuggingFace开源。模型在代码生成、Agent执行和长程任务上全面升级,平均Token消耗较前代K2.6减少约30%,但部分用户反映配额限制严重,影响实际体验。
核心能力提升
- 代码基准测试:Kimi Code Bench v2得分提升21.8%(50.9→62.0),Program-Bench提升11%(48.3→53.6),MLS Bench Lite提升31.5%(26.7→35.1),后者已逼近GPT-5.5的35.5分。
- Agent基准测试:Kimi Claw 24/7 Bench提升9.3%(42.9→46.9),MCP Atlas提升9.5%(69.4→76.0),MCP Mark Verified提升11.4%(72.8→81.1),在工具调用场景中部分超越Claude Opus 4.8(76.4分)。
- 长程任务优化:改善“过度思考”问题,平均Token消耗减少30%,长周期复杂任务成功率提升。
实测表现
- 物理模拟:在黑洞、水波渲染等场景中,K2.7 Code生成效果逼真,水波渲染优于GPT-5.5和Claude Opus 4.8。
- 游戏开发:生成《超级玛丽》HTML版时,K2.7 Code能完成可运行的第一关,但角色和地图细节仍显抽象,与Claude Fable 5差距明显。
- 前端任务:在9个前端示例中,单独测试效果较好,但批量执行时模型会偷懒,输出质量参差不齐。
成本与配额争议
- 定价:标准输入6.5元/1M Token,输出27元/1M Token,缓存输入1.3元/1M Token,与前代K2.6一致。
- 配额限制:多位用户反馈,初级Code套餐的周配额在几次测试后即耗尽,出现大量429(速率限制)、402(配额不足)错误,严重影响开发流程。有用户称“为了跑一个例子用了63%的周配额”。
- 使用要求:必须开启思考模式(Thinking),关闭后API报错或回退至K2.6。
架构与部署
- 模型架构:延续MoE设计,总参数1T,激活参数32B,384个专家每次选8个,1个共享专家,上下文长度256K token。视觉部分搭载MoonViT编码器(400M参数),支持图片和视频输入。
- 开源与部署:以Modified MIT License开源,支持vLLM、SGLang、KTransformers部署,已原生INT4量化。
- 高速版预告:6月15日上线6倍高速版,输出速度约180 Token/s(常规场景),短上下文可达260 Token/s,价格为普通版2倍。
行业排名
- 在ErdosBench中综合排名第二,仅次于Claude Fable 5 max。
- 在SWE-bench、Terminal-Bench 2.1中获开源模型第一名,Vibe Code Bench第三名,ProgramBench第二名。
- Weco团队自主研究任务测评中,K2.7 Code以0.747分排名第五,机器学习工程专项排名第一。
2026年6月15日来源:综合整理
相关资讯
巴西里约开源模型Rio 3.5被指套壳国产模型,证据确凿后下架
6月15日 · 综合整理
谷歌开源26B文本扩散MoE模型DiffusionGemma,生成速度最高提升4倍
6月14日 · 综合整理
GLM-5.2 全量开放:1M 上下文与长任务能力成亮点
6月14日 · 综合整理
Llama 3 vs GPT-4:开源模型达到90%质量,企业部署成本仅为5%
5月16日 · Meta AI
Meta Llama 4 Scout 与 Maverick:开源AI迎来多模态与1000万上下文窗口
4月14日 · The Decoder
Mistral AI发布Mistral Large 2:欧洲挑战美国AI主导地位
5月3日 · Mistral AI