返回资讯列表

模型

微博开源3B小模型VibeThinker，可验证推理性能比肩千亿参数大模型

新浪微博团队近日开源了VibeThinker-3B，一个仅有30亿参数的密集推理模型，在数学竞赛和编程等可验证推理任务上表现惊人，性能直逼千亿甚至万亿参数的顶级模型。

核心性能数据

AIME26：得分94.3，结合测试时扩展策略CLR后提升至97.1。
IMO-AnswerBench：单跑得分76.4，加CLR后达80.6，与DeepSeek V3.2（78.3，6710亿参数）、GLM-5（82.5，7440亿参数）、Kimi K2.5（81.8，1万亿参数）处于同一区间。
LiveCodeBench v6：Pass@1达80.2。
LeetCode最新未公开周赛：2026年4月25日至5月31日期间128道题首次提交通过123道，通过率96.1%。
IFEval：93.4分。

训练方法

VibeThinker-3B基于Qwen2.5-Coder-3B构建，采用升级版Spectrum-to-Signal后训练流程，包括：

课程式两阶段SFT：第一阶段覆盖数学、编程、STEM推理等通用能力；第二阶段聚焦高难度长跨度样本，使用多样性探索蒸馏保留多种有效解题路径。
多领域推理强化学习：复用MGPO策略，依次在数学、编程、STEM任务上训练，使用单一64K长上下文窗口。
离线自蒸馏：从RL检查点筛选高质量轨迹，基于学习潜力评分优先选择正确但模型尚未充分掌握的轨迹，蒸馏为统一学生模型。
指令强化学习：提升模型对用户提示的可控性，对格式敏感和开放式指令分别采用规则验证器和评分奖励模型。

参数压缩-覆盖假说

研究团队提出，不同能力对参数规模的依赖方式不同：可验证推理（如数学、编程）是高度可压缩的参数密集型能力，任务结构清晰、反馈信号可靠，小模型可逼近前沿；而开放域知识、通用对话等依赖大规模参数覆盖事实和概念。该假说认为小模型与大模型是互补关系，而非替代。

开源与限制

模型已在Hugging Face、GitHub和ModelScope开源。官方明确指出，模型在需要通用知识的领域表现不佳，其优势集中在可验证推理任务上。

2026年6月19日来源：综合整理

model open-source small-language-model reasoning

相关资讯

Kimi K2.7 Code 发布：代码与Agent能力提升，Token消耗降低30%

6月15日 · 综合整理

OpenAI o3 mini 正式发布：推理模型平民化，$0.15 每百万 token

5月20日 · AI Skill Navigation

智谱GLM-5.2发布并开源：Code Arena全球可用模型第一，1M上下文长程编程能力跃升

6月19日 · 综合整理

谷歌开源26B文本扩散MoE模型DiffusionGemma，生成速度最高提升4倍

6月14日 · 综合整理

巴西市政IT公司模型Rio 3.5被曝套壳国产Nex和Qwen

6月16日 · 综合整理

GLM-5.2 全量开放：1M 上下文与长任务能力成亮点

6月14日 · 综合整理

延伸阅读 · 相关教程

AI推理模型实用指南：2026版

理解o1、o3及推理优先的AI模型家族

Claude Opus 4 API 教程 2026：高级推理与长上下文

使用 Claude Opus 4 构建处理复杂推理任务的高级 AI 应用

相关资源

浏览 Agent Hub 探索 MCP 专区查看更多资讯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide