模型
微博开源3B小模型VibeThinker,可验证推理性能比肩千亿参数大模型
新浪微博团队近日开源了VibeThinker-3B,一个仅有30亿参数的密集推理模型,在数学竞赛和编程等可验证推理任务上表现惊人,性能直逼千亿甚至万亿参数的顶级模型。
核心性能数据
- AIME26:得分94.3,结合测试时扩展策略CLR后提升至97.1。
- IMO-AnswerBench:单跑得分76.4,加CLR后达80.6,与DeepSeek V3.2(78.3,6710亿参数)、GLM-5(82.5,7440亿参数)、Kimi K2.5(81.8,1万亿参数)处于同一区间。
- LiveCodeBench v6:Pass@1达80.2。
- LeetCode最新未公开周赛:2026年4月25日至5月31日期间128道题首次提交通过123道,通过率96.1%。
- IFEval:93.4分。
训练方法
VibeThinker-3B基于Qwen2.5-Coder-3B构建,采用升级版Spectrum-to-Signal后训练流程,包括:
- 课程式两阶段SFT:第一阶段覆盖数学、编程、STEM推理等通用能力;第二阶段聚焦高难度长跨度样本,使用多样性探索蒸馏保留多种有效解题路径。
- 多领域推理强化学习:复用MGPO策略,依次在数学、编程、STEM任务上训练,使用单一64K长上下文窗口。
- 离线自蒸馏:从RL检查点筛选高质量轨迹,基于学习潜力评分优先选择正确但模型尚未充分掌握的轨迹,蒸馏为统一学生模型。
- 指令强化学习:提升模型对用户提示的可控性,对格式敏感和开放式指令分别采用规则验证器和评分奖励模型。
参数压缩-覆盖假说
研究团队提出,不同能力对参数规模的依赖方式不同:可验证推理(如数学、编程)是高度可压缩的参数密集型能力,任务结构清晰、反馈信号可靠,小模型可逼近前沿;而开放域知识、通用对话等依赖大规模参数覆盖事实和概念。该假说认为小模型与大模型是互补关系,而非替代。
开源与限制
模型已在Hugging Face、GitHub和ModelScope开源。官方明确指出,模型在需要通用知识的领域表现不佳,其优势集中在可验证推理任务上。
2026年6月19日来源:综合整理
相关资讯
Kimi K2.7 Code 发布:代码与Agent能力提升,Token消耗降低30%
6月15日 · 综合整理
OpenAI o3 mini 正式发布:推理模型平民化,$0.15 每百万 token
5月20日 · AI Skill Navigation
智谱GLM-5.2发布并开源:Code Arena全球可用模型第一,1M上下文长程编程能力跃升
6月19日 · 综合整理
谷歌开源26B文本扩散MoE模型DiffusionGemma,生成速度最高提升4倍
6月14日 · 综合整理
巴西市政IT公司模型Rio 3.5被曝套壳国产Nex和Qwen
6月16日 · 综合整理
GLM-5.2 全量开放:1M 上下文与长任务能力成亮点
6月14日 · 综合整理