EN
返回资讯列表
模型

微博开源3B小模型VibeThinker,可验证推理性能比肩千亿参数大模型

新浪微博团队近日开源了VibeThinker-3B,一个仅有30亿参数的密集推理模型,在数学竞赛和编程等可验证推理任务上表现惊人,性能直逼千亿甚至万亿参数的顶级模型。

核心性能数据

  • AIME26:得分94.3,结合测试时扩展策略CLR后提升至97.1。
  • IMO-AnswerBench:单跑得分76.4,加CLR后达80.6,与DeepSeek V3.2(78.3,6710亿参数)、GLM-5(82.5,7440亿参数)、Kimi K2.5(81.8,1万亿参数)处于同一区间。
  • LiveCodeBench v6:Pass@1达80.2。
  • LeetCode最新未公开周赛:2026年4月25日至5月31日期间128道题首次提交通过123道,通过率96.1%。
  • IFEval:93.4分。

训练方法

VibeThinker-3B基于Qwen2.5-Coder-3B构建,采用升级版Spectrum-to-Signal后训练流程,包括:

  • 课程式两阶段SFT:第一阶段覆盖数学、编程、STEM推理等通用能力;第二阶段聚焦高难度长跨度样本,使用多样性探索蒸馏保留多种有效解题路径。
  • 多领域推理强化学习:复用MGPO策略,依次在数学、编程、STEM任务上训练,使用单一64K长上下文窗口。
  • 离线自蒸馏:从RL检查点筛选高质量轨迹,基于学习潜力评分优先选择正确但模型尚未充分掌握的轨迹,蒸馏为统一学生模型。
  • 指令强化学习:提升模型对用户提示的可控性,对格式敏感和开放式指令分别采用规则验证器和评分奖励模型。

参数压缩-覆盖假说

研究团队提出,不同能力对参数规模的依赖方式不同:可验证推理(如数学、编程)是高度可压缩的参数密集型能力,任务结构清晰、反馈信号可靠,小模型可逼近前沿;而开放域知识、通用对话等依赖大规模参数覆盖事实和概念。该假说认为小模型与大模型是互补关系,而非替代。

开源与限制

模型已在Hugging Face、GitHub和ModelScope开源。官方明确指出,模型在需要通用知识的领域表现不佳,其优势集中在可验证推理任务上。

2026年6月19日来源:综合整理