框架
人大与微软开源自主科研框架Arbor:基于假设树的结构化搜索,六项任务均获最优
中国人民大学高瓴人工智能学院与微软研究院联合开源了自主科研框架Arbor,旨在解决AI Agent在长期科研任务中难以积累经验、盲目试错的问题。Arbor的核心是假设树精炼(Hypothesis Tree Refinement, HTR)机制,将研究过程组织为一棵持续生长的树,每个节点包含假设、代码版本、实验证据和提炼的洞察。系统采用Coordinator-Executor两级架构:Coordinator负责全局策略,维护假设树并决定探索方向;Executor在隔离环境中执行具体实验并返回结构化报告。在六项真实研究任务(涵盖模型训练、Harness工程、数据合成)上,Arbor在留出测试集上均取得最佳结果,平均留出增益是Codex和Claude Code的2.5倍以上。在MLE-Bench Lite上配合GPT-5.5,Arbor的Any Medal成绩达86.36%,为当前最高。消融实验表明,移除树结构或关闭洞察回传均导致性能显著下降,验证了树与洞察协同的必要性。Arbor的token消耗与基线方法相当(约20M-43M token),表明增益来自结构化搜索而非单纯增加计算量。项目已开源,包含独立CLI和Agent Skill,支持在Codex/Claude Code等环境中使用。
2026年6月25日来源:综合整理
相关资讯
腾讯混元开源UniRL:统一多模态强化学习训练框架
6月17日 · 综合整理
Kimi K2.7 Code 发布:代码与Agent能力提升,Token消耗降低30%
6月15日 · 综合整理
Llama 3 vs GPT-4:开源模型达到90%质量,企业部署成本仅为5%
5月16日 · Meta AI
Meta Llama 4 Scout 与 Maverick:开源AI迎来多模态与1000万上下文窗口
4月14日 · The Decoder
Mistral AI发布Mistral Large 2:欧洲挑战美国AI主导地位
5月3日 · Mistral AI
中国AI模型缩小差距:DeepSeek R2与Qwen 2.5挑战西方主导地位
5月8日 · DeepSeek