框架

人大与微软开源自主科研框架Arbor：基于假设树的结构化搜索，六项任务均获最优

中国人民大学高瓴人工智能学院与微软研究院联合开源了自主科研框架Arbor，旨在解决AI Agent在长期科研任务中难以积累经验、盲目试错的问题。Arbor的核心是假设树精炼（Hypothesis Tree Refinement, HTR）机制，将研究过程组织为一棵持续生长的树，每个节点包含假设、代码版本、实验证据和提炼的洞察。系统采用Coordinator-Executor两级架构：Coordinator负责全局策略，维护假设树并决定探索方向；Executor在隔离环境中执行具体实验并返回结构化报告。在六项真实研究任务（涵盖模型训练、Harness工程、数据合成）上，Arbor在留出测试集上均取得最佳结果，平均留出增益是Codex和Claude Code的2.5倍以上。在MLE-Bench Lite上配合GPT-5.5，Arbor的Any Medal成绩达86.36%，为当前最高。消融实验表明，移除树结构或关闭洞察回传均导致性能显著下降，验证了树与洞察协同的必要性。Arbor的token消耗与基线方法相当（约20M-43M token），表明增益来自结构化搜索而非单纯增加计算量。项目已开源，包含独立CLI和Agent Skill，支持在Codex/Claude Code等环境中使用。

2026年6月25日来源：综合整理

autonomous-research hypothesis-tree llm-agent open-source machine-learning

人大与微软开源自主科研框架Arbor：基于假设树的结构化搜索，六项任务均获最优

Documentation

Getting Started

Learn more