工具
田渊栋创业公司Recursive发布首个成果:AI自动化研究系统在三大基准测试中取得SOTA
田渊栋联合创立的Recursive Superintelligence(RSI)于2026年6月发布了其首个公开技术成果:一套自动化AI研究系统,在三个不同基准测试中均取得当前最优(SOTA)结果。该系统能够自主完成提出想法、编写代码、运行实验、分析结果并决定下一步搜索的完整研究循环,同时支持多线程并行和跨任务复用有效策略。
三大基准测试成绩
- NanoChat Autoresearch:在单GPU、五分钟固定预算下训练小语言模型,系统将验证BPB从社区最佳0.9372降至0.9109,训练效率提升约23%。
- NanoGPT Speedrun:在8卡H100节点上训练GPT模型至固定验证损失3.28,系统将时间从社区最优79.7秒压缩至77.5秒,改进幅度与近期人类贡献相当。
- SOL-ExecBench:英伟达GPU内核优化基准,系统在235个内核任务上平均SOL分数从0.699提升至0.754,将距离硬件理论极限的差距缩小18%。
系统设计特点
系统将研究循环完全自动化,并内置奖励作弊检测机制,防止系统通过缓存、钻计时漏洞等方式刷分。在SOL-ExecBench上,团队特别加强了正确性审查,确保改进真实有效。
公司背景
RSI于2026年5月结束隐身状态,团队不到30人,已完成6.5亿美元融资,估值46.5亿美元。联合创始人包括Richard Socher(CEO)、田渊栋、施天麟、Alexey Dosovitskiy、Tim Rocktäschel、Josh Tobin、Caiming Xiong、Jeff Clune,均来自OpenAI、Google DeepMind、Meta等顶尖机构。公司押注递归自我改进路线,计划先实现AI自动化科学研究,再扩展到药物研发、电池材料等领域。
开源与后续
Recursive表示将开源相关代码和资料,并正在等待官方硬件接入以正式提交NanoGPT Speedrun排行榜结果。
2026年6月14日来源:综合整理
相关资讯
谷歌Gemini Ultra在编程基准测试中创下新纪录
5月22日 · Google AI Blog
Mistral Codestral 2 登顶编程基准测试,挑战 GitHub Copilot 经济模式
4月13日 · VentureBeat AI
新AI智能体基准测试显示在现实任务上取得快速进展
5月27日 · WebArena
2026北京智源大会开幕,聚焦世界模型与物理AGI
6月13日 · 综合整理
2026北京智源大会开幕:智源研究院发布世界模型,定义AI从“预测下一个词元”到“预测下一个物理状态”的范式跃迁
6月14日 · 综合整理
Anthropic CEO 发布 AI 指数化发展政策,呼吁强制监管与就业保障
6月14日 · 综合整理