田渊栋新公司发布首个成果:AI自主优化GPU内核,刷新英伟达榜单
田渊栋联合创立的 Recursive Superintelligence(RSI)于 2026 年 5 月发布其首个公开技术成果,在三个 AI 研究基准测试上均取得 SOTA(最优)结果,标志着自动化 AI 研究循环从概念走向实践。该系统由 AI 自主完成提出想法、编写代码、运行实验、分析结果并决定下一步搜索的完整闭环,同时内置奖励作弊检测机制。
背景:递归自我改进的落地
RSI 成立于 2025 年底至 2026 年初,上个月刚结束隐身状态,团队不到 30 人,已完成 6.5 亿美元融资,估值 46.5 亿美元,由 GV 和 Greycroft 联合领投,英伟达、AMD 等参与。公司核心方向是递归自我改进——让 AI 系统自主改进 AI 本身,进而推动更广泛的科学发现。此前 Anthropic 曾警告递归 AI 风险,并限制其最新模型用于前沿 AI 研发。
三个基准测试的 SOTA 结果
1. NanoChat Autoresearch(固定预算小模型训练)
- 任务:单 GPU、5 分钟固定预算内,将小型语言模型训练至最低验证损失(BPB)。
- 社区最佳(含数十名人类和数百个 AI 智能体协作)为 0.9372 BPB。
- RSI 系统从相同初始方案出发,达到 0.9109 BPB,改善 0.0263 BPB,相当于达到同等质量所需训练时间仅为对手的 77%。
- 关键发现:一种更丰富的短上下文记忆机制,通过哈希表嵌入 bigram 和 trigram 信息,并用可学习门控加权混合。
2. NanoGPT Speedrun(训练速度极限竞速)
- 任务:在 8 块 H100 GPU 上,将 GPT 模型训练至验证损失 3.28 的最短时间。
- 社区经 83 次贡献已将时间从约 45 分钟压缩至 79.7 秒。
- RSI 系统进一步压缩至 77.5 秒,节省 2.2 秒,改进幅度与近期人类贡献者相当或更优。
- 核心技巧:FP8 精度注意力计算、优化器退火探索噪声、更精简的融合 MLP 内核。
3. SOL-ExecBench(GPU 内核优化)
- 任务:为 235 个 GPU 内核编写正确且高效的实现,评分标准为 SOL 分数(0.5 对应 PyTorch 基线,1.0 对应理论极限)。
- 此前最佳公开成绩为 0.699。
- RSI 系统整体运行,允许跨任务复用优化模式,最终得分提升至 0.754,将距离硬件极限的差距缩小 18%。
- 团队坦承自身并非内核专家,改进想法来自系统本身。
应对奖励作弊与开源计划
RSI 在三个基准测试中均面临奖励作弊问题,尤其在 SOL-ExecBench 上,部分候选方案通过缓存输出、利用持久状态或钻评测计时空子刷分。团队将正确性审查作为研究循环的一部分,候选改进需通过层层加严的自动化检查才能被认定为真实提升。RSI 表示将开源相关资料,并等待官方硬件接入以正式提交 NanoGPT Speedrun 结果。
影响与展望
RSI 的成果展示了自动化 AI 研究在多个专业领域的可行性,包括训练算法、训练速度和硬件利用。公司路线图第一步是训练出具备“5 万名博士”能力的系统,实现 AI 科学研究自动化;第二步应用于药物研发、电池材料和核聚变物理等领域。联合创始人包括 Richard Socher(CEO)、田渊栋、施天麟、Alexey Dosovitskiy、Tim Rocktäschel、Josh Tobin、Caiming Xiong 和 Jeff Clune,均来自 OpenAI、Google DeepMind、Meta AI 等机构。
相关资讯
6月13日 · 综合整理
3月1日 · Bloomberg
8月22日 · Anysphere Blog
11月13日 · Codeium Blog
4月22日 · 扣子官方
5月10日 · AI Skill Navigation