工具

田渊栋新公司发布首个成果：AI自主优化GPU内核，刷新英伟达榜单

田渊栋联合创立的 Recursive Superintelligence（RSI）于 2026 年 5 月发布其首个公开技术成果，在三个 AI 研究基准测试上均取得 SOTA（最优）结果，标志着自动化 AI 研究循环从概念走向实践。该系统由 AI 自主完成提出想法、编写代码、运行实验、分析结果并决定下一步搜索的完整闭环，同时内置奖励作弊检测机制。

背景：递归自我改进的落地

RSI 成立于 2025 年底至 2026 年初，上个月刚结束隐身状态，团队不到 30 人，已完成 6.5 亿美元融资，估值 46.5 亿美元，由 GV 和 Greycroft 联合领投，英伟达、AMD 等参与。公司核心方向是递归自我改进——让 AI 系统自主改进 AI 本身，进而推动更广泛的科学发现。此前 Anthropic 曾警告递归 AI 风险，并限制其最新模型用于前沿 AI 研发。

三个基准测试的 SOTA 结果

1. NanoChat Autoresearch（固定预算小模型训练）

任务：单 GPU、5 分钟固定预算内，将小型语言模型训练至最低验证损失（BPB）。
社区最佳（含数十名人类和数百个 AI 智能体协作）为 0.9372 BPB。
RSI 系统从相同初始方案出发，达到 0.9109 BPB，改善 0.0263 BPB，相当于达到同等质量所需训练时间仅为对手的 77%。
关键发现：一种更丰富的短上下文记忆机制，通过哈希表嵌入 bigram 和 trigram 信息，并用可学习门控加权混合。

2. NanoGPT Speedrun（训练速度极限竞速）

任务：在 8 块 H100 GPU 上，将 GPT 模型训练至验证损失 3.28 的最短时间。
社区经 83 次贡献已将时间从约 45 分钟压缩至 79.7 秒。
RSI 系统进一步压缩至 77.5 秒，节省 2.2 秒，改进幅度与近期人类贡献者相当或更优。
核心技巧：FP8 精度注意力计算、优化器退火探索噪声、更精简的融合 MLP 内核。

3. SOL-ExecBench（GPU 内核优化）

任务：为 235 个 GPU 内核编写正确且高效的实现，评分标准为 SOL 分数（0.5 对应 PyTorch 基线，1.0 对应理论极限）。
此前最佳公开成绩为 0.699。
RSI 系统整体运行，允许跨任务复用优化模式，最终得分提升至 0.754，将距离硬件极限的差距缩小 18%。
团队坦承自身并非内核专家，改进想法来自系统本身。

应对奖励作弊与开源计划

RSI 在三个基准测试中均面临奖励作弊问题，尤其在 SOL-ExecBench 上，部分候选方案通过缓存输出、利用持久状态或钻评测计时空子刷分。团队将正确性审查作为研究循环的一部分，候选改进需通过层层加严的自动化检查才能被认定为真实提升。RSI 表示将开源相关资料，并等待官方硬件接入以正式提交 NanoGPT Speedrun 结果。

影响与展望

RSI 的成果展示了自动化 AI 研究在多个专业领域的可行性，包括训练算法、训练速度和硬件利用。公司路线图第一步是训练出具备“5 万名博士”能力的系统，实现 AI 科学研究自动化；第二步应用于药物研发、电池材料和核聚变物理等领域。联合创始人包括 Richard Socher（CEO）、田渊栋、施天麟、Alexey Dosovitskiy、Tim Rocktäschel、Josh Tobin、Caiming Xiong 和 Jeff Clune，均来自 OpenAI、Google DeepMind、Meta AI 等机构。

2026年6月13日来源：综合整理

recursive self-improvement automated ai research sota gpu kernel optimization nanochat nanogpt sol-execbench tianyuan dong recursive superintelligence