EN
返回资讯列表
行业

OpenAI Scaling Law 原始论文被曝存在 Bug,全球算力或遭浪费

近日,DeepMind 研究员 Sander Dieleman 转发了一篇博客,指出 OpenAI 2020 年 Scaling Law 原始论文存在致命 bug,可能导致全球 AI 行业在过去几年中浪费了大量算力。该博客由前 OpenAI 研究员 Diogo Almeida 撰写,标题为《Scaling Laws, Honestly》,直言最初版本的 scaling law 因一个 bug 而错误。

背景:Scaling Law 的提出与影响

2020 年,OpenAI 在论文中提出,在固定算力预算下,应优先扩大模型参数量而非数据量,最优参数量与算力的 0.73 次方成正比。这一结论直接影响了 GPT-3(1750 亿参数)等模型的设计,推动了“大力出奇迹”的行业趋势。然而,2022 年 DeepMind 的 Chinchilla 论文推翻了这一结论,指出模型和数据应同等放大,每个参数约需 20 个 token。Chinchilla 以 700 亿参数、1.4 万亿 token 的训练,在同等算力下超越了 2800 亿参数但仅训练 3000 亿 token 的 Gopher,揭示了此前模型“虚胖”的问题。

关键细节:Bug 的具体表现

Diogo Almeida 指出,原始论文存在三个关键问题:

  • 固定训练 token 数:所有模型(无论大小)均使用约 130B tokens 训练,导致小模型过拟合,大模型欠拟合。
  • 余弦学习率衰减:学习率在训练末期被强制归零,人为制造了性能饱和的假象,使研究者误以为增加数据无效。
  • 误导性结论:论文声称结果“基本不受学习率曲线影响”,但该结论仅在有限 token 预算下成立,不适用于 scaling law 所描述的无限数据场景。

此外,2024 年 Besiroglu 等人发现 Chinchilla 论文本身也存在 bug:优化器中的 loss 尺度设置过高,导致拟合过早终止。这表明 scaling law 作为经验拟合曲线,并非铁律。

各方反应与数据

  • Diogo Almeida:承认自己当年在 OpenAI 也未发现此 bug,因为学习率曲线看似“精心设定”。
  • Sander Dieleman:在推特上表示,该 bug 可能让业界在大量“体量过大、训练不足”的模型上浪费了算力。
  • Adam Zachary Wasserman:进一步指出,目前的 scaling law 实际上是“英语 Scaling Law”,因为英语形态贫乏,需要更多数据;而法语、中文等语言效率更高,说明算力配比存在语言偏见。

影响与反思

该 bug 的曝光意味着全球 AI 行业可能在过去几年中错误地优先堆参数,导致算力错配。研究者认为,本可以用更小的模型、更多的优质数据实现更强性能,节省大量 H100 运行成本。同时,这也引发了对 scaling law 本质的反思:它并非物理定律,而是基于特定实验条件的经验拟合,其有效性受限于数据、语言和训练设置。

目前,OpenAI 尚未对此事发表官方回应。但这一发现可能促使行业重新审视模型规模与数据量的平衡,推动更高效的 AI 发展路径。

2026年7月5日来源:综合整理

延伸阅读

想深入了解该主题,查看站内相关教程与解析。

查看相关主题