行业

OpenAI Scaling Law 原始论文被曝存在 Bug，全球算力或遭浪费

近日，DeepMind 研究员 Sander Dieleman 转发了一篇博客，指出 OpenAI 2020 年 Scaling Law 原始论文存在致命 bug，可能导致全球 AI 行业在过去几年中浪费了大量算力。该博客由前 OpenAI 研究员 Diogo Almeida 撰写，标题为《Scaling Laws, Honestly》，直言最初版本的 scaling law 因一个 bug 而错误。

背景：Scaling Law 的提出与影响

2020 年，OpenAI 在论文中提出，在固定算力预算下，应优先扩大模型参数量而非数据量，最优参数量与算力的 0.73 次方成正比。这一结论直接影响了 GPT-3（1750 亿参数）等模型的设计，推动了“大力出奇迹”的行业趋势。然而，2022 年 DeepMind 的 Chinchilla 论文推翻了这一结论，指出模型和数据应同等放大，每个参数约需 20 个 token。Chinchilla 以 700 亿参数、1.4 万亿 token 的训练，在同等算力下超越了 2800 亿参数但仅训练 3000 亿 token 的 Gopher，揭示了此前模型“虚胖”的问题。

关键细节：Bug 的具体表现

Diogo Almeida 指出，原始论文存在三个关键问题：

固定训练 token 数：所有模型（无论大小）均使用约 130B tokens 训练，导致小模型过拟合，大模型欠拟合。
余弦学习率衰减：学习率在训练末期被强制归零，人为制造了性能饱和的假象，使研究者误以为增加数据无效。
误导性结论：论文声称结果“基本不受学习率曲线影响”，但该结论仅在有限 token 预算下成立，不适用于 scaling law 所描述的无限数据场景。

此外，2024 年 Besiroglu 等人发现 Chinchilla 论文本身也存在 bug：优化器中的 loss 尺度设置过高，导致拟合过早终止。这表明 scaling law 作为经验拟合曲线，并非铁律。

各方反应与数据

Diogo Almeida：承认自己当年在 OpenAI 也未发现此 bug，因为学习率曲线看似“精心设定”。
Sander Dieleman：在推特上表示，该 bug 可能让业界在大量“体量过大、训练不足”的模型上浪费了算力。
Adam Zachary Wasserman：进一步指出，目前的 scaling law 实际上是“英语 Scaling Law”，因为英语形态贫乏，需要更多数据；而法语、中文等语言效率更高，说明算力配比存在语言偏见。

影响与反思

该 bug 的曝光意味着全球 AI 行业可能在过去几年中错误地优先堆参数，导致算力错配。研究者认为，本可以用更小的模型、更多的优质数据实现更强性能，节省大量 H100 运行成本。同时，这也引发了对 scaling law 本质的反思：它并非物理定律，而是基于特定实验条件的经验拟合，其有效性受限于数据、语言和训练设置。

目前，OpenAI 尚未对此事发表官方回应。但这一发现可能促使行业重新审视模型规模与数据量的平衡，推动更高效的 AI 发展路径。

2026年7月5日来源：综合整理

scaling law openai bug ai industry gpt-3

OpenAI Scaling Law 原始论文被曝存在 Bug，全球算力或遭浪费

背景：Scaling Law 的提出与影响

关键细节：Bug 的具体表现

各方反应与数据

影响与反思

Documentation

Getting Started

Learn more