EN
返回资讯列表
行业

翁荔博客万字长文:Scaling Law 并非铁律,行业共识存在方法论瑕疵

前 OpenAI 副总裁、北大校友翁荔(Lilian Weng)在拖更三年后,于 2026 年 6 月 24 日发表博客《Scaling Laws, Carefully》,系统梳理了 Scaling Law 的起源、争议与局限。文章指出,OpenAI 与 DeepMind 关于计算最优分配的分歧源于参数统计口径差异和实验规模不足,而 DeepMind 的 Chinchilla 公式本身也存在损失函数取均值导致优化器提前停止、关键参数仅保留两位小数等 bug。此外,Scaling Law 在小模型上拟合的规律外推至万亿参数级别时误差会被急剧放大,且其隐含的“数据无限供应”假设正面临高质量文本枯竭的现实挑战。

核心争议:OpenAI 与 DeepMind 的相反结论

  • 2020 年 OpenAI Kaplan 团队:最优模型大小 N_opt ∝ C^0.73,即算力翻 10 倍,5.5 倍给模型、1.8 倍给数据。该结论指导了 GPT-3 的训练(1750 亿参数,3000 亿 token)。
  • 2022 年 DeepMind Chinchilla 团队:N_opt ∝ C^0.50,模型与数据应等比增长,最优 token 与参数比约为 20:1。Chinchilla(700 亿参数,1.4 万亿 token)在相同算力下全面碾压 Gopher(2800 亿参数,3000 亿 token),导致行业共识翻转。

分歧根源:簿记问题与实验规模

2024 年 TMLR 论文调和了上述分歧:

  • 参数统计口径差异:Kaplan 排除 embedding 层参数,Chinchilla 则计入。小模型中 embedding 占比大,导致拟合指数偏差。校正公式为 N = N_E + ω·N_E^(1/3)。
  • 实验规模不足:Kaplan 最大模型仅 15 亿参数,而 Chinchilla 扫到 160 亿以上。在小规模范围内指数接近 0.73,规模增大后收敛至 0.50。

Chinchilla 自身的方法论瑕疵

2024 年 Epoch AI 团队复现 Chinchilla 方法 3(直接拟合损失函数)时发现两个 bug:

  • 损失函数取均值而非求和:Huber Loss 取均值后数值极小,L-BFGS-B 优化器误判收敛提前停止,输出参数非最优。
  • 关键参数仅保留两位小数:四舍五入导致误差指数级放大,置信区间窄到需 60 万次实验才能达到,而实际仅跑不到 500 次。

外推风险与数据瓶颈

  • 外推不可靠:Scaling Law 在小模型上拟合,外推至万亿参数时,微小参数差异(如四舍五入)可导致结论大幅偏离。博客附交互式模拟器展示拟合结果对参数敏感。
  • 数据有限性:公式假设数据无限供应,但高质量文本即将耗尽。行业正转向强化学习、测试时计算和合成数据。

行业影响

翁荔的博客引发广泛讨论,网友排队欢迎。她本人感叹“很多人会让 AI 总结而非真正阅读”,并计划设置模型自动更新博客。文章被视为对 Scaling Law 信仰的冷静审视,提醒行业在押注千亿美元时需警惕方法论瑕疵与局部性偏差。

2026年6月28日来源:综合整理

延伸阅读

想深入了解该主题,查看站内相关教程与解析。

查看相关主题