行业
翁荔博客万字长文:Scaling Law 并非铁律,行业共识存在方法论瑕疵
前 OpenAI 副总裁、北大校友翁荔(Lilian Weng)在拖更三年后,于 2026 年 6 月 24 日发表博客《Scaling Laws, Carefully》,系统梳理了 Scaling Law 的起源、争议与局限。文章指出,OpenAI 与 DeepMind 关于计算最优分配的分歧源于参数统计口径差异和实验规模不足,而 DeepMind 的 Chinchilla 公式本身也存在损失函数取均值导致优化器提前停止、关键参数仅保留两位小数等 bug。此外,Scaling Law 在小模型上拟合的规律外推至万亿参数级别时误差会被急剧放大,且其隐含的“数据无限供应”假设正面临高质量文本枯竭的现实挑战。
核心争议:OpenAI 与 DeepMind 的相反结论
- 2020 年 OpenAI Kaplan 团队:最优模型大小 N_opt ∝ C^0.73,即算力翻 10 倍,5.5 倍给模型、1.8 倍给数据。该结论指导了 GPT-3 的训练(1750 亿参数,3000 亿 token)。
- 2022 年 DeepMind Chinchilla 团队:N_opt ∝ C^0.50,模型与数据应等比增长,最优 token 与参数比约为 20:1。Chinchilla(700 亿参数,1.4 万亿 token)在相同算力下全面碾压 Gopher(2800 亿参数,3000 亿 token),导致行业共识翻转。
分歧根源:簿记问题与实验规模
2024 年 TMLR 论文调和了上述分歧:
- 参数统计口径差异:Kaplan 排除 embedding 层参数,Chinchilla 则计入。小模型中 embedding 占比大,导致拟合指数偏差。校正公式为 N = N_E + ω·N_E^(1/3)。
- 实验规模不足:Kaplan 最大模型仅 15 亿参数,而 Chinchilla 扫到 160 亿以上。在小规模范围内指数接近 0.73,规模增大后收敛至 0.50。
Chinchilla 自身的方法论瑕疵
2024 年 Epoch AI 团队复现 Chinchilla 方法 3(直接拟合损失函数)时发现两个 bug:
- 损失函数取均值而非求和:Huber Loss 取均值后数值极小,L-BFGS-B 优化器误判收敛提前停止,输出参数非最优。
- 关键参数仅保留两位小数:四舍五入导致误差指数级放大,置信区间窄到需 60 万次实验才能达到,而实际仅跑不到 500 次。
外推风险与数据瓶颈
- 外推不可靠:Scaling Law 在小模型上拟合,外推至万亿参数时,微小参数差异(如四舍五入)可导致结论大幅偏离。博客附交互式模拟器展示拟合结果对参数敏感。
- 数据有限性:公式假设数据无限供应,但高质量文本即将耗尽。行业正转向强化学习、测试时计算和合成数据。
行业影响
翁荔的博客引发广泛讨论,网友排队欢迎。她本人感叹“很多人会让 AI 总结而非真正阅读”,并计划设置模型自动更新博客。文章被视为对 Scaling Law 信仰的冷静审视,提醒行业在押注千亿美元时需警惕方法论瑕疵与局部性偏差。
2026年6月28日来源:综合整理
相关资讯
翁荔万字长文剖析Scaling Law:OpenAI与DeepMind结论分歧,Chinchilla公式存方法论瑕疵
6月26日 · 综合整理
银河通用发布全球首个人形机器人通用小脑AstraBrain-WBC 0.5,验证运动控制Scaling Law
6月19日 · 综合整理
谷歌48小时内连失两位AI核心科学家:Noam Shazeer与John Jumper分别加盟OpenAI和Anthropic
6月21日 · 综合整理
Transformer 核心作者 Noam Shazeer 离开谷歌,加入 OpenAI
6月18日 · 综合整理
诺奖得主John Jumper离职谷歌DeepMind,加入Anthropic
6月20日 · 综合整理
OpenAI 递交 IPO 草案,上市与否仍待定
6月13日 · 综合整理