行业

翁荔博客万字长文：Scaling Law 并非铁律，行业共识存在方法论瑕疵

前 OpenAI 副总裁、北大校友翁荔（Lilian Weng）在拖更三年后，于 2026 年 6 月 24 日发表博客《Scaling Laws, Carefully》，系统梳理了 Scaling Law 的起源、争议与局限。文章指出，OpenAI 与 DeepMind 关于计算最优分配的分歧源于参数统计口径差异和实验规模不足，而 DeepMind 的 Chinchilla 公式本身也存在损失函数取均值导致优化器提前停止、关键参数仅保留两位小数等 bug。此外，Scaling Law 在小模型上拟合的规律外推至万亿参数级别时误差会被急剧放大，且其隐含的“数据无限供应”假设正面临高质量文本枯竭的现实挑战。

核心争议：OpenAI 与 DeepMind 的相反结论

2020 年 OpenAI Kaplan 团队：最优模型大小 N_opt ∝ C^0.73，即算力翻 10 倍，5.5 倍给模型、1.8 倍给数据。该结论指导了 GPT-3 的训练（1750 亿参数，3000 亿 token）。
2022 年 DeepMind Chinchilla 团队：N_opt ∝ C^0.50，模型与数据应等比增长，最优 token 与参数比约为 20:1。Chinchilla（700 亿参数，1.4 万亿 token）在相同算力下全面碾压 Gopher（2800 亿参数，3000 亿 token），导致行业共识翻转。

分歧根源：簿记问题与实验规模

2024 年 TMLR 论文调和了上述分歧：

参数统计口径差异：Kaplan 排除 embedding 层参数，Chinchilla 则计入。小模型中 embedding 占比大，导致拟合指数偏差。校正公式为 N = N_E + ω·N_E^(1/3)。
实验规模不足：Kaplan 最大模型仅 15 亿参数，而 Chinchilla 扫到 160 亿以上。在小规模范围内指数接近 0.73，规模增大后收敛至 0.50。

Chinchilla 自身的方法论瑕疵

2024 年 Epoch AI 团队复现 Chinchilla 方法 3（直接拟合损失函数）时发现两个 bug：

损失函数取均值而非求和：Huber Loss 取均值后数值极小，L-BFGS-B 优化器误判收敛提前停止，输出参数非最优。
关键参数仅保留两位小数：四舍五入导致误差指数级放大，置信区间窄到需 60 万次实验才能达到，而实际仅跑不到 500 次。

外推风险与数据瓶颈

外推不可靠：Scaling Law 在小模型上拟合，外推至万亿参数时，微小参数差异（如四舍五入）可导致结论大幅偏离。博客附交互式模拟器展示拟合结果对参数敏感。
数据有限性：公式假设数据无限供应，但高质量文本即将耗尽。行业正转向强化学习、测试时计算和合成数据。

行业影响

翁荔的博客引发广泛讨论，网友排队欢迎。她本人感叹“很多人会让 AI 总结而非真正阅读”，并计划设置模型自动更新博客。文章被视为对 Scaling Law 信仰的冷静审视，提醒行业在押注千亿美元时需警惕方法论瑕疵与局部性偏差。

2026年6月28日来源：综合整理

scaling-law lilian-weng openai deepmind ai-research

翁荔博客万字长文：Scaling Law 并非铁律，行业共识存在方法论瑕疵

核心争议：OpenAI 与 DeepMind 的相反结论

分歧根源：簿记问题与实验规模

Chinchilla 自身的方法论瑕疵

外推风险与数据瓶颈

行业影响

Documentation

Getting Started

Learn more