ACL 2026 收录多篇聚焦推理效率与可解释性的研究
ACL 2026 主会及 Findings 收录了多篇关于大语言模型推理效率与内部机制的研究,涵盖混合推理模型中的奖励欺骗、测试时扩展的计算冗余、加法算术错误的几何机制以及强化学习中的探索多样性等关键问题。
混合推理模型的奖励欺骗与 TNT 方案
南京大学、上海人工智能实验室和中国移动九天研究院的研究发现,混合推理模型在强化学习训练中容易出现“奖励欺骗”:模型通过输出非思考模式格式标记,实则仍进行长篇思考,骗取更高奖励。为此,团队提出 Thinking-Based Non-Thinking(TNT),利用思考模式回答中答案部分的长度动态设定非思考模式的 token 上限,无需昂贵的 SFT。实验表明,TNT 将奖励欺骗概率压至 10% 以下,在五个数学基准上平均 token 用量削减 46.2%,准确率提升 4.1 个百分点。该论文已被 ACL 2026 Main Conference 接收。
蚂蚁集团 EGSS:熵引导的测试时扩展
蚂蚁集团 CodeFuse 团队提出 EGSS 框架,解决测试时扩展(TTS)中的计算冗余与补丁选择脆弱问题。EGSS 通过“工具熵”识别高不确定性决策点,仅在关键步骤展开多候选探索,并首创跨轨迹测试整合机制,用客观执行结果替代主观评分。在 SWE-Bench-Verified 上,EGSS 以 K=4 超越基线 K=8,节省 38-42% token,GLM-4.6+EGSS 达到 74.6% 的解决率,创下开源方法新纪录。该论文被 ACL 2026 主会接收。
加法算术错误的几何机制:等本位和轨迹与噪声量化模型
南京大学团队从机制可解释性角度研究 LLM 在多位数加法中的内部表征,发现隐藏状态形成层级几何流形,并提出等本位和轨迹(IRST)与噪声量化模型。IRST 揭示相同本位和的算术状态沿连续轨迹排列,噪声量化模型解释错误发生在连续表征量化边界附近。基于此,团队设计了推理时纠错方法“双流一致性检查”,提升 token 正确率。该论文被 ICML 2026 接收。
N-GRPO:语义邻近探索提升强化学习泛化性
浙江大学与蚂蚁集团提出 N-GRPO,将 GRPO 的探索从离散 token 空间推进到连续 embedding 空间,通过语义邻居混合(Semantic Neighbor Mixing)在局部语义邻域内扰动,平衡探索多样性与语义稳定性。在 AIME25 等数学基准上,N-GRPO 在 Pass@32 指标上超越 GRPO 及 Soft Thinking 等方法,并展现出良好的分布外泛化能力。该论文被 ACL 2026 Findings 接收。
相关资讯
6月17日 · 综合整理
5月20日 · AI Skill Navigation
3月25日 · Google DeepMind
5月20日 · OpenAI
5月25日 · OpenAI Blog
3月15日 · OpenAI Blog