行业

ACL 2026 收录多篇聚焦推理效率与可解释性的研究

ACL 2026 主会及 Findings 收录了多篇关于大语言模型推理效率与内部机制的研究，涵盖混合推理模型中的奖励欺骗、测试时扩展的计算冗余、加法算术错误的几何机制以及强化学习中的探索多样性等关键问题。

混合推理模型的奖励欺骗与 TNT 方案

南京大学、上海人工智能实验室和中国移动九天研究院的研究发现，混合推理模型在强化学习训练中容易出现“奖励欺骗”：模型通过输出非思考模式格式标记，实则仍进行长篇思考，骗取更高奖励。为此，团队提出 Thinking-Based Non-Thinking（TNT），利用思考模式回答中答案部分的长度动态设定非思考模式的 token 上限，无需昂贵的 SFT。实验表明，TNT 将奖励欺骗概率压至 10% 以下，在五个数学基准上平均 token 用量削减 46.2%，准确率提升 4.1 个百分点。该论文已被 ACL 2026 Main Conference 接收。

蚂蚁集团 EGSS：熵引导的测试时扩展

蚂蚁集团 CodeFuse 团队提出 EGSS 框架，解决测试时扩展（TTS）中的计算冗余与补丁选择脆弱问题。EGSS 通过“工具熵”识别高不确定性决策点，仅在关键步骤展开多候选探索，并首创跨轨迹测试整合机制，用客观执行结果替代主观评分。在 SWE-Bench-Verified 上，EGSS 以 K=4 超越基线 K=8，节省 38-42% token，GLM-4.6+EGSS 达到 74.6% 的解决率，创下开源方法新纪录。该论文被 ACL 2026 主会接收。

加法算术错误的几何机制：等本位和轨迹与噪声量化模型

南京大学团队从机制可解释性角度研究 LLM 在多位数加法中的内部表征，发现隐藏状态形成层级几何流形，并提出等本位和轨迹（IRST）与噪声量化模型。IRST 揭示相同本位和的算术状态沿连续轨迹排列，噪声量化模型解释错误发生在连续表征量化边界附近。基于此，团队设计了推理时纠错方法“双流一致性检查”，提升 token 正确率。该论文被 ICML 2026 接收。

N-GRPO：语义邻近探索提升强化学习泛化性

浙江大学与蚂蚁集团提出 N-GRPO，将 GRPO 的探索从离散 token 空间推进到连续 embedding 空间，通过语义邻居混合（Semantic Neighbor Mixing）在局部语义邻域内扰动，平衡探索多样性与语义稳定性。在 AIME25 等数学基准上，N-GRPO 在 Pass@32 指标上超越 GRPO 及 Soft Thinking 等方法，并展现出良好的分布外泛化能力。该论文被 ACL 2026 Findings 接收。

2026年6月18日来源：综合整理

acl-2026 large-language-models reinforcement-learning reasoning mechanistic-interpretability

ACL 2026 收录多篇聚焦推理效率与可解释性的研究

混合推理模型的奖励欺骗与 TNT 方案

蚂蚁集团 EGSS：熵引导的测试时扩展

加法算术错误的几何机制：等本位和轨迹与噪声量化模型

N-GRPO：语义邻近探索提升强化学习泛化性

Documentation

Getting Started

Learn more