HuggingFace Daily Papers(社区热门论文)
61
何时思考,何时输出:学习大语言模型推理的披露策略
AI 摘要
针对单流自回归接口中“思考”与“输出”耦合导致的“沉默税”问题,本研究提出了“并排交错推理”方法。它将披露时机转化为可控决策,允许模型在同一上下文中交错进行私有推理和部分内容披露,仅当推理充分支持时才释放内容。通过构建蕴含对齐的交错轨迹进行监督微调,并结合强化学习恢复推理性能。在Qwen3系列模型上的实验表明,该方法在AIME25和GPQA-Diamond基准测试中,有效改善了准确性、内容产出与延迟之间的帕累托权衡。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org