HuggingFace Daily Papers（社区热门论文）

何时思考，何时输出：学习大语言模型推理的披露策略

2026-05-06 08:00·40天前

AI 摘要

针对单流自回归接口中“思考”与“输出”耦合导致的“沉默税”问题，本研究提出了“并排交错推理”方法。它将披露时机转化为可控决策，允许模型在同一上下文中交错进行私有推理和部分内容披露，仅当推理充分支持时才释放内容。通过构建蕴含对齐的交错轨迹进行监督微调，并结合强化学习恢复推理性能。在Qwen3系列模型上的实验表明，该方法在AIME25和GPQA-Diamond基准测试中，有效改善了准确性、内容产出与延迟之间的帕累托权衡。

该来源未收录可展示正文，站内仅提供摘要。

arXiv推理论文/研究部署/工程

阅读原文

HuggingFace Daily Papers（社区热门论文）

何时思考，何时输出：学习大语言模型推理的披露策略

2026-05-06 08:00·40天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv推理论文/研究部署/工程