HuggingFace Daily Papers（社区热门论文）

强化学习能教会大语言模型长程推理吗？逻辑表达力是关键

2026-05-07 08:00·38天前

AI 摘要

研究团队提出ScaleLogic合成逻辑推理框架，可独立控制推理深度与逻辑表达力。实验发现，强化学习训练计算量T与推理深度D之间遵循幂律关系（T ∝ D^γ），且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上，表达力更强的训练带来更大的性能提升（最高+10.66分）和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立，基于课程的学习能显著提升扩展效率。研究表明，训练内容（而不仅是训练量）对下游任务迁移有决定性影响。

该来源未收录可展示正文，站内仅提供摘要。

推理论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

强化学习能教会大语言模型长程推理吗？逻辑表达力是关键

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理论文/研究