HuggingFace Daily Papers(社区热门论文)
69
强化学习能教会大语言模型长程推理吗?逻辑表达力是关键
AI 摘要
研究团队提出ScaleLogic合成逻辑推理框架,可独立控制推理深度与逻辑表达力。实验发现,强化学习训练计算量T与推理深度D之间遵循幂律关系(T ∝ D^γ),且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上,表达力更强的训练带来更大的性能提升(最高+10.66分)和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立,基于课程的学习能显著提升扩展效率。研究表明,训练内容(而不仅是训练量)对下游任务迁移有决定性影响。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org