HuggingFace Daily Papers(社区热门论文)
55
Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling
AI 摘要
该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程,并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本,仅依赖最终答案的统计信息,并能联合权衡答案正确性、延迟与计算成本,且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行,与ASC等强基线相比,该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org