HuggingFace Daily Papers(社区热门论文)
63
大语言模型自我改进:用于测试时扩展的智能体发现框架
AI 摘要
研究团队提出环境驱动框架AutoTTS,将测试时扩展策略设计转化为可自动探索的环境构建问题。该框架将宽度-深度扩展形式化为对预收集推理轨迹的控制器合成,通过Beta参数化使搜索可行,并利用细粒度执行轨迹反馈提升效率。在数学推理基准测试中,自动发现的策略在准确率-成本权衡上优于人工基线,并能泛化至未见过的任务和模型规模,整个发现过程仅需39.9美元和160分钟。相关代码与数据已开源。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org