HuggingFace Daily Papers(社区热门论文)
60
可恢复思维程序:基于检查点修复的RePoT方法
AI 摘要
RePoT是一种确定性验证重放方法,用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时,它会回溯到已验证的前缀状态,并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中,RePoT比PoT高出+3至+11个百分点,并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明,检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org