HuggingFace Daily Papers（社区热门论文）

无意义文本有助于推理：提示空间扰动拓宽探索范围

2026-05-07 08:00·38天前

AI 摘要

针对大型语言模型强化学习中的“零优势问题”，本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列，对提示空间进行扰动，从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明，该方法显著优于使用原始提示的重采样策略。分析进一步证实，其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

无意义文本有助于推理：提示空间扰动拓宽探索范围

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究