HuggingFace Daily Papers（社区热门论文）

自我评估已然存在：用极少数据激发基座大模型的潜在评判校准能力

2026-06-03 08:00·12天前

AI 摘要

研究发现，基座大语言模型未经针对性训练，仅凭少量样本提示即可预测外部评判者的多属性质量分数，效果显著高于随机。Self-Evaluation Elicitation（SEE）方法分两阶段激发该能力：先通过校准耦合的强化学习改进答案并预测评判者，再以掩码蒸馏精炼预测而不改动答案。仅用160个示例（比强化学习基线少约31倍），SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布，对未训练过的评判者表现稳定，表明其捕捉的是可迁移的质量概念而非单一评判者偏好。

该来源未收录可展示正文，站内仅提供摘要。

arXiv论文/研究评测/基准

阅读原文

HuggingFace Daily Papers（社区热门论文）

自我评估已然存在：用极少数据激发基座大模型的潜在评判校准能力

2026-06-03 08:00·12天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv论文/研究评测/基准