HuggingFace Daily Papers(社区热门论文)
47
自我评估已然存在:用极少数据激发基座大模型的潜在评判校准能力
AI 摘要
研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org