HuggingFace Daily Papers（社区热门论文）

首个词元即知晓：单次解码置信度用于幻觉检测

2026-05-06 08:00·40天前

AI 摘要

研究发现，仅通过单次贪婪解码中首个内容答案词元的归一化熵计算置信度指标 phi_first，就能有效检测大语言模型在闭卷事实问答中的幻觉。在三个7-8B指令微调模型和两个基准上，phi_first 的平均AUROC达0.820，优于需多次采样的语义一致性方法（0.793）和标准表层自洽性方法（0.791）。该指标与语义一致性呈中到强相关，两者结合提升有限，表明模型在首个词元分布中已包含了多样本一致性所捕获的大部分不确定性信息，可作为低成本基线指标。

该来源未收录可展示正文，站内仅提供摘要。

arXiv安全/对齐推理论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

首个词元即知晓：单次解码置信度用于幻觉检测

2026-05-06 08:00·40天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv安全/对齐推理论文/研究