HuggingFace Daily Papers(社区热门论文)
67
Ψ-Bench:评估说服性对话中的人格敏感影响力
AI 摘要
Ψ-Bench 是一个新提出的基准测试,旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景,并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估,发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现,在提供客户档案后,模型性能平均提升 18.24%,凸显了用户特定信息对于实现有效说服的重要性。该工作指出,人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org