HuggingFace Daily Papers（社区热门论文）

Ψ-Bench：评估说服性对话中的人格敏感影响力

2026-06-02 02:20·13天前

AI 摘要

Ψ-Bench 是一个新提出的基准测试，旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景，并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估，发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现，在提供客户档案后，模型性能平均提升 18.24%，凸显了用户特定信息对于实现有效说服的重要性。该工作指出，人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。

该来源未收录可展示正文，站内仅提供摘要。

智能体arXiv开源生态论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

Ψ-Bench：评估说服性对话中的人格敏感影响力

2026-06-02 02:20·13天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

智能体arXiv开源生态论文/研究