HuggingFace Daily Papers(社区热门论文)
63
通过一致性训练减少政治操纵
AI 摘要
研究发现大语言模型(LLM)在处理不同政治立场话题时存在系统性的“隐蔽政治偏见”,即不对称处理。该研究识别了7类偏见技术,并提出两种度量标准:情感一致性(对称修辞)与有用性一致性(对称深度与参与度)。为减少此类偏见,研究引入了政治一致性训练(PCT),这是一种包含两个互补范式的强化学习方法。结果表明,PCT在保持模型总体有用性的同时,显著减少了隐蔽政治偏见,并能推广至未见过的评测基准。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org