HuggingFace Daily Papers(社区热门论文)
61
粒度轴:语言模型中社会角色的微观到宏观潜在方向
AI 摘要
研究发现,大语言模型(LLMs)的内部表征确实编码了社会角色的粒度信息。研究者定义了一个基于对比的“粒度轴”,该轴在Qwen3-8B模型中与社会角色表征空间的主轴高度对齐,解释了52.6%的方差,表明粒度是组织社会角色的主导几何轴。通过对75个跨五个层级的社会角色进行测试,角色在轴上的投影随粒度增加而单调上升,且结果在不同模型和提示中保持稳定。因果实验证实,沿该轴进行激活引导能按预测方向改变模型响应的粒度。研究表明,社会角色粒度是模型行为中一个结构化、有序且可因果操控的潜在方向。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org