HuggingFace Daily Papers(社区热门论文)
49
审计多模态LLM评估者:临床序数评分中的趋中倾向偏差
AI 摘要
本研究评估多模态大语言模型(LLM)作为临床评分自动评估器的表现,以画钟测试(CDT)图像评分任务为例。在两个公开数据集上,使用Shulman评分标准,比较三大前沿LLM家族(如GPT-5)与监督深度学习模型。零样本LLM在容差一致性上具有竞争力,但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”:预测分数系统性向量表中间压缩,高估低分、低估高分,严重影响认知障碍筛查的关键极端分数。消融实验证明,提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域,强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org