审计多模态LLM评估者：临床序数评分中的趋中倾向偏差

2026-05-11 08:00·34天前

AI 摘要

本研究评估多模态大语言模型（LLM）作为临床评分自动评估器的表现，以画钟测试（CDT）图像评分任务为例。在两个公开数据集上，使用Shulman评分标准，比较三大前沿LLM家族（如GPT-5）与监督深度学习模型。零样本LLM在容差一致性上具有竞争力，但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”：预测分数系统性向量表中间压缩，高估低分、低估高分，严重影响认知障碍筛查的关键极端分数。消融实验证明，提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域，强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。

该来源未收录可展示正文，站内仅提供摘要。

arXiv多模态安全/对齐论文/研究

HuggingFace Daily Papers（社区热门论文）

审计多模态LLM评估者：临床序数评分中的趋中倾向偏差

2026-05-11 08:00·34天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv多模态安全/对齐论文/研究