HuggingFace Daily Papers(社区热门论文)
45
DiagnosticIQ:基于大语言模型的符号规则工业维护行动推荐基准
AI 摘要
研究团队推出DiagnosticIQ基准,包含来自16类资产、118条规则-行动对的6690道专家验证多选题,用于评估大语言模型将工业监测中的符号规则转化为具体维护步骤的能力。基准包含五个变体以探测不同失效模式,并对29个大语言模型和4个嵌入基线进行了测试。人类专家平均准确率仅45.0%,证实任务需要专项知识。研究发现:前沿模型性能接近,但Pro变体显示在干扰项扩展下模型相对准确率下降13-60%,Aug变体暴露模型在条件反转时仍有49-63%的概率选择原答案,存在模式匹配倾向。这表明部署瓶颈并非模型能力不足,而是其校准问题。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org