蚂蚁 inclusionAI:GitHub 新仓库
46
SWE-CARE:一个用于评估代码审查全面性的基准
AI 摘要
针对现有代码审查基准和方法在全面性上的不足,研究团队推出了SWE-CARE基准。该基准包含一个用Python构建、覆盖代码审查全过程的仓库级数据集,数据被分为九种类型且每个实例均包含仓库特征。基于此,团队设计了一个评估框架,用以衡量大型语言模型在全面代码审查任务上的性能。项目提供了完整的评估流程脚本,支持使用GPT-4o等模型,并可生成详细的性能评估与分析报告。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文github.com