HuggingFace Daily Papers(社区热门论文)
48
DocAtlas:跨80多种语言的多语言文档理解框架
AI 摘要
DocAtlas是一个多语言文档理解框架,覆盖82种语言。它通过差异渲染与合成生成双流程,构建高保真OCR数据集与基准测试,产出统一结构化标注。研究评估16个模型,发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号,通过直接偏好优化实现了稳定的多语言适配,在域内和域外准确性上均实现提升,且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org