HuggingFace Daily Papers(社区热门论文)
51
各向异性模态对齐
AI 摘要
多模态大语言模型训练受限于高质量配对数据稀缺。现有方法利用预训练多模态对比模型的共享表示空间进行单模态训练,但跨模态表示互换性受模态鸿沟阻碍。研究发现,模态鸿沟并非全局偏移,而是集中于少数主导方向的各向异性残差结构。基于此,提出各向异性模态对齐原则,设计几何校正框架AnisoAlign,利用目标模态内部几何先验对源模态表示进行有界校正,构建目标模态替代表示。实验验证该方法在几何诊断和纯文本MLLM训练中的有效性,将模态鸿沟转化为可校正的结构化几何现象,为单模态数据训练多模态模型提供新对齐视角。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org