HuggingFace Daily Papers(社区热门论文)
66
jina-embeddings-v5-omni:通过冻结塔组合实现文本几何保持的多模态嵌入
AI 摘要
本研究提出冻结编码器模型组合的新方法,基于VLM架构构建多模态嵌入模型。我们发布了jina-embeddings-v5-omni套件,包含两个模型,能将文本、图像、音频和视频输入编码到统一语义嵌入空间。该方法通过扩展Jina Embeddings v5文本模型,添加图像和音频编码器,但保持骨干文本模型和非文本编码器冻结,仅训练占总权重0.35%的连接组件,训练效率远高于全参数重训练。这确保了文本输入的嵌入结果与原始文本模型完全一致。评估显示,其性能与当前领先的大型多模态嵌入模型竞争,实现了高效且有效的多模态嵌入。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org