HuggingFace Daily Papers（社区热门论文）

jina-embeddings-v5-omni：通过冻结塔组合实现文本几何保持的多模态嵌入

2026-05-08 08:00·37天前

AI 摘要

本研究提出冻结编码器模型组合的新方法，基于VLM架构构建多模态嵌入模型。我们发布了jina-embeddings-v5-omni套件，包含两个模型，能将文本、图像、音频和视频输入编码到统一语义嵌入空间。该方法通过扩展Jina Embeddings v5文本模型，添加图像和音频编码器，但保持骨干文本模型和非文本编码器冻结，仅训练占总权重0.35%的连接组件，训练效率远高于全参数重训练。这确保了文本输入的嵌入结果与原始文本模型完全一致。评估显示，其性能与当前领先的大型多模态嵌入模型竞争，实现了高效且有效的多模态嵌入。

该来源未收录可展示正文，站内仅提供摘要。

多模态开源生态论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

jina-embeddings-v5-omni：通过冻结塔组合实现文本几何保持的多模态嵌入

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

多模态开源生态论文/研究