HuggingFace Daily Papers（社区热门论文）

DynaFLIP：通过三模态动态引导表示重新思考机器人感知

2026-05-28 08:00·18天前

AI 摘要

DynaFLIP 是一个动力学感知的多模态预训练框架，旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号，以单纯形体积最小化为核心思想，结合余弦正则化与对比学习目标，优化单一图像编码器在共享超球面空间中的对齐。分析表明，该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络，在多种下游策略（包括视觉语言动作模型）中均优于基线。在分布外场景下，性能提升高达 +22.5%。

该来源未收录可展示正文，站内仅提供摘要。

具身智能多模态论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

DynaFLIP：通过三模态动态引导表示重新思考机器人感知

2026-05-28 08:00·18天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

具身智能多模态论文/研究