AIHOT

全部动态资讯 · 1789 条

5月15日周五

5月15日

10:48

HuggingFace Daily Papers（社区热门论文）

针对视频生成中人体运动真实性评估的难题，本研究提出PhyMotion，一种结构化细粒度运动奖励机制。该方法从生成视频中恢复3D人体网格，并将其置于MuJoCo物理模拟器中，从运动学合理性、接触平衡一致性与动态可行性三个维度进行综合评估。实验表明，PhyMotion与人类判断的相关性优于现有奖励模型。在基于强化学习的后训练中，优化该奖励能显著提升自回归与双向视频生成器的运动真实感，在自动指标与人类盲测中均取得改进（Elo增益+68），且各评估维度提供互补信号，训练开销适度。

多模态论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

FutureSim：通过重放世界事件来评估自适应智能体

研究团队推出FutureSim基准，通过按时间顺序重放真实世界事件（如新闻文章），评估AI智能体在动态开放环境中的长期适应能力。智能体需在模拟的2026年1月至3月期间，基于实时信息预测未来事件。测试结果显示，前沿智能体表现差异显著，最佳预测准确率仅为25%，多数模型的评分甚至低于不作预测的基准。该基准为研究长时域测试时适应、搜索、记忆及不确定性推理等方向提供了真实场景，旨在推动衡量AI在现实世界中长期开放适应能力的进展。

智能体arXiv论文/研究评测/基准

10:48

HuggingFace Daily Papers（社区热门论文）

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自我演化综述

本文提出LIFE统一框架，系统综述基于大语言模型的多智能体系统。该框架涵盖能力奠基、协作整合、故障归因与自主演化四个因果关联阶段。研究指出，当前系统在需持续协调的任务中存在局限，且紧密协作会放大错误传播风险。现有工作多孤立探讨各阶段，本文通过形式化表征阶段间依赖关系，揭示了它们如何相互制约与支撑。在此基础上，文章针对阶段衔接处的开放挑战提出了跨阶段研究议程，旨在推动系统向能持续诊断故障、重组结构、优化行为的自组织集体智能演进。

智能体开源生态论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

ATLAS：一个功能词元，兼作智能体操作与潜在视觉推理单元

针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题，本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元，它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作，无需视觉监督，仍作为标准词元存在于词表中，可通过下一词元预测生成。这避免了生成冗余的中间视觉内容，且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题，研究引入了潜在锚定GRPO（LA-GRPO）以稳定训练。实验表明，ATLAS在多项挑战性基准测试中取得了优异性能，并保持了良好的可解释性。

arXivMCP/工具多模态推理

10:48

HuggingFace Daily Papers（社区热门论文）

基于大语言模型的操纵性政治叙事检测

研究团队提出了一种检测并结构化操纵性政治叙事的新计算框架。该方法首先设计详细的少样本提示，结合已知宣传叙事与合法批评，利用推理模型过滤出操纵性帖子，以解决关键区分难题。随后，对帖子进行嵌入表示和UMAP降维，再应用HDBSCAN进行无监督聚类，其核心优势在于不依赖预定义目标，能自主发现新的叙事集群。最后，再次使用推理模型揭示各集群背后的叙事。该框架已应用于超过120万条社交媒体帖子，通过结合基于提示的过滤与无监督聚类，成功识别出41个不同的操纵性叙事集群。

安全/对齐论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

量化评估生成视频几何一致性的框架PDI-Bench

针对生成视频模型作为隐式世界模型时几何一致性评估的挑战，研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测，利用单目重建将其提升至3D世界坐标，并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明，PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷，为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。

arXiv视频论文/研究评测/基准

10:48

HuggingFace Daily Papers（社区热门论文）

自蒸馏智能体强化学习

强化学习为LLM智能体后训练提供核心范式，但其轨迹级奖励信号对长程交互的监督较为粗略。针对多轮智能体应用策略自蒸馏时，存在多轮不稳定性加剧以及技能条件化特权指导处理不对称的问题。本文提出的SDAR方法将策略自蒸馏作为门控辅助目标，以强化学习为主要优化主干，通过Sigmoid门映射分离的令牌级信号，强化教师认可的正向差距令牌的蒸馏，并软衰减教师的负面拒绝。在多个基准上的实验表明，SDAR显著优于GRPO基线，避免了朴素混合方法的不稳定性，并在不同模型规模上持续超越混合基线。

智能体数据/训练论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

学习构建环境：通过可验证环境合成实现自我演进的推理强化学习

研究提出一种语言模型自我改进的新范式，使模型从被动生成数据转为主动构建训练自身的可执行环境。该方法的核心在于环境需具备稳定的“求解-验证不对称性”：模型能编写验证器代码，却无法可靠地用自然语言解决新实例。这种不对称性确保了奖励信号的有效性。研究者实例化为EvoEnv方法，通过合成Python环境并经过多阶段严格验证后才用于训练。在较强的Qwen3-4B-Thinking模型上测试表明，传统方法性能下降，而EvoEnv将其平均性能从72.4%提升至74.8%。这证明稳定的自我改进关键在于让模型学会构建结构上始终超越其当前能力的环境。

智能体推理论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

Nexus：一个用于时间序列预测的多智能体框架

时间序列预测需结合数值模式与上下文信息如新闻。研究团队推出Nexus框架，它将预测分解为多阶段：分离宏观与微观时序波动，整合非结构化上下文信息，再综合生成预测。该框架表明，当前大语言模型具备比以往认知更强的内在预测能力，关键在于组织数值与上下文推理。在知识截止日期后的Zillow房地产和波动股市数据上评估，Nexus持续匹配或超越了最先进的时序基础模型及大语言模型基线。此外，Nexus能生成高质量推理轨迹，明确展示预测背后的核心驱动因素，推动预测向代理推理问题发展。

智能体推理论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

Warp-as-History：仅需一条训练视频即可泛化的相机控制视频生成

本文提出“Warp-as-History”方法，使冻结的视频生成模型无需训练即可零样本遵循指定相机轨迹。该方法将相机运动形变转化为具有目标帧位置对齐和可见令牌选择的伪历史序列，无需修改模型或进行测试时优化。此外，仅需在单条相机标注视频上进行轻量级离线LoRA微调，即可显著提升模型对相机轨迹的跟随能力、视觉质量和运动动态，并能泛化至未见过的视频。实验在多个数据集上验证了该方法的有效性。

图像生成视频论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

精选72

Orchard：一个开源智能体建模框架

针对智能体建模领域因依赖闭源资源而受限的问题，研究团队推出了开源框架Orchard。其核心是轻量级环境服务Orchard Env，提供跨任务和流程的可复用沙箱管理基元。基于此构建了三个高效智能体方案：编码智能体Orchard-SWE在SWE-bench Verified上达到67.5%的准确率；视觉语言计算机使用智能体Orchard-GUI仅用少量数据便在多项基准测试中取得64.0%-74.1%的成功率；个人助理智能体Orchard-Claw仅用0.2K合成任务便在Claw-Eval上实现59.6%的pass@3成功率。该框架证明了其跨领域实现可复用数据、训练与评估的能力。

智能体编码论文/研究

推荐理由：开源终于能打低数据量、高性能的 agent recipe 了，Orchard-SWE 在 SWE-bench 拿下 67.5%，只用了 107K 条蒸馏轨迹，小团队也能复现，做 coding agent 的必读。

10:48

HuggingFace Daily Papers（社区热门论文）

MemEye：面向多模态智能体长期记忆的视觉中心化评估框架

针对多模态智能体长期记忆评估中视觉证据留存与使用不足的问题，本文提出MemEye评估框架。该框架从视觉证据粒度（场景级至像素级）与证据使用方式（单一至演化合成）两个维度构建评估体系，并建立了涵盖8个生活场景任务的新基准。通过对13种记忆方法与4种视觉语言模型的评估，研究发现现有架构在保留细粒度视觉细节及对状态变化进行时序推理方面仍存在困难。结果表明，有效的长期多模态记忆依赖于证据路由、时序跟踪与细节提取能力。

智能体arXiv多模态论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

精选71

Darwin Family：基于MRI-Trust加权的进化合并实现语言模型推理能力的免训练扩展

Darwin Family框架通过免训练的梯度无关权重重组，探索重组现有模型隐式能力以提升推理性能。其核心包括14维自适应合并基因组实现细粒度组件重组；MRI-Trust融合机制通过可学习参数平衡层重要性信号与进化搜索；架构映射器支持异构模型家族间的跨架构融合。旗舰模型Darwin-27B-Opus在GPQA Diamond基准上达到86.9%准确率，在1252个模型中排名第六，无需训练即超越其基础模型。该框架在4B至35B参数规模上均能持续提升性能，支持递归多代进化，并能实现Transformer与Mamba组件的免训练融合。

推理论文/研究

推荐理由：训练free的进化合并新思路，用MRI诊断引导基因重组，直接把GPQA Diamond拉到86.9%排第6，比全训练模型还高，搞模型蒸馏和推理优化的可以抄作业。

09:48

HuggingFace Daily Papers（社区热门论文）

德国政治文本的意识形态倾向预测研究

研究提出一种基于Transformer的模型，可将德国政治文本的意识形态投射到连续的左-右光谱上（-1到1）。为筛选最优基础模型，团队构建了四个语料库：联邦议院记录、Wahl-O-Mat内容、33家报纸文章及535,200条议员推文。在13个候选模型中，DeBERTa-large在领域内测试获得最高F1分数（0.844），在推文跨域测试中准确率达0.864；Gemma2-2B在报纸跨域测试中表现最优（平均绝对误差0.172）。研究表明，Transformer模型识别德国新闻政治框架的能力可达民意调查水平，且模型架构与领域训练数据的影响可与模型规模相当。

数据/训练论文/研究

09:48

HuggingFace Daily Papers（社区热门论文）

RAVEN：基于一致性模型GRPO的实时自回归视频外推网络

本文提出实时自回归视频外推网络RAVEN，通过将自生成内容重组为干净历史端点与噪声状态的交织序列，对齐训练与推理时的历史分布，从而提升长序列生成质量。同时，提出一致性模型组相对策略优化方法，将一致性采样步骤重构为条件高斯转移，并直接对其应用在线强化学习，避免了先前方法中的辅助过程。实验表明，RAVEN在多项评估指标上超越近期因果视频蒸馏基线，结合CM-GRPO可进一步获得性能提升。

arXiv视频论文/研究

08:48

HuggingFace Daily Papers（社区热门论文）

精选73

迈向自我进化的智能文献检索系统

针对传统检索无法理解复杂意图、而前沿大语言模型成本高且存在幻觉的问题，研究团队提出了自我进化的智能文献检索系统PaSaMaster。该系统通过迭代式意图分析、检索与排序，将文献检索转变为动态演进的过程，并采用三项关键设计：利用排序证据揭示信息缺口以优化搜索；将检索定义为意图-论文相关性排序任务，从根本上杜绝虚假文献；通过分离规划与检索来提升效率，仅用大模型理解意图，而将大规模检索与评分交由轻量模型处理。在涵盖38个学科的基准测试中，该系统将传统关键词检索的F1分数提升15.6倍，完全消除了文献幻觉，且性能超越GPT-5.2达30%，计算成本仅为后者的1%。

智能体GitHub检索增强论文/研究

推荐理由：学术文献检索一直被关键词和LLM幻觉两头堵，这个系统用规划与检索分离做到了零幻觉，F1暴涨15.6倍，比GPT-5.2强30%却只花1%算力，做科研的可以马上跑起来。

08:41

IT之家（RSS）

Anthropic 最强 AI Mythos 辅助，专家发现苹果 macOS 26.4.1 提权漏洞

安全研究人员借助Anthropic的AI模型Claude Mythos，在苹果macOS 26.4.1系统中发现并构建了一条权限提升利用链。他们从一个普通本地账户出发，结合两个漏洞，最终获得了最高权限的root shell，并成功绕过了Apple Silicon设备上的内存完整性强制（MIE）硬件安全机制。整个研究过程耗时约5天，运行于启用MIE的Apple M5硬件上。研究人员已向苹果通报此发现，具体漏洞细节因仍在审查中而未公开。

Anthropic安全/对齐端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向连续多无人机跟踪的拓扑感知时空切换框架

该研究针对多无人机交通监控中因视野重叠导致车辆身份丢失、轨迹断裂的问题，提出一种实时多摄像头多车辆跟踪系统。为解决俯视图下基于外观的重识别方法存在的歧义性与计算成本问题，系统引入了轻量级的拓扑感知时空切换机制。其核心是基于队列的确定性匹配算法，利用几何重叠与虚拟车道离散化来管理身份移交。系统采用基于YOLO11与ByteTrack的高吞吐量并行管道处理并发的4K视频流。实验在复杂城市场景下验证，该系统在连续车流中实现了99.8%的切换成功率，显著优于74.1%的基于外观的重识别基线方法。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Rule2DRC：基于执行引导测试生成的DRC脚本合成LLM智能体基准测试

为解决将自然语言设计规则转换为可执行DRC脚本过程中成本高、专业门槛高的问题，研究团队提出了Rule2DRC大规模基准测试集。该基准包含1,000个规则到脚本的映射任务及13,921个用于执行评分的芯片布局，并提供基于DRC执行结果的功能正确性评估流程，无需将评估布局作为智能体输入。同时，研究设计了SplitTester测试智能体，它利用执行反馈生成有区分性的测试用例，有效分离先前难以区分的候选脚本，显著提升了该领域中Best-of-N选择策略的性能，为相关研究与开发提供了重要工具。

智能体arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

旋转位置编码在长上下文中既无法区分位置也无法区分标记，可证

本文从理论上证明了旋转位置编码在长上下文Transformer模型中的根本缺陷。研究发现，随着上下文长度增加，RoPE的注意力机制会变得不可预测并丧失两大核心特性：局部性偏置和标记相关性一致性，其失效概率趋近0.5，等同于随机。实验进一步证实，当键被移动或替换时，注意力得分可能保持不变，表明其无法有效区分位置与标记。虽然增大RoPE基础参数有助于区分标记，但不可避免地会牺牲位置区分能力，且多层多头架构无法克服这些内在限制。这表明未来可能需要全新的位置编码机制。

arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

主动学习器作为高效的PRP重排序器

本文针对成对排序提示（PRP）框架中LLM生成成对偏好判断时存在的噪声、顺序敏感性和不可传递性问题，指出传统排序算法在这些条件下性能受限。作者将PRP重排问题重构为从噪声成对比较中主动学习的过程，提出主动排序器作为即插即用的替代方案，在调用次数受限场景下显著提升NDCG@10指标。此外，引入随机方向预言机机制，每次比较仅需一次LLM调用，将系统位置偏差转化为零均值噪声，实现无偏聚合排序并降低计算成本。

arXiv检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Echo-Forcing：面向交互式长视频生成的场景记忆框架

现有无训练长视频生成方法因历史KV状态功能纠缠，在处理提示切换、场景遗忘与召回等交互式场景时存在瓶颈。为此，本文提出Echo-Forcing框架，包含三个核心机制：分层时间记忆、场景回放帧与差异感知记忆衰减，分别用于解耦和管理历史信息、压缩长期场景、以及自适应遗忘冲突内容。该框架能在有限缓存预算下，支持视频的平滑过渡、硬切与长程召回。在VBench-Long上的评估表明，Echo-Forcing在长视频与交互式视频生成任务中均取得了最佳整体性能。

arXivGitHub视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于学习可靠性的过程奖励模型

针对现有过程奖励模型（PRM）仅输出单一奖励分数、无法指示预测可靠性的缺陷，本文提出BetaPRM模型。该模型利用蒙特卡洛继续推演提供的监督信号，通过Beta-二项似然学习Beta信念分布，同时预测每个推理步骤的成功概率及其可靠性。基于这一可靠性信号，进一步引入自适应计算分配策略（ACA）用于PRM引导的最佳N选一推理。ACA能在奖励高且可靠时停止，并在预测不确定的候选方案上投入更多计算资源。实验表明，BetaPRM提升了PRM引导的选择性能；而ACA策略相比固定预算的最佳16选1方案，在提高最终答案准确率的同时，将token使用量最高减少了33.57%。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向数据流的代理式大语言模型强化学习系统AstraFlow

为解决强化学习应用于代理式大语言模型时成本高、扩展难的问题，我们提出AstraFlow。该系统采用数据流导向的组件化架构，替代了传统以训练器为中心的控制模式，将服务、数据流与训练解耦为自治组件。这使系统能原生支持多策略协同训练，并高效利用弹性、异构的跨区域计算资源。在数学、编程、搜索等多类任务评估中，AstraFlow无需修改系统代码即可运行复杂工作负载。实验表明，在多策略协同训练下，它相比现有框架能达到相当或更好的任务准确率，并将训练速度提升2.7倍。

智能体数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

VideoSeeker：通过原生代理工具调用激励实例级视频理解

VideoSeeker是一种新范式，旨在解决大型视觉语言模型在视频实例级时空定位上精度不足、依赖文本提示且感知与推理割裂的问题。该范式通过视觉提示和代理推理，使模型能按需主动感知并检索相关视频片段。研究构建了四阶段全自动数据合成流水线以生成高质量数据，并通过冷启动监督和强化学习内化工具调用与主动感知能力。实验显示，模型在实例级视频理解任务上平均性能提升13.7%，超越GPT-4o等闭源模型，且在通用视频基准上展现可迁移性，相关数据集与代码将开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

χ-Bench基准测试：AI智能体在医疗自动化中的能力评估

χ-Bench是一个针对医疗运营自动化的基准测试，评估AI智能体在策略密度、多角色协作和多边交互三项关键能力上的表现。测试涵盖授权、用率管理和护理管理三大领域，要求智能体在模拟20个医疗应用、提供87个工具接口的高保真环境中，依据超过1290份文档的操作手册完成任务。结果显示，在30种配置中，最佳智能体仅解决28%的任务，严格标准下成功率不足20%，且全量任务性能骤降至3.8%。这表明AI在处理复杂、不可逆的企业级应用时仍面临显著挑战。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GRASP：基于多人非语言交互的社会推理学习

针对多模态大语言模型在多人视频中难以识别交互关系的问题，研究团队提出了GRASP数据集。该数据集包含29万个问答对，源自4.6万个视频共749小时，建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench，并提出社会情境奖励学习信号，利用这些细粒度事件引导模型推理交互参与者。实验表明，该方法提升了GRASP-Bench性能，并保持了在相关视频问答基准上的零样本能力。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

开放大语言模型中最大激活值的度量研究

本研究对8个开源模型系列的27个检查点进行了统一的激活值动态范围测量。研究发现：在相近参数规模下，全局最大激活值跨幅近四个数量级，其中混合专家模型峰值较稠密模型低14.0-23.4倍，且全局最大值多出现在残差流中。激活值大小并非简单的规模缩放产物，而是由模型系列、架构和训练阶段共同决定。研究建议在模型部署前应测量并公开该特性。代码已开源。

论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

针对CLIP在微调时易因分布偏移而鲁棒性下降的问题，本文提出SAE-FT方法。该方法仅作用于视觉表征，利用稀疏自编码器识别预训练模型中的语义特征，并在微调中约束这些特征的变化，从而在防止灾难性遗忘的同时提升可解释性。实验表明，SAE-FT计算高效且透明，在ImageNet及相关分布偏移基准上达到或超越现有最优性能，代码已公开。

arXiv多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于球面潜在编码器的高效图像合成

现有少步图像生成方法（如一致性流和均值流）虽减少采样步数，但训练不稳定且可扩展性有限。Sphere Encoder虽能快速生成高质量图像，但推理时需在像素与潜在空间反复转换，并在同一架构内联合优化重建与生成目标，导致效率低下和目标冲突。为此，提出一种解耦框架：使用固定预训练图像编码器，并训练一个完全在球面潜在空间中运行的独立去噪模型。该方法消除反复像素操作，提升效率，允许任务独立优化。实验在Animal-Faces、Oxford-Flowers和ImageNet-1K上显示，生成质量和速度均优于Sphere Encoder，并与强少步及多步基线方法性能相当。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CM-EVS：用于完整场景覆盖的稀疏全景RGB-D-Pose数据

针对现有3D数据集存在的视图冗余与标注不一致等问题，本研究提出了COVER视角筛选方法。该方法无需训练，通过将多视角观测投影至等距柱状投影探针，以增量式覆盖评分与深度冲突惩罚，筛选出低冗余的稀疏视角。基于此方法，研究构建了CM-EVS数据集，包含来自1,275个室内场景的36,373帧精选全景帧，每帧提供全视角RGB、度量级深度及校准位姿。该数据集室内部分仅用中位25帧/场景即覆盖所有13种统一房间类型，实现了紧凑而完整的场景覆盖。实验表明，COVER方法优化了覆盖与冲突的权衡，使CM-EVS成为一个稀疏、紧凑、可审计的资源，适用于几何一致的全景3D学习。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DexJoCo：面向任务的灵巧操作基准与工具包

本文提出了DexJoCo，一个基于MuJoCo的面向任务的灵巧操作基准与工具包。它包含11项功能导向的任务，用于系统评估工具使用、双手协调、长程执行和推理能力。研究配套开发了低成本数据采集系统，收集了总计1.1K条任务轨迹，并支持领域随机化以检验模型鲁棒性。团队在多种设置下对现代模型进行了基准测试，包括视觉与动力学随机化、多任务训练和动作头适配。大量的实证分析揭示了当前灵巧操作策略的重要发现与普遍局限，为未来灵巧手机器人学习指明了关键挑战。项目页面已公开。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FashionChameleon：面向实时交互式人体-服装视频定制

本文提出FashionChameleon，一个用于自回归视频生成的实时交互式人体-服装定制框架。它仅需单服装视频数据训练，通过三项核心技术实现：采用上下文学习的教师模型，在参考与服装图像不匹配时隐式保持运动连贯性；通过流式蒸馏与上下文学习提升生成一致性与效率；引入无需训练的KV缓存重调度机制，支持生成中多服装交互切换。该系统在单GPU上实现23.8 FPS的实时生成，速度比现有基线快30-180倍，并支持交互式定制与长视频一致性外推。

arXiv视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

解锁视觉语言模型中的稠密度量深度估计

DepthVLM框架通过为大型语言模型主干附加轻量级深度头，并采用统一视觉-文本监督范式与两阶段训练策略，将单一视觉语言模型转化为原生稠密几何预测器。该模型能在单次前向传播中生成全分辨率深度图与语言输出，推理效率更高。实验表明，其性能显著超越现有视觉语言模型和领先的纯视觉模型，并提升了复杂三维空间推理能力。所有代码与模型检查点将公开。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

三思而后行：大语言模型智能体的自主探索

研究指出，基于大语言模型的智能体常因过早利用先验知识而在陌生环境中失败，根源在于缺乏自主探索能力。为此，团队提出了可验证的度量标准“探索检查点覆盖率”，以量化智能体对环境关键要素的发现广度。评估发现，传统任务导向强化学习训练的智能体行为模式狭窄且重复。为解决此问题，研究提出一种交替进行任务执行与探索的训练策略，并设计了相应的可验证奖励。基于此，团队进一步提出“先探索后执行”范式，将信息收集与任务解决解耦。实验结果表明，系统性的探索学习对于构建可泛化、适应现实世界的智能体至关重要。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-GRPO：通过单步策略优化实现视频扩散模型的高效对齐

Flash-GRPO是一种用于视频扩散模型与人类偏好对齐的单步训练框架，解决了现有方法计算成本高和训练不稳定的问题。该方法通过等时分组确保提示词层面的时间一致性，并利用时间梯度校正平衡不同时间步的梯度规模，从而优化策略性能。实验在1.3B至14B参数规模的模型上进行验证，结果显示Flash-GRPO在低计算预算下不仅实现了显著的训练加速，其对齐质量甚至优于全轨迹训练，同时保持了稳定的训练过程和业界领先的对齐性能。

安全/对齐视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

智能体驱动的神经架构自主发现：AIRA-Compose与AIRA-Design

研究提出由LLM智能体自主设计基础模型的双框架。AIRA-Compose通过11个智能体在24小时内探索计算基元，评估百万参数候选架构并外推至更大规模，最终生成AIRAformer和AIRAhybrid两个系列共14个架构。在10亿参数预训练中，这些模型性能持续超越Llama 3.2等基线；下游任务准确率最高提升3.8%，扩展效率最高提升71%。AIRA-Design部署20个智能体编写新型注意力机制与训练脚本，其在长程依赖任务上的表现接近人类最优水平。这表明AI智能体已能自主发现匹配或超越人工设计的架构与优化算法。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

PAGER：弥合点精确几何图形界面控制中的语义-执行鸿沟

研究针对需要点级精度的几何图形界面控制任务，揭示了现有视觉-语言模型存在的语义-执行鸿沟：通用模型动作类型准确率高但任务成功率极低。为此，我们构建了包含4,906个问题、超过22.4万次像素级动作的PAGE Bench基准，并提出了拓扑感知智能体PAGER。该智能体通过依赖结构规划与像素级执行分解任务，结合像素接地监督调优与精度对齐强化学习，将任务成功率提升至最强通用基线的4.1倍，步骤成功率从GUI专用智能体的不足9%提高到62%以上，实现了点精确GUI控制的新突破。

智能体多模态推理论文/研究

推荐理由：GUI agent一直绕着精确点击走，这篇直接硬碰硬，把成功率从6%拉到62%，做CAD自动化或工业软件的团队可以重点关注。

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

突破舒适区：面向RLVR的高效策略引导探索框架NudgeRL

强化学习与可验证奖励范式面临探索效率瓶颈。为此，研究团队提出NudgeRL框架，其核心是“策略助推”技术，通过为每次策略采样注入轻量级策略级上下文，引导模型产生多样化推理轨迹，无需依赖昂贵的外部监督。该框架进一步提出一个统一目标，将奖励分解为上下文间与上下文内组件，并通过蒸馏目标将有效行为迁移回基础策略。在五个高难度数学基准测试中，NudgeRL的表现优于标准GRPO方法，其效果相当于后者使用高达8倍采样预算的结果，且平均表现超过了依赖特权信息的Oracle引导基线，证明了结构化探索的高效性与可扩展性。

推理数据/训练论文/研究

推荐理由：NudgeRL 首次把结构化探索引入 RLVR，比 GRPO 节省 8 倍 rollout 预算，数学推理效果还更好。做 LLM 推理优化的团队，这篇值得复现。

08:00

HuggingFace Daily Papers（社区热门论文）

WorldAct：将单体式3D世界激活为以对象为中心的可交互场景

针对Marble等生成式系统创建的3D世界存在静态、不可编辑且交互性有限的问题，本文提出WorldAct框架。该框架利用多模态智能体引导场景分解，识别可操作对象，并重建几何对齐的物体级网格以支持交互，同时通过3D修复技术还原背景环境。转化后的场景在保持全局连贯性的前提下，支持物体级编辑、碰撞感知操控以及具身任务执行。实验证明，WorldAct能比原始生成场景实现更丰富的交互，为构建可编辑、可交互的3D世界模型提供了可行方案。

具身智能多模态论文/研究