AIHOT

全部动态资讯 · 1789 条

5月7日周四

5月6日周三

5月7日

08:00

HuggingFace Daily Papers（社区热门论文）

本文介绍了X-OmniClaw，这是一个为安卓系统设计的统一移动智能体，旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块：Omni Perception提供统一的多模态输入管道，整合UI状态、视觉上下文与语音，并分解为结构化意图表示；Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆，以增强个性化与上下文感知；Omni Action采用结合XML元数据与视觉感知的混合落地策略，通过行为克隆与轨迹回放捕获用户导航技能，实现精确的直接访问执行。多场景演示表明，该系统能有效提升交互效率与任务可靠性，为下一代移动原生个人助手提供了实用蓝图。

智能体arXiv多模态端侧

08:00

HuggingFace Daily Papers（社区热门论文）

揭示多模态知识编辑中的实体身份混淆现象

多模态知识编辑旨在修正视觉语言模型的知识，但编辑后模型会出现“实体身份混淆”的系统性故障：仅文本查询时，会将原实体身份错误关联到新实体。研究构建了诊断基准EC-Bench，发现现有方法未能区分模型的图像-实体绑定知识与实体-关系知识，导致模型过度依赖实体关联作为捷径，使新实体名成为虚假标签。实验表明，将编辑限制在图像-实体处理阶段，能促使编辑更忠实作用于图像绑定，从而显著减少身份混淆。这为未来研究提供了方法论指导。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PACEvolve++：改进进化搜索代理的测试时学习

研究提出PACEvolve++，一个用于进化搜索代理测试时策略适应的顾问模型强化学习框架。它将战略决策与实施解耦：可训练的顾问模型生成并评估假设，更强的前沿模型则将其转化为候选方案。针对非平稳反馈，研究提出阶段自适应训练方法，使顾问模型在进化早期学习广泛搜索偏好，后期则聚焦于最优前沿贡献以支持稳定优化。在负载均衡、序列推荐和蛋白质适应性外推等任务中，该框架均优于当前最先进的基于前沿模型的进化搜索方法，实现了更快收敛与更稳定的测试时训练。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

反思强化学习对大语言模型推理的作用：是稀疏策略选择，而非能力学习

研究发现，强化学习改进大语言模型推理时，并非教授新策略，而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上，且所提升的token始终位于基础模型前5个备选之中。基于此，研究者提出无需强化学习的ReasonMaxxer方法，仅在熵选通的决策点施加对比损失，仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中，该方法达到或超越了完整强化学习的性能，而训练仅需数十道题目、数分钟的单GPU时间，成本降低约三个数量级。

arXiv推理数据/训练论文/研究

推荐理由：这篇论文直接挑战当前主流 RL 训练范式，认为 RL 只是在选择已有策略而非学习新能力，并给出千分之一成本就能追平的替代方案，做 reasoning 的同行可以认真读一下。