AIHOT

全部动态资讯 · 1789 条

5月13日周三

5月12日周二

5月13日

10:44

HuggingFace Daily Papers（社区热门论文）

本文提出δ-mem，一种轻量级在线记忆机制，用于增强大语言模型在长期任务中的历史信息利用能力。该方法在冻结的主干网络上，通过一个仅需8×8大小的紧凑关联记忆状态矩阵，以delta规则动态压缩更新过往信息，并在生成时读取该状态以产生低秩校正项来调整注意力计算。实验表明，δ-mem将平均性能提升至冻结主干模型的1.10倍，并达到最强非δ-mem记忆基线的1.15倍，在记忆密集型基准上增益更显著。该方法无需全量微调、替换主干或显式扩展上下文，即实现了有效的记忆功能。

智能体arXiv论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

超越GRPO与策略蒸馏：语言模型后训练中稀疏到稠密奖励的实证原则

研究提出一种基于奖励密度的数据分配原则：在标注数据稀缺时，应将稀疏的序列级奖励用于强化上游大模型的探索能力，再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示，在固定部署学生模型为Qwen3-1.7B的情况下，先对8B教师模型进行强化学习改进，再通过稠密蒸馏传递至学生模型，其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略，而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。

推理数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

图像即语句：用于统一视觉生成的交错指令扩展模型

针对现有方法在处理复杂交错指令时性能下降的问题，研究团队提出了INSET模型。该模型将图像作为原生词汇嵌入文本指令，通过将视觉特征直接定位在对应语义位置，利用Transformer的上下文局部性实现精确对象绑定。团队还开发了可扩展数据引擎，从标准数据集中合成了1500万个高质量交错样本。在InterleaveBench上的评估表明，INSET在多图像一致性和文本对齐上显著优于现有方法，且优势随输入复杂性增加而扩大。此外，该模型能自然扩展到多模态图像编辑领域，实现高度表达性的视觉操控。

图像生成多模态论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

超越最后一层：用于视觉分词的多层表征融合

现有视觉分词方法仅利用预训练编码器最后一层特征，丢弃了中间层的丰富信息。本研究提出DRoRAE，通过一个轻量级融合模块，采用能量约束路由与增量校正自适应聚合所有编码器层，生成与冻结解码器兼容的增强潜在表征。在ImageNet-256上，该方法显著提升了重建与生成质量。研究进一步揭示了融合能力与重建质量之间存在对数线性缩放规律，从而将表征丰富度确立为视觉分词器中一个新的、可预测的扩展维度。

图像生成多模态论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

从网络到像素：将智能搜索引入视觉感知

本文研究开放世界视觉感知，提出“感知深度研究”挑战，即需先借助外部事实、事件或长尾知识解析可见对象身份，再进行像素级定位。为此，作者发布了WebEye基准，包含120张图像、473个对象实例及三个任务视图，并提出了Pixel-Searcher智能搜索工作流。该工作流通过代理搜索解析目标身份并将其绑定至边界框、掩码或答案。实验表明，Pixel-Searcher在开源模型中性能最优，主要失败源于证据获取、身份解析和视觉实例绑定环节。

多模态搜索论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

基于评分标准的强化学习中的奖励黑客问题研究

本研究探讨了基于评分标准的强化学习中的奖励黑客现象。研究通过跨模型评审小组评估发现，奖励黑客源于两种分歧：验证器失效与评分标准设计局限。实验表明，弱验证器会产生无法迁移的代理奖励增益，且利用行为在训练中加剧；更强的验证器能显著减少但无法完全消除此问题。此外，研究引入基于策略对数概率的自内化差距诊断工具，可追踪参考验证器质量。最终结果显示，即便使用强验证器，若评分标准未涵盖关键失败模式，仍会出现奖励黑客，导致在满足部分标准的同时，事实准确性、简洁性等整体质量下降。

安全/对齐数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

SenseNova-U1：基于NEO-unify架构统一多模态理解与生成

SenseNova-U1基于NEO-unify架构，首次将多模态理解与生成统一为单一原生范式，解决了传统视觉语言模型中两者割裂的问题。模型发布了8B参数稠密基线版本与30B激活参数混合专家基线版本。它们在文本理解、视觉语言感知、知识推理等任务上媲美顶尖纯理解模型，同时在图像合成、图文生成等任务中表现出优秀的语义一致性与视觉保真度。初步证据表明，该架构可进一步扩展至视觉语言动作与世界模型场景，为实现原生跨模态思考与行动提供了技术路径。

多模态论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

企业系统是否需要学习型世界模型？上下文对推断动态的重要性

企业系统的动态规则常因租户业务逻辑差异与演变而多变，导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”，通过在运行时读取系统配置来实时发现动态规则，而非仅依赖内部固化模型。同时，推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明，离线模型在分布内表现良好，但随规则变化性能下降；而基于发现的代理通过将预测锚定于当前实例，在部署偏移下展现出更强稳健性。结论认为，在可配置的企业环境中，智能体应结合运行时动态发现机制。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

LoREnc：用于保护基础模型和LoRA适配器的低秩加密

当前基础模型与LoRA适配器在端侧AI部署中面临知识产权泄露和模型恢复攻击风险，现有防御需重训或依赖原始数据。LoREnc提出免训练保护框架，通过频谱截断抑制基础模型权重低秩分量，结合补偿机制与正交重参数化隐藏适配器结构指纹。授权用户可无损恢复性能，非授权用户获得结构崩溃输出。实验显示该方法能有效防止模型恢复，计算开销低于1%。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

KVServe：面向服务的KV缓存压缩实现高效通信的分布式LLM服务

在分布式LLM服务中，KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置，无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架，它统一了压缩策略空间，通过贝叶斯分析引擎将离线搜索开销降低50倍，并部署在线控制器动态调整策略。集成至vLLM后，KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速，在KV分离服务中实现最高32.8倍的首token生成时间缩短。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

当视觉代言听觉

研究发现，现有顶尖的视频多模态大模型在理解声音时，常依赖视觉线索进行推断或“幻听”，而非真正处理音频，这种“视听聪明汉斯效应”普遍存在于主流模型中。为此，研究者提出了Thud干预探测框架，通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方，能将模型在干预测试上的平均表现提升28个百分点，同时也能略微改善通用视频问答的性能。

arXivGoogleOpenAI多模态

08:00

HuggingFace Daily Papers（社区热门论文）

Delta注意力残差网络：通过增量路由改进跨层信息传递

针对深度网络中传统注意力残差连接因累积状态冗余而导致路由能力受限的问题，本文提出Delta注意力残差机制。该方法不直接关注历史层的累积隐藏状态，而是关注每层子网络引入的增量变化（即输出差值）。这种增量表示结构更多样，能生成对比度更高的注意力分布，从而实现更精准、有效的跨层信息路由。在220M至7.6B参数规模的模型上进行的实验表明，该方法在验证集困惑度上相较于标准残差和标准注意力残差均有1.7%-8.2%的稳定提升，并可通过标准微调应用于预训练模型。

GitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

模型自适应工具必要性揭示LLM工具使用中的知行差距

研究发现大语言模型在工具使用上存在系统性“知行差距”——模型认知判断需要工具与实际调用工具的行为存在显著不匹配。基于模型自适应定义评估显示，算术与事实问答场景下不匹配率分别达26.5%-54.0%和30.8%-41.8%。通过对模型内部表征的探测分析发现，不匹配主要发生在从认知判断到动作执行的转换环节，而非认知判断本身。这表明提升工具使用可靠性需同步优化认知识别和行动执行两个层面。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Physics-R1：一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程，发现了三个未被察觉的构建问题：训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题，团队发布了四个关键成果：经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A，以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3，在PhysReason上提升至39.6，超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

基于语言模型先验从观测中学习POMDP世界模型

本文提出了Pinductor，一种利用大语言模型作为先验知识，从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型，再通过基于信念的似然分数进行迭代优化。实验表明，尽管使用的信息更少，Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法，并显著超越传统基线。研究还发现，其性能随LLM能力增强而提升，并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。

智能体具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CiteVQA：面向可信文档智能的证据归因评测基准

当前多模态大语言模型的文档问答评估仅核对答案，忽略了支撑证据的正确性。这掩盖了“归因幻觉”——模型可能给出正确答案，却引用了错误的文段，在法律等高风险领域构成重大风险。为此，研究团队推出了CiteVQA基准测试，要求模型为每个答案提供元素级的边界框引用，并对两者进行联合评估。该基准包含711份PDF文档、1897个问题，其核心评估指标“严格归因准确度”要求答案与引用区域均正确才计分。对20个模型的审计发现普遍存在该问题，最强模型的准确度也仅为76.0。CiteVQA揭示了仅评估答案所忽视的可靠性差距。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

预见性学习：揭秘On-policy蒸馏的高效性

本研究揭示On-policy蒸馏（OPD）的高效性源于其“预见性”，即在训练早期建立朝向最终模型的稳定更新路径。预见性体现在两个层面：在模块分配上，OPD能识别边际效益低的模块，集中资源于关键推理部分；在更新方向上，其主导子空间提前对齐最终更新，表现出低秩集中性。基于此，提出了EffOPD，一种无需额外模块的即插即用加速方法，通过自适应选择外推步长和沿当前方向移动，实现平均3倍训练加速且性能相当。这为OPD效率提供了参数动态视角，也为大语言模型后训练设计提供了实用思路。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HodgeCover：高阶拓扑覆盖驱动稀疏专家混合模型的压缩

研究提出HodgeCover方法，用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍：三个专家可能两两兼容，但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形，并利用单纯形拉普拉斯算子的调和核进行霍奇分解，HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形，混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明，HodgeCover在专家削减轴上匹配当前最优无学习基线，在混合轴的激进压缩前沿领先，并平衡所有霍奇分量的保留质量。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

提升全模态语言模型：基于视觉去偏评估的分阶段后训练

研究发现，现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题，可能夸大模型性能。为此，我们通过视觉探测清洗九个基准，构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型，提出了三阶段后训练方案OmniBoost：混合双模态监督微调、混合模态RLVR训练，以及在自蒸馏数据上的微调。实验表明，平衡的双模态微调提升有限，RLVR首次带来广泛改进，而自蒸馏则重塑了模型的基准表现。最终，该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展，且小模型可通过分阶段后训练与自蒸馏监督显著提升。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CurveBench：一个用于嵌套Jordan曲线精确拓扑推理的基准测试集

CurveBench是一个视觉层次拓扑推理基准，包含756张互不相交的Jordan曲线图像，涵盖五种配置。每张图像标注了编码区域包含关系的根树，任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单，但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%，在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调，其在简易集上的准确率从2.8%提升至33.3%，超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明，精确的拓扑感知视觉推理问题尚未解决。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PRISM：基于扩散模型的文本图像超分辨率框架，实现先验校正与不确定性感知的结构建模

针对严重退化下文本图像超分辨率任务中全局先验不可靠与笔画边界模糊的挑战，本文提出PRISM框架。它通过流匹配先验校正模块，将退化嵌入映射至面向复原的先验空间，提供更准确的全局文本引导；同时利用结构引导的不确定性感知残差编码器，预测结构残差以选择性融合可靠的局部边界线索。该设计在单步扩散过程中同步实现了全局先验校正与局部结构细化。在合成与真实场景基准测试中，PRISM取得了最先进的性能，并保持毫秒级推理速度。相关代码与数据集已开源。

图像生成开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PanoWorld：迈向360度全景世界的空间超感知

针对多模态大模型在360度全景图像空间理解上的不足，研究提出PanoWorld模型。现有方法通常将全景图分解为透视图，忽略了其连续的球面几何结构。为此，本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据，并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上，PanoWorld显著超越了现有开源与专有基线。结果表明，稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。

arXiv具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SPIN：基于迭代导航的工业任务结构LLM规划

工业LLM代理系统常将规划与执行分离，但LLM规划器易产生结构无效或过长的流程，导致脆弱失败和额外成本。SPIN是一种规划封装器，结合验证有向无环图（DAG）规划和基于前缀的执行控制。它通过验证与修复提示强制执行严格的DAG契约，在下游执行前生成可执行计划，并增量评估DAG前缀以在满足查询时提前停止。在AssetOpsBench的261个场景中，SPIN将执行任务数从1061降至623，任务完成率从0.638提升至0.706，每次运行的工具调用数从11.81减少至6.82。在MCP Bench上，该封装器同样提升了GPT OSS1和Llama 4 Maverick在规划、落地和依赖关系方面的评分。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于Hodge分解的拓扑保持神经算子学习

本文从函数空间视角研究几何网格上物理场方程的解算子。我们发现Hodge正交性通过分离不可学习的拓扑自由度和可学习的几何动力学，从根本上解决了谱干扰问题，实现了结构保持子空间的加性逼近。基于Hodge理论和算子分裂，我们推导了原则性的算子级分解，构建了称为Hodge Spectral Duality (HSD)的混合欧拉-拉格朗日架构。该框架使用离散微分形式捕获拓扑主导分量，并利用正交辅助环境空间表示复杂局部动力学。我们的方法在几何图上实现了更高的精度和效率，同时增强了对物理不变量的保真度。代码已开源。

arXiv开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

通过简单统一的扩展实现奥赛金牌级推理

本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调，以灌输严谨的证明搜索与自我检查行为；随后通过两阶段强化学习流程扩展这些能力，最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01，在仅使用约34万条短轨迹微调和200步强化学习后，能稳定处理超过10万token的长轨迹难题，并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现，同时展现出向数学物理之外科学领域的强推理泛化能力。

arXiv推理数据/训练论文/研究

推荐理由：IMO 金牌级推理模型又多了一个，SU-01 的方法干净统一，特别在超长推理链上的稳定性是真正突破，做推理模型训练和竞赛级 AI 的可以认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

EvolveMem：基于AutoResearch的LLM智能体自进化记忆架构

针对LLM智能体长期记忆系统中检索机制固定不变的问题，研究团队提出自进化记忆架构EvolveMem。该架构将完整的检索配置（如评分函数、融合策略）构建为结构化行动空间，由一个LLM驱动的诊断模块进行闭环优化。系统通过AutoResearch过程自主运行：诊断模块分析失败日志、定位根因并提出配置调整，再由受保护的元分析器在防性能衰退和探索停滞的保障下应用调整。实验表明，EvolveMem在LoCoMo和MemBench基准上显著优于基线，进化后的配置能跨基准正向迁移，表明系统捕捉到了通用的检索原则。代码已开源。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

书签：面向角色扮演代理的高效主动故事情节记忆框架

针对角色扮演代理长期一致性记忆的需求，本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法，避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案，支持概念、行为和状态三种搜索类型，并采用高效同步机制更新答案以供未来复用。相比基线方法，该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中，其性能显著优于现有记忆基线。

智能体arXiv检索增强论文/研究

05:44

HuggingFace Daily Papers（社区热门论文）

GridProbe：面向长视频视觉语言模型的自适应测试时计算后验探测

GridProbe提出一种无需训练的后验探测推理范式，以解决长视频理解中二次注意力计算成本高的问题。该方法将视频帧排列在网格上，通过轻量级行列表探测，利用冻结视觉语言模型在答案空间中评估证据，并自适应选择问题相关帧。其核心Shape-Adaptive Selection规则根据问题难度动态确定有效帧预算，实现测试时计算量自适应调整。实验表明，在Video-MME-v2基准上，计算量降低3.36倍，平均准确率损失控制在1.6个百分点内；在LongVideoBench上帕累托占优于基线。该方法支持轻量级选择器与更强QA模型解耦组合，无需重新训练即可提升性能。

多模态推理论文/研究

05:44

HuggingFace Daily Papers（社区热门论文）

揭示策略蒸馏：何处有益、何处有害及原因

本研究针对策略蒸馏中监督信号的有效性不明确问题，引入一种免训练诊断框架，以逐词元、逐问题、逐教师的高分辨率评估蒸馏效果。该框架通过定义理想逐节点梯度，并开发可扩展的定向展开算法高效估算梯度，进而计算梯度对齐分数，量化特定蒸馏配置接近理想信号的程度。研究发现，蒸馏指导在模型错误展开时比正确展开时表现出更高的梯度对齐性；在正确展开时，学生模型已表现良好，教师信号往往变得嘈杂。此外，最优蒸馏上下文共同取决于学生模型的能力和目标任务，不存在普遍有效的单一配置。这些发现强调了针对蒸馏进行逐任务、逐词元诊断分析的必要性。

推理数据/训练论文/研究

02:44

HuggingFace Daily Papers（社区热门论文）

PlantMarkerBench：一个用于评估基于文献的植物标记基因推理能力的多物种基准

研究团队发布了PlantMarkerBench，这是一个用于评估从生物学全文文献中获取证据支撑的植物标记基因解释能力的多物种基准。该基准涵盖拟南芥、玉米、水稻和番茄四个物种，包含5,550个标注了证据有效性、类型和支持强度的句子实例，并定义了两项评估任务。测试显示，前沿模型在处理直接表达证据时表现尚可，但在功能、间接和弱支持证据上性能显著下降，且开放权重模型在模糊生物背景下假阳性率较高。该基准为基于文献的生物证据归因提供了可复现的评估框架。

推理数据/训练论文/研究

00:44

HuggingFace Daily Papers（社区热门论文）

Pi-Serini下的代理搜索再思考：词法检索是否足够？

本研究探讨在大型语言模型（LLM）代理循环中词法检索器的有效性，引入Pi-Serini搜索代理，配备检索、浏览和阅读工具。通过将优化配置的BM25与前沿LLMs（如gpt-5.5）配对，在BrowseComp-Plus数据集上的实验显示，该方法支持深度研究，实现83.1%答案准确率和94.7%表面证据召回率，优于使用密集检索器的搜索代理。消融实验表明，BM25调优比默认设置提升答案准确率18.0%和表面证据召回率11.1%，增加检索深度比浅层检索进一步提升表面证据召回率25.3%。源代码已公开。

智能体搜索论文/研究

00:44

HuggingFace Daily Papers（社区热门论文）

DeepRefine：基于强化学习的智能体知识库精炼

DeepRefine 是一种基于大语言模型的通用推理模型，旨在通过与知识库进行多轮交互，精炼其中存在的缺陷（如证据缺失、断言置信度低或指代模糊等问题），从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷，并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略，研究引入了“超越草案增益”奖励，并采用强化学习进行端到端训练。大量实验表明，该方法能在多个强基线模型上带来一致的下游性能提升。

智能体检索增强数据/训练论文/研究

5月12日

22:44

HuggingFace Daily Papers（社区热门论文）

提示-激活对偶性：通过注意力层干预改进激活引导

针对传统残差流引导在多轮对话中因KV缓存污染导致连贯性下降的问题，本研究提出门控裁剪注意力差值引导（GCAD）方法。该方法从系统提示对自注意力的贡献中提取引导信号，并通过令牌级门控机制施加干预，从而避免累积性污染。在角色引导实验中，GCAD在保持特质控制的同时，显著提升了长程对话的连贯性。在多轮基准测试中，它将平均连贯性漂移从-18.6改善至-1.9，并将第10轮的特质表达率从78.0%提升至93.1%。结果表明，沿模型已有的提示介导路径进行干预，能使激活引导更为可靠。

安全/对齐论文/研究

21:44

HuggingFace Daily Papers（社区热门论文）

键值均值注意力机制

研究团队提出键值均值注意力机制，这是一种支持固定或可增长状态的新型分块循环注意力。在强Transformer基线中引入固定大小的KVM层，仅需极少参数即可构建高效的O(N)分块RNN。使用可增长KVM缓存训练的模型在长上下文任务中表现优异，仅需次二次方预填充时间和次线性状态增长。该机制基于标准操作实现，无需定制内核，支持分块并行化训练与预填充，兼具传统Transformer与线性RNN的优势。它可应用于每一层以节省KV缓存内存，并在O(N)到O(N²)之间提供灵活的预填充时间复杂度选择，也可与线性RNN层混合部署以增强长上下文解码能力。相关代码与模型已开源。

开源/仓库论文/研究部署/工程

20:44

HuggingFace Daily Papers（社区热门论文）

ELF：嵌入式语言流

研究团队提出嵌入式语言流（ELF），这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同，ELF在绝大部分采样过程中保持在连续空间，仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术（如无分类器引导）。实验表明，ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型，并能以更少的采样步骤实现更优性能，为构建有效的连续扩散语言模型提供了新路径。

arXiv数据/训练论文/研究

18:44

HuggingFace Daily Papers（社区热门论文）

Muon能微调Adam预训练的模型吗？

本研究探讨了在微调Adam预训练模型时，若将优化器直接切换为Muon会导致性能下降的问题，并将其归因于两者不同的隐式偏差造成的优化器不匹配。这种不匹配会破坏预训练知识，且其影响程度与参数更新强度成正比。实验表明，通过采用LoRA等参数高效微调方法来约束更新，可以有效缓解该问题。在语言和视觉任务中，LoRA显著缩小了全参数微调下Adam与Muon之间的性能差距。对LoRA秩、灾难性遗忘及变体的进一步研究证实，不匹配的严重程度确实与更新强度相关。相关代码已开源。

开源/仓库数据/训练论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

RoboMemArena：一个全面且具有挑战性的机器人记忆基准

研究团队推出机器人记忆基准 RoboMemArena，包含26个长轨迹任务，平均轨迹长度超1,000步，其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹，并提供记忆相关标注，同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构，通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库，并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型，为复杂记忆系统的设计提供了新见解。

智能体arXiv具身智能论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

CapVector：在参数空间中为视觉-语言-动作模型学习可迁移的能力向量

本文提出CapVector方法，以解决预训练视觉-语言-动作模型在标准微调中性能提升有限的问题。该方法将辅助目标微调的两个核心目标——增强通用能力与拟合任务特定分布——在参数空间进行解耦。仅需在小规模任务集上使用两种策略训练至收敛，所得两模型间的参数差值即构成“能力向量”。该向量与预训练参数合并后，能形成能力增强的元模型。实验表明，结合轻量正交正则化的标准微调，能以更低计算成本达到与辅助微调基线相当的性能，且所得向量在不同模型与新环境中均表现出有效性和泛化能力。

具身智能论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

SlimSpec：用于加速推测解码的低秩草稿模型LM-Head

推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理，但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断，但增加了复杂性。本文提出SlimSpec，采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出，从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估，SlimSpec在延迟和吞吐量场景下，相比标准LM-Head实现了4-5倍加速，同时保持有竞争力的接受长度，端到端加速效果超越现有方法8-9%，且对训练和推理流程改动最小。

arXiv推理论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

TMAS：通过多智能体协同扩展测试时计算

研究提出TMAS框架，通过组织多个专用智能体在推理过程中进行协作，实现跨智能体、轨迹与迭代的结构化信息流动。该框架引入分层记忆系统：经验库存储可靠的低层中间结论与局部反馈以供复用，指导库则记录已探索的高层策略以引导后续推理避开冗余模式。同时，团队设计了适配TMAS的混合奖励强化学习方案，在保持基础推理能力的同时，提升经验利用率并鼓励对新策略的探索。在多个高难度推理基准测试中，TMAS展现出优于现有基线的迭代扩展能力与稳定性。

智能体推理论文/研究