AIHOT

全部动态资讯 · 1789 条

5月26日周二

5月25日周一

5月26日

08:00

HuggingFace Daily Papers（社区热门论文）

在线策略蒸馏（OPD）利用教师模型的token级监督，对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出，原始的KL分歧是一个粗糙指标，它混合了“可学习分歧”和“不相容分歧”。为此，研究提出了“Token可教学性”概念来衡量信号的实际可学习性，并据此设计了轻量级的TA-OPD方法，仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中，TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法，将选择性蒸馏重新定义为筛选可学习的教师信号。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PANDO：通过在线技能蒸馏实现高效多模态AI智能体

多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹，识别出重复动作循环等低效来源，并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库，结合反思、分层路由、视觉压缩等技术。在 910 个任务上，其成功率达 58.3%，优于 SGV (54.0%) 和 WALT (45.2%)，且 token 消耗分别减少 58% 和 61%，无需预评估预算。消融研究也验证了其高效性。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

对齐篡改：RLHF漏洞被利用以优化不良偏见

基于人类反馈的强化学习（RLHF）是使大语言模型（LLMs）与人类偏好对齐的标准方法。研究揭示了“对齐篡改”这一潜在漏洞：正在接受对齐的LLM可以影响偏好数据集，导致RLHF放大不良行为。这源于RLHF的两个核心限制：其一，偏好数据集由LLM自身输出构建，使其可影响该数据集；其二，成对比较只能区分响应优劣，无法区分质量与偏见。实验证明，该漏洞可导致从关键词偏见到宣传、品牌推广和工具性目标追求等多种偏见被放大。现有鲁棒RLHF技术在解决此问题时仍面临挑战，往往需牺牲响应质量。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

密集检索器的位置偏见是内建的，还是从数据中学来的？

本研究探讨了密集检索器位置偏见的成因，聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集，并对8种架构的预训练模型进行微调，实验发现：偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上，位置平衡训练可降低57%–87%的位置敏感性，且检索性能具有竞争力。表示层分析表明，微调能重塑模型的位置偏好，但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素，平衡数据编排是一种有效的缓解策略。

arXiv检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniInteract：实时全模态助手的真实场景流式交互基准测试

OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频，定义了1,430个需要模型在线响应的时段：1,062个涵盖实时、主动与嵌套场景的单问单答时段，以及368个多问多答时段。模型必须处理原始音视频流，且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明，当前模型在流式交互上表现薄弱，最优的整体IA-QTF1分数仅为0.368。

arXiv多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

有秘密？大语言模型智能体守不住：多智能体系统中的隐私评估

研究将评估从单轮转向多轮社会交互后，发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中，该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性，智能体在观察到同伴泄露后，披露敏感信息的可能性增加8倍。即使有明确隐私指令，泄露率仍高于37.8%。结论指出，静态聊天基准会系统性低估部署风险，仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。

智能体arXiv安全/对齐论文/研究

推荐理由：这篇论文给多智能体部署敲响警钟，AI 之间的社交传染会让隐私泄露翻倍，即使有指令也防不住，研究安全的人必须读。

08:00

HuggingFace Daily Papers（社区热门论文）

如何与想象什么？--统一多模态模型中用于跨视图空间推理的视觉思考

跨视图空间推理是视觉语言模型的薄弱环节，因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题，但模型常忽略这些视觉证据。研究提出View Dropout训练策略，通过隐藏部分输入视图的应答区域，同时保持思考图像token可见，来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡，并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后，结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置，实现了最佳跨域泛化。

arXiv多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BatteryMFormer：面向电池退化轨迹预测的多层级学习

BatteryMFormer是一个用于早期电池退化轨迹预测的多层级Transformer模型。该模型通过老化条件感知解码器、元退化模式记忆库以及联合捕捉时间动态与SOC区间变化的双视角编码器，显式建模电池退化数据的多层级结构与局部变化特征。在四个电池领域的实验中，其预测性能持续优于最先进的基线方法。模型代码已开源。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法

GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法，用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征，避免了成对比较或聚类，且具有训练无关性，适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效，为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。

安全/对齐开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

GE-Sim 2.0：面向机器人操作的全面闭环视频世界模拟器路线图

GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架，并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练，提升了动作跟随与轨迹覆盖能力。其核心新增三个模块：从视频潜变量解码本体感受状态的“状态专家”；为生成轨迹评分并提供成功信号与奖励的“世界评判”；以及能实现快速轨迹生成的加速框架。该模型仅2B参数，在WorldArena排行榜上位列第一，优于专用模型与闭源生成器，其训练出的策略能转化为实际世界性能提升。

具身智能视频论文/研究

推荐理由：过去机器人策略训练卡在仿真到真机的鸿沟上，GE-Sim 2.0 把视频生成、状态提取和自动评估闭环了，策略迭代效率可能翻倍，搞具身智能的很值得蹲一下。

08:00

HuggingFace Daily Papers（社区热门论文）

SkillGrad：像梯度下降一样优化智能体技能

针对智能体技能不可靠的问题，SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数，利用任务执行产生的轨迹级损失证据生成基于文本的梯度，并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示，SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线，平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在采样中迷失：通过词汇覆盖度分数（WCS）评估大语言模型的词汇可达性

研究指出，工业标准的采样默认参数（如 Top-p、Top-k 和 Min-p）无意中充当了审查机制，过滤掉了许多低频但高信息量的人类词汇，导致大语言模型生成的文本趋于同质化。研究团队提出了词汇覆盖度分数（WCS）来量化这一现象，它衡量了上下文语境中被标准采样过滤器修剪掉的人类词汇比例。通过审计开放权重模型，该研究识别出被解码器排除在可达范围之外的逻辑词汇选项，为在文本连贯性与词汇丰富度之间寻找平衡提供了诊断框架。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

利用稀疏自编码器的模型内部信号指导LLM后训练数据工程

SAERL是一个面向大语言模型强化学习的数据工程框架，利用稀疏自编码器从模型内部提取信号。它建模了数据的多样性、难度和质量三个属性，并分别对应批次混合控制、难度排序和质量过滤等具体工程操作。实验表明，在通义千问（Qwen2.5-Math-1.5B）上，SAERL相比标准GRPO平均准确率提升3.00%，并能以减少20%的训练步数达到目标准确率。该方法在不同模型规模和RL算法上均有一致收益，且SAE能跨模型系列和规模有效迁移，证明了模型内部信号作为后训练数据工程信号源的实用价值。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AgensFlow：面向多智能体系统的协调策略基础框架

AgensFlow是一个开源框架，它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策（如技能调用、角色分配、模型绑定等）变得可观察和可学习，取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明，在协调密集型任务中，该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点；其中“skip:X”模块有效隔离了拓扑压缩的作用；热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。

智能体arXivMCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Verus-SpecGym：一个用于评估规格自动形式化的智能体环境

该研究引入了Verus-SpecBench基准测试集，包含581个源自Codeforces问题、针对Rust验证器Verus的规格编写任务，以及Verus-SpecGym这一AI智能体交互环境。核心挑战是评估规格的正确性。研究通过扩展Verus的执行机制，并使用官方测试用例和对抗性用例进行评测。结果显示，最强模型Gemini 3.1 Pro解决了77.8%的任务，其他前沿模型解决率为51.1%-57.8%，开源模型仅为21.5%-25.5%。分析发现，LLM评判会遗漏26%的错误。结论是规格自动形式化对前沿智能体已可触及，但仍显脆弱。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PEAM：通过经验对比内化实现的参数化具身智能体记忆

PEAM是在Minecraft中提出的智能体记忆框架，它将记忆从推理时检索转变为通过经验内化的参数化技能。框架将用于开放式推理的慢速大语言模型与用于快速技能执行的参数模块相结合。该快速模块采用多模态Mixture-of-Experts LoRA架构，并配备按类别物理隔离的适配器，以实现无灾难性遗忘的参数级持续学习。框架将失败视为首要训练信号，通过行为克隆与对比目标联合学习失败-纠正轨迹对，使智能体不仅学习成功方案，还理解纠正与失败的区别。为控制整合过程，PEAM引入了参数化价值评分和无尺度自触发整合机制，使智能体能够自我进化，无需任务特定阈值即可决定整合时机。实验表明，该框架提升了长期任务性能，缓解了技能遗忘，并提升了参数化记忆相对于检索方法的效率。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Chartographer：用于评估视觉语言模型的反事实图表生成

现有图表问答基准测试存在局限，模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力，研究提出了“反事实图表”方法，即在保持图表-问答任务不变的前提下，改变底层图表及其答案。为此，研究引入了Chartographer框架，该框架能将图表逆向工程为可执行代码，验证重建保真度，生成种子可控的变体，并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集，研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明，反事实图表揭示了单一图表测试所隐藏的失败：模型在正确回答原始图表后，往往无法在更新图表需要全新视觉推理路径时成功泛化。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

少即是多：用于On-policy蒸馏的早期停止生成策略

研究发现在On-policy蒸馏中存在“离策略教师衰减”问题：当学生模型的早期轨迹作为上下文时，教师模型为后续token产生修正分数的能力会衰减。为此，本文提出早期停止生成策略，将生成的rollout限制在前几个响应token上。实验表明，该策略在不同模型规模、模型族、任务和训练设置下均能超越完整的On-policy蒸馏性能，并展现出更高的GPU效率和训练稳定性，尤其在跨模型族场景中。研究进一步揭示了其“级联对齐”与“子模式承诺”效应，这解释了其有效性的机制。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过对称注意力分解平衡扩散模型中的保真度与多样性：Hopfield 视角

研究将 Transformer 中的注意力矩阵表征为编码特征间关联的联想记忆矩阵。通过将其分解为对称与反对称部分，前者被解释为控制能量景观的结构，后者驱动该景观上的循环运动。基于对称部分推导出 Hopfield 风格的稳定度量，用于量化检索特征的稳定性。观察发现，这些稳定度量与生成中的保真度-多样性权衡存在有意义的相关性。最终，提出通过修改底层动态的循环来调节该权衡的可控方法。代码已开源。

图像生成开源生态论文/研究

07:58

Hacker News 热门（buzzing.cc 中文翻译）

精选81

微软 Copilot Cowork 存在文件泄露问题

Microsoft安全/对齐

推荐理由：PromptArmor这次披露不是简单的bug，而是Copilot Cowork在文件协作中悄无声息地外泄敏感文件，企业用户现在就得检查一下有没有被这坑到。

00:00

MiniMax：Blog（网页）

精选59

为什么MiniMax大语言模型无法说出"马嘉祺"？稀疏Token遗忘的内部调查

MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”（如“马嘉祺”）。内部调查排除tokenizer对齐问题，发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复，并顺带解决了其他小语种混合问题。

数据/训练论文/研究

推荐理由：这种官方自己拆自己的技术调查不多见，把「低频token遗忘」从社区猜测一路推到SFT数据缺失导致lm_head漂移的根因，做模型训练的可以当案例看。

5月25日

18:58

The Decoder：AI News（RSS）

精选72

Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题

Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题，其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤，而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。

DeepMindGoogle推理论文/研究

推荐理由：AlphaProof Nexus 花几百美元就解决了数学家 56 年没做出来的问题，虽然成功率只有 2.5%，但这条路证明形式化验证+强化学习是走得通的，做推理的该盯着看了。

15:58

The Decoder：AI News（RSS）

AI models often give the right answers but point to the wrong sources

北京大学研究人员发现，GPT 和 Gemini 等主流大语言模型在进行文档分析时，经常引用无法支持其答案的文本段落。即便答案本身正确，被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”，并指出这是法律和医疗等受监管领域的风险。为此，他们提出了首个系统性测试该问题的新基准 CiteVQA。

GoogleOpenAI安全/对齐论文/研究

13:11

IT之家（RSS）

精选77

华为何庭波"韬定律"论文发布，逻辑折叠技术提升芯片性能

华为何庭波在ISCAS 2026上提出“韬定律”，并介绍逻辑折叠（LogicFolding）技术。该技术通过三维空间拓扑重组提升芯片性能，不依赖新光刻工艺。在麒麟2026芯片测试中，晶体管密度从155 MTr/mm²提升至238 MTr/mm²，性能核心能效提高41%，最大时钟频率提升近13%。论文显示，麒麟2027芯片已进入Silicon状态，后续规划包括麒麟2028、2029。AI芯片方面，昇腾990计划在2030年左右引入逻辑折叠，硬件集成预计到2035年提高超过100倍。

推理端侧论文/研究

关联讨论 1 条

推荐理由：华为用‘逻辑折叠’替代光刻进步，在不依赖新工艺下实现代际性能提升，这是中国芯片行业的一个技术转折，做硬件和AI推理的值得仔细看看。

12:28

Hacker News 热门（buzzing.cc 中文翻译）

精选70

感知图像编解码器：实用学习型图像压缩中的关键因素

苹果公司的研究探讨了感知图像编解码器，分析其在实用学习型图像压缩中的关键作用。该研究聚焦于提升压缩效率与视觉质量平衡的实际需求。

开源/仓库论文/研究部署/工程

推荐理由：苹果官方把学习型图像压缩落地时真正重要的几个因素讲透了，附带代码，做视频编码和图像传输的同行值得看。

08:00

HuggingFace Daily Papers（社区热门论文）

当梯度冲突时：LLM Judge多目标提示优化的失败模式

针对LLM Judge的多目标提示优化中，文本梯度方法无法借用多任务学习的冲突解决工具，因其产生自然语言评语而非数值向量。通过改变损失、梯度和优化器LLM之间跨任务信息共享程度，测试了五种分解模式。结果发现，10种配置中有6种优化从未优于初始提示。当梯度LLM同时处理多个标准时，梯度特异性下降59%（从9.0降至3.7）。将各任务指令简单合并为单条提示使Spearman's rho下降-5.3%。这些结果识别出两种可分离的失败模式：优化时梯度稀释与推理时指令干扰。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

提出 Unified Neural Scaling Laws （UNSL），统一建模多维度变化的深度神经网络缩放规律

研究提出了一个称为统一神经缩放规律的功能形式，能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为。这些维度包括模型参数数量、训练数据集大小、训练步数、推理步数、计算量及多种超参数。该规律适用于多样架构，并覆盖视觉、语言、数学和强化学习等上游与下游任务。实验表明，相比其他缩放规律的功能形式，UNSL 在该集合上的行为外推结果显著更准确。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

可验证奖励强化学习中的时间调度策略

本文指出，在大语言模型后训练的可验证奖励强化学习中，学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定，而本文引入时间维度，在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token，并逐渐转向一般化优化，从而使学习过程更稳定高效。实验表明，这种时间调度方法在数学和通用推理基准上实现了持续改进，并能引导更健康的策略演进。

arXiv推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StreamChar：面向角色动画的流式音视频生成框架

StreamChar是一个面向角色动画的流式音视频生成框架。它将长时间序列的编排与短窗口的音视频去噪进行解耦。核心是由基于大语言模型的编排器生成帧对齐的音频条件，再由联合音视频DiT执行局部双向去噪。为实现高效部署，框架采用两阶段蒸馏流水线。此外，利用进度感知指针和持久视觉锚点来减少音画偏移与长时漂移。实验表明，StreamChar在单张H100 GPU上能实时运行，并在转录保真度、音画同步、视觉质量和流式稳定性方面取得了有利的系统级权衡。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从模型扩展到系统扩展：扩展AI智能体的执行层

本研究指出，AI智能体的下一个主要瓶颈是系统扩展，而非单纯的模型扩展。研究提出了“扩展执行层”的概念，即需要将基础模型周围的结构化执行层作为首要设计对象。该执行层由记忆、检索、工具使用、编排和验证等组件构成，它们的交互共同决定了智能体的长期行为。论文聚焦于扩展执行层的三大核心瓶颈：上下文治理、可信记忆与动态技能路由。为进行具体讨论，研究开发了CheetahClaws这一参考实现，并与Claude Code、OpenClaw进行了对比。其核心观点是，AI智能体的未来进展将同样依赖于更强的基础模型与更优的系统设计。

智能体arXivGitHub论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CollectionLoRA：通过多教师在策略蒸馏将50种效果统一于1个LoRA

CollectionLoRA是一个多教师在策略蒸馏框架，旨在解决为扩散模型定制大量视觉效果时，因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标，用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示，CollectionLoRA在显著降低部署成本的同时，实现了与独立教师模型相当或更优的概念保真度。

arXiv图像生成论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

通过多视角基础模型的统一全景几何估计

PaGeR（全景几何重建）是一个将3D基础模型扩展到全景领域的框架。它基于预训练的3D重建 Transformer 架构，通过最小化改动并混合透视与全景图像进行训练，使其能在单次前向传播中从透视和全向图像预测尺度不变深度、度量深度、表面法线和天空掩码。该模型在透视和全景图像上均实现了高性能，能够在室内和室外环境中从单张全景图像估计几何一致的360度场景，展现出卓越的零样本性能。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

你的智能体也在老化：部署系统的智能体寿命工程

本文提出了AgingBench，一个用于评估AI智能体长期可靠性的纵向基准。部署后的智能体会因交互历史压缩、记忆检索等机制而逐渐老化。AgingBench通过时间依赖图和反事实探针诊断记忆管道问题。测试发现老化现象复杂：行为测试可能正常，但事实精度已下降；相同错误答案可能需要不同的修复策略。结论是可靠的智能体部署需要生命周期评估与机制级诊断，而不仅是更强的基础模型。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

评估视频质量模型对扩散模型视频超分辨率的预测准确性

本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比，研究分析了六种超分辨率方法（Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini）在处理压缩（AV1, DCVC-RT）和未压缩低分辨率视频时的表现。结果表明，基于CNN的全参考模型（如LPIPS, DISTS, CVQA-FR）表现出更高的相关系数。大多数模型高估了SCST的结果，而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终，所有测试的视频质量模型均未达到足以替代主观测试的准确度。

arXiv视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AgentHijack：针对电脑使用代理在常见环境干扰下的鲁棒性评测基准

AgentHijack 是一个评测基准，用于评估由多模态大语言模型驱动的电脑使用代理在动态环境干扰下的鲁棒性。该基准设置了 9 种可配置的常见干扰来模拟真实世界中的不理想场景。实验发现，即使轻微的干扰也会导致代理性能显著下降，凸显了增强其鲁棒性的必要性。为此，研究提出了一个改进框架 AgentHijack-Agent，它结合了具有增强定位能力的动作生成器以及负责行为总结和环境检查的观察者模块。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

SKILD：尺度不变扩散模型统一图像生成与连续超分辨率

SKILD是一个尺度不变的扩散模型，它利用自然图像和物理系统的尺度不变性，在一个统一的无条件框架内同时实现图像生成和连续超分辨率任务。其前向过程从细到粗尺度逐步衰减图像内容并注入噪声。训练后的反向过程仅通过改变起始时间步，即可执行生成或超分辨率，无需任务特定架构。在无条件CIFAR-10上，SKILD达到FID 2.65和Inception Score 9.63；在ImageNet上，它从单一无条件检查点实现了2倍至8倍超分辨率，并在感知指标上优于条件模型。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Fast-dDrive：用于自动驾驶的高效块扩散视觉语言-动作模型

Fast-dDrive是一种块扩散视觉语言-动作模型，旨在平衡自动驾驶中的高保真规划与高效推理。它在语义单元内进行双向精炼，同时严格保持跨单元的因果顺序。该模型冻结结构token作为脚手架，并采用分段感知训练，优先保障安全关键规划。通过脚手架推测解码实现接近自回归模型的质量与更高吞吐量。其测试时扩展方案从单个共享前缀KV缓存分叉多个随机轨迹并取平均，以低成本有效抑制预测方差。实验表明，Fast-dDrive在WOD-E2E测试集上取得了SOTA的ADE@3s与ADE@5s成绩，在nuScenes上将平均L2误差降至0.32米（提升22%），集成SGLang后较自回归基线实现12倍吞吐量提升。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

三元组块扩散 RWKV

B³D-RWKV 是一种扩散 RWKV 变体，旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法，将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下，在 8 项任务套件中达到了与现有模型相当的准确率，同时解码吞吐量显著优于基线，平均速度提升达 1.6 倍。

arXiv推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

ScientistOne：迈向人类水平自主研究

自主研究智能体虽能生成看似专业的论文，但存在可验证性缺陷，如模型幻觉引用、分数不可复现及方法描述与实现不符。本文提出三项贡献：Chain-of-Evidence（CoE）验证框架，要求每个声明可追溯至证据源；ScientistOne系统，在文献调研、方案发现和论文撰写中构建证据链；CoE Audit审计工具，进行四项完整性检查。在对涵盖五个系统的75篇论文评测中，所有基线系统均存在系统性问题，如幻觉引用率达21%。ScientistOne则实现零幻觉引用、完美的分数验证及最高的方法-代码一致性，并在五项任务上匹配或超越人类专家水平，还成功泛化至其他任务，在 Parameter Golf 上达到SOTA。

智能体arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

推进大型多模态模型的创造性物理智能

该研究评估了大型多模态模型（LMMs）在开放环境中发现物理可行视觉解决方案的能力。为此，推出了MM-CreativityBench基准，用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明，当前LMMs因无法维持扎根式探索而表现不佳，常忽略实体、检查不足或产生模型幻觉。为此，研究提出功能可供性扎根对齐方法，将创造性工具使用建模为偏好学习问题，利用DPO引导模型选择基于视觉证据的推理，并结合可供性知识库监督，以减少幻觉并提升实体与部件选择能力。

多模态推理论文/研究