AIHOT

全部动态论文 · 2148 条

全部一手资讯 X 论文

6月1日周一

5月31日周日

5月30日周六

6月1日

08:00

HuggingFace Daily Papers（社区热门论文）

Cosmos 3：面向物理AI的全模态世界模型

NVIDIA 发布 Cosmos 3 全模态世界模型家族，基于统一混合 Transformer 架构，联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架，在多项理解与生成任务上达到新 SOTA。技术报告撰写时，后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型，被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源（Linux Foundation OpenMDW-1.1 许可）。

具身智能多模态开源生态论文/研究

关联讨论 5 条

08:00

HuggingFace Daily Papers（社区热门论文）

深度研究智能体轨迹中的跨度级错误定位研究

深度研究型AI智能体通过搜索、工具调用等长轨迹执行任务，但最终答案评估无法揭示轨迹中导致错误的环节。研究针对跨度级错误定位，从两个框架、三个模型和三个基准中收集2790条真实轨迹，经LLM辅助专家标注后构建1000实例的评测基准TELBench。同时提出以主张为中心的审计框架DRIFT，追踪智能体主张并核对轨迹证据支持度。实验表明，DRIFT在跨度级错误定位和首次错误准确率上提升高达30个百分点。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WALL-WM：沿事件节点雕刻世界动作建模

WALL-WM 是一种世界动作模型，将视频-动作学习从固定长度块优化转向基于语义事件的视觉-语言-动作（VLA）预训练。它把语义一致的动作事件作为基本学习单元，解决了语言、视觉与动作在时间粒度上的不匹配。WALL-WM 结合事件级描述与聚类平衡采样构建数据生态，并从同一预训练主干支持两种推理模式：事件模式（变长执行块）和统一模式（使用 VLM 与阶梯解码）。依托 Muon 优化器的大规模预训练基础设施，WALL-WM 在跨语言、场景与任务的真实世界泛化评估中达到当前最优性能。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

利用感知扰动和奖励建模缓解多模态大语言模型评估中的感知判断偏差

多模态大语言模型作为评估者时，若视觉证据与文本线索冲突，模型倾向于奖励看似合理但感知错误的答案，即感知判断偏差。本文构建感知扰动评估数据集，通过最小编辑的反事实响应隔离感知错误并提供可验证监督；提出结合GRPO结构化奖励与批量排序目标的统一训练框架，无需显式成对标签即可实现全局排序一致性。实验表明该方法显著提升评估的感知忠实度、排序一致性与人类对齐度。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

AutoMedBench：面向医疗自主研究的智能体AI模型基准测试

AutoMedBench 是一个工作流感知的基准测试，用于评估自主医疗AI研究智能体在完整研究流程中的表现。该基准涵盖医学影像与多模态推理任务，组织智能体执行统一的五阶段工作流：规划、设置、验证、推理与提交。任务涉及分割、图像增强、视觉问答、报告生成和病灶检测五大赛道，每个任务设有Lite与Standard两个难度级别，单次运行平均包含33个智能体回合。结果表明，验证阶段是当前智能体最薄弱的环节，而设置阶段表现最强。错误分析显示，验证与提交失败分别占37.7%和38.1%，任务理解错误仅占0.9%；出现错误代码的运行总分平均比无错误运行低48%。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型多领域强化学习中的干扰与恢复的局部微扰理论

研究发现，对大语言模型进行单一领域（如数学、代码）的强化学习后训练，会对其他领域产生干扰，即使全模型梯度近似正交也会发生。论文提出了一个局部微扰模型来解释此现象：干扰主要通过一个集中在低维共享冲突子空间中的二阶损害项发生。理论证明，一次简短的领域刷新可以收缩该子空间中的有害分量，从而实现选择性恢复。实验表明，在经历代码→数学→问答→创作写作的序列训练后，进行Re-Math刷新可将数学性能恢复，同时基本保持其他领域表现。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口，并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图，融合自监督视觉编码器的几何与语义节点距离，并通过盲目匹配来定位语言目标，无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明，PlatonicNav在无需显式跨模态训练的情况下，实现了跨任务、跨模态和跨具身的泛化能力。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

去中心化指令微调：冲突感知切分与权重合并

针对多模态大模型指令微调中的梯度干扰与高带宽同步瓶颈，MERIT提出了一种去中心化、可合并的微调流水线。该方法通过估计数据集间的梯度冲突，沿主成分分析（PCA）冲突轴进行切分，使各部分独立训练无需通信，最后通过基于token频率的加权平均进行一次权重合并。在Qwen2-VL-3B模型上使用136个Vision-FLAN任务评估，MERIT将8个基准测试的平均得分从联合训练的54.3提升至57.0。该流程同样可扩展至1.6M样本、176个来源的7B模型，以最小开销匹配或超越集中式联合训练。

GitHub数据/训练论文/研究

07:55

Hacker News 热门（buzzing.cc 中文翻译）

研究指出美国医疗费用依旧高昂，治疗效果不佳

一项发表在Ars Technica的研究报告指出，美国的医疗保健系统费用依然非常高昂，但与之相对的治疗效果却不理想。该研究对美国医疗体系的高成本与低成效现状提出了批评。

其他

07:20

HuggingFace Daily Papers（社区热门论文）

ClawHub Security Signals： VirusTotal、静态分析与SkillSpector的分歧

ClawHub Security Signals数据集包含67,453个公开OpenClaw Agent技能版本，用于研究三个安全扫描器（VirusTotal、静态启发式分析与NVIDIA SkillSpector）的检测分歧。研究发现，三者极少标记相同技能：任意两者的正例重叠率最高仅10.4%，仅0.69%的技能被全部三者标记，81.9%的被标记技能仅被单个扫描器识别。NVIDIA SkillSpector主要在25,504个可疑样本中发出75.3%的警报，而VirusTotal则在206个恶意样本中标识出72.8%。结果表明，Agent技能安全需要分层治理，而非依赖单一扫描器的允许或阻止决策。该数据集作为包含自动裁决标签的银标准版本发布。

智能体安全/对齐论文/研究

01:48

elvis@omarsar0

效率前沿

该论文指出，当AI智能体在多轮对话中重复使用相同文档和历史记录时，固定的上下文策略并非最优。研究提出了“效率前沿”框架，将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描，可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明，部署感知的选择能在保持相同性能下减少约25%的有效token使用量，而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体arXiv检索增强论文/研究

5月31日

18:24

IT之家（RSS）

中国科学家开发出无人机蜂群新算法：通信中断、视野受限条件下仍能作战，为首个达到 100% 杀伤率且保持足够响应速度的算法

智能体具身智能论文/研究

17:47

The Decoder：AI News（RSS）

Anthropic研究发现：在社会科学研究中，男性使用AI编程智能体的频率是女性的两倍以上

Anthropic的一项研究发现，在社会科学领域，通常男性名字的研究者使用AI编程智能体的频率，超过通常女性名字研究者的两倍。数据显示，经济学家中有39%使用编程智能体，而教育研究者中这一比例仅为4%。这一性别差距在编程智能体的使用上，远比在一般AI使用中更为显著。

智能体Anthropic现象/趋势论文/研究

16:17

The Decoder：AI News（RSS）

AI 搜索代理往往只是确认其已知信息，而非真正研究网络

哈尔滨工业大学研究人员发现，包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理，在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论，此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时，其表现显著下降，现有的性能排名也随之改变。

搜索论文/研究评测/基准

14:38

HuggingFace Daily Papers（社区热门论文）

解耦残差去噪扩散模型实现统一高效图像到图像翻译

DRDD 模型将扩散过程解耦为两个独立阶段：先进行随机噪声扩散以实现领域协调和流形提升，再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力，显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练，极大提升了数据效率。理论与实验表明，DRDD 与主流扩散模型兼容，即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。

图像生成开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

信任函数：通过学习何时信任弱教师实现近乎无损的弱到强泛化

弱到强泛化研究如何利用较弱教师的监督信号来提升强学生模型，核心挑战在于筛选出足够可靠的弱标签。信任函数为每个弱标签分配一个标量信任分数，并据此过滤弱监督信号。在世界知识、定量推理和策略游戏等多个领域，信任过滤训练出的学生模型能够匹配甚至超越基于真实标签监督的模型，实现近乎无损的弱到强泛化。此外，信任函数支持迭代式弱到强链——将训练好的学生作为下一轮教师，叠加增益效果。其优势可归因于多种机制。

arXiv安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

反射性智能体中的记忆虚构现象

研究发现，基于Reflexion的智能体依赖自我生成的反思作为记忆，但在ALFWorld和HumanEval任务中会系统性失败：智能体存储了自信但错误的任务解释，并在环境每次重置为正确任务的情况下仍持续按错误解释行动。该现象被命名为“记忆虚构”。作者提出Reflection Repetition Rate（RRR），一种基于日志的指标，用于检测对错误反思内容的重复依赖，并据此识别出ALFWorld中16个冻结环境（121条反思中0条提及正确目标对象）以及HumanEval中4个类似案例。缓解方案用程序化提取轨迹级失败信号替代开放式自我诊断，使正确提及目标对象从0%提升至86%，RRR从0.64降至0.10，并解决了16个冻结环境中的3个。

智能体arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SABER：面向LLM编码智能体的环境感知操作安全基准

SABER是一个评估大语言模型编码智能体操作安全性的基准。与仅判断模型是否拒绝不安全提示的现有基准不同，它将模型置于真实的智能体风格项目中，根据一系列操作后的最终环境状态判定安全性，并按原因对违规行为分类。评估显示，即使表现最好的模型，其有害安全违规率也超过54%，说明当前对齐策略在真实项目环境中仍显不足。该基准已在GitHub公开。

智能体GitHub安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

测量对称性-数据交换率：等变先验的标度律实证

在可控C_n对称任务上，等变先验对样本复杂度的理论增益因子|G|首次作为标度律测量。错误群控制比无约束更差（成对联合CI [+0.79, +3.26]排除零）；带测试时轨道平均的数据增强基线在每epoch验证曲线上与等变模型完全一致。相对交换率beta_diff=1.28与理论值1.0在符号和数量级一致（单层CI [+0.92, +2.05]），但保守双层bootstrap区间包含零。最可靠结论：错误群约束有害。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BenchEvolver：以解决方案为中心的进化式前沿任务合成

前沿大语言模型在LiveCodeBench上已饱和，易分题Pass@1超99%，平均超90%。新提出的BenchEvolver框架以解决方案为中心，通过结构化变换自动进化已有编码问题的参考解，再从进化后解推导题目与测试用例，从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后，进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题，前沿模型Pass@1仅27.5%–62.6%，恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性，可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3，超出仅用原始任务训练的增益70.7%和34.8%。

arXiv数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniOPD：基于推测验证的无需logits在线策略蒸馏

OmniOPD是一种无需教师token级logits的在线策略蒸馏框架。它通过蒙特卡洛展开在多token块上以连续语义相似度近似教师偏好，并用峰值熵调度器仅在高不确定性推理分叉处施加监督，同时以Dirichlet-Multinomial贝叶斯先验和基模型KL锚点防止策略坍塌。在数学基准上，OmniOPD相比标准OPD提升高达28.64%；与Claude-4.5-Haiku和Gemini-2.5-Flash等黑箱教师配合时，额外相对提升9.54%，令学生模型超越自我探索强化学习。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Trust Region On-Policy蒸馏方法（TrOPD）

针对On-Policy蒸馏（OPD）在师生模型分布差异较大时训练不稳定的问题，本文提出置信区间On-Policy蒸馏（TrOPD）方法。该方法核心是采用置信区间On-Policy学习，仅在教师提供可靠监督的区域进行蒸馏；结合异常值估计策略处理不可靠区域；并通过离线引导鼓励向可靠区域探索。实验表明，TrOPD在数学推理、代码生成及通用基准测试上均优于包括OPD、EOPD和REOPD在内的现有OPD基线。

智能体arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建，提供两个接口：一个联合预测未来视觉潜在表示与连续动作块的视频动作模型，以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练，包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时，模型通过测试时计算采样动作候选，并利用去噪一致性和基于模拟器的修正来筛选低质量动作，在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由：机器人操作领域的大一统尝试，把视频预测和动作生成放在一个扩散模型里，还用27万小时数据训练，做具身智能的可以看看这个架构。

08:00

HuggingFace Daily Papers（社区热门论文）

SkillVerse多模态技能范式与VisSkillBot：AI智能体的技能应超越纯文本

现有AI智能体的可复用技能多以纯文本形式存储，这在视觉中心任务中构成了瓶颈。研究提出了SkillVerse多模态技能范式，将声明式文本逻辑与显式视觉支持相结合，包含静态先验、动态先验和交错视觉技能三种可复用形式。配套系统VisSkillBot能自动将智能体经验转化为可复用的多模态技能。实验表明，视觉技能在需要空间对应、视觉证据和状态感知交互的GUI等任务中，持续优于纯文本技能。

智能体MCP/工具多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

ChartArena：跨语言、场景与格式的图表解析基准测试

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程，并设计了格式无关的评估协议，将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示，前沿闭源模型如Gemini 3.1 Pro领先，开源系统正快速追赶；文档解析模型在数字图表上表现尚可，但在图表结构上明显不足；专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

GitHub多模态论文/研究评测/基准

推荐理由：ChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片，终于能测出 MLLM 在真实文档场景下的真实水平，做文档解析的团队该认真看一下。

08:00

HuggingFace Daily Papers（社区热门论文）

LongAttnComp：面向长上下文推理的跨模型族上下文压缩

LongAttnComp 是一种针对长上下文适配的方法，它通过微调一个轻量级跨注意力评分层，并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调：第一阶段基于 NIAH 风格数据构建通用检索基础，第二阶段通过多跳和推理数据进行扩展。实验表明，在 InfiniteBench Code-Debug 上，LongAttnComp 能够匹配或超越全上下文精度，并显著优于无训练基线。在 LongBench v2 上，两阶段配方在多文档推理任务上有效缩小了性能差距，同时保持了代码调试性能，并可跨三个模型族的四个目标模型进行转移。

arXiv推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

3DCodeBench：基于代码的程序化3D建模智能体评测基准

本文提出了3DCodeBench，一个系统性基准，用于评估视觉语言模型（VLM）智能体在3D建模软件中通过生成代码进行程序化3D建模的能力。该基准评估了12个先进VLMs将文本和图像参考转换为程序化代码的效果，并建立了基于人类偏好的排名平台3DCodeArena。研究发现，主要失败源于API不匹配，而测试时扩展（如提高思考预算和多轮精炼）能提升性能。研究强调了高质量程序化编码数据和稳健执行环境对推进VLM能力的重要性。该工作公开发布了基准数据集、评估协议与3DCodeArena平台。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HakushoBench：基于日本政府白皮书的图表与表格VQA基准测试发布

HakushoBench是一个日语图表与表格视觉问答基准测试，由33份日本政府白皮书构建而成，包含2053张图像和人工标注的问答对，涵盖超过10种图像类型，旨在评估视觉语言模型对复杂文档的深度理解能力。实验表明，当前开源模型在此基准上仍面临挑战，最佳开源模型的准确率仅为58.6%，而开源与闭源专有模型之间存在34.9分的性能差距。该数据集与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillAdaptor：一种面向LLM智能体的自适应技能方法

SkillAdaptor 是一种无需训练的步骤级技能自适应框架，能进行显式故障归因。它针对智能体失败的执行轨迹，识别首个可操作的故障步骤，并将责任归因于候选技能，随后在骨干模型冻结的前提下进行针对性更新与验证。在 WebShop、PinchBench 和 Claw-Eval 上使用 Kimi-K2.5、GLM-5 和 GPT-5.2 的评估表明，该框架在所有三项基准测试中均优于无技能和现有技能适应基线。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

定位何处：基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务（TVR）与模拟基准TVRBench，评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%，瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架，视觉动作SFT将9B开源模型成功率提升至50.8%，多轮GRPO进一步达到51.4%，为训练主动感知与行动的模型提供了基准。代码与模型已开源。

arXiv具身智能多模态论文/研究

推荐理由：主动探索视角是具身智能的关键短板，这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码，做空间智能的可以直接拿来跑。

5月30日

21:14

The Decoder：AI News（RSS）

研究发现，训练使AI聊天机器人更有用，反而削弱了其模拟人类行为的能力

一项涵盖208,000名参与者、2600万条回复的大规模研究显示，使语言模型转变为有用聊天机器人的训练过程，会削弱其复制人类行为的能力。这种效应随着每一代新模型而加剧。即使采用为模型提供人口统计数据的热门角色扮演技巧，对个体预测也几乎没有带来实际益处。

数据/训练论文/研究

18:46

Rohan Paul@rohanpaul_ai

RNG：规模化部署的扁平数据中心网络

亚马逊推出了名为“Resilient Network Graphs”(RNG) 的新数据中心网络架构。该设计以扁平的准随机图替代了传统的树形网络，并通过Spraypoint路由系统和ShuffleBox布线设备在多个独立路径上分散流量。测试显示，RNG在性能上与传统fat-tree网络持平，但硬件需求减少69%，吞吐量提升33%，并估算成本可降低9%至45%。该架构现已成为大多数AWS工作负载的默认网络，其分散负载的能力有助于提升AI集群训练效率。

论文/研究部署/工程

15:21

IT之家（RSS）

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

智能体AnthropicGoogle安全/对齐

11:21

IT之家（RSS）

英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

英伟达联合香港理工大学、南京大学推出 LocateAnything 模型，专为机器人感知与 AI 智能体设计，可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术，提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上，混合模式速度达 12.7 Boxes Per Second，超过 Qwen3-VL（1.1 BPS）与 Rex-Omni（5.0 BPS）。在 LVIS（IoU=0.95）评测中得分 31.1，高于 Rex-Omni 的 20.7。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

论大语言模型适应性的局限：模型内化先验对标注任务性能的影响

在零样本标注与LLM-as-a-judge任务中，LLM内化先验与用户指令存在交互。针对社交媒体、游戏、新闻和论坛数据集的毒性检测实验发现，近三分之二的零样本错误无法通过提示纠正，总体纠正率仅34.8%，高置信度错误尤为顽固。当给出错误任务定义时，LLM会遵循定义但置信度不变。新提出的定义特定熟悉度（DSF）衡量模型内部概念与任务定义的对齐程度，在控制数据集混淆后与性能呈正相关（partial r=+0.41），而三种记忆指标（ROUGE-L、BERTScore、嵌入向量余弦相似度）均未显示正相关。这表明基于提示的纠正存在根本局限，定义对齐比文本记忆更重要。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

SDR：基于集合距离的胸部X光报告生成奖励方法

针对标准精确匹配奖励不适用胸部X光报告生成的问题，提出SDR方法。将报告分割为句子，用冻结的句子Transformer嵌入为无序集合，以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练，BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择，在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号，可在生成中修剪低分候选，减少超过50%的生成token且保持质量。代码已公开。

arXiv图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Critic-R：利用自然语言内省反馈改进智能体搜索的检索模型

Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹，判断上下文是否充分支持下一步推理。框架包含两种机制：Critic-R-Zero 在推理时迭代重写查询与检索指令；Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练，无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明，Critic-R 显著提升了检索质量和答案准确率。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SuperMemory-VQA：面向长时记忆的自我中心视觉问答基准

SuperMemory-VQA 是一个用于评估 AI 助手长期记忆能力的自我中心 VQA 数据集，包含 52.9 小时 AI 眼镜日常活动记录，同步 RGB 视频、音频转录、眼动追踪、IMU 和 SLAM 轨迹。经人工验证的标注流程生成了 4853 个接地问答对，覆盖物体/位置记忆、意图回忆、视觉场景重构、时间线重建、对话记忆和上下文检索，每题均为多项选择并含“不可回答”选项以测试抗幻觉能力。对主流智能体和大语言模型的基准测试显示，现有系统在真实世界记忆任务上远未可靠，需设计仅当证据充分时才作答的接地 AI 记忆架构。

arXiv多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

半监督噪声自适应（SSNA）：从噪声领域迁移知识

半监督噪声自适应（SSNA）提出利用简单分布（如高斯分布）构造的合成噪声领域作为源域，在半监督设置下（仅少量目标样本有标签）提升目标域的泛化。基于该问题，建立了刻画噪声领域影响的目标域泛化界，并提出噪声自适应框架（NAF）。实验表明NAF有效利用噪声领域收紧目标域的泛化界，提升性能。代码已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniKE：面向统一多模态模型的跨模态知识编辑基准

UniKE是首个针对统一多模态模型（UMMs）的跨模态知识编辑基准，包含2971个属性与关系编辑主题。VQA验证显示，文本侧编辑准确率约92%，但图像生成最佳整体VQA准确率仅18.5%，存在明显模态差距。提出的推理增强参数编辑方法在生成前显式激活已编辑知识，使整体VQA准确率提升最多18.6个百分点。机制分析表明，该差距源于编辑后文本表示与图像生成条件路径的对齐不足。文本知识编辑无法可靠跨模态迁移，需开发模态感知的编辑方法。

arXiv多模态论文/研究