AIHOT

全部动态资讯 · 1789 条

全部一手资讯 X 论文

6月6日周六

6月5日周五

6月6日

08:00

HuggingFace Daily Papers（社区热门论文）

59

Bayesian-Agent：基于后验引导的技能演化框架

Bayesian-Agent是一个原生跨框架，将可复用的技能和SOP视为关于冻结LLM在特定提示、上下文和环境下能否成功的后验假设。它记录已验证的轨迹证据，维护基于特征条件的分类后验，并将后验状态映射为补丁、拆分、压缩、退役和探索等可检查操作。使用deepseek-v4-flash，该方法使SOP-Bench从80%提升至95%，Lifelong AgentBench从90%提升至100%，RealFin-Bench从45%提升至65%。评估覆盖原生后端及GenericAgent、mini-swe-agent、Claude Code等可选后端，结果包含正、负、饱和及案例研究。源代码已开源。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

基于集合的 Transformer 用于远距离 LWIR 高光谱成像的大气补偿

论文提出一个轻量级基于集合的深度学习框架（Set-Based Transformer），以多个不同远距离辐射测量值为输入，联合估计透射率、大气路径辐射和下行谱。使用稀疏自编码器分析学习到的表示，发现若干潜在特征在测试数据的地理一致子集上激活，尽管训练时未使用位置监督。在 MODTRAN 生成的远距离 LWIR 数据集上，所有估计产品均实现低光谱失真。代码和数据集已公开。

开源/仓库论文/研究

03:47

HuggingFace Daily Papers（社区热门论文）

53

重复博弈中自适应对手的后悔最小化

研究在重复博弈中提出重复策略遗憾（RP-Regret），度量所有玩家基于历史响应时实际效用与事后最佳效用之差。该度量允许更强的比较器和更少约束的对手，且所有玩家最小化时能发现更优均衡。确定了时间亚线性RP-Regret的必要条件。提出三种算法：基于优化先导、最小化凸线性化替代、以及直接最小化（对手缓慢变化时）。所有玩家最小化RP-Regret可学习子博弈完美均衡。实验表明能在鹿猎博弈中带来更高效用的合作解。

智能体论文/研究

03:33

Anthropic：Research（发表成果 · 网页）

精选65

Anthropic：让Claude成为化学家

Anthropic与顶尖化学家合作，提升Claude在化学领域的实用性。首个白皮书测试Claude在NMR谱图分析上的表现：在20个化合物上，对比Claude Opus 4.7、Opus 4.6、Sonnet 4.6与ChemDraw、MestReNova的正向预测（从结构预测谱图）和反向结构解析（从实验谱图推断结构）能力。所有化合物选自模型训练截止日期后发布的ChemRxiv预印本，以避免选择偏差。

Anthropic多模态论文/研究评测/基准

关联讨论 2 条

推荐理由：化学家可能几年后回头看会记起这篇，Claude Opus 4.7 在 NMR 预测上追平了 ChemDraw，还顺手做了反向结构解析——专业软件不干的事，它用更接近人类日常输入的方式做到了。

00:47

HuggingFace Daily Papers（社区热门论文）

65

GeoVR：从视频学习几何表示，重塑多模态大语言模型的空间智能

多模态大语言模型（MLLM）擅长2D语义理解，但缺乏3D空间一致性。GeoVR框架利用纯2D视频序列，通过从预训练3D基础模型蒸馏几何知识，重构MLLM的语义隐空间。其多目标学习策略包含四个互补几何约束：帧间相机位姿估计、密集深度图回归、度量尺度因子预测以及多尺度3D特征对齐。在空间推理基准上，GeoVR达到当前最佳性能（SOTA），为赋予基础模型空间智能提供了新范式。

具身智能多模态论文/研究

00:33

HuggingFace Daily Papers（社区热门论文）

56

Skill-3D：面向智能体3D空间推理的场景感知技能自演进框架

Skill-3D框架通过场景记忆与技能库协同演化，解决MLLM智能体在3D空间推理中工具使用偏好固化的问题。框架记录智能体的工具使用轨迹，将同类场景的成功轨迹聚合蒸馏成可复用技能，失败轨迹作为教训附于技能。当类似场景再现时，注入对应技能指导智能体，新轨迹反向优化技能，形成记忆与技能库自演进循环。实验表明，该方法在VSI-Bench上将工具利用率从39%提升至78%；在MMSI-Bench上使Gemini-3-Flash提升67%；对Qwen3-VL-8B进行技能轨迹后训练后，在VSI-Bench上提升43%。

智能体多模态论文/研究

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

64

Benchmark Agent：全自主评测基准构建系统

Benchmark Agent 是一个全自主智能体系统，可端到端完成评测基准构建，涵盖用户查询分析、子任务设计、数据标注与质量控制。系统一次性生成 15 个代表性基准，覆盖文本理解、多模态理解和领域特定推理等评估场景。人工评估、LLM-as-a-judge 和一致性检验表明，Benchmark Agent 能以极少量人工参与产出高质量评测样本。持续评估还发现当前模型在某些领域推理任务上仍有明显短板。预览页面与代码即将公开。

智能体论文/研究评测/基准

23:47

HuggingFace Daily Papers（社区热门论文）

59

AURA：面向隐式需求的定向探测方法

AURA 在场景感知与工具使用之间插入推理步骤，生成包含隐式需求估计和标量差距分数（gap score）的 IntentFrame，用于控制每查询的探测预算和工具选择。在 100 查询四场景隐式意图基准上，AURA 相比 ReAct 风格探测将隐式需求覆盖率提升 0.07（p < 10⁻⁶），其中三个场景统计显著，且在第二个骨干模型上复现；消融实验将提升归因于差距校准而非答案记忆。在事实查找任务中，控制器以 82% 更少的探测次数和隐私敏感片段零违规换取原始准确率。代码、模拟器和基准已开源。

智能体推理论文/研究

23:47

HuggingFace Daily Papers（社区热门论文）

68

Code2LoRA：超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架，可生成仓库专属的 LoRA 适配器，在推理时零 token 开销注入仓库知识。它支持两种模式：Code2LoRA-Static 将单一仓库快照转为适配器，适合稳定代码库；Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器，适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中，Code2LoRA-Static 跨仓库 exact match 达 63.8%，仓库内达 66.2%，持平逐仓库 LoRA 上界；演化任务中，Code2LoRA-Evo 跨仓库 exact match 达 60.3%，比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXivHugging Face开源生态编码

23:47

HuggingFace Daily Papers（社区热门论文）

56

AffordanceVLA：通过具身感知理解增强动作生成的视觉-语言-动作模型

AffordanceVLA 是一种视觉-语言-动作模型，通过引入结构化具身感知预测作为任务导向中间表示，建立更精准的感知-动作映射。模型包含三个互补组件：Which2Act（通过视觉潜变量预测实现目标中心定位以抑制干扰）、Where2Act（通过具身感知图估计定位二维交互区域）、How2Act（进行三维几何推理以引导操控策略）。采用混合 Transformer 架构，结合三阶段训练策略和渐进式数据课程，并配有自动数据增强管道。在仿真和真实世界实验中，模型在多种操控场景中取得强性能。

arXiv具身智能多模态论文/研究

23:15

IT之家（RSS）

64

剑桥大学AI设计通用疫苗完成首次人体试验

剑桥大学研究团队利用AI设计的“通用疫苗”完成首次人类临床试验，39名18至50岁健康志愿者接种后未发现明显副作用。该疫苗针对Sarbeco冠状病毒，关键活性成分为计算机设计的抗原，志愿者产生了针对SARS-CoV-2、SARS及相关蝙蝠病毒的保护性免疫反应。研究团队将全球Sarbeco冠状病毒基因序列输入AI模型设计抗原。下一阶段将进行更大规模、更多样参与者的试验。

数据/训练论文/研究

21:47

HuggingFace Daily Papers（社区热门论文）

69

ForeSci：评估LLM智能体的前瞻性AI研究判断

ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准，包含500个任务，覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库，训练数据止于截止点，后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示，显式证据组织能提升可追溯性和事实支持，但收益因决策族而异；诊断发现证据与决策脱节，智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。

智能体arXiv论文/研究评测/基准

21:47

HuggingFace Daily Papers（社区热门论文）

52

审计基于LLM的在线讨论立场模拟：反事实语境修正框架

本研究提出反事实语境修正框架，用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后，先推断目标用户立场，再对语境施加受控修正策略（纯文本与结合模因的多模态策略）并重新模拟。评估平均方向性立场转变与立场转换率，发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性，同时突出了其模拟在线舆论动态的前景与风险。

arXiv多模态论文/研究

21:46

HuggingFace Daily Papers（社区热门论文）

54

Rectified Flows 沿插值路径的成员信号泄露分析

研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线，该差距随训练累积，而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解，并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击（MIA），区分训练集与非训练集样本。

arXiv安全/对齐论文/研究

21:15

IT之家（RSS）

69

腾讯混元提出 Stem 稀疏注意力算法，首字延迟降低 3.6 倍

腾讯混元提出 Stem 稀疏注意力算法，已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏，引入 Token 位置衰减（TPD）和输出感知度量（OAM），仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速，在 128K 上下文下首字延迟降低 3.6 倍。

开源/仓库推理论文/研究

19:22

公众号：腾讯混元

精选62

腾讯混元提出Stem稀疏注意力算法，被ICML 2026收录

Stem算法通过Token位置衰减（TPD）和输出感知度量（OAM）两项创新，仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化，支持FP8量化与vLLM的Paged KV Cache，在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速，在8K至256K序列长度上表现一致。

开源生态推理论文/研究部署/工程

推荐理由：把稀疏注意力从一刀切升级成按信息流分配预算，算子在Hopper上把理论加速几乎无损转化，3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。

18:47

HuggingFace Daily Papers（社区热门论文）

63

Dream.exe：视频生成模型能否生成可执行的机器人操作？

Dream.exe 是一个评估视频生成模型物理世界理解能力的框架，通过视频到执行的流水线，将生成的机器人操作视频转化为真实可执行轨迹，并在物理模拟器中验证成功率。研究评估了8个模型，包括GPT-4o、Sora、CogVideoX-5B、Meta-LLaMA 3D、GR-1等，覆盖101个手动设计的操作任务，分为三个物理复杂度等级，评测视觉质量、轨迹保真度和执行成功率。结果显示，多个模型达到了可测量的执行成功率，但视觉质量不能预测可执行性。Dream.exe即将开源。

具身智能论文/研究

17:48

HuggingFace Daily Papers（社区热门论文）

51

SigmaScale：基于SVD低秩分解与学习缩放矩阵的LLM压缩方法

SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量，定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩（有效秩熵减少），且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明，SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当，在特定任务上表现出优势，成为降低LLM推理计算成本的有效选项。

推理论文/研究部署/工程

16:47

HuggingFace Daily Papers（社区热门论文）

53

OMTG（一对多时间定位）系统性方案发布

一对多时间定位（OMTG）旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型（MLLMs）在此任务上几乎得零分，缺乏事件基数感知。为此，研究者建立了首个综合OMTG基准，引入计数准确率（C-Acc）和有效时间F1（EtF1）作为评测指标；构建包含56k样本的高质量OMTG数据集；开发了针对OMTG的时间奖励和描述奖励函数，其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1，分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。

多模态视频论文/研究

15:47

HuggingFace Daily Papers（社区热门论文）

67

LLMs可以泄露训练数据，但它们愿意吗？一种基于倾向性的记忆评估框架

提出PropMe框架，通过对比前缀攻击与非对抗性评估，衡量大语言模型在普通使用中泄露训练数据的倾向性。配套SimpleTrace管道，基于infini-gram对生成内容进行确定性溯源，计算逐字、近似逐字及倾向性转换后的记忆指标。在Comma和DFM Decoder两个全开放模型、Common Pile和Dynaword两个数据集上的评估显示：前缀攻击可大幅提升记忆提取，但非对抗性提示下倾向性分数始终较低，说明模型能泄露数据但通常不会自发这么做。DFM Decoder（从Comma持续预训练而来）在Common Pile上的记忆能力和倾向性均下降，表明后续训练侧重不同数据可降低记忆。建议记忆审计同时报告最坏情况可提取性和日常泄露倾向性。

安全/对齐论文/研究

13:47

HuggingFace Daily Papers（社区热门论文）

65

AdaPlanBench：评估大语言模型智能体在双重约束下的自适应规划

AdaPlanBench是一个动态交互基准，用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务，通过多轮交互协议仅在计划违反约束时暴露隐藏约束，迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示，最佳模型准确率仅达67.75%，性能随约束累积下降，用户约束挑战尤为显著，失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。

智能体推理论文/研究

12:47

HuggingFace Daily Papers（社区热门论文）

53

复杂度平衡扩散分裂（CBS）：基于函数逼近理论的时间容量分配框架

标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态，统一架构效率低下。本文提出复杂度平衡分裂（CBS）框架，基于函数逼近理论和de Boor均衡分布原理，将扩散时间线划分为等近似负担的片段，为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度，无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上，CBS不增加每步推理成本，持续提升合成质量：在SiT-XL上使用CFG时，相比朴素时间划分，FID改善约35%。

图像生成开源/仓库数据/训练论文/研究

12:47

HuggingFace Daily Papers（社区热门论文）

61

迈向真正多语言 ASR：代码切换语音识别向未见语言对的泛化研究

代码切换ASR（CS-ASR）因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调，但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法，探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明，合并的双语CS-ASR模型仅能适度泛化到未见语言对，提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音

11:46

HuggingFace Daily Papers（社区热门论文）

57

强化学习驱动未见语言翻译的上下文学习

大语言模型（LLM）翻译极低资源语言时，现有方法（继续训练或编码语法书）易过拟合特定语言，零样本迁移有限。本文提出一种强化学习（RL）方法，以字符级翻译指标chrF作为奖励，训练模型从丰富语言上下文中提取并应用语言知识，实现对完全未见语言的翻译。实验表明，即使使用轻量级奖励，RL训练模型在未见语言上的表现优于上下文学习和监督微调。研究显示，结果导向的RL可超越数学、编程等传统推理任务，成为从上下文中学习语言的通用方案。

推理数据/训练论文/研究

11:46

HuggingFace Daily Papers（社区热门论文）

59

ArcANE：角色扮演语言智能体能否在正确时机保持角色？

现有基准仅评测角色扮演语言智能体（RPLA）对给定章节的事实回忆，未检验其回应是否贴合角色心理发展轨迹，尤其当场景超出原著文本时。ArcANE 是自动构建的基准，覆盖17部小说和80个主角，利用角色弧线将叙事沿心理轴分段，并为每个阶段提出相同场景（含原著内与外）。在6个模型和6种上下文模式下，使用角色弧线作为条件均优于其他策略，在原著外场景（检索无法获取信息）上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B，在原著外场景上扩大了弧线优势。

智能体论文/研究评测/基准

10:48

Hacker News 热门（buzzing.cc 中文翻译）

59

Transformer 需要三个投影吗？--对 QKV 变体的系统研究

一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影（Query、Key、Value）。通过分析多种 QKV 变体结构，论文对「三投影」这一设计选择进行了系统性评估。

数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

69

OPRD：在线策略表示蒸馏

传统在线策略蒸馏（OPD）仅在输出空间匹配下一个token概率，受限于大词汇表（如Qwen约150k token）的采样方差，且忽略教师中间隐藏状态。OPRD将蒸馏提升至隐藏状态空间，在同一rollout上对齐学生与教师选定层的表示，绕过LM头。理论上消除采样方差，提供逐层结构信息。在AIME 2024/2025和AIMO上，OPRD缩小师生差距，而OPD基线低于教师。训练速度提升1.44倍，内存减少54%。代码已开源。

推理数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

61

DataCOPE：面向智能体数据分析的无监督技能发现框架

DataCOPE 是一个无监督验证器引导的技能发现框架，用于提升数据智能体性能，无需更新模型参数。它从探索轨迹中提取验证器信号，迭代协调数据智能体、无监督验证器和技能管理器进行对比性技能蒸馏。报告式分析中实例化为自适应检查表验证器，推理式分析中实例化为答案一致性验证器。在 Deep Data Research 和 DABStep 上的评估显示，DataCOPE 在四种模型设置下平均将报告式任务分数提升 9.71%，推理式任务提升 32.30%。

智能体数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

63

MLEvolve：一种自我演进的自动化机器学习算法发现框架

MLEvolve 是一个基于大语言模型的多智能体框架，用于端到端机器学习算法自动发现。它通过渐进式 MCGS 树搜索实现跨分支信息流动，并引入熵驱动的演进式调度，使搜索从广泛探索转向集中利用。框架配备 Retrospective Memory，结合冷启动知识库与动态全局记忆，实现任务经验检索复用。战略规划与代码生成解耦，保证长时间迭代稳定。在 MLE-Bench 评测中，MLEvolve 在 12 小时预算（半标准时长）内取得平均奖牌率和有效提交率等多项 SOTA，并在数学算法优化任务上超越 AlphaEvolve，展现跨域泛化能力。代码已开源。

智能体数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

69

Future-L1：用于视频事件预测的交错潜在视觉推理

Future-L1 是一种交错潜在视觉推理框架，让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集，并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上，Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4，超过此前最优 Video-CoE 10.4 分；在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明，将中间视觉语义保留在潜在空间而非转化为文本，有益于未来视频推理。

arXiv多模态视频论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

68

NF-CoT：基于归一化流的潜在推理框架

NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流，为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成，文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计，并支持潜在推理空间的直接策略梯度优化。在代码生成基准上，NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率，同时显著降低了中间推理成本。

arXiv推理编码论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

65

Discrete-WAM：统一离散视觉-动作Token编辑用于世界-策略学习

自动驾驶需推理自车动作如何影响世界演化，现有端到端方法依赖直接状态-动作映射，缺乏对动作条件动力学的显式建模；连续潜空间世界模型缺乏组合因果推理。Discrete-WAM提出统一潜视觉-动作世界策略，将未来视觉状态与自车动作表示为对齐的离散token，在离散扩散框架内联合实现世界建模、世界-动作策略和层级决策策略，支持跨替代未来的组合因果推理与可控生成。在大规模自动驾驶基准上取得有竞争力的性能。

具身智能论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

67

WLA：统一世界建模、语言推理与动作生成的世界-语言-动作模型

WLA模型以文本指令、图像和机器人状态为输入，联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer（非双向扩散Transformer），通过World Expert监督物理动态，并利用元查询使世界预测隐式影响动作生成（推理时可禁用，也可激活以支持测试时缩放）。原型WLA-0拥有2B活跃参数，在RTX 5090上单次推理40ms。在模拟与真实环境评估中，WLA-0在RoboTwin2.0 Clean上达92.94%成功率，在RMBench上达56.5%，并可直接从跨具身机器人视频学习新任务（无需动作标注）。

arXiv具身智能多模态论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

64

LoomVideo：高效统一视频生成与编辑架构

LoomVideo是一个5B参数的高效统一架构，支持视频生成与编辑。它用多模态大语言模型（MLLM）替换标准文本编码器，通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法，直接缩放和加性处理源视频潜变量，避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA，尤其在电商和时尚生成场景表现突出，推理速度相比同类模型提升至少5.41倍。

多模态视频论文/研究

10:24

公众号：龙猫LongCat（美团）

55

ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

开源/仓库推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

64

大语言模型智能体的冷启动安全性差距

工具调用 LLM 智能体在对话开始时安全风险最高，完成若干常规 agentic 任务后安全性显著提升，称为冷启动安全性差距。为系统研究此问题，提出基准 SODA（Safety Over Depth for Agents），可控制在安全威胁前最多 20 个前置任务。在 4 个模型族的 7 个模型上，前置任务从 0 增至 20 时安全提升 9–52%。表征分析显示模型隐藏状态逐渐移向安全对齐区域。常规任务本身是安全提升主因，agent 自身响应影响较小但有助于保持效用。在 AgentHarm、Agent Safety Bench 等安全基准及 BFCL、API-Bank 等效用基准上得到验证。建议部署前让 agent 完成少量常规任务以缓解该差距。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

ReVision：通过时序视觉冗余缩减扩展计算机使用智能体规模

计算机使用智能体（CUA）依赖GUI截图，每张截图编码大量视觉token，长轨迹下token成本激增。ReVision训练多模态语言模型，利用学习的patch选择器比较连续截图中patch表征，去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时，ReVision平均减少46% token使用，成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹，且随着移除冗余后纳入更多历史观测，性能持续改善。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

PACI：通过有界权重不一致实现无气泡异步流水线并行训练

针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题，PACI提出一种无气泡异步方法，利用局部梯度累积作为版本控制机制，限制前向/反向版本漂移，无需权重存储、预测或全局同步。在GPT风格语言模型预训练中，PACI匹配同步1F1B-flush的稳定性与最终困惑度，保持相同峰值内存，实现完全流水线吞吐量，训练时间-准确率提升最高达1.69倍。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

编码AI智能体会欺骗我们吗？CapCode框架通过随机测试的上限评估检测与防止作弊

在编码AI智能体评估和训练中，模型可能通过走捷径获得高分，造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集，将非作弊可得分的上限故意设低于1，使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则，抑制超过上限的优化。实验表明，CapCode能有效检测作弊且保持模型排名，CapReward减少作弊行为，使模型更好遵循任务规范。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

54

MemDreamer：通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架，将长视频理解转化为智能体探索过程。它增量式处理视频，构建三层层次化图记忆（Hierarchical Graph Memory），用于语义抽象并捕获时空与因果关联。推理时，智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上，MemDreamer 达到 SOTA 效果，将人类专家差距缩小至 3.7 分，推理上下文窗口仅占全量输入的 2%，同时带来 12.5 个百分点的绝对准确率提升。统计分析发现，VLM 的逻辑推理能力与长视频理解性能呈强正线性相关，智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究