AIHOT

全部动态资讯 · 1789 条

5月18日周一

5月17日周日

5月18日

08:00

HuggingFace Daily Papers（社区热门论文）

LatentUMM 是一个旨在提升统一多模态模型（UMMs）跨模态一致性的框架。研究指出，模型在理解与生成功能间的不一致，根源并非缺乏共享表征，而是映射到和出潜在空间的变换缺乏显式对齐。该框架包含两个阶段：第一阶段进行双潜在对齐，在模态层面使用更强的嵌入模型施加跨模态语义约束，在容量层面强制双向一致性；第二阶段通过随机潜在展开和偏好优化来稳定潜在动态，以保留更好的语义一致性。实验表明，LatentUMM 在不同架构上均能持续提升多模态一致性。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

See What I Mean：对齐视觉与语言表示以实现视频细粒度对象理解

本文提出SWIM（See What I Mean）训练策略，旨在使模型仅通过文本提示即可实现细粒度对象理解，无需显式的视觉提示（如掩码或点）。研究分析发现，预训练多模态大语言模型（MLLMs）的跨模态注意力存在系统性偏差：属性词在视觉模态产生清晰、局部的激活，而物体名词的模式则较为弥散。为解决此问题，研究构建了NL-Refer数据集。SWIM通过提取物体名词的多层交叉注意力图并与真实掩码进行空间一致性约束。实验表明，该方法显著提升了文本-视觉对齐，在相关基准测试上优于基于视觉提示的方法。代码与数据已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HINT-SD：针对长期智能体的定向事后知识蒸馏

使用强化学习训练长期LLM智能体面临稀疏奖励挑战，现有反馈方法存在效率低或监督错位问题。本研究提出HINT-SD框架，通过全轨迹事后分析，仅针对导致失败的关键动作区间进行基于反馈的知识蒸馏。实验显示，该方法在BFCL v3和AppWorld基准上相比每轮密集反馈基线最高提升18.80%，同时将每步训练时间降低至1/2.26。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

使用代理指标预测大型语言模型的下游性能

本研究提出了一种通过聚合模型在专家解答上的token级统计量（如熵、top-k准确率、专家token排名）来构建代理指标的方法，旨在替代传统的交叉熵损失和昂贵的下游评估。该方法在三个核心任务中表现突出：在跨架构模型选择中，其性能排名与真实下游表现高度一致；在预训练数据选择中，能以极低的计算成本可靠评估大量候选语料库；在训练过程中，能以远低于现有方法的误差进行下游准确率的长期外推预测。这表明，分析模型对专家知识的token分布是评估其能力的有效信号，能贯穿模型开发全周期，实现可靠、高效的性能预测。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Lean Refactor：基于智能体策略搜索的多目标可控证明优化

现有LLM生成的Lean证明常面临正确但冗长、跨版本易错的问题，其重构是一个涉及证明长度、编译成本与版本兼容性的多目标优化难题。Lean Refactor提出一种插件式检索增强智能体框架，它利用一个标注了版本与预期编译成本降低率的多目标策略数据库，引导冻结的LLM进行重构。实验表明，该方法在竞赛基准上实现超70%的token压缩，编译时间减少高达60%，性能优于现有工作；版本过滤检索进一步提升了压缩率，且重构后的证明表现出更强的零样本版本迁移能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniPro：全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本，覆盖9个子任务、3个认知层级和6项基础能力，其中84%样本依赖语音或非语音音频信号，并标注模态隔离标签。该基准引入探测和在线双模式评估协议，以全面测试内容理解和主动能力。对11个模型的评估揭示：音频信号能提升性能但模型利用效率差异大；性能随时间下降，长程鲁棒性不足；非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

通过变分策略蒸馏从语言反馈中学习

针对强化学习从可验证奖励中面临探索瓶颈及现有自蒸馏方法依赖固定教师导致学习停滞的问题，研究提出了变分策略蒸馏框架。该框架将语言反馈学习形式化为变分期望最大化问题，实现教师与学生策略的协同进化：在E步通过自适应信任域更新动态改进教师策略，将文本反馈转化为目标令牌分布；在M步让学生策略内化该分布指导。在科学推理与代码生成任务上的实验表明，该方法在各类诊断性反馈下持续优于标准强化学习与现有自蒸馏基线。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

迷失在折中：交叉验证并非深度集成

本研究指出医学图像分割领域常将K折交叉验证（CV）集成误称为“深度集成”（DE），这种术语混淆影响了不确定性的正确解读。研究在三个模态数据集上对比了5折CV集成与5成员DE，发现DE在保持分割精度的同时，能提升模型校准性与故障检测能力；而CV集成则更能反映标注者间的变异性。因此，集成方法的选择应与目标匹配：追求可靠性的任务（如选择性转诊）宜用DE，对数据模糊性建模则适用CV集成。文章还提供了轻量级修改nnU-Net的方法以支持DE训练。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stable Audio 3

Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族，包含小、中、大三个版本，专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频，并支持修复功能，可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器，能将音频映射至紧凑潜在空间，在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练，模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练，在 H200 GPU 上生成音频耗时不足 2 秒，在 MacBook Pro M4 上仅需数秒。目前，官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。

arXiv多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大型音频语言模型：泛化、可信度与展望

本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出，其能力提升速度已远超可信框架的构建，通过端到端架构和连续声学信号整合，攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系，并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估，揭示了成熟攻击手段与不足防御之间的严重失衡。为此，报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径，以弥合性能与可信智能间的差距。相关项目已在GitHub公开。

arXiv多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

增强无训练无限帧生成以实现一致长视频

针对基础模型生成无限长视频时存在的训练-推理不匹配与长期一致性维持难题，研究提出了一种名为MIGA的无训练长视频生成方法。该方法通过两阶段对齐机制减少输入噪声跨度，有效弥合了训练与推理的差距；并创新性地引入双一致性增强机制，结合自反射修正与长距离帧引导，利用不同噪声水平的帧信息协同提升时序一致性。在VBench与NarrLV基准测试上，MIGA以较低的额外计算开销实现了当前最优的超长视频生成性能，项目主页已公开。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

有界自主训练控制治理层：面向稳定与高效的应力条件下有界自主训练

本文提出了一种名为LBW-Guard的有界自主训练控制治理层，它运行在优化器（如AdamW）之上，而非替代优化器。该层通过监控训练数据并施加有界控制，旨在解决大语言模型训练中在高学习率、大规模或运行时压力下出现的不稳定与计算资源浪费问题。基于Qwen2.5系列模型的评估表明，在标准设置下，LBW-Guard显著降低了困惑度并加速了训练；在强大的学习率压力测试中，当传统优化器失效时，它仍能维持稳定的训练性能，而梯度裁剪等基线方法无法复现此效果。研究证实了在优化器之上引入有界控制层对于提升压力环境下训练生产力的有效性。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

互补自蒸馏：实现大语言模型语境完整性的路径

随着大语言模型日益作为处理敏感任务的智能体，如何平衡隐私保护（遵循语境完整性）与任务性能成为核心难题。现有方法常难以兼顾二者。为此，本文提出SELFCI互补自蒸馏框架，它将信息抑制与任务求解过程解耦，通过联合优化两个独立的逆KL散度目标：一个保留任务所需信息以确保效用，另一个强制实现最小化且恰当的信息披露。该框架无需外部监督，实验表明其持续优于在线强化学习等基线方法，并在跨领域的智能体工作流中同样有效，为大语言模型对齐隐私规范提供了实用方案。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongMINT：长周期智能体系统中多目标干扰下的记忆评估

LongMINT是一个评估智能体在信息不断更新、存在大量干扰的长周期环境中记忆能力的新基准。它包含平均13.88万token（最长180万token）的长上下文，涵盖状态追踪、多轮对话、维基百科修订和GitHub提交四个领域，并设置了单目标检索与多目标聚合两类问题。对7个代表性系统的测试显示，平均准确率仅为27.9%，尤其在综合多证据推理的任务上表现差。分析表明，性能主要受限于检索和记忆构建能力，且系统难以有效处理后续信息对早期事实的更新与干扰。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

伦理超速（EHV）：一种可证明确定性的智能体系统治理感知即时编译器架构

针对自主智能体系统在监管关键基础设施中面临的治理延迟问题，EHV框架通过将策略执行点迁移至推理管道，采用冲突自由复制数据类型和可信执行环境内的基于周期的认证缓存技术，实现了亚毫秒级形式确定性。TLA+形式验证表明，不合规的智能体行为在系统的有界操作状态空间中是计算不可达的，从而将治理延迟从O(天)降至O(1)。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SENSE：基于卫星的能量合成促进可持续环境

针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题，本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型，联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制，并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明，SENSE生成的图像视觉保真度高，且符合物理标准。该模型能利用少量标注数据生成合成数据集，显著提升了下游预测任务的性能并降低了误差，为城市可持续规划提供了新方案。

GitHubHugging Face图像生成开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

交互式评估需要设计科学

AI评估正经历结构性变革，因大语言模型日益作为交互系统部署，但现有评估实践仍基于静态响应基准，难以适应持续交互新模式。本文主张交互式评估应被视为独立原则性范式，其证据来源从单一响应转变为交互生成轨迹，评估过程需涵盖流程性、可恢复性、协调性、鲁棒性和系统级表现。基于此定义，提出双轴分类法、设计原则和报告标准，通过典型案例分析揭示轨迹层面评估挑战，为构建系统化交互评估框架提供理论基础。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

开放书本良性重写：通过重写防御LLM数据投毒攻击

大语言模型易受基于触发器的数据投毒攻击，现有防御效果有限。本研究提出开放书本良性重写（OBBR）方法，利用良性示例指导重写，理论上保证其将有害内容转化为良性提示的概率高于传统闭书重写。实验在五种攻击和四种模型上进行，OBBR相较现有最佳防御平均提升安全性51%，较闭书重写提升25.7%。该方法计算高效，微调后不损害模型在自然语言任务上的性能，并能有效防御非触发式数据投毒攻击。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RT-Splatting：基于高斯溅射的联合反射与透射建模

针对3D高斯溅射难以真实渲染半透明镜面物体的反射模糊与透射遮挡问题，本研究提出了RT-Splatting框架。其核心在于将高斯球的几何占据与光学不透明度解耦，从而用同一组高斯基元统一表征场景的表面与体积。通过混合渲染器，既能捕捉高频反射，又能保留清晰透射。为稳定联合优化，框架引入了镜面感知梯度门控，以抑制高镜面区域对透射分支的干扰梯度。实验表明，该方法在复杂半透明场景中实现了实时的高保真渲染，达到最先进水平，并自然支持灵活的场景编辑。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于技能程序的LLM智能体框架

为提升LLM智能体处理复杂任务的能力，HASP框架将传统文本指导技能升级为可执行的程序函数。这些函数作为主动护栏，能在易错步骤直接干预动作或注入修正信息。该框架支持推理时直接干预、后训练监督及自我进化，模块化设计灵活。实验证明，HASP在网页搜索、数学推理等任务中显著优于现有方法，仅推理阶段干预即可大幅提升性能，并为技能内化与库进化提供了机制分析。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

语言切换触发器在模型内部的潜在迂回

研究发现，在8B参数语言模型中存在一个“语言切换后门”攻击电路。一个由三个拉丁词组成的触发序列，能将英语输出劫持为法语。该电路工作分为三阶段：早期层的注意力头将触发标记组合到序列末尾；中间层的信号沿着与模型自然语言-身份方向正交的子空间传播；最终层的MLP将潜在信号转换为法语对数概率。电路通过单一位置串行瓶颈流动，破坏该位置能消除触发效应但损害模型能力。这种正交编码意味着，检测中间表征中语言信号的现有防御方法可能无法发现此触发器。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAGA：一种用于多时间概率预测的序列自适应生成架构与自适应时序保形预测

SAGA是一种基于解码器专用Transformer的序列自适应生成模型，专为处理不规则表格面板数据的时序预测而设计。它结合分割保形校准方法，为个体提供具有有限样本覆盖率保证的预测区间。模型使用瑞典1990年至2022年的纵向登记数据训练，涵盖超214万个体与6100万人次年记录，可预测未来1至30年的年度劳动收入，并通过蒙特卡洛方法聚合为折现终身收入分布。相比传统参数化过程及基线模型，SAGA在十年期预测的连续排序概率评分降低31.9%，二十年期平均绝对误差降低37.7%。其保形区间覆盖率误差不超过0.4个百分点，重构的终身收入基尼系数为0.327，接近实际值0.341，优于GKOS估计的0.378。相关模型与数据已公开以供复现。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于上下文记忆的高效长上下文生成方法

针对大语言模型在使用长上下文前缀时面临影响力衰减和计算开销大这两个问题，本文提出了一种名为“注意力状态记忆”的无训练方法。该方法将上下文前缀外化为一个轻量级、基于查找的预计算记忆库，存储了前缀与查询词之间的注意力状态。实验表明，在 LLaMA-3.1-8B 上，该方法在 1K-8K 记忆预算下提升了准确率，并将注意力计算延迟降低了 1.36 倍。同时，它在 NBA 基准测试中，仅用全注意力 RAG 20% 的内存开销，便超越了其性能表现。

Meta检索增强推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EnvFactory：通过可执行环境合成与健壮强化学习扩展工具使用智能体

EnvFactory 是一个全自动框架，旨在解决大语言模型在智能体强化学习中工具使用能力的瓶颈，即缺乏可扩展、健壮的执行环境和能捕捉隐式推理逻辑的高质量训练数据。该框架能自主探索并验证来自真实资源的有状态可执行环境，并通过拓扑感知采样与校准精炼合成自然的多轮交互轨迹，生成蕴含隐式意图的查询。仅利用7个领域中的85个验证环境，EnvFactory 生成了2,575条SFT和RL轨迹，相比传统方法环境减少五倍，却实现了更优的训练效率与下游性能，在BFCLv3、MCP-Atlas及τ²-Bench等基准上将Qwen3系列模型性能最高提升15%、8.6%和6%，为智能体强化学习提供了可扩展、可扩展且鲁棒的基础。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ESI-Bench：迈向闭合感知-行动循环的具身空间智能

研究提出了ESI-Bench基准，用于评估具身空间智能。该基准基于OmniGibson平台，涵盖10个任务类别，要求智能体主动决策以调动感知、移动和操作能力，在交互中收集证据。实验表明，主动探索显著优于被动观察，但随机多视角采集常引入噪声。研究发现，模型失败主因是“动作盲目”，即不佳的动作选择导致观测质量低下并引发连锁错误。尽管显式3D表征对深度推理有稳定作用，但不完美的3D表示会扭曲空间关系，效果反而差于2D基线。人类研究进一步揭示，与人类基于证据修正信念不同，模型倾向于过早做出高置信度决策，暴露了仅靠改进感知或交互无法弥合的元认知差距。

arXiv具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向统一多模态模型的语义生成调优

为解决统一多模态模型中视觉理解与生成任务训练脱节的问题，本文首次系统性地探索了生成式后训练方法，并提出“语义生成调优”范式。研究发现，以图像分割为代表的高层语义任务，可作为有效的生成代理，显著弥合理解与生成之间的隔阂；而低层纹理任务反而会干扰模型。该方法通过分割任务生成结构化语义，来对齐和协同多模态能力。机制分析表明，SGT能提升特征线性可分性并优化注意力分配。实验显示，SGT在主流基准测试中持续提高了模型的多模态理解能力与生成保真度。

arXiv多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Aurora：基于工具使用智能体的统一视频编辑框架

小米团队推出的Aurora是一个智能体驱动的视频编辑框架。它通过将工具增强的视觉语言模型（VLM）智能体与统一的视频扩散转换器相结合，能够将用户模糊或不完整的编辑请求，转化为结构化的编辑计划，从而有效解决现实场景中常见的信息不足或空间定位不清等问题。该框架通过监督与偏好数据训练VLM智能体，使其可完成完整的编辑规划、参考图选择及指令优化。引入的AgentEdit-Bench基准测试表明，Aurora在多项任务上优于仅依赖指令的基线模型，且该智能体具有良好的可迁移性。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Artifact-Bench：评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

研究团队提出了Artifact-Bench，一个用于评估多模态大语言模型（MLLMs）检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系，并在此基础上定义了三项任务：真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明，这些模型在瑕疵感知与推理上存在显著局限，许多模型在挑战性场景中表现接近甚至低于随机水平，且其判断与人类感知偏好存在明显偏差，凸显了其作为通用AI视频真实感评估器的可靠性不足。

arXiv多模态视频论文/研究

5月17日

16:59

The Decoder：AI News（RSS）

New math benchmark reveals AI models confidently solve problems that have no solution

64名数学家组成的联盟构建了名为SOOHAK的新AI数学基准测试，包含439道手写任务，其中99道被故意设计为无解。谷歌的Gemini 3 Pro在研究级问题上以30%的正确率领先，但没有模型在识别错误问题上的准确率超过50%。增加计算量能提升模型解题能力，却无助于其承认问题无解。该基准旨在揭示AI系统在少数亮点表现与全面研究能力之间存在的差距。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

引入有限元分析反馈的自改进CAD生成智能体

本研究提出一种更贴近工业实际的CAD生成任务，要求模型从工程描述直接生成完整的多部件STEP文件，并通过有限元分析进行验证。初始测试中，GPT-5.5和Claude Code（Opus-4.7）智能体均未生成完全通过验证的作品，最佳配置平均仅满足约20%的规范要求。为改进流程，引入了纯文本蓝图规范与21视角图像渲染器两种新的监督信号，以辅助智能体进行视觉检查与迭代。这些反馈工具提升了生成质量，使GPT-5.5/xhigh在S2O基准上的Box-IoU从0.444提升至0.592，在Fusion360基准上从0.397提升至0.505，推动CAD生成结果在满足视觉合理性的同时，更能通过物理与结构要求的检验。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Soap2Soap：基于多智能体协作的长片电影级视频重制

Soap2Soap是一个用于系列级长视频重制的多智能体框架，旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性：使用场景感知的JSON剧本作为持久的语义骨架，并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移，并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明，该方法在长程一致性与叙事保真度上显著优于商业视频生成API。

智能体arXiv多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

SaaSBench：探索长周期企业SaaS工程中编码智能体的边界

为评估AI编码智能体在企业级SaaS工程中的真实能力，研究者发布了首个专用基准测试SaaSBench。该基准包含横跨6个SaaS领域的30个复杂任务，设有5370个验证节点，整合了8种编程语言、6种数据库和13种框架，高度模拟现实软件异构性。研究设计了针对长周期、多组件耦合系统的依赖感知混合评估范式。实验发现：当前最先进的智能体主要瓶颈并非生成代码逻辑，而是成功配置与集成多组件系统；超过95%的任务失败发生在触及深层业务逻辑之前，常因过度自信出错或陷入调试循环。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Bug还是Feature^2：权重漂移、激活稀疏性与激活尖峰

研究发现，标准损失函数与正偏置激活函数（如ReLU）的相互作用，会在训练早期普遍引发与数据无关的权重负向漂移现象。该漂移在多种架构中存在，并能与ReLU结合使GPT-nano的激活稀疏度高达90%。研究分析了79种配置下的稀疏度-精度权衡，发现超过约70%的稀疏度会导致精度骤降。虽然ReLU²能取得较好的平衡，但会病态放大Transformer中间层的激活尖峰；而裁剪后的ReLU²解决了这一问题，且GELU²在GPT-nano上取得了最佳性能。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

全双工多模态交互评估基准

现有研究缺乏对实时双工全模态交互的系统评估。为此，本文提出Omni-DuplexEval基准，包含660个带人工标注的视频，涵盖实时描述和主动提醒两大场景共9个现实任务，所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架，能够联合评估响应内容与时机。实验表明，当前最优模型在主动提醒任务上表现不佳，最佳模型总体得分仅39.6%，揭示了模型在协调响应时机与内容质量方面的核心挑战。

arXiv多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

A2RBench：自动化抽象推理基准生成范式

针对现有抽象推理基准依赖人工标注或易测记忆而非真实推理的问题，本研究提出A2RBench自动生成管道，涵盖生成、扩展、评估与分析四个阶段。生成阶段利用大语言模型创建需要真实推理的任务；扩展阶段通过复用已验证规则扩展任务变体以实现规模化。为消除生成过程中的幻觉，建立了理论框架，证明程序化验证（即测试逆操作能否完美还原正向操作，保证循环一致性）可确保任务的唯一解。对主流大模型的评估显示：当前模型在抽象推理上存在根本缺陷，顶尖模型在代表性子集上的表现（39.8%）远低于人类水平（68.5%）；模型在处理3D复杂任务时表现远低于2D和1D任务，揭示了对高维任务理解不足；此外，输入信息复杂度的提升反而可能简化推理过程。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

从可运行到可交付：基于多智能体测试驱动的开发范式用于从需求生成全栈Web应用

针对编码智能体生成的Web应用超70%不满足需求的问题，本文提出TDDev框架。该框架通过三阶段实现自动化闭环：先将需求转化为结构化测试，再通过浏览器模拟交互验证应用，最后将故障转化为修复报告。首次针对Web应用生成的TDD实证研究发现，引入TDD基础设施可提升质量34-48个百分点。关键结论是最佳协议需与模型生成风格匹配，不匹配将完全抵消TDD优势并最多增加25倍Token消耗。用户研究证实，该框架使人工干预降为零，开发转向自主反馈优化。

智能体arXiv编码论文/研究

推荐理由：把TDD塞进多智能体代码生成，直接把Web应用的正确率从不到30%拉到70%以上，更重要的是他们发现给不同模型配错了开发协议反而会雪崩，做Agent工程的必读。

08:00

HuggingFace Daily Papers（社区热门论文）

OProver：一个统一的智能体化形式定理证明框架

OProver是首个将智能体化证明过程深度整合到定理证明器训练中的统一框架，而非仅在推理时应用。该框架通过持续预训练和迭代式后训练进行优化，每次迭代均执行智能体化证明，并将新验证的证明索引至OProofs数据集和检索记忆中。OProofs数据集规模庞大，包含1.77M个Lean语句和6.86M个经编译器验证的证明。基于此，OProver-32B模型在MiniF2F、ProverBench和PutnamBench三个基准测试上取得了最优的Pass@32成绩，展现了超越此前所有开源全证明证明器的性能。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Agent Bazaar：多智能体市场的经济对齐框架

Agent Bazaar是一个多智能体模拟框架，旨在评估大型语言模型作为自主经济代理时维护市场稳定与诚信的“经济对齐”能力。研究识别了两类系统性风险：B2C市场中算法引发的价格崩溃，以及C2C市场中单一欺骗性代理通过虚假身份扰乱信任的“柠檬市场”问题。现有模型大多无法自我监管，其表现与模型特性相关而非规模。研究提出“稳定企业”和“怀疑守护者”两种对齐机制，并训练出性能超越所有评估模型的9B参数代理，最终提出整合稳定性、诚信、福利与盈利性的“经济对齐评分”指标。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LiteFrame：提升视频大语言模型帧处理能力的高效视觉编码器

针对视频大语言模型处理长视频时视觉Token激增的瓶颈，本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此，我们提出了LiteFrame，一种高效视觉编码器。其核心是压缩Token蒸馏训练框架，指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示，从而避免冗余计算。结合语言模型适配后，该方案构建了新的延迟-精度帕累托前沿：与基线相比，它将端到端延迟降低了35%，可处理帧数提升8倍，同时在多个基准上提高了视频理解的平均准确率，为固定算力下理解更长视频提供了新途径。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

推理收敛时停止：面向推理模型的语义保持早退

大型推理模型通过生成长链式思考实现高性能，但常在推理已收敛后仍继续生成冗余思考，导致计算资源浪费与延迟增加。现有早退方法主要依赖答案级信号（如置信度），无法准确判断推理过程是否真正完成，易引发过早退出而影响答案准确性。新研究提出PUMA框架，通过轻量冗余检测器识别推理链中不再产生新进展的冗余步骤，结合答案验证机制，在确保答案正确性与推理链完整性的前提下实现智能截断。实验表明，该方法在五类模型与五个复杂推理基准上平均减少26.2%的生成token，同时保持推理质量，且该原理在代码生成、视觉语言推理等场景中具有可迁移性。

arXiv推理论文/研究