AIHOT

全部动态资讯 · 1789 条

5月22日周五

5月21日周四

5月22日

08:00

HuggingFace Daily Papers（社区热门论文）

BrainCause 是一个自动化框架，结合生成模型与脑模型，通过合成受控刺激并进行因果测试来验证人脑中的神经表征。给定目标概念，框架构建由概念图像、去除目标概念的反事实编辑图像及相关干扰项组成的刺激集，利用图像到 fMRI 编码模型预测脑反应，识别对目标概念具有特异性的表征。该方法在预测和实测 fMRI 数据上成功复现已知功能定位，并发现数十个概念的新候选表征。关键结论：仅凭激活强度不足以证明表征存在，缺乏因果验证会导致大量假阳性定位。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多智能体强化学习何时改善LLM工作流程：工作流程、规模与策略共享的权衡

本文研究了端到端强化学习训练多智能体大语言模型工作流程的两种策略：Shared-Policy（所有角色更新同一策略）和Isolated-Policy（每个角色拥有独立参数）。实验矩阵覆盖了Eval-Opt、Voting和Orch-Workers三种工作流程，数学与代码任务，以及0.6B、1.7B、4B三种模型规模。研究发现，多智能体强化学习通常能改善基模型性能，但增益取决于工作流程、任务和模型规模的共同作用。Isolated-Policy往往能达到更高峰值准确率，但更容易出现性能悬崖；Shared-Policy训练则会将失败模式重新分配为不同的模式。策略共享并非提供均匀稳定性，而是在不同渠道分配训练压力，是一种具有工作流程和任务条件性权衡的设计选择。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

One-Forcing：实现稳定的单步自回归视频生成

针对现有少步自回归视频生成方法在单步设置下面临的质量下降与训练不稳定问题，One-Forcing提出了一种将DMD目标与辅助GAN损失相结合的方法。该方法实现了高质量且高效的单步视频生成。在VBench评测中，它取得了83.76的总分，达到单步因果视频生成的最先进水平，并与强大的多步方法性能相当。研究表明，One-Forcing仅用chunkwise模型三分之一的训练成本，就能稳定实现单步帧级自回归生成。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

语音识别中面向低资源与口音鲁棒性的凸语言检测

全球语音多样性导致现有语音对话系统在处理方言和口音时易误识别语言，引发下游任务失败。为此，研究提出Convex Language Detection框架，将凸优化技术集成到系统中。该方法基于多GPU ADMM在JAX中高效实现，具有全局最优性保证和快速训练能力，并从理论上证明了其稳定性与鲁棒性。实验表明，在低资源场景下，该框架实现了97-98%的语言检测准确率，展现出高样本效率。相关开源工具包已发布。

开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

打破概率的枷锁：中立逻辑作为大语言模型认知不确定性建模的新框架

研究团队提出将中立逻辑应用于大语言模型（LLM）以建模认知不确定性。该框架将真、不确定、假视为三个独立维度，允许其值之和大于1。实验在OpenAI GPT模型家族上进行，测试了逻辑悖论等五种语言现象，并对比了三种提示策略。结果发现，中立逻辑方法在35%的评估中自发出现“超真理”状态，能更丰富地表示模型内部状态，有助于识别与量化模型冲突，为构建更透明、可靠的AI系统提供方法。

OpenAI推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛（SMC）虽能实现渐近精确采样，但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似，成为推理瓶颈。为此，本文提出对比分布匹配（CDM）框架，通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时，梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明，评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下，CDM性能优于现有基线，并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FastKernels：面向生产环境的GPU内核生成基准测试

现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核，忽略了实际的编译技术栈，并奖励复现已知优化而非发现新方法。为此，我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准（其内核覆盖了96.2%的HuggingFace Transformers架构），也是一个极简的生产级推理框架，性能与vLLM和SGLang等成熟系统相当。实验表明，最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速，证实了基准与生产环境的错位是关键瓶颈。

开源生态推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

EvalVerse：面向专业电影视频生成的流程感知与专家校准基准测试

生成式视频模型正迈向专业电影合成，但现有评估主要关注“是否正确”，忽略了“是否优秀”的电影质感。为此，本文提出EvalVerse，一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程（前期、制作、后期）对齐；其次利用大规模人工标注数据集凝练专家判断；最后通过专家校准微调将知识注入视觉语言模型（VLM），使其能进行明确的思维链（CoT）推理。该框架在兼容基础“正确性”指标的同时，将评估显著扩展至“优秀度”，并覆盖多镜头序列与视听整合等复杂任务，为奖励模型等未来研究提供了基础。

视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

迈向评测工程：ML评测框架的野外实证研究

研究者对57个机器学习评测框架进行了实证分析，提出一个五阶段框架模型，并分类了16,560个操作问题。研究发现，大多数挑战集中在规范阶段，占问题的41.4%。未实现的功能、文档缺失和输入验证不足这三类根本原因，合计占已分类问题的61.7%。不同工作流阶段的根本原因各异：环境不兼容和外部依赖失效占配置阶段问题的36.2%；算法错误与验证缺失则是评估阶段的主导原因。

arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CoSPlay：通过自生成代码与单元测试的测试时合作自博弈

CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架，其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为：探索多样化方案并识别潜在失败模式以生成有区分度的单元测试；利用代码-单元测试执行矩阵中的双向通过计数信号，迭代修剪或修复弱代码、刷新或替换不可靠测试，使两个候选池协同演进；最终从最大输出共识簇中选择代码，因为正确代码对相同输入的输出一致。在四个基准测试上，应用于Qwen2.5-7B-Instruct时，将平均BoN从22.1%提升至33.2%，单元测试准确率从14.6%提升至78.3%，性能匹配或超越RLVR模型CURE-7B；应用于CURE-7B时，可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力，且在可比的token预算下优于无GT数据的TTS基线，性能随预算增加持续提升。

推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CRONOS：视频模型反事实物理一致性基准测试

CRONOS是一个基于干预的基准测试，旨在评估视频生成模型的反事实物理一致性，即模型能否对输入的受控视觉变化（如视角、场景、物体类别和外观）做出恰当响应。它在高保真度的 Unreal Engine 环境中构建，能够系统地对上述四个因素进行干预，同时保持物理事件（如碰撞、遮挡）不变。对近期开源视频生成模型的评估表明，它们在该测试上存在显著失败：同一物理事件的预测质量会受到物体外观、环境，尤其是视角变化的严重影响。该基准提供了一个可控且可复现的测试环境，用于诊断模型在不同干预条件下生成视频质量的变化。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

揭示大型推理模型中的隐藏批判机制

本研究探究了大型推理模型（LRMs）的错误恢复机制。通过在推理步骤中插入算术错误，发现了一个关键现象：即使错误贯穿整个思维链（CoT）而未被语言化纠正，模型在思考结束后仍能输出正确答案。这证明模型内部存在一种“隐藏批判能力”来检测错误并触发纠正。基于特征空间分析，研究者识别出一个可解释的批判向量来表征该行为。跨模型规模和家族的实验表明，利用此向量引导潜在表示，能在不增加训练成本的情况下，提升模型的错误检测能力并增强测试时扩展性能。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

着色噪声：对抗性Sobolev对齐实现保真图像超分辨率

图像超分辨率（SR）中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架，通过“着色”噪声转换核以匹配自然图像频谱衰减，将生成流重构为Sobolev诱导的黎曼几何，从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器，该对抗器生成等价于最差Sobolev梯度的负样本，沿可行结构失败的切线空间引导优化。评估表明，ASASR在保持频谱一致性与结构保真度方面优于现有生成方法，能有效缓解伪影。

arXiv图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HorizonStream：面向流式三维重建的长时域注意力

HorizonStream 将几何传播形式化为证据影响核，并将其分解为长时域和短时域因子。长时域因子采用几何线性注意力学习通道级衰减率，实现几何证据的有界、多时间尺度传播。短时域因子结合几何局部注意力与时空旋转位置编码，执行可靠三维匹配并抑制注意力尖峰。最终，通过度量读出 token 从持久几何状态中恢复稳定尺度与刚性位姿。该模型仅用 48 帧片段训练，即可在恒定内存与线性时间下，稳定泛化至超过 10,000 帧的序列，达到了流式三维重建的先进性能。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillEvolBench：评估从情景经验到程序性技能的演进

该研究提出了SkillEvolBench，一个用于评估大语言模型智能体能否将情景经验提炼为可复用程序性技能的诊断基准。基准包含180个任务，分布在六个真实智能体环境中。测试发现，当前智能体通常只能局部适应，很少能形成稳健的可复用技能。基于技能的条件有时能改善获取或重放，但在冻结部署任务下表现不稳定。原始轨迹重用经常优于蒸馏的技能，表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序性线索。研究基于十个模型配置和三个智能体工具包，指出仅写入更多技能或更大的资源库并不足够。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

QUEST：用全合成任务训练前沿深度研究智能体

QUEST是一个参数规模从2B到35B的开源模型家族，旨在作为通用深度研究智能体，处理广泛的长期搜索任务，在事实查询、引用定位和报告合成方面能力突出。其训练方案结合了中期训练、监督微调与强化学习，核心是基于统一评分树的合成数据流水线，能为多样任务类型自动生成带可验证奖励的训练数据，无需人工标注。模型还内置上下文管理机制以支持长期推理。仅用8K个合成任务，QUEST在八个深度研究基准上接近或超越前沿闭源智能体，并在近期开源智能体中综合性能最佳。项目已开源所有模型、数据与训练脚本。

智能体搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Foundation Protocol：面向智能体社会的协调层

自主智能体正从工具演变为社会基础设施的一部分，其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol（FP），一种图优先的协调层，用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体，支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议，支持渐进式采用，在保持智能体可组合性的同时，确保问责制的不可妥协性。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoResearch AI：面向科学发现的AI驱动科研自动化

本综述探讨AI系统如何将科学研究从提供孤立辅助，推向覆盖文献综述、假设生成、实验、验证和报告等环节的工作流自动化。提出了“AutoResearch”概念，即AI驱动的科研自动化发展谱系，其中“Vibe Research”代表人类主导的提示词辅助与验证阶段，而新兴的AI主导系统则试图协调更多发现环节，但尚未实现稳健自主性。当前系统在自主性、领域覆盖和验证机制上仍显碎片化，并面临证据保存、可复现性等挑战。文章围绕文献基础、假设形成、实验工具使用、反馈验证和报告交流五个工作流条件展开分析，并提出了从新颖性、有效性、影响、可靠性和溯源五个维度进行评估的框架。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhotoFlow：智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统，能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试，涵盖47个Blender场景和141个基于语言的摄影任务。实验表明，在六轮渲染预算的设置下，PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作，展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中，已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

视觉几何Transformer的Token选择指南

视觉几何Transformer是多视图3D重建的有力架构，但其全局注意力机制导致计算成本随输入序列长度二次增长。为此，研究提出一种通用的token选择策略，以限制每个查询交互的key/value token数量。该策略采用两阶段框架：首先在帧间通过多样性策略保留关键帧，然后在选定帧内基于注意力熵进行层级稀疏化以移除冗余token。实验表明，该方法在包含500张图像的场景中能加速超过85%，同时保持甚至提升基线性能，为该类架构提供了更优的速度-精度权衡。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PiD：基于像素扩散的快速高分辨率潜在解码

PiD是一种将潜在解码重构为条件像素扩散的解码器，统一了图像解码与上采样。它通过直接在高分辨率像素空间进行去噪，支持4倍及8倍上采样，并具有低延迟。模型采用轻量级sigma-aware适配器注入噪声潜在变量，允许提前终止潜在扩散过程；并利用DMD2进行蒸馏，将推理步骤压缩至4步。PiD兼容传统VAE潜在变量与语义潜在变量。在RTX 5090上，可将512x512潜在变量解码为2048x2048像素，耗时低于1秒，峰值内存13GB；在GB200 GPU上最快仅需210毫秒。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillOpt：面向智能体技能的可控文本空间优化框架

SkillOpt是一个系统性可控文本空间优化器，用于智能体技能。它通过独立的优化模型，将带分数的执行轨迹转换为对单一技能文档的有限编辑（增/删/改），且仅当编辑能严格提升验证集分数时才被接受。该技能被视为冻结智能体的外部状态进行训练，并包含文本学习率预算等机制以保持稳定性，部署时不增加额外推理调用。实验表明，在GPT-5.5上，SkillOpt在直接聊天、Codex循环和Claude Code中分别实现了平均无技能准确率+23.5、+24.8和+19.1分的提升。优化后的技能在跨模型和跨环境迁移时仍保持价值。

智能体arXivOpenAI论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从原始经验到技能运用：模型生成智能体技能的系统性研究

语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期（经验生成、技能提取与技能运用），构建了涵盖五个多样化任务领域的效用评估框架。研究发现，模型生成的技能平均有益，但存在显著的负面迁移现象；技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能，用于指导技能提取过程，以提升技能质量并减少负面迁移。

智能体arXivMCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型作为噪声信道：从香农视角看模型容量与缩放定律

现有大语言模型缩放定律多为单调幂律，无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law，将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输，模型参数映射为信道带宽，训练token映射为信号功率。该框架揭示LLM存在基本容量极限：若无法维持足够信噪比，盲目扩大规模将放大噪声，导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底，并具备外推能力：用不超过6.9B参数、180B token训练的模型，可预测未见过的12B模型在307B token时的表现，池化R²达0.847。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GenRecon：连接生成先验用于多视角三维场景重建

该方法提出一种高保真多视角三维场景重建方案，核心是将重建过程与强大的生成式3D先验紧密耦合。具体做法是将场景划分为多个空间局部重叠的区块进行条件化3D生成，并提出一种基于投影的条件机制，将多视角图像特征提升为与生成模型对齐的、空间锚定的连贯3D表示。该方法以Trellis.2等前沿生成模型为基础，将其对象级能力推广至场景级别，最终生成可编辑的PBR网格重建结果。在室内环境重建任务上，其保真度优于现有尖端方法16%。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ETCHR：通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器，针对语言端与生成端两个缺陷进行两阶段训练：先通过监督微调进行推理模仿，再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示，ETCHR分别将通义千问（Qwen3-VL-8B）的平均Pass@1从55.95提升至60.77，Gemini-3.1-Flash-Lite从65.08提升至70.55，以及月之暗面（Kimi K2.5）从76.55提升至81.16。

多模态推理论文/研究

00:26

The Decoder：AI News（RSS）

精选80

OpenAI以"AI数学里程碑"突破自动推理边界，专家正在解析其意义

OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具，而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”，并警告称，我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。

OpenAI推理论文/研究

关联讨论 13 条

推荐理由：这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想，菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’，不是 hype，是界限真的被推了一把。

5月21日

16:59

IT之家（RSS）

嫦娥六号补上关键"碎片"，我国团队成功绘制最精确月球化学成分图

中国科学院团队利用嫦娥六号从月球背面带回的1935.3克样本，结合AI模型校准遥感数据，成功绘制出迄今最精确的月球全球化学成分图。新地图修正了月背高地成分认知，显示其富铝、富钙，低铁、低钛，并重新界定了南极-艾特肯盆地边界，表明撞击挖掘范围更广。该研究为未来月球探测，特别是南极-艾特肯盆地的探索，提供了关键科学导航图。

其他多模态

14:58

IT之家（RSS）

AI 推翻著名几何猜想，OpenAI 宣布攻克 80 年数学难题

OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想，推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出，长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系，这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示，这意味着AI已具备更强推理能力，并将对科学多领域产生深远影响。

OpenAI推理论文/研究

关联讨论 13 条

14:10

HuggingFace Daily Papers（社区热门论文）

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv多模态推理论文/研究

14:10

HuggingFace Daily Papers（社区热门论文）

只需最少RLVR训练：通过秩-1轨迹外推大语言模型

研究发现，强化学习与可验证奖励训练大语言模型时，权重变化轨迹具有极低的秩且高度可预测，性能增益主要由秩-1逼近捕获，且随训练步骤线性演化。基于此，提出RELEX方法，仅需从短观察窗口估计秩-1子空间，通过线性外推预测后续检查点，无需学习模型。在多个模型上，RELEX仅需15%的完整训练步骤，即可在域内和域外基准上匹配或超越RLVR性能，并能以零额外成本外推至观察窗口的10-20倍，性能持续提升。成功源于秩-1投影实现的“去噪”效应，有效剔除随机优化噪声。

开源生态推理数据/训练论文/研究

13:10

HuggingFace Daily Papers（社区热门论文）

IndusAgent：用智能工具强化开放词汇工业异常检测

针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈，本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集，并通过动态调用外部工具（如动态裁剪、特征增强）主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率，在五个工业基准测试中实现了零样本性能的最先进水平，展现出优异的泛化能力。

智能体多模态数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

高效预训练新范式：HRM-Text模型

本文提出HRM-Text，一种受生物系统启发的预训练新范式。它以分层循环模型取代标准Transformer，将计算解耦为慢速策略层和快速执行层，并使用指令数据进行训练。一个仅10亿参数的HRM-Text模型，使用400亿令牌、在1500美元预算内训练，即可在MMLU等多个基准上取得与2-7B开源模型竞争的成绩。相比标准方法，其训练数据量与计算量大幅减少，证明了架构与目标的协同设计能显著降低预训练门槛。

数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

iTryOn：基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务，针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动，面临从标准姿势解析语义模糊性，以及从稀疏互动视频中学习复杂形变两大挑战。为此，我们推出iTryOn框架，基于大规模视频扩散Transformer，设计多级交互注入机制：空间层面引入服装无关的3D手部先验，精确引导手-服装接触；语义层面通过全局描述与时间戳动作描述协同，并借助动作感知旋转位置嵌入进行时序同步。实验表明，该方法在传统基准达到最优性能，并在交互场景中取得显著优势。

多模态视频论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

DPO与RLHF等价性的条件性：隐含假设、失效模式与可证明对齐

本文证明直接偏好优化（DPO）与人类反馈强化学习（RLHF）的等价性并非普遍成立，其依赖于一个常被违反的隐含假设：RLHF最优策略必须倾向人类偏好回答。当该假设不成立时，DPO会优化相对于参考策略的相对优势，而非与人类偏好的绝对对齐，导致策略虽降低损失却偏好不良回答。为此，我们提出受约束偏好优化（CPO），通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释，并证明CPO能在保持简洁性的同时确保对齐。基准测试表明，CPO取得了最先进的性能。

安全/对齐数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

OcclusionFormer：为基于布局的图像生成安排Z轴顺序

针对现有布局到图像模型在遮挡区域生成模糊、纹理缠绕及层次不一致的问题，本研究构建了包含遮挡排序与像素级标注的大规模数据集SA-Z。在此基础上，提出了OcclusionFormer，一种遮挡感知的扩散Transformer框架。该框架通过解耦实例并利用体积渲染进行合成，显式建模Z轴优先级，同时引入查询对齐损失监督单个实例以增强语义一致性。该方法有效降低了重叠区域歧义，确保了正确的遮挡依赖与结构完整，显著提升了生成精度。

图像生成论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

评估智能体计划执行流水线中的时间语义缓存与工作流优化

针对工业智能体在基准测试AssetOpsBench中，现有缓存技术因无法处理时间等动态参数而失效的问题，本研究提出了两种互补优化方案：时间语义缓存与MCP工作流优化。测试显示，MCP工作流优化（结合磁盘工具发现缓存与依赖感知并行执行）实现了1.67倍加速，将端到端延迟降低约40%；而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率，还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。

智能体arXivMCP/工具论文/研究