AIHOT

全部动态论文 · 2151 条

5月22日周五

5月21日周四

5月22日

08:00

HuggingFace Daily Papers（社区热门论文）

CRONOS是一个基于干预的基准测试，旨在评估视频生成模型的反事实物理一致性，即模型能否对输入的受控视觉变化（如视角、场景、物体类别和外观）做出恰当响应。它在高保真度的 Unreal Engine 环境中构建，能够系统地对上述四个因素进行干预，同时保持物理事件（如碰撞、遮挡）不变。对近期开源视频生成模型的评估表明，它们在该测试上存在显著失败：同一物理事件的预测质量会受到物体外观、环境，尤其是视角变化的严重影响。该基准提供了一个可控且可复现的测试环境，用于诊断模型在不同干预条件下生成视频质量的变化。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

揭示大型推理模型中的隐藏批判机制

本研究探究了大型推理模型（LRMs）的错误恢复机制。通过在推理步骤中插入算术错误，发现了一个关键现象：即使错误贯穿整个思维链（CoT）而未被语言化纠正，模型在思考结束后仍能输出正确答案。这证明模型内部存在一种“隐藏批判能力”来检测错误并触发纠正。基于特征空间分析，研究者识别出一个可解释的批判向量来表征该行为。跨模型规模和家族的实验表明，利用此向量引导潜在表示，能在不增加训练成本的情况下，提升模型的错误检测能力并增强测试时扩展性能。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

着色噪声：对抗性Sobolev对齐实现保真图像超分辨率

图像超分辨率（SR）中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架，通过“着色”噪声转换核以匹配自然图像频谱衰减，将生成流重构为Sobolev诱导的黎曼几何，从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器，该对抗器生成等价于最差Sobolev梯度的负样本，沿可行结构失败的切线空间引导优化。评估表明，ASASR在保持频谱一致性与结构保真度方面优于现有生成方法，能有效缓解伪影。

arXiv图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HorizonStream：面向流式三维重建的长时域注意力

HorizonStream 将几何传播形式化为证据影响核，并将其分解为长时域和短时域因子。长时域因子采用几何线性注意力学习通道级衰减率，实现几何证据的有界、多时间尺度传播。短时域因子结合几何局部注意力与时空旋转位置编码，执行可靠三维匹配并抑制注意力尖峰。最终，通过度量读出 token 从持久几何状态中恢复稳定尺度与刚性位姿。该模型仅用 48 帧片段训练，即可在恒定内存与线性时间下，稳定泛化至超过 10,000 帧的序列，达到了流式三维重建的先进性能。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillEvolBench：评估从情景经验到程序性技能的演进

该研究提出了SkillEvolBench，一个用于评估大语言模型智能体能否将情景经验提炼为可复用程序性技能的诊断基准。基准包含180个任务，分布在六个真实智能体环境中。测试发现，当前智能体通常只能局部适应，很少能形成稳健的可复用技能。基于技能的条件有时能改善获取或重放，但在冻结部署任务下表现不稳定。原始轨迹重用经常优于蒸馏的技能，表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序性线索。研究基于十个模型配置和三个智能体工具包，指出仅写入更多技能或更大的资源库并不足够。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

QUEST：用全合成任务训练前沿深度研究智能体

QUEST是一个参数规模从2B到35B的开源模型家族，旨在作为通用深度研究智能体，处理广泛的长期搜索任务，在事实查询、引用定位和报告合成方面能力突出。其训练方案结合了中期训练、监督微调与强化学习，核心是基于统一评分树的合成数据流水线，能为多样任务类型自动生成带可验证奖励的训练数据，无需人工标注。模型还内置上下文管理机制以支持长期推理。仅用8K个合成任务，QUEST在八个深度研究基准上接近或超越前沿闭源智能体，并在近期开源智能体中综合性能最佳。项目已开源所有模型、数据与训练脚本。

智能体搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Foundation Protocol：面向智能体社会的协调层

自主智能体正从工具演变为社会基础设施的一部分，其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol（FP），一种图优先的协调层，用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体，支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议，支持渐进式采用，在保持智能体可组合性的同时，确保问责制的不可妥协性。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoResearch AI：面向科学发现的AI驱动科研自动化

本综述探讨AI系统如何将科学研究从提供孤立辅助，推向覆盖文献综述、假设生成、实验、验证和报告等环节的工作流自动化。提出了“AutoResearch”概念，即AI驱动的科研自动化发展谱系，其中“Vibe Research”代表人类主导的提示词辅助与验证阶段，而新兴的AI主导系统则试图协调更多发现环节，但尚未实现稳健自主性。当前系统在自主性、领域覆盖和验证机制上仍显碎片化，并面临证据保存、可复现性等挑战。文章围绕文献基础、假设形成、实验工具使用、反馈验证和报告交流五个工作流条件展开分析，并提出了从新颖性、有效性、影响、可靠性和溯源五个维度进行评估的框架。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhotoFlow：智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统，能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试，涵盖47个Blender场景和141个基于语言的摄影任务。实验表明，在六轮渲染预算的设置下，PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作，展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中，已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

视觉几何Transformer的Token选择指南

视觉几何Transformer是多视图3D重建的有力架构，但其全局注意力机制导致计算成本随输入序列长度二次增长。为此，研究提出一种通用的token选择策略，以限制每个查询交互的key/value token数量。该策略采用两阶段框架：首先在帧间通过多样性策略保留关键帧，然后在选定帧内基于注意力熵进行层级稀疏化以移除冗余token。实验表明，该方法在包含500张图像的场景中能加速超过85%，同时保持甚至提升基线性能，为该类架构提供了更优的速度-精度权衡。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PiD：基于像素扩散的快速高分辨率潜在解码

PiD是一种将潜在解码重构为条件像素扩散的解码器，统一了图像解码与上采样。它通过直接在高分辨率像素空间进行去噪，支持4倍及8倍上采样，并具有低延迟。模型采用轻量级sigma-aware适配器注入噪声潜在变量，允许提前终止潜在扩散过程；并利用DMD2进行蒸馏，将推理步骤压缩至4步。PiD兼容传统VAE潜在变量与语义潜在变量。在RTX 5090上，可将512x512潜在变量解码为2048x2048像素，耗时低于1秒，峰值内存13GB；在GB200 GPU上最快仅需210毫秒。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillOpt：面向智能体技能的可控文本空间优化框架

SkillOpt是一个系统性可控文本空间优化器，用于智能体技能。它通过独立的优化模型，将带分数的执行轨迹转换为对单一技能文档的有限编辑（增/删/改），且仅当编辑能严格提升验证集分数时才被接受。该技能被视为冻结智能体的外部状态进行训练，并包含文本学习率预算等机制以保持稳定性，部署时不增加额外推理调用。实验表明，在GPT-5.5上，SkillOpt在直接聊天、Codex循环和Claude Code中分别实现了平均无技能准确率+23.5、+24.8和+19.1分的提升。优化后的技能在跨模型和跨环境迁移时仍保持价值。

智能体arXivOpenAI论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从原始经验到技能运用：模型生成智能体技能的系统性研究

语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期（经验生成、技能提取与技能运用），构建了涵盖五个多样化任务领域的效用评估框架。研究发现，模型生成的技能平均有益，但存在显著的负面迁移现象；技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能，用于指导技能提取过程，以提升技能质量并减少负面迁移。

智能体arXivMCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型作为噪声信道：从香农视角看模型容量与缩放定律

现有大语言模型缩放定律多为单调幂律，无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law，将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输，模型参数映射为信道带宽，训练token映射为信号功率。该框架揭示LLM存在基本容量极限：若无法维持足够信噪比，盲目扩大规模将放大噪声，导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底，并具备外推能力：用不超过6.9B参数、180B token训练的模型，可预测未见过的12B模型在307B token时的表现，池化R²达0.847。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GenRecon：连接生成先验用于多视角三维场景重建

该方法提出一种高保真多视角三维场景重建方案，核心是将重建过程与强大的生成式3D先验紧密耦合。具体做法是将场景划分为多个空间局部重叠的区块进行条件化3D生成，并提出一种基于投影的条件机制，将多视角图像特征提升为与生成模型对齐的、空间锚定的连贯3D表示。该方法以Trellis.2等前沿生成模型为基础，将其对象级能力推广至场景级别，最终生成可编辑的PBR网格重建结果。在室内环境重建任务上，其保真度优于现有尖端方法16%。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ETCHR：通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器，针对语言端与生成端两个缺陷进行两阶段训练：先通过监督微调进行推理模仿，再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示，ETCHR分别将通义千问（Qwen3-VL-8B）的平均Pass@1从55.95提升至60.77，Gemini-3.1-Flash-Lite从65.08提升至70.55，以及月之暗面（Kimi K2.5）从76.55提升至81.16。

多模态推理论文/研究

07:10

Saining Xie@sainingxie

RAEv2通过大幅简化架构并提升通用性，在文本到图像（T2I）和世界模型等任务中实现了超过10倍的收敛速度提升，同时改善了重建与生成质量。研究团队在大量实验中发现，强大的表示编码器对像素解码器至关重要。传统评估指标（如FID）已不足以全面衡量模型性能，新的评估指标（如ep@fid-k/fdr^k）揭示了生成模型领域仍存在广阔的研究空间。

Jaskirat Singh: In Oct last year, Representation Autoencoders provided an elegant solution to unified tokenization for understanding and...

图像生成论文/研究

02:43

Ethan Mollick@emollick

似乎GPT-5.2在同行评审中达到了专家水平：45位科学家花费469小时，评估了人类与AI对82篇论文的评审。 "令人惊讶的是，当前的AI评审甚至能与《自然》官方同行评审中的顶级评审人相媲美……"尽管并非没有弱点。

OpenAI推理论文/研究

01:26

AK@_akhaliq

Mix-Quant 量化预填充，精确解码，面向智能体LLM

智能体论文/研究部署/工程

00:26

AK@_akhaliq

LongMINT 评估长期智能体系统中多目标干扰下的记忆能力

智能体arXiv推理论文/研究

00:26

The Decoder：AI News（RSS）

精选80

OpenAI以"AI数学里程碑"突破自动推理边界，专家正在解析其意义

OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具，而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”，并警告称，我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。

OpenAI推理论文/研究

关联讨论 10 条

推荐理由：这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想，菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’，不是 hype，是界限真的被推了一把。

5月21日

17:03

Orange AI@oran_ge

AI自主破解80年数学难题，里程碑式突破

OpenAI未公开的内部通用推理模型，自主解决了数学家Erdős于1946年提出的平面单位距离问题，颠覆了近80年来学界对解法结构的普遍预期。该模型通过125页思维链，创新运用代数数论工具解决离散几何问题，实现了跨领域方法论突破。更值得注意的是，该模型并非专攻数学训练，其成果表明通用推理能力达到一定阈值后可能自然催生创造性，标志着AI在基础科学领域迈出了关键一步。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 10 条

16:59

IT之家（RSS）

嫦娥六号补上关键"碎片"，我国团队成功绘制最精确月球化学成分图

中国科学院团队利用嫦娥六号从月球背面带回的1935.3克样本，结合AI模型校准遥感数据，成功绘制出迄今最精确的月球全球化学成分图。新地图修正了月背高地成分认知，显示其富铝、富钙，低铁、低钛，并重新界定了南极-艾特肯盆地边界，表明撞击挖掘范围更广。该研究为未来月球探测，特别是南极-艾特肯盆地的探索，提供了关键科学导航图。

其他多模态

15:57

Greg Brockman@gdb

AI在数学领域实现了新知识生成的里程碑式突破。OpenAI模型解决了组合几何中悬而未决的著名难题--平面单位距离问题（Erdos 1946），首次证明通过AI方法可将该问题中单位距离对的数量提升至超线性规模（n^{1+δ}），超越了以往所有人类已知的线性构造。这标志着AI从解决已知问题迈向发现新数学的重要进展。该突破引发了研究者"难以入睡"的强烈反响，被视为AGI时代临近的信号。

Alex Dimakis: A breakthrough by OpenAI in a very famous Combinatorics problem, the Planar Unit Distance problem by Erdos 1946. The pro...

OpenAI推理论文/研究

关联讨论 10 条

15:26

Rohan Paul@rohanpaul_ai

AI通用推理突破80年数学猜想

OpenAI的通用推理模型自主解决了一个自1946年以来未解的著名数学难题——平面单位距离问题。该模型没有采用专门为数学设计的定定理证明引擎，而是通过推理时增强计算能力，发现了优于传统网格结构的新构造方案。这标志着AI首次自主解决一个数学领域的核心开放问题。更重要的是，该模型能将几何问题与代数数论等深层理论连接，展示了通用人工智能在跨领域研究和拓宽人类认知边界方面的巨大潜力。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 10 条

15:26

Rohan Paul@rohanpaul_ai

小模型大智慧：随机推理实现性能超越

仅1000万参数的GRAM模型，通过引入可学习的随机性，在推理时并行探索多条不同路径，打破了传统递归模型锁定单一思维的限制。该模型在测试时同时运行这些平行轨迹，并借助奖励预测器选择最优结果，从而在深度之上增加了“宽度”维度。实验表明，GRAM在困难数独任务上准确率高达97%，远超此前最佳确定性模型；在多解的皇后问题上也能维持高性能，并能高效生成有效的数独谜题。这一框架为提升小模型的推理能力提供了新思路。

推理论文/研究

14:58

IT之家（RSS）

AI 推翻著名几何猜想，OpenAI 宣布攻克 80 年数学难题

OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想，推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出，长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系，这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示，这意味着AI已具备更强推理能力，并将对科学多领域产生深远影响。

OpenAI推理论文/研究

关联讨论 10 条

14:10

HuggingFace Daily Papers（社区热门论文）

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv多模态推理论文/研究

14:10

HuggingFace Daily Papers（社区热门论文）

只需最少RLVR训练：通过秩-1轨迹外推大语言模型

研究发现，强化学习与可验证奖励训练大语言模型时，权重变化轨迹具有极低的秩且高度可预测，性能增益主要由秩-1逼近捕获，且随训练步骤线性演化。基于此，提出RELEX方法，仅需从短观察窗口估计秩-1子空间，通过线性外推预测后续检查点，无需学习模型。在多个模型上，RELEX仅需15%的完整训练步骤，即可在域内和域外基准上匹配或超越RLVR性能，并能以零额外成本外推至观察窗口的10-20倍，性能持续提升。成功源于秩-1投影实现的“去噪”效应，有效剔除随机优化噪声。

开源生态推理数据/训练论文/研究

13:10

HuggingFace Daily Papers（社区热门论文）

IndusAgent：用智能工具强化开放词汇工业异常检测

针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈，本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集，并通过动态调用外部工具（如动态裁剪、特征增强）主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率，在五个工业基准测试中实现了零样本性能的最先进水平，展现出优异的泛化能力。

智能体多模态数据/训练论文/研究

12:44

Chubby♨️@kimmonismus

OpenAI突破性解决平面单位距离问题

OpenAI内部推理模型自主解决了存在近80年的著名数学开放问题——平面单位距离问题。该模型推翻了Paul Erdős的猜想，发现了全新的点配置构造，其效率以固定多项式因子优于传统方格网格方案。证明运用了代数数论等跨学科方法，经外部数学家验证，被Fields奖得主Tim Gowers誉为“AI数学的里程碑”。这是AI首次独立解决数学领域的核心公开问题，标志着从知识复现到知识创造的重要转变，其跨领域推理能力可能为多学科研究带来深远影响。

OpenAI: Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in ...

OpenAI推理论文/研究

关联讨论 10 条

12:10

HuggingFace Daily Papers（社区热门论文）

高效预训练新范式：HRM-Text模型

本文提出HRM-Text，一种受生物系统启发的预训练新范式。它以分层循环模型取代标准Transformer，将计算解耦为慢速策略层和快速执行层，并使用指令数据进行训练。一个仅10亿参数的HRM-Text模型，使用400亿令牌、在1500美元预算内训练，即可在MMLU等多个基准上取得与2-7B开源模型竞争的成绩。相比标准方法，其训练数据量与计算量大幅减少，证明了架构与目标的协同设计能显著降低预训练门槛。

数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

iTryOn：基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务，针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动，面临从标准姿势解析语义模糊性，以及从稀疏互动视频中学习复杂形变两大挑战。为此，我们推出iTryOn框架，基于大规模视频扩散Transformer，设计多级交互注入机制：空间层面引入服装无关的3D手部先验，精确引导手-服装接触；语义层面通过全局描述与时间戳动作描述协同，并借助动作感知旋转位置嵌入进行时序同步。实验表明，该方法在传统基准达到最优性能，并在交互场景中取得显著优势。

多模态视频论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

DPO与RLHF等价性的条件性：隐含假设、失效模式与可证明对齐

本文证明直接偏好优化（DPO）与人类反馈强化学习（RLHF）的等价性并非普遍成立，其依赖于一个常被违反的隐含假设：RLHF最优策略必须倾向人类偏好回答。当该假设不成立时，DPO会优化相对于参考策略的相对优势，而非与人类偏好的绝对对齐，导致策略虽降低损失却偏好不良回答。为此，我们提出受约束偏好优化（CPO），通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释，并证明CPO能在保持简洁性的同时确保对齐。基准测试表明，CPO取得了最先进的性能。

安全/对齐数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

OcclusionFormer：为基于布局的图像生成安排Z轴顺序

针对现有布局到图像模型在遮挡区域生成模糊、纹理缠绕及层次不一致的问题，本研究构建了包含遮挡排序与像素级标注的大规模数据集SA-Z。在此基础上，提出了OcclusionFormer，一种遮挡感知的扩散Transformer框架。该框架通过解耦实例并利用体积渲染进行合成，显式建模Z轴优先级，同时引入查询对齐损失监督单个实例以增强语义一致性。该方法有效降低了重叠区域歧义，确保了正确的遮挡依赖与结构完整，显著提升了生成精度。

图像生成论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

评估智能体计划执行流水线中的时间语义缓存与工作流优化

针对工业智能体在基准测试AssetOpsBench中，现有缓存技术因无法处理时间等动态参数而失效的问题，本研究提出了两种互补优化方案：时间语义缓存与MCP工作流优化。测试显示，MCP工作流优化（结合磁盘工具发现缓存与依赖感知并行执行）实现了1.67倍加速，将端到端延迟降低约40%；而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率，还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。

智能体arXivMCP/工具论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv图像生成多模态数据/训练