AIHOT

全部动态资讯 · 1789 条

5月12日周二

5月12日

15:44

HuggingFace Daily Papers（社区热门论文）

为克服混合专家模型参数量大导致的存储与访存瓶颈，研究团队提出稀疏MoE架构DECO，以适配终端设备对高性能、低计算成本和小存储开销的需求。DECO采用基于可学习专家级缩放的ReLU可微分灵活路由，自适应平衡路由专家与共享专家的贡献，并引入NormSiLU激活函数提升路由稳定性与稀疏度。实验表明，在总参数量和训练数据量相同的情况下，DECO仅激活20%的专家即可匹配稠密Transformer性能，且超越现有MoE基线；其专用加速内核在真实硬件上实现了相比稠密推理3.00倍的加速。代码与模型将开源。

开源/仓库推理端侧论文/研究

14:44

HuggingFace Daily Papers（社区热门论文）

Alpha Blending假说：深度伪造检测中的合成捷径

本文提出Alpha Blending假说，认为当前先进的深度伪造检测器主要依赖定位伪造人脸与原始帧合成时产生的低级合成痕迹，而非识别语义异常或生成指纹。实验证实检测器对自混合图像及非生成式篡改高度敏感。基于此提出的BlenD方法，仅使用真实人脸与自混合图像训练，在2019至2025年的15个复合深度伪造数据集上实现了最优的跨数据集泛化性能。通过集成显式混合搜索器与抗混合捷径的模型预测，AUROC指标提升至94.0%，达到最新最高水平。代码与模型将公开。

安全/对齐数据/训练论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题，本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化，引入基于一致性相关系数的奖励机制，在批次层面提供基于比较的监督，使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中，该方法相比监督微调和现有回归方法取得了持续改进，尤其在中等样本和少样本场景下提升显著。

多模态数据/训练论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

PaperFit：面向科学文档的视觉在环排版优化

研究团队提出了视觉排版优化任务，旨在通过迭代的视觉验证与源码修订，将可编译的LaTeX论文转化为视觉精良且符合页面预算的PDF。为此，他们构建了PaperFit-Bench基准，涵盖10种会议模板和13种缺陷类型。论文提出的PaperFit系统是一个视觉在环的智能体，能够迭代渲染页面、诊断排版缺陷并执行约束修复。实验表明，PaperFit大幅优于所有基线方法，证实了从可编译源码到可出版PDF的转化需要视觉在环的优化，且该任务是文档自动化流程中一个关键缺失环节。

论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

Shepherd：一个为元智能体提供形式化执行追踪的运行时基板

Shepherd提出了一种函数式编程模型，将元智能体对目标智能体的操作形式化为函数，其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪，支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍，重放时提示缓存复用率超过95%。应用案例表明，其实时监督可将结对编程通过率从28.8%提升至54.7%；反事实元优化在四个基准测试中最高超出基线11个百分点，同时减少高达58%的挂钟时间；在Tree-RL训练中，于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。

智能体arXivMCP/工具开源/仓库

12:44

HuggingFace Daily Papers（社区热门论文）

精选70

WorldReasonBench：面向未来世界状态预测的视频生成器人类对齐压力测试

研究团队发布WorldReasonBench基准，旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例，涵盖物理、社会、逻辑和信息四大维度及22个子类，要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法：过程感知推理验证通过结构化问答检测时序与因果错误；多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现，当前先进模型在视觉合理性与世界推理能力间存在显著差距，生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。

多模态视频论文/研究

推荐理由：视频生成越来越像真的，但逻辑和因果一塌糊涂，这个基准把问题量化了，想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。

12:44

HuggingFace Daily Papers（社区热门论文）

NanoResearch：通过技能、记忆与策略协同演化实现个性化研究自动化

针对现有AI研究系统缺乏跨项目知识复用、用户经验保留与隐式偏好学习能力的问题，本文提出NanoResearch多智能体框架。该框架通过技能库、记忆模块和无标签策略学习三层结构协同演化：技能库提炼可复用操作规则，记忆模块保存用户与项目特定经验，策略学习将自由反馈转化为规划器参数更新。三者循环促进，使系统能基于个人历史与偏好持续自我优化。实验表明，NanoResearch性能显著优于现有系统，并能随使用周期不断降低成本、提升研究成果。

智能体论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

面向智能体强化学习的动态技能生命周期管理

研究团队提出SLIM框架，用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量，通过留一验证评估技能边际贡献，并执行三项操作：保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中，SLIM平均超越最佳基线方法7.1个百分点。实验表明，策略学习与外部技能保留可共存：部分技能被策略内化，另一些则持续提供外部价值，验证了动态技能管理的普适性与优越性。

智能体MCP/工具论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

Omni-Persona：系统性全模态个性化基准测试与改进

研究团队推出首个全面的全模态个性化基准测试框架Omni-Persona，涵盖文本、图像和音频三大模态，包含4个任务组和18个细粒度任务。该研究将任务形式化为在“人物模态图”上进行跨模态路由，并提出了同时奖励正确基础定位与恰当弃答能力的校准准确率作为核心评估指标。诊断实验揭示了开源模型存在持续的音频与视觉基础定位差距，同时发现可回答召回率和参数规模不能完全诊断模型表现，而基于结果的强化学习虽泛化更一致，但在当前奖励设计下会趋于保守。该基准为后续训练和奖励设计提供了关键指导。

多模态论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

G-Zero：从零数据出发的开放式生成自我博弈框架

针对大语言模型在开放域任务中依赖外部评判导致的能力瓶颈与奖励破解问题，研究团队提出无需验证器的协同进化框架G-Zero。其核心是Hint-δ内在奖励机制，通过量化生成模型在有无自生成提示条件下预测结果的偏移，为自我改进提供信号。在此驱动下，提议模型持续生成挑战性查询与提示以针对生成模型的盲点，生成模型则内化这些提示引导的改进。理论分析表明，在理想条件下，该框架具有最佳迭代次优性保证。G-Zero完全从内部动态获取监督，绕开了外部评判者的能力上限，为不可验证领域的持续模型进化提供了可扩展且稳健的路径。

数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

大语言模型中的模型合并缩放定律

研究发现语言模型合并遵循一个紧凑的幂律定律，它将模型大小与专家数量相关联：模型容量越大，其性能下限越低；而合并带来的性能提升尾部则随专家数量增加呈现明显的收益递减。该定律在领域内和跨领域均成立，紧密契合不同架构与方法下的实测曲线，并解释了大部分收益在早期获得、且性能波动性随专家增多而缩小这两个稳健规律。基于此的简单理论将性能下限和尾部与基础模型特性及领域多样性联系起来。这一定律使得预测性规划成为可能，例如估算达到目标损失所需的专家数量，或在固定预算下权衡扩展基础模型与增加专家，从而将模型合并从启发式实践转变为一种可计算、可规划的高效方案。

arXiv数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

叛逆学生：通过反转教师信号实现自蒸馏推理探索

传统自蒸馏方法在指导学生模型时，会覆盖其成功推理的路径，抑制其自主推理能力。本研究提出一种反向解读自蒸馏信号的新视角：当学生模型在教师模型未预测的路径上成功推理时，这些标记被视为其自主推理的体现。基于此，团队推出了RLRT方法，该方法在GRPO基础上强化正确生成轨迹中的此类标记，将其定义为一种基于学生自身成功的有价值探索，而非均匀多样性探索。在多个版本的Qwen3模型上，RLRT均显著超越了传统自蒸馏和基于探索的基线方法，确立了信息不对称作为强化学习与价值回归框架中一个新的原则性设计维度。

推理数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

Pixal3D：基于图像的像素对齐3D生成

针对现有图像到3D生成中像素级保真度不足的问题，研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法，通过像素回投影条件方案，将多尺度图像特征直接提升为3D特征体积，从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度，使其接近重建水平。该框架可扩展生成高质量3D资产，并能自然支持多视图生成与高保真、对象分离的3D场景合成。

arXiv图像生成多模态论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

Mela：基于转换假说的测试时记忆巩固模型

受神经科学记忆巩固理论与转换假说启发，本研究提出分层记忆模块（HMM）。该模块包含低频与高频子模块，分别生成抽象概要表征与细粒度细节表征，并通过动态重构组合输出。将其集成至Transformer解码器，形成Mela系列模型，可在测试时进行在线记忆巩固。同时引入MemStack方法，将多粒度记忆特征分布至解码器早期层。实验表明，Mela在所有模型规模上均优于Transformer基线，且在预训练上下文长度固定为4K时，能在显著更长的上下文中保持稳定性能，而基线模型一旦超出训练长度则性能急剧下降。

论文/研究

11:36

IT之家（RSS）

打破"技术黑箱"，上海 AI 实验室等攻克芯片核心材料光刻胶稳定制备难题

上海人工智能实验室联合厦门大学、苏州国家实验室等单位，基于“书生”科学大模型与平台，构建了“AI决策+自动化合成”闭环研发体系，成功创制出高纯度、高一致性的KrF光刻胶树脂。该技术突破了长期依赖国外供应商“黑箱能力”的瓶颈，实现了成品树脂金属杂质含量稳定低于10ppb、分子量分布PDI稳定在1.3以下的关键指标。这为芯片材料领域提供了一条可标准化、快速迭代的新路径，相关成果产业指标已达预期，即将进入客户端验证阶段。

数据/训练论文/研究

09:36

IT之家（RSS）

苹果连发 3 项 AI 研究，推进空间计算与 Vision Pro 头显方向

苹果近期发布三项人工智能研究，直接回应了其搁置Vision Pro研发的传闻。研究包括：提出SFI-Bench基准，通过134段视频和1555道问题测试多模态大模型的空间功能智能；利用AI自动生成美国手语标注，将人工成本降低数百小时；以及提出HeadsUp方法，基于超万人数据集进行高质量3D头部重建，可能用于优化Vision Pro的Persona等功能。这些进展印证了苹果对空间计算方向的持续投入。

多模态推理论文/研究

08:25

Hacker News 热门（buzzing.cc 中文翻译）

Interfaze：一种专为大规模高精度而构建的新型架构模型

Interfaze发布了一种专为大规模高精度任务设计的新型架构模型。该架构旨在显著提升模型在扩展规模时的准确性表现，其核心目标是解决传统模型在参数量增大时精度难以同步提升的挑战。新架构通过创新的设计，优化了计算效率与精度之间的平衡，以适应数据量和模型复杂度不断增长的需求。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

将大型语言模型训练用于临床事件预测

本研究将Foresight Learning方法扩展至临床预测领域。核心创新在于，将MIMIC-III数据集中的纵向临床笔记转化为“上下文-问题-标签”三元组的训练样本，自动生成了涵盖用药、手术、死亡风险等多维度的6,900个预测实例。基于此训练的轻量级LoRA适配器，显著提升了模型的预测性能与校准能力，其预期校准误差从0.1269大幅降至0.0398，Brier分数从0.199降至0.145。该方法证明了无需人工构建结构化特征或专用分类器，即可从临床文本中提取可复用预测监督信号的可行路径。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

正交梯度投影用于缓解安全对齐税

大语言模型的安全后训练可能削弱其通用能力，产生“对齐税”。本研究将其视为持续学习问题：安全训练的梯度可能干扰已习得的通用能力方向。为此，我们提出正交梯度投影安全对齐方法。该方法从少量通用数据梯度中估计参考子空间，并在安全梯度更新时移除该空间的分量，从而在提升安全性的同时保留通用能力。实验证明，在SFT、DPO及SFT→DPO等流程中，该方法能显著改善安全与效用的权衡，例如在Qwen2.5-7B上平均性能增益从33.98%提升至42.74%。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

代码引导推理协议评估小语言模型的可执行推理脚手架

本研究提出了“代码引导推理”评估协议，用于系统衡量可执行推理脚手架对小语言模型在多选题任务中的性能提升。该协议标准化了从任务接口到结果记录的六个组件。基于20,498条实验数据分析表明，在具有非零基线的样本中，脚手架辅助的平均准确率为66.21%，较直接回答的38.11%提升了28.10个百分点。研究同时也指出，该方法面临计算开销增大、答案提取过程脆弱以及生成程序可能违规等局限性。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

基于点互信息的推理强化学习反自蒸馏方法

研究发现现有自蒸馏方法在数学推理中效果不稳定，其根源在于“特权上下文”会过度强化解中已确定的结构化信息，同时削弱驱动多步推理的“思考性词元”权重。为此，本文提出反自蒸馏方法（AntiSD），通过反转优化方向，使学生模型主动远离教师分布，并结合熵触发门控机制，形成即插即用的改进方案。实验表明，在4B至30B参数模型上，AntiSD仅需更少训练步骤即可达到GRPO基线准确度，最终性能提升最高达11.5个百分点，为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DocAtlas：跨80多种语言的多语言文档理解框架

DocAtlas是一个多语言文档理解框架，覆盖82种语言。它通过差异渲染与合成生成双流程，构建高保真OCR数据集与基准测试，产出统一结构化标注。研究评估16个模型，发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号，通过直接偏好优化实现了稳定的多语言适配，在域内和域外准确性上均实现提升，且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。

Hugging Face多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

对比神经元归因实现语言模型可靶向行为调控

本研究针对语言模型拒绝有害指令机制不透明的问题，提出了对比神经元归因方法。该方法仅通过前向传播即可识别出仅占0.1%的、最能区分有害与良性提示的关键神经元。在指令微调模型中，对这些神经元进行干预可将标准越狱测试中的拒答率降低超过50%，同时保持输出流畅度。跨架构实验揭示，对齐微调将预训练模型中已有的鉴别结构，转化为了稀疏且可靶向的“拒绝门控”，从而实现了在无质量损耗的前提下，对模型行为进行可靠调控。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

地理空间基础模型缺乏统一评估标准

当前地理空间基础模型研究缺乏统一评估标准、训练测试协议与预训练控制，导致模型难以公平比较。对152篇论文的审计发现，同一模型在相同基准上存在显著结果分歧；不同研究预训练配置几乎没有重复；且近四成论文未公开模型权重。为此，文章提出六项具体建议，包括发布带许可证权重、共享核心评估框架、明确基线来源、报告结果方差等，以推动社区建立协作标准，促进该领域健康发展。

开源生态数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

参考引导流匹配

本文提出了一种新的可控图像生成原理，其核心是通过更换“参考集”来引导预训练模型，无需参数更新。该方法基于流匹配框架，通过调整条件端点均值来改变生成流程。具体实现了两种方式：免训练的“参考均值引导”，将参考库的校正量应用于冻结模型，实现对颜色、身份、风格与结构的控制；以及“半参数引导”，通过显式均值锚点和学习残差优化器，达到高质量并支持推理时更换参考集。这一工作指向了生成模型可通过数据而非参数更新来适应新任务的更广泛方向。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HölderPO：一种基于Hölder均值的政策优化框架

针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题，本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合，通过参数p连续控制梯度集中与方差界限。理论分析表明，较大的p集中梯度以增强稀疏信号，较小的p则限制方差。为克服静态配置的局限，我们设计了动态退火算法，在训练中自适应调整p。实验显示，HölderPO在多个数学基准测试中平均准确率达54.9%，相对GRPO提升7.2%，并在ALFWorld任务中实现93.8%的成功率，显著提高了稳定性和收敛性。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniHumanoid：通过免配对适配实现流式跨具身视频生成

针对跨具身视频生成中运动动态可迁移而外观形态具身特定的挑战，OmniHumanoid框架提出了一种分解式方法。它首先在多具身的配对视频上学习共享运动迁移模型，随后仅需非配对视频，通过轻量级适配器即可适应新机器人形态。其核心创新是分支隔离注意力机制，有效分离运动条件与具身调制以减少干扰。该研究还构建了包含多样人形资产与场景的合成数据集。实验表明，该方法在合成与真实基准上均能保持高运动保真度与具身一致性，且无需重新训练核心模型即可扩展至未见过的具身，突破了现有方法对配对数据的依赖与可扩展性限制。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PreScam：基于早期对话预测诈骗进展的基准测试

研究团队推出PreScam基准，用于评估语言模型从早期对话预测真实诈骗进展的能力。该基准基于用户报告，将17.8万份原始数据筛选并结构化，构建了涵盖20个类别的1.1万余个对话实例，并依据“诈骗杀伤链”和细粒度行为进行标注。研究设置了实时终止预测和诈骗者行为预测两项任务。结果显示，监督学习模型在终止预测上显著优于零样本大语言模型，而即使强大模型在预测诈骗者下一步行为时也仅获中等成功率，表明当前模型仍难以有效追踪多轮对话中风险的动态升级与操纵展开过程。

安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向大规模多智能体路径规划的局部可学习通信方法

研究团队针对大规模多智能体路径规划问题，提出了一种名为LC-MAPF的新型可学习通信框架。该方法在基于局部观测的Dec-POMDP框架中，为智能体设计了专用的通信模块，使其能与相邻智能体进行多轮信息交换，从而有效提升协作效率。实验结果表明，在多种未见过的测试场景中，LC-MAPF在多项性能指标上均优于现有的基于模仿学习与强化学习的求解器。其通信机制在显著提升性能的同时，并未损害系统的可扩展性，成功克服了以往基于通信的求解器常见的扩展瓶颈。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型推理中的自适应教师暴露自我蒸馏方法

研究发现，在LLM推理的自我蒸馏中，教师模型始终看到完整参考答案会导致师生能力不匹配，使学习目标过强。固定教师暴露程度并非最优，且不匹配性随教师所见信息增加而增长。为此，研究者提出自适应教师暴露方法（ATESD），通过一个轻量级Beta策略控制器，基于训练状态动态采样教师暴露比例，并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中，ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法，取得了显著提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AI CFD科学家：利用物理感知AI智能体实现开放式计算流体动力学发现

本文提出AI CFD Scientist，一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门，能在接受结果前检查流场渲染图。实验表明，该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正；在同等成本下，其性能优于通用AI科学家基线，因其具备关键的领域专用验证能力；对照实验证实，视觉验证门能有效检测出求解器日志遗漏的多数静默故障。

智能体arXiv多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

自动化智能体评估的实证研究

研究发现，直接使用前沿代码助手（如GPT、Claude）进行智能体评估效果不佳，其执行成功率仅为30%，且生成的评估指标平均超过12项，过于复杂。为此，研究者提出了EvalAgent，它能将评估领域知识编码为可组合的“评估技能”，自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估，EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%，并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要，移除后Eval@1会从65%骤降至30%。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

从通用模型到专家模型：非参数设定下的可识别性理论

本文在完全非参数设定下，为从通用模型学习任务相关的专家表示建立了可识别性理论基础。首先证明，即使序列缺乏严格时间依赖且任务分配结构任意复杂，时间步与任务间的结构仍可在无监督下被识别。其次证明，在单个时间步内，仅需简单的稀疏性正则化即可将任务相关潜在表示与无关部分解耦，无需额外约束。这两项结果共同构成了层次化的可识别性保证：任务结构在时间步间可识别，任务相关表示在步内可识别。这是首个通用的非参数可识别性理论，为从通用模型向可证明的专家模型转变提供了依据。

arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

Learning to Explore：通过探索感知策略优化扩展智能体推理能力

研究提出了一种探索感知的强化学习框架，使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数，评估探索性行动对改善未来决策的潜力，并引入探索感知分组机制，在优化过程中将探索行动与任务完成行动分离。实验表明，该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。

智能体arXiv推理论文/研究

推荐理由：让 Agent 拥有了「感知自己不知道什么」的能力，只在信息不足时才探索，而不是盲目试错，是 Agent 训练方法的一个重要转向，做强化学习或 Agent 的值得认真看下。

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

Learning Agentic Policy from Action Guidance

针对大型语言模型的智能体强化学习提出新方法ActGuide-RL，通过引入日常人类交互产生的海量动作数据作为规划式参考指引，帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则，仅在必要时自适应启用指引以匹配任务难度，同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中，ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点，性能与需要大量监督微调数据的流程相当，为智能体强化学习提供了减少对繁重监督微调依赖的新范式。

智能体arXiv推理论文/研究

推荐理由：Agent RL长期被基础策略的探索能力卡脖子，这篇论文用人类日常交互的动作数据做引导，不用重型SFT就追平现有pipeline，是训练范式层面一次务实创新。

08:00

HuggingFace Daily Papers（社区热门论文）

基于文本-表格建模的陌生AI智能体决策预测方法

研究提出一种目标自适应的文本-表格预测方法，用于预测陌生AI智能体在谈判与交易中的决策。该方法将每个决策点构建为表格行，整合游戏状态、报价历史和对话文本，并在提示中提供目标智能体先前的K轮游戏作为适应示例。模型基于表格基础模型，结合了结构化特征、文本表示以及创新的“LLM作为观察者”隐藏状态特征。在13个前沿LLM智能体上训练，并在91个保留的支架智能体上测试，完整模型性能优于直接提示法和基线模型。当K=16时，观察者特征将响应预测AUC提升约4个百分点，并将议价报价预测误差降低14%，证明隐藏的LLM表征能捕捉直接提示无法获取的决策信号。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征（几何潜在与跟踪潜在）和时序RoPE对齐两项核心设计，将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式，仅需LoRA微调。给定单目视频及其逐帧重建点云图，模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能，同时以1.3倍的速度和仅需1/4.6的峰值内存运行，并对大幅运动和长视频保持鲁棒性。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ShapeCodeBench：一个用于合成形状场景感知到程序重建的可再生基准

ShapeCodeBench是一个用于感知到程序重建的合成基准测试。给定一张渲染的光栅图像，模型必须输出一个可执行的绘图程序，由确定性评估器重新渲染并与目标图像比对。其v1版本在512x512黑白画布上定义了四种基本图形，每个实例均由随机数生成器生成，可创建全新的测试集以减少数据污染。基准发布了一个包含150个样本的固定评估集，涵盖简单、中等和困难三个级别，评估指标包括精确匹配、像素精度、前景IoU等。测试结果显示，传统计算机视觉启发式方法在简单场景中表现尚可，但在图形重叠时失效；最强的多模态配置能保留大部分前景结构，但因细微参数误差仍无法达到精确匹配。目前最佳精确匹配率仍然很低，表明该基准远未饱和。相关代码、数据集及论文资源均已开源。

多模态开源/仓库推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Orthrus：基于双视图扩散的内存高效并行令牌生成

Orthrus 提出一种双架构框架，将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块，构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存：自回归头负责上下文预填充以构建准确表示，扩散头则执行并行令牌生成。通过严格的共识机制，Orthrus 在保证无损推理的前提下，仅增加 O(1) 内存开销与极少参数量，即实现了最高 7.8 倍的生成加速。

arXivHugging Face推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

观点：应将大语言模型推理评估为"能量到Token的生产过程"

当前大模型推理评估过于侧重准确性、延迟等软件指标，忽视了部署规模下的核心约束：在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程，并建立了统一的Token生产函数模型，其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下，KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此，呼吁未来研究与基准测试在报告传统指标时，应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。

arXiv推理论文/研究部署/工程