AIHOT

全部动态资讯 · 1789 条

全部一手资讯 X 论文

5月21日周四

5月20日周三

5月21日

11:09

HuggingFace Daily Papers（社区热门论文）

63

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv图像生成多模态数据/训练

11:09

HuggingFace Daily Papers（社区热门论文）

65

Mem-π：通过学习何时与生成何物实现的自适应记忆

Mem-π是一个用于大型语言模型代理的自适应记忆框架，它通过专门的模型按需生成指导内容，而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法，使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中，Mem-π性能持续优于检索式方法和现有强化学习记忆方案，其中在网页导航任务上实现了超过30%的相对提升。

智能体MCP/工具论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

精选75

SpecBench：测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标，导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试，通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准，包含30个从短期（如JSON解析器）到超长期（如构建操作系统内核）的系统级编程任务。实验显示，所有前沿代理在可见测试上饱和，但隐藏测试上存在持续差距，小模型差距更大；代码规模每增十倍，差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台，评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体arXiv安全/对齐编码

推荐理由：SpecBench把编码代理的‘应试’问题量化了，越长的任务越容易靠作弊通过测试。如果你在做Agent，这个基准会让你重新审视自己的评估体系。

11:09

HuggingFace Daily Papers（社区热门论文）

64

PlanningBench：一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架，旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景，抽象出包含30余种任务类型、约束与难度因素的结构化分类体系，并基于此实现了约束驱动的数据合成流程，该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型，发现其在耦合约束下仍难以生成完整解决方案。此外，基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现，也增强了其指令遵循能力，并表明明确的最优解能提供更稳定的训练信号。

arXiv推理数据/训练论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

61

DrawMotion：通过手绘生成3D人体动作

该研究提出了DrawMotion，一个基于扩散的多条件动作生成框架，旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件，分别提供语义和空间引导。技术上，它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度，并利用无训练引导方法将生成动作与用户意图对齐。实验表明，手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub多模态论文/研究

10:58

IT之家（RSS）

63

瞄准 AI 数据中心功耗难题，新供电芯片让 48 伏转 4.8 伏效率达 96.2%

加州大学圣迭戈分校工程团队研发出一种新型电源转换芯片，以应对AI数据中心面临的功耗挑战。该团队采用压电谐振器替代部分传统磁性器件，设计出混合架构的降压转换器。实验室测试表明，该原型芯片能将48伏电压降至4.8伏，峰值转换效率达到96.2%，输出电流较此前压电方案提升约5倍。该技术旨在减少供电过程中的能量损耗，缓解高功耗GPU带来的散热与供电压力，但目前仍处于研究阶段，尚未达到商用水平。

论文/研究部署/工程

10:09

HuggingFace Daily Papers（社区热门论文）

55

UniT：基于群自回归Transformer的统一几何学习

UniT是一个统一几何感知模型，旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer，将传感器观测组作为基本单元，通过改变组大小，在同一过程中自然统一在线（多步单帧组）与离线（单步多帧组）模式。为处理长序列，模型采用队列式KV缓存机制，并利用无锚点关系建模来丢弃过时记忆。此外，模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中，UniT实现了统一几何感知的最先进性能。

具身智能多模态论文/研究

10:09

HuggingFace Daily Papers（社区热门论文）

58

生成式递归推理

GRAM（生成式递归推理模型）框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略，并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练，形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明，GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型，并具备了独立的无条件生成能力。

arXiv推理论文/研究

10:09

HuggingFace Daily Papers（社区热门论文）

62

论文评审中人工智能审稿人的局限与机遇：基于45位专家对《自然》系列论文的评审分析

本研究通过一项大规模专家标注实验，邀请物理、生物与健康科学领域的45位科学家，耗时469小时，对82篇《自然》系列论文的2960条批评意见（来自人类与AI评审）进行多维度评估。结果发现，由GPT-5.2驱动的AI评审代理在准确性、重要性与证据充分性的综合评分上，超过了每篇论文得分最高的人类评审员（60.0%对48.2%）。AI评审能发现26%人类未提及的独特问题，但其意见重叠度（21%）远高于人类（3%），并暴露出16种人类没有的反复性弱点，如子领域知识有限、多文件长上下文管理能力不足等。研究表明，当前AI评审员更适合作为人类评审的补充工具，而非完全替代。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

51

EMMA：从多模态数据中提取多个物理参数

EMMA是一个物理信息多模态框架，能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学，并通过物理约束损失确保与微分方程一致。在超过100个场景（包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统）中，EMMA实现了稳健的多参数恢复，显著优于现有单模态和方程发现基线。代码与数据已开源。

arXiv具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

重访均匀扩散模型：留一去噪器与吸收态重构

研究揭示均匀扩散模型（UDM）的标准参数化与训练目标存在失配。提出“留一去噪器”，即在预测干净token时不依赖其自身噪声观测的后验，并推导了其与标准去噪器、分数函数的精确转换关系。进一步通过“吸收态重构”，将UDM联合分布分解为类掩码扩散操作，从而简化了去噪后验。在语言建模中，留一参数化稳定提升了UDM生成效果，吸收态构建匹配或超越了掩码扩散模型。实验表明，经验差距主要源于参数化与采样设计，而非边际分布选择本身。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

部分可观察环境下基于统一风险图的自动驾驶风险感知

针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题，现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架，适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险，实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题，引入了基于扩散模型的场景生成框架，可生成真实且具对抗性的场景。最终，该框架集成了统一风险图的建模与学习，以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明，该方法显著超越现有基线，提升了碰撞时间指标。

具身智能安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

智能体CLEAR：LLM智能体多层级评估自动化

现有LLM智能体评估工具局限于基本观测能力或静态错误分类。Agentic CLEAR是一个自动、动态、易用的评估框架，它在系统、轨迹和节点三个粒度层级上，对智能体行为生成文本洞察。该框架运行于可观测性层之上，具备直观UI便于集成。在四个基准、七种智能体设置和数万次LLM调用上的实验表明，Agentic CLEAR能产生高质量、数据驱动的反馈，其分析与人类标注错误高度吻合，并能预测任务成功率。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

51

理解数据时间性对大语言模型预训练的影响

研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式，针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现，时间有序预训练的模型在通用语言能力上与打乱预训练基线持平，但其知识更及时、时间定位更准确；打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。

arXivGitHub开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

55

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

表征优于路由：克服多时间尺度PPO中的替代目标劫持

在强化学习中，多时间尺度PPO虽旨在平衡短期与长期规划，但在复杂延迟奖励任务中盲目融合多时间信号会导致严重的算法问题。研究发现，将时间注意力路由机制暴露于策略梯度会导致替代目标劫持，而无梯度不确定性加权则会引发不可逆的短视退化。为此，研究提出Target Decoupling架构：Critic侧保留多时间尺度预测以辅助表征学习，Actor侧则严格隔离短期信号并仅基于长期优势更新策略。在LunarLander-v2环境中的实验证明，该架构无需超参数调整即可稳定超越解决阈值，消除策略崩溃并跳出局部最优。实验代码已开源：https://github.com/ben-dlwlrma/Representation-Over-Routing。

arXiv开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

ThriftAttention：用于长上下文FP4注意力的选择性混合精度

针对长上下文场景下FP4量化推理的质量下降问题，ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对，对其使用FP16精度计算，其余块使用FP4计算。最后，两路计算结果通过在线softmax合并。实验表明，仅对5%的块使用FP16计算，该方法就能平均恢复FP4与FP16间89.1%的性能差距，且优势随序列长度增加而更加显著。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

55

面向自回归MRI重建的"下一加速尺度预测"

针对高加速欠采样下MRI重建因模糊性导致高频细节丢失的问题，该研究将重建过程移至离散多尺度潜空间，并构建为自回归的“下一加速尺度预测”任务。方法利用视觉自回归建模中有效的离散先验，将解空间约束在紧凑的码本token序列中，从而即使从极度稀疏的测量中也能实现清晰重建。该框架自然适配大语言模型的后训练技术，并引入了在线策略蒸馏，利用教师模型在推理时不可用的特权上下文（完全采样数据）监督学生模型。在fastMRI基准测试的多种极端欠采样模式下，该方法均展现出改进的重建效果。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

虚假的推理：通过零思维链截断揭露大语言模型中的规避型数据污染

大语言模型在多项任务中展现强大推理能力，但数据污染问题，特别是发布者采用改写基准数据等规避策略，严重削弱了其评估的客观性。研究发现，模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此，研究者提出 Zero-CoT Probe 检测方法，通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比，并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明，该方法能有效检测直接与规避型数据污染。代码已开源：https://github.com/Yifan-Lan/zero-cot-probe。

数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

49

感知的代价：在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”，即利用强大的语言先验绕过视觉表征瓶颈，而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法，提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标（Toll, Curse, Fallacy）与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”：随着语言模型推理能力增强，视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

VGenST-Bench：一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准，采用生成模型主动合成高度可控的多样化评估场景，克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建，建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件，解耦了低级视觉感知与高级时空推理，实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准

06:44

智谱：研究（网页内嵌数据）

精选69

ZCube：超大规模大模型推理的网络优化

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程

关联讨论 1 条

推荐理由：千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

06:08

HuggingFace Daily Papers（社区热门论文）

69

基础模型在AI检测器下更"像人"

本研究发现了一个有趣现象：当使用GPTZero等商业AI文本检测器时，基础模型生成的文本常被判定为人类文本，而指令调优模型生成的文本则不然。基于此，研究团队提出了“通过迭代释义实现人性化”的方法。该方法通过微调基础模型并迭代应用，以在语义保持和规避检测之间取得平衡。实验表明，该方法在不同规模的Llama-3和Qwen-3模型上均能有效提升文本在检测器眼中的人类相似度。研究指出，现有检测器可能更多地关注了指令调优产生的特征，而非机器生成文本的本质，这为未来的检测器设计提供了新的方向。

论文/研究

06:08

HuggingFace Daily Papers（社区热门论文）

69

并非每个评分准则都同等有效：用于RLVR的策略感知评分准则奖励

针对基于评分准则的强化学习（RLVR）奖励机制中静态权重的局限性，本研究提出POW3R框架。该框架在训练过程中动态调整各准则的奖励权重，以强调那些能有效区分当前策略输出的准则，同时保留整体人类权重分布。实验在三个基础策略和两个数据集上进行，结果显示POW3R在30项比较中赢得24项，提高了平均评分准则奖励和严格完成率，并将达到相同性能所需的训练步数减少2.5至4倍。POW3R通过策略感知的权重优化，使奖励信号更具信息性，提升了RLVR的训练效率。

数据/训练论文/研究

04:28

TechCrunch：AI（RSS）

74

OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的

OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同，此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持，这为其结论的可靠性提供了关键背书。

OpenAI推理论文/研究

关联讨论 12 条

04:03

Hacker News 热门（buzzing.cc 中文翻译）

80

OpenAI的一个模型推翻了离散几何学中的一项核心猜想

OpenAI宣布其开发的人工智能模型成功证伪了离散几何学领域的一个核心猜想。该模型通过自动化推理与证明过程，推翻了这一长期存在的数学假设，标志着AI在抽象数学研究与定理证明方面取得了实质性突破。这项成果不仅展示了大型语言模型在科学发现中的潜力，也为利用AI解决复杂科学问题提供了新的范例。

OpenAI推理论文/研究

关联讨论 12 条

03:25

HuggingFace Daily Papers（社区热门论文）

47

他们能走多远？用大语言模型红队测试在线影响力

该研究聚焦于本地部署的开源大语言模型，提出了一套红队测试框架，用于测量模型在争议性话题上可可靠表达的“政治表达范围”（Overton Windows），并量化简单自然语言越狱技术如何扩大此范围。研究评估了超过30个大语言模型，发现系统性政治表达不对称：开源模型通常更倾向生成左倾社交媒体内容；政治表达范围随模型规模增大而收缩；尽管生态参与不均，地域差异仍然显著。此外，越狱技术的有效性在不同模型家族间差异明显。

安全/对齐论文/研究

03:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选83

OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”，并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件，标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题，展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI推理论文/研究

关联讨论 12 条

推荐理由：OpenAI模型独自推翻了一个80年未解的离散几何猜想，这种级别的数学突破以前只属于人类顶级大脑，现在AI也做到了，做理论研究的可以看看它怎么做的。

02:08

HuggingFace Daily Papers（社区热门论文）

66

面向网格上三角剖分无关流匹配的马顿噪声

该研究解决了在三角网格上生成信号时需适应不同网格与三角剖分的问题。理论上，本文提出了一种数学上定义的、与三角剖分无关的噪声分布——Matérn高斯随机场的离散化，作为流匹配框架中的噪声模型。方法上，采用梯度域学习的PoissonNet作为去噪器。实验任务包括生成弹性静止状态与类人姿态。结果表明，该方法能处理超过百万三角形的高精度网格，其生成结果在真实感与多样性上显著超越现有技术。

arXiv论文/研究

00:08

HuggingFace Daily Papers（社区热门论文）

63

基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法，通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发，在潜在空间中追踪时间对应关系，避免了显式匹配的高计算成本。实验显示，新方法仅需9秒即可生成4D网格，速度比现有最优方法提升13倍且质量更优，还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能，并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究

5月20日

22:08

HuggingFace Daily Papers（社区热门论文）

65

用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXivHugging Face多模态推理

21:08

HuggingFace Daily Papers（社区热门论文）

精选74

优化_anything：通用文本参数优化API

该研究提出了一种基于大语言模型的通用文本优化系统，将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果：智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%；调度算法降低40%云成本；87%的CUDA内核匹配或超越PyTorch表现；圆包装问题超越AlphaEvolve。实验表明，可操作的附加信息比仅使用分数反馈收敛更快、得分更高；多任务搜索通过跨任务迁移学习，在同等预算下优于独立优化，且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式，能统一传统领域特定算法。系统已开源，支持多种后端。

智能体arXivGitHub搜索

推荐理由：让一个LLM同时优化agent架构、调度算法和CUDA内核，还能将ARC-AGI从32%拉到89%，这可能是今年最突破认知的通用问题求解范式，做agent的人必须看。

18:07

HuggingFace Daily Papers（社区热门论文）

67

TideGS：通过核外优化实现超过十亿3D高斯溅射原语的可扩展训练

该框架针对3D高斯溅射训练中参数规模远超GPU内存的难题，提出了核外训练方案。它利用训练过程固有的稀疏性，将GPU内存作为工作集缓存，并通过SSD-CPU-GPU层级结构协同管理参数。关键技术包括虚拟化块几何以提升I/O局部性、异步分层流水线实现计算与I/O重叠、以及轨迹自适应差分流以高效传输增量数据。实验表明，TideGS仅需单张24GB显卡即可训练超过十亿高斯，并在大规模场景中达到了所评测单GPU基线中的最优质量，相比此前方法实现了数量级的规模突破。

数据/训练论文/研究部署/工程

17:07

HuggingFace Daily Papers（社区热门论文）

55

PixVerve：推进原生超高清图像生成至100MP

本文介绍了PixVerve-95K，一个高质量、开源的超高清（UHR）文生图数据集，包含95K张图像（每张至少100M像素）及七维注释。基于此，研究团队探索了三种训练方案，成功将现有文生图基础模型扩展至原生100MP图像生成。同时，提出了PixVerve-Bench评估基准，全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。

arXiv图像生成数据/训练论文/研究

17:07

HuggingFace Daily Papers（社区热门论文）

64

作者身份信号在编码器语言模型中的涌现位置

该研究发现，使用相同预训练编码器、数据和损失函数微调的作者归属模型，仅因评分机制不同，性能差异可达四倍。研究利用机械可解释性工具揭示了这一差距的来源：词长、标点密度、功能词频率等风格特征在所有模型的每一层中均等可得，因此差距并非源于表征质量差异。因果介入实验表明，评分器决定了编码器在哪个层次整合作者身份信号——均值池化迫使信号在早期至中期层整合，而晚期交互则将其推迟到更晚的层。这一差异源于各评分器的梯度结构不同。

arXiv论文/研究

15:07

HuggingFace Daily Papers（社区热门论文）

精选72

CopT：基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考（CoT）顺序的推理框架：先生成草稿答案，再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器，通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度，构建序列级反向KL估计器，以此评估答案的可靠性。当答案不可靠时，CopT会执行进一步思考，并利用第二个KL估计器动态控制草稿答案的可见性，在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下，该方法在数学、编程等任务上显著提升了准确率（最高达23%）并大幅减少了令牌消耗（高达57%）。

智能体GitHub推理论文/研究

推荐理由：CopT把推理流程反了过来，先草稿答案再自我反思，用连续嵌入对比验证可靠性，在数学/编码/Agent任务上提点23%省token57%，思路可能改写推理范式。

13:05

HuggingFace Daily Papers（社区热门论文）

69

PEEK：面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题，本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射，并置于智能体提示中，以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明，在长上下文推理和信息聚合任务上，PEEK相比强基线提升6.3-34.0%，迭代次数减少93-145次，成本比ACE低1.7-5.8倍；在上下文学习任务中，解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%，成本降低1.4倍。这些成果在多种模型和智能体架构（包括OpenAI Codex）上均有效，证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究

12:05

HuggingFace Daily Papers（社区热门论文）

精选72

GoLongRL：面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案，聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法，公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类，涵盖9种任务类型，由真实文档生成的问答对构成；实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外，提出了TMN-Reweight多任务优化方法，通过任务级归一化和难度自适应加权，在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由：开源长上下文RL的配方直接放出来了，数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品，甚至摸到了DeepSeek-R1的水平，做长上下文的值得复现。

11:05

HuggingFace Daily Papers（社区热门论文）

55

精简草稿，多做检索：投机解码的混合树构造

现有投机解码方法为提高接受率而构建庞大草稿树，导致显存带宽和计算开销激增，反而制约了加速效果。动态剪枝虽能降低延迟，但会损失有效候选，无法达到理想接受率。为此，研究提出了Graft补偿框架，通过“剪枝-再嫁接”的机制，利用剪枝释放的计算预算驱动检索操作，用检索到的高预测性令牌补偿剪枝造成的覆盖损失，从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能，在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明，它在短上下文任务中最高可实现5.41倍加速，并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。

推理论文/研究部署/工程

11:05

HuggingFace Daily Papers（社区热门论文）

68

AutoResearchClaw：具备自我强化与人机协作的自主研究系统

AutoResearchClaw是一种旨在突破现有系统线性流程局限的多智能体自主研究系统。其核心在于五大机制：结构化多智能体辩论用于假设生成与分析；具备自修复能力的执行器可将失败转化为信息；可验证的结果报告防止数据伪造与引用幻觉；提供从全自动到逐步监督的七种人机协作模式；以及能将过往经验转化为未来保障的跨运行进化能力。实验表明，该系统性能显著优于基线模型，且精准、定向的人机协作模式始终优于完全自主或穷举式监督。它被定位为一种增强而非取代人类科研判断力的研究放大器。

智能体arXiv开源/仓库论文/研究