AIHOT

全部动态资讯 · 1789 条

全部一手资讯 X 论文

5月31日周日

5月30日周六

5月29日周五

5月31日

08:00

HuggingFace Daily Papers（社区热门论文）

SABER：面向LLM编码智能体的环境感知操作安全基准

SABER是一个评估大语言模型编码智能体操作安全性的基准。与仅判断模型是否拒绝不安全提示的现有基准不同，它将模型置于真实的智能体风格项目中，根据一系列操作后的最终环境状态判定安全性，并按原因对违规行为分类。评估显示，即使表现最好的模型，其有害安全违规率也超过54%，说明当前对齐策略在真实项目环境中仍显不足。该基准已在GitHub公开。

智能体GitHub安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

测量对称性-数据交换率：等变先验的标度律实证

在可控C_n对称任务上，等变先验对样本复杂度的理论增益因子|G|首次作为标度律测量。错误群控制比无约束更差（成对联合CI [+0.79, +3.26]排除零）；带测试时轨道平均的数据增强基线在每epoch验证曲线上与等变模型完全一致。相对交换率beta_diff=1.28与理论值1.0在符号和数量级一致（单层CI [+0.92, +2.05]），但保守双层bootstrap区间包含零。最可靠结论：错误群约束有害。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BenchEvolver：以解决方案为中心的进化式前沿任务合成

前沿大语言模型在LiveCodeBench上已饱和，易分题Pass@1超99%，平均超90%。新提出的BenchEvolver框架以解决方案为中心，通过结构化变换自动进化已有编码问题的参考解，再从进化后解推导题目与测试用例，从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后，进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题，前沿模型Pass@1仅27.5%–62.6%，恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性，可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3，超出仅用原始任务训练的增益70.7%和34.8%。

arXiv数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniOPD：基于推测验证的无需logits在线策略蒸馏

OmniOPD是一种无需教师token级logits的在线策略蒸馏框架。它通过蒙特卡洛展开在多token块上以连续语义相似度近似教师偏好，并用峰值熵调度器仅在高不确定性推理分叉处施加监督，同时以Dirichlet-Multinomial贝叶斯先验和基模型KL锚点防止策略坍塌。在数学基准上，OmniOPD相比标准OPD提升高达28.64%；与Claude-4.5-Haiku和Gemini-2.5-Flash等黑箱教师配合时，额外相对提升9.54%，令学生模型超越自我探索强化学习。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Trust Region On-Policy蒸馏方法（TrOPD）

针对On-Policy蒸馏（OPD）在师生模型分布差异较大时训练不稳定的问题，本文提出置信区间On-Policy蒸馏（TrOPD）方法。该方法核心是采用置信区间On-Policy学习，仅在教师提供可靠监督的区域进行蒸馏；结合异常值估计策略处理不可靠区域；并通过离线引导鼓励向可靠区域探索。实验表明，TrOPD在数学推理、代码生成及通用基准测试上均优于包括OPD、EOPD和REOPD在内的现有OPD基线。

智能体arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建，提供两个接口：一个联合预测未来视觉潜在表示与连续动作块的视频动作模型，以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练，包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时，模型通过测试时计算采样动作候选，并利用去噪一致性和基于模拟器的修正来筛选低质量动作，在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由：机器人操作领域的大一统尝试，把视频预测和动作生成放在一个扩散模型里，还用27万小时数据训练，做具身智能的可以看看这个架构。

08:00

HuggingFace Daily Papers（社区热门论文）

SkillVerse多模态技能范式与VisSkillBot：AI智能体的技能应超越纯文本

现有AI智能体的可复用技能多以纯文本形式存储，这在视觉中心任务中构成了瓶颈。研究提出了SkillVerse多模态技能范式，将声明式文本逻辑与显式视觉支持相结合，包含静态先验、动态先验和交错视觉技能三种可复用形式。配套系统VisSkillBot能自动将智能体经验转化为可复用的多模态技能。实验表明，视觉技能在需要空间对应、视觉证据和状态感知交互的GUI等任务中，持续优于纯文本技能。

智能体MCP/工具多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

ChartArena：跨语言、场景与格式的图表解析基准测试

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程，并设计了格式无关的评估协议，将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示，前沿闭源模型如Gemini 3.1 Pro领先，开源系统正快速追赶；文档解析模型在数字图表上表现尚可，但在图表结构上明显不足；专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

GitHub多模态论文/研究评测/基准

推荐理由：ChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片，终于能测出 MLLM 在真实文档场景下的真实水平，做文档解析的团队该认真看一下。

08:00

HuggingFace Daily Papers（社区热门论文）

LongAttnComp：面向长上下文推理的跨模型族上下文压缩

LongAttnComp 是一种针对长上下文适配的方法，它通过微调一个轻量级跨注意力评分层，并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调：第一阶段基于 NIAH 风格数据构建通用检索基础，第二阶段通过多跳和推理数据进行扩展。实验表明，在 InfiniteBench Code-Debug 上，LongAttnComp 能够匹配或超越全上下文精度，并显著优于无训练基线。在 LongBench v2 上，两阶段配方在多文档推理任务上有效缩小了性能差距，同时保持了代码调试性能，并可跨三个模型族的四个目标模型进行转移。

arXiv推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

3DCodeBench：基于代码的程序化3D建模智能体评测基准

本文提出了3DCodeBench，一个系统性基准，用于评估视觉语言模型（VLM）智能体在3D建模软件中通过生成代码进行程序化3D建模的能力。该基准评估了12个先进VLMs将文本和图像参考转换为程序化代码的效果，并建立了基于人类偏好的排名平台3DCodeArena。研究发现，主要失败源于API不匹配，而测试时扩展（如提高思考预算和多轮精炼）能提升性能。研究强调了高质量程序化编码数据和稳健执行环境对推进VLM能力的重要性。该工作公开发布了基准数据集、评估协议与3DCodeArena平台。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HakushoBench：基于日本政府白皮书的图表与表格VQA基准测试发布

HakushoBench是一个日语图表与表格视觉问答基准测试，由33份日本政府白皮书构建而成，包含2053张图像和人工标注的问答对，涵盖超过10种图像类型，旨在评估视觉语言模型对复杂文档的深度理解能力。实验表明，当前开源模型在此基准上仍面临挑战，最佳开源模型的准确率仅为58.6%，而开源与闭源专有模型之间存在34.9分的性能差距。该数据集与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillAdaptor：一种面向LLM智能体的自适应技能方法

SkillAdaptor 是一种无需训练的步骤级技能自适应框架，能进行显式故障归因。它针对智能体失败的执行轨迹，识别首个可操作的故障步骤，并将责任归因于候选技能，随后在骨干模型冻结的前提下进行针对性更新与验证。在 WebShop、PinchBench 和 Claw-Eval 上使用 Kimi-K2.5、GLM-5 和 GPT-5.2 的评估表明，该框架在所有三项基准测试中均优于无技能和现有技能适应基线。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

定位何处：基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务（TVR）与模拟基准TVRBench，评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%，瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架，视觉动作SFT将9B开源模型成功率提升至50.8%，多轮GRPO进一步达到51.4%，为训练主动感知与行动的模型提供了基准。代码与模型已开源。

arXiv具身智能多模态论文/研究

推荐理由：主动探索视角是具身智能的关键短板，这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码，做空间智能的可以直接拿来跑。

5月30日

21:14

The Decoder：AI News（RSS）

研究发现，训练使AI聊天机器人更有用，反而削弱了其模拟人类行为的能力

一项涵盖208,000名参与者、2600万条回复的大规模研究显示，使语言模型转变为有用聊天机器人的训练过程，会削弱其复制人类行为的能力。这种效应随着每一代新模型而加剧。即使采用为模型提供人口统计数据的热门角色扮演技巧，对个体预测也几乎没有带来实际益处。

数据/训练论文/研究

15:21

IT之家（RSS）

AI 社会自治测试：Grok 四天崩溃、Gemini 犯罪率最高

智能体AnthropicGoogle安全/对齐

11:21

IT之家（RSS）

英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

英伟达联合香港理工大学、南京大学推出 LocateAnything 模型，专为机器人感知与 AI 智能体设计，可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术，提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上，混合模式速度达 12.7 Boxes Per Second，超过 Qwen3-VL（1.1 BPS）与 Rex-Omni（5.0 BPS）。在 LVIS（IoU=0.95）评测中得分 31.1，高于 Rex-Omni 的 20.7。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

论大语言模型适应性的局限：模型内化先验对标注任务性能的影响

在零样本标注与LLM-as-a-judge任务中，LLM内化先验与用户指令存在交互。针对社交媒体、游戏、新闻和论坛数据集的毒性检测实验发现，近三分之二的零样本错误无法通过提示纠正，总体纠正率仅34.8%，高置信度错误尤为顽固。当给出错误任务定义时，LLM会遵循定义但置信度不变。新提出的定义特定熟悉度（DSF）衡量模型内部概念与任务定义的对齐程度，在控制数据集混淆后与性能呈正相关（partial r=+0.41），而三种记忆指标（ROUGE-L、BERTScore、嵌入向量余弦相似度）均未显示正相关。这表明基于提示的纠正存在根本局限，定义对齐比文本记忆更重要。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

SDR：基于集合距离的胸部X光报告生成奖励方法

针对标准精确匹配奖励不适用胸部X光报告生成的问题，提出SDR方法。将报告分割为句子，用冻结的句子Transformer嵌入为无序集合，以生成与参考嵌入间的集合到集合距离作为连续、置换不变的奖励。在Qwen3-VL-2B/4B和Gemma3-4B上通过GRPO后训练，BERTScore、RadGraph F1和CheXbert F1分别相对提升6.80%、7.82%和4.45%。同一距离用于测试时best-of-N选择，在Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini上BERTScore平均相对提升16.4%。作为流式信号，可在生成中修剪低分候选，减少超过50%的生成token且保持质量。代码已公开。

arXiv图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Critic-R：利用自然语言内省反馈改进智能体搜索的检索模型

Critic-R 框架在推理和训练阶段显式连接推理智能体与检索模型的反馈循环。它引入批评模型评估智能体的内省推理轨迹，判断上下文是否充分支持下一步推理。框架包含两种机制：Critic-R-Zero 在推理时迭代重写查询与检索指令；Critic-Embed 利用成功与失败的细化轨迹自动监督检索模型训练，无需人工标注。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 Bamboogle 上的实验表明，Critic-R 显著提升了检索质量和答案准确率。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SuperMemory-VQA：面向长时记忆的自我中心视觉问答基准

SuperMemory-VQA 是一个用于评估 AI 助手长期记忆能力的自我中心 VQA 数据集，包含 52.9 小时 AI 眼镜日常活动记录，同步 RGB 视频、音频转录、眼动追踪、IMU 和 SLAM 轨迹。经人工验证的标注流程生成了 4853 个接地问答对，覆盖物体/位置记忆、意图回忆、视觉场景重构、时间线重建、对话记忆和上下文检索，每题均为多项选择并含“不可回答”选项以测试抗幻觉能力。对主流智能体和大语言模型的基准测试显示，现有系统在真实世界记忆任务上远未可靠，需设计仅当证据充分时才作答的接地 AI 记忆架构。

arXiv多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

半监督噪声自适应（SSNA）：从噪声领域迁移知识

半监督噪声自适应（SSNA）提出利用简单分布（如高斯分布）构造的合成噪声领域作为源域，在半监督设置下（仅少量目标样本有标签）提升目标域的泛化。基于该问题，建立了刻画噪声领域影响的目标域泛化界，并提出噪声自适应框架（NAF）。实验表明NAF有效利用噪声领域收紧目标域的泛化界，提升性能。代码已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniKE：面向统一多模态模型的跨模态知识编辑基准

UniKE是首个针对统一多模态模型（UMMs）的跨模态知识编辑基准，包含2971个属性与关系编辑主题。VQA验证显示，文本侧编辑准确率约92%，但图像生成最佳整体VQA准确率仅18.5%，存在明显模态差距。提出的推理增强参数编辑方法在生成前显式激活已编辑知识，使整体VQA准确率提升最多18.6个百分点。机制分析表明，该差距源于编辑后文本表示与图像生成条件路径的对齐不足。文本知识编辑无法可靠跨模态迁移，需开发模态感知的编辑方法。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OCC-RAG：为忠实问答优化的最优认知核心

OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据（超300万样本）训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA（多跳推理）、ConFiQA（忠实性）和 MuSiQue-Un（拒答）基准上，性能匹配或超越 2-6 倍规模的通用模型。

arXiv检索增强推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FineVerify：用于智能体搜索的细粒度自验证框架

FineVerify是一种提升智能体搜索任务表现的自验证框架。它通过将问题分解为可验证的子问题，对采样出的候选答案进行逐一验证，并选择聚合得分最高的答案。在四个智能体搜索基准测试中，该框架效果显著：仅用四个采样轨迹，就能将GPT-5-mini的准确率提升8.2个百分点，将Gemini-3-flash平均提升5.6%。使用12个样本时，它能使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。此外，该框架还能生成可解释的验证轨迹，有助于审查基准测试错误。相关代码与数据已开源。

智能体arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

针对Mixture-of-Experts模型的置信度自适应SwiGLU

本研究提出了置信度自适应SwiGLU，这是面向Mixture-of-Experts模型的一种SwiGLU变体。该方法根据token级的路由置信度动态调整专家门控的锐度，通过将SiLU门控的锐度系数参数化为路由器对数几率的可学习函数，使每个门控单元能在平滑的广泛激活与尖锐的选择性门控之间自适应插值。在FineWeb-Edu数据集上针对不同规模的MoE Transformer模型评估表明，κ-SwiGLU在引入极少量额外参数和微小计算开销的前提下，提升了模型的平均CORE性能。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RoboStressBench：面向具身场景物理视觉压力的VLM鲁棒性基准测试

RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发，将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估，揭示了特定压力下的失败模式，并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外，研究还引入了一种压力感知智能体求解器，它能在推理前检测视觉压力源并调用视觉编辑技能，以提升模型在复杂场景中的鲁棒性。

具身智能多模态论文/研究评测/基准

07:48

MarkTechPost（RSS）

NVIDIA 推出 X-Token：投影引导的跨Tokenizer知识蒸馏，在 Llama-3.2-1B 上平均分超越 GOLD +3.82

NVIDIA 发布 X-Token 技术，通过解决 GOLD 方法中的两个结构性缺陷，将 Llama-3.2-1B 模型在 GSM8k 基准上的准确率从 2.56 提升至 15.54。

数据/训练论文/研究

07:32

HuggingFace Daily Papers（社区热门论文）

为何远处看向上方：探查视觉语言模型中的空间表征

视觉语言模型（VLMs）在空间推理基准上表现优异，但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析，发现多个模型族存在一致的“垂直距离纠缠”现象，即模型将图像垂直位置与空间距离混淆，这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著，且随数据规模扩大而加剧，即使基准分数提升。分析还表明，基准分数相似的模型可能具有不同的内部表征，这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差，团队推出了合成基准SpatialTunnel，实验证实该纠缠是模型固有属性，空间轴分离度更高的模型表现更鲁棒。

多模态推理论文/研究

00:30

HuggingFace Daily Papers（社区热门论文）

小而可信：时间序列异常检测的高效视觉语言推理

针对大语言模型或多模态模型在时间序列异常检测中表现不佳的问题，研究者构建了高质量基准VisAnomBench。该基准基于公开时间序列数据集，并利用多个大型视觉语言模型的输出进行了增强。基于此，他们开发了参数高效的视觉语言模型VisAnomReasoner，专用于该任务。实验显示，VisAnomReasoner在VisAnomBench上的异常定位更准确，精确度和F1值分别比所有基线模型高出至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验也验证了其出色的跨基准泛化能力，精确度和F1值分别提升了9.57和13.39个百分点。

arXiv多模态论文/研究

00:30

HuggingFace Daily Papers（社区热门论文）

DynaFLIP：通过三模态动态引导表示重新思考机器人感知

DynaFLIP 是一个动力学感知的多模态预训练框架，旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号，以单纯形体积最小化为核心思想，结合余弦正则化与对比学习目标，优化单一图像编码器在共享超球面空间中的对齐。分析表明，该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络，在多种下游策略（包括视觉语言动作模型）中均优于基线。在分布外场景下，性能提升高达 +22.5%。

具身智能多模态论文/研究

5月29日

23:30

HuggingFace Daily Papers（社区热门论文）

通过一致性训练减少政治操纵

研究发现大语言模型（LLM）在处理不同政治立场话题时存在系统性的“隐蔽政治偏见”，即不对称处理。该研究识别了7类偏见技术，并提出两种度量标准：情感一致性（对称修辞）与有用性一致性（对称深度与参与度）。为减少此类偏见，研究引入了政治一致性训练（PCT），这是一种包含两个互补范式的强化学习方法。结果表明，PCT在保持模型总体有用性的同时，显著减少了隐蔽政治偏见，并能推广至未见过的评测基准。

安全/对齐论文/研究

22:30

HuggingFace Daily Papers（社区热门论文）

Xetrieval：机制性地解释密集检索

Xetrieval是一种用于解释密集检索行为的嵌入级别的机制性框架。它首先引入轻量级推理内化器，通过单次前向传播在嵌入空间近似链式推理，以增强句子嵌入的推理信息。随后，框架将这些推理增强的嵌入分解为稀疏的、人类可解释的特征，并为每个特征赋予自然语言描述。通过聚合多个文档侧视图的稀疏特征重叠，Xetrieval能够为单个检索决策提供特征级别的解释。实验表明，该方法在不同检索器和基准上能发现连贯的可解释特征，并支持任务级的特征引导。

开源生态搜索论文/研究

22:30

HuggingFace Daily Papers（社区热门论文）

可恢复思维程序：基于检查点修复的RePoT方法

RePoT是一种确定性验证重放方法，用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时，它会回溯到已验证的前缀状态，并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中，RePoT比PoT高出+3至+11个百分点，并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明，检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。

智能体arXiv推理论文/研究

21:30

HuggingFace Daily Papers（社区热门论文）

EarlyTom：早期Token压缩实现快速视频理解

视频大语言模型在视频理解中能力强，但处理海量视觉token效率低下。现有方案多在预填充后期压缩，未优化视觉编码器本身。研究指出视觉编码对时间首token（TTFT）延迟贡献大，因此压缩应提前。为此提出EarlyTom，一个免训练的压缩框架，它在视觉编码器内部执行早期视觉token压缩，并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时，EarlyTom将TTFT最高降低2.65倍，FLOPs减少高达61%，同时保持与全token基线相当的准确度，提升了部署实用性。

多模态论文/研究部署/工程

21:30

HuggingFace Daily Papers（社区热门论文）

CoHyDE：大语言模型重写器与稠密编码器的迭代协同训练，用于工具检索

CoHyDE 是一种迭代训练框架，旨在解决大语言模型智能体在大型 API 目录中进行工具检索时面临的核心瓶颈。用户查询常使用口语化、描述不充分的自然语言，而 API 目录使用固定的技术性术语。该框架将稠密编码器与 LLM 重写器视为一个协同演化系统进行训练：编码器在重写器生成的、符合目录风格的假设性描述上通过 InfoNCE 进行重训练；重写器则通过 DPO 根据编码器的检索分数进行偏好对齐。在 ToolBench 目录约 10k 工具的子集上，三轮 CoHyDE 迭代后，其在标准查询上的 NDCG@5 得分较最强单组件基线提升 +2.5 pp，在模糊查询上提升 +6.3 pp。消融实验证实，协同训练是该方法在结构化与模糊查询上均取得优势的关键。

智能体arXivMCP/工具论文/研究

21:14

The Decoder：AI News（RSS）

新综述论文认为：代码是AI智能体的思考与行动方式，而非仅仅是其产出

一篇新综述论文提出，自主AI智能体的真正瓶颈并非语言模型本身，而是工具、内存、测试与权限边界等构成的软件层。这一“约束层”将无状态模型转化为能行动的工作智能体。DeepSeek已在北京组建专门的Harness团队，其“模型加约束层等于AI智能体”的公式印证了该观点。

智能体DeepSeekMCP/工具论文/研究

18:30

HuggingFace Daily Papers（社区热门论文）

迈向一致的视频几何估计

ViGeo是一种前馈基础模型，用于从视频序列中恢复空间密集且时间一致的几何信息。它基于Transformer架构，支持流式、全序列和长视频推理。其核心设计为动态分块注意力机制，在训练时结合双向和因果时间上下文，并在测试时自适应调整。研究还引入基于补全的数据精炼框架，通过训练视频深度补全教师模型生成密集、时间连贯且可靠的训练目标。该模型在同一框架内同时预测深度、点图和表面法线，仅使用公开数据集训练，便在多个相关视频几何估计任务上达到了最先进水平。

视频论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

PhyGenHOI：动态人-物交互的物理感知4D生成

PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示，该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体，物体则通过物质点方法模拟为物理智能体，并以3D高斯作为统一可微表示。交互通过三个耦合机制监督：时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟，以及增强接触保真度的遮罩视频-SDS目标。实验证明，PhyGenHOI能生成物理一致的交互，性能优于基线方法。

arXiv具身智能多模态论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

Thinking Before Constraining： A Unified Decoding Framework for Large Language Models

本文提出一种名为 In-Writing 的混合解码框架，旨在解决大语言模型自由生成推理丰富但缺乏结构，与约束解码格式统一但可能过早限制推理能力的矛盾。该框架在单次调用中结合二者：模型首先进行无约束推理，待生成特定触发词后再应用结构化解码，从而将推理与格式化明确分离。此方法能有效消除“过早触发”这一失败模式。在涵盖分类与推理任务的多项数据集评估中，In-Writing 相比自然生成，准确率最高提升了27%，性能优于现有方法。相关代码已开源：https://github.com/Nokia-Bell-Labs/InWriting。

推理论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

几何 matters： 3D基础先验用于学习语义对应

自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效，但缺乏显式3D意识，易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验，使用SAM3D估计物体几何与位姿，并通过渲染比较优化进行细化。随后，基于估计位姿将PartField描述符从重建几何渲染至图像平面，生成几何感知特征图以补充DINO与Stable Diffusion特征，同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督，训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同，此框架自动获取实例级3D结构并用于指导对应学习。实验表明，该方法在减少人工几何监督的同时提升了语义对应性能。

arXivGitHub多模态论文/研究