AIHOT

全部动态论文 · 2148 条

6月5日周五

6月5日

15:47

HuggingFace Daily Papers（社区热门论文）

提出PropMe框架，通过对比前缀攻击与非对抗性评估，衡量大语言模型在普通使用中泄露训练数据的倾向性。配套SimpleTrace管道，基于infini-gram对生成内容进行确定性溯源，计算逐字、近似逐字及倾向性转换后的记忆指标。在Comma和DFM Decoder两个全开放模型、Common Pile和Dynaword两个数据集上的评估显示：前缀攻击可大幅提升记忆提取，但非对抗性提示下倾向性分数始终较低，说明模型能泄露数据但通常不会自发这么做。DFM Decoder（从Comma持续预训练而来）在Common Pile上的记忆能力和倾向性均下降，表明后续训练侧重不同数据可降低记忆。建议记忆审计同时报告最坏情况可提取性和日常泄露倾向性。

安全/对齐论文/研究

13:47

HuggingFace Daily Papers（社区热门论文）

AdaPlanBench：评估大语言模型智能体在双重约束下的自适应规划

AdaPlanBench是一个动态交互基准，用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务，通过多轮交互协议仅在计划违反约束时暴露隐藏约束，迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示，最佳模型准确率仅达67.75%，性能随约束累积下降，用户约束挑战尤为显著，失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。

智能体推理论文/研究

12:47

HuggingFace Daily Papers（社区热门论文）

复杂度平衡扩散分裂（CBS）：基于函数逼近理论的时间容量分配框架

标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态，统一架构效率低下。本文提出复杂度平衡分裂（CBS）框架，基于函数逼近理论和de Boor均衡分布原理，将扩散时间线划分为等近似负担的片段，为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度，无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上，CBS不增加每步推理成本，持续提升合成质量：在SiT-XL上使用CFG时，相比朴素时间划分，FID改善约35%。

图像生成开源/仓库数据/训练论文/研究

12:47

HuggingFace Daily Papers（社区热门论文）

迈向真正多语言 ASR：代码切换语音识别向未见语言对的泛化研究

代码切换ASR（CS-ASR）因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调，但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法，探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明，合并的双语CS-ASR模型仅能适度泛化到未见语言对，提示双语CS能力在跨语言对间的迁移有限。

多模态论文/研究语音

11:46

HuggingFace Daily Papers（社区热门论文）

强化学习驱动未见语言翻译的上下文学习

大语言模型（LLM）翻译极低资源语言时，现有方法（继续训练或编码语法书）易过拟合特定语言，零样本迁移有限。本文提出一种强化学习（RL）方法，以字符级翻译指标chrF作为奖励，训练模型从丰富语言上下文中提取并应用语言知识，实现对完全未见语言的翻译。实验表明，即使使用轻量级奖励，RL训练模型在未见语言上的表现优于上下文学习和监督微调。研究显示，结果导向的RL可超越数学、编程等传统推理任务，成为从上下文中学习语言的通用方案。

推理数据/训练论文/研究

11:46

HuggingFace Daily Papers（社区热门论文）

ArcANE：角色扮演语言智能体能否在正确时机保持角色？

现有基准仅评测角色扮演语言智能体（RPLA）对给定章节的事实回忆，未检验其回应是否贴合角色心理发展轨迹，尤其当场景超出原著文本时。ArcANE 是自动构建的基准，覆盖17部小说和80个主角，利用角色弧线将叙事沿心理轴分段，并为每个阶段提出相同场景（含原著内与外）。在6个模型和6种上下文模式下，使用角色弧线作为条件均优于其他策略，在原著外场景（检索无法获取信息）上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B，在原著外场景上扩大了弧线优势。

智能体论文/研究评测/基准

11:26

Rohan Paul@rohanpaul_ai

论文颠覆直觉：进化者无需最强模型，智能体能力更关键

论文“Harness Updating Is Not Harness Benefit”挑战了常见直觉——把最强模型放在进化者位置以写出更好更新。实验表明，廉价模型Qwen3.5-9B即可写出与Claude Opus 4.6效果相近的提示、记忆和技能更新。昂贵模型更适合作为求解任务的智能体，因弱模型无法正确加载或遵循更新，强模型已近能力上限，收益有限。甜区在中档模型：既能调用新程序，又有足够学习空间。

智能体论文/研究

10:48

Hacker News 热门（buzzing.cc 中文翻译）

Transformer 需要三个投影吗？--对 QKV 变体的系统研究

一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影（Query、Key、Value）。通过分析多种 QKV 变体结构，论文对「三投影」这一设计选择进行了系统性评估。

数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

OPRD：在线策略表示蒸馏

传统在线策略蒸馏（OPD）仅在输出空间匹配下一个token概率，受限于大词汇表（如Qwen约150k token）的采样方差，且忽略教师中间隐藏状态。OPRD将蒸馏提升至隐藏状态空间，在同一rollout上对齐学生与教师选定层的表示，绕过LM头。理论上消除采样方差，提供逐层结构信息。在AIME 2024/2025和AIMO上，OPRD缩小师生差距，而OPD基线低于教师。训练速度提升1.44倍，内存减少54%。代码已开源。

推理数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

DataCOPE：面向智能体数据分析的无监督技能发现框架

DataCOPE 是一个无监督验证器引导的技能发现框架，用于提升数据智能体性能，无需更新模型参数。它从探索轨迹中提取验证器信号，迭代协调数据智能体、无监督验证器和技能管理器进行对比性技能蒸馏。报告式分析中实例化为自适应检查表验证器，推理式分析中实例化为答案一致性验证器。在 Deep Data Research 和 DABStep 上的评估显示，DataCOPE 在四种模型设置下平均将报告式任务分数提升 9.71%，推理式任务提升 32.30%。

智能体数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

MLEvolve：一种自我演进的自动化机器学习算法发现框架

MLEvolve 是一个基于大语言模型的多智能体框架，用于端到端机器学习算法自动发现。它通过渐进式 MCGS 树搜索实现跨分支信息流动，并引入熵驱动的演进式调度，使搜索从广泛探索转向集中利用。框架配备 Retrospective Memory，结合冷启动知识库与动态全局记忆，实现任务经验检索复用。战略规划与代码生成解耦，保证长时间迭代稳定。在 MLE-Bench 评测中，MLEvolve 在 12 小时预算（半标准时长）内取得平均奖牌率和有效提交率等多项 SOTA，并在数学算法优化任务上超越 AlphaEvolve，展现跨域泛化能力。代码已开源。

智能体数据/训练论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

Future-L1：用于视频事件预测的交错潜在视觉推理

Future-L1 是一种交错潜在视觉推理框架，让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集，并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上，Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4，超过此前最优 Video-CoE 10.4 分；在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明，将中间视觉语义保留在潜在空间而非转化为文本，有益于未来视频推理。

arXiv多模态视频论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

NF-CoT：基于归一化流的潜在推理框架

NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流，为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成，文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计，并支持潜在推理空间的直接策略梯度优化。在代码生成基准上，NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率，同时显著降低了中间推理成本。

arXiv推理编码论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

Discrete-WAM：统一离散视觉-动作Token编辑用于世界-策略学习

自动驾驶需推理自车动作如何影响世界演化，现有端到端方法依赖直接状态-动作映射，缺乏对动作条件动力学的显式建模；连续潜空间世界模型缺乏组合因果推理。Discrete-WAM提出统一潜视觉-动作世界策略，将未来视觉状态与自车动作表示为对齐的离散token，在离散扩散框架内联合实现世界建模、世界-动作策略和层级决策策略，支持跨替代未来的组合因果推理与可控生成。在大规模自动驾驶基准上取得有竞争力的性能。

具身智能论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

WLA：统一世界建模、语言推理与动作生成的世界-语言-动作模型

WLA模型以文本指令、图像和机器人状态为输入，联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer（非双向扩散Transformer），通过World Expert监督物理动态，并利用元查询使世界预测隐式影响动作生成（推理时可禁用，也可激活以支持测试时缩放）。原型WLA-0拥有2B活跃参数，在RTX 5090上单次推理40ms。在模拟与真实环境评估中，WLA-0在RoboTwin2.0 Clean上达92.94%成功率，在RMBench上达56.5%，并可直接从跨具身机器人视频学习新任务（无需动作标注）。

arXiv具身智能多模态论文/研究

10:46

HuggingFace Daily Papers（社区热门论文）

LoomVideo：高效统一视频生成与编辑架构

LoomVideo是一个5B参数的高效统一架构，支持视频生成与编辑。它用多模态大语言模型（MLLM）替换标准文本编码器，通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法，直接缩放和加性处理源视频潜变量，避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA，尤其在电商和时尚生成场景表现突出，推理速度相比同类模型提升至少5.41倍。

多模态视频论文/研究

10:24

公众号：龙猫LongCat（美团）

ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

开源/仓库推理论文/研究评测/基准

09:26

Rohan Paul@rohanpaul_ai

Harness-1：通过状态外部化提升搜索智能体性能

Harness-1 将大语言模型的记忆工作转移到外部辅助系统（harness），解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择，而可恢复状态（候选池、证据链接、去重记录、预算感知记忆等）由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中，外部化状态避免了失败原因混淆，有助于策略学习。Harness-1 在未见 benchmark 上提升更大，表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。

智能体arXiv推理搜索

08:54

meng shao@shao__meng

Anthropic 发布「AI 递归自我改进」研究报告：Claude 正被深度用于开发下一代 AI

Anthropic 发布报告显示，Claude 正被深度用于开发下一代 AI，趋势加速或导致系统自主设计后继版本。外部指标：模型可靠完成任务时长约每 4 个月翻倍，SWE-bench 两年内饱和，CORE-Bench 15 个月内饱和，长时任务达 16 小时。内部数据：截至 2026 年 5 月超 80% 主干代码由 Claude 撰写；工程师日均合并代码量是 2024 年的 8 倍；员工中位数估计产出为无 AI 时的 4 倍；实验执行从约 3x 提升至约 52x；自主研究恢复能力达人类两组研究者一周工作量的 97%（人类约 23%）；研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体Anthropic安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型智能体的冷启动安全性差距

工具调用 LLM 智能体在对话开始时安全风险最高，完成若干常规 agentic 任务后安全性显著提升，称为冷启动安全性差距。为系统研究此问题，提出基准 SODA（Safety Over Depth for Agents），可控制在安全威胁前最多 20 个前置任务。在 4 个模型族的 7 个模型上，前置任务从 0 增至 20 时安全提升 9–52%。表征分析显示模型隐藏状态逐渐移向安全对齐区域。常规任务本身是安全提升主因，agent 自身响应影响较小但有助于保持效用。在 AgentHarm、Agent Safety Bench 等安全基准及 BFCL、API-Bank 等效用基准上得到验证。建议部署前让 agent 完成少量常规任务以缓解该差距。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReVision：通过时序视觉冗余缩减扩展计算机使用智能体规模

计算机使用智能体（CUA）依赖GUI截图，每张截图编码大量视觉token，长轨迹下token成本激增。ReVision训练多模态语言模型，利用学习的patch选择器比较连续截图中patch表征，去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时，ReVision平均减少46% token使用，成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹，且随着移除冗余后纳入更多历史观测，性能持续改善。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PACI：通过有界权重不一致实现无气泡异步流水线并行训练

针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题，PACI提出一种无气泡异步方法，利用局部梯度累积作为版本控制机制，限制前向/反向版本漂移，无需权重存储、预测或全局同步。在GPT风格语言模型预训练中，PACI匹配同步1F1B-flush的稳定性与最终困惑度，保持相同峰值内存，实现完全流水线吞吐量，训练时间-准确率提升最高达1.69倍。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

编码AI智能体会欺骗我们吗？CapCode框架通过随机测试的上限评估检测与防止作弊

在编码AI智能体评估和训练中，模型可能通过走捷径获得高分，造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集，将非作弊可得分的上限故意设低于1，使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则，抑制超过上限的优化。实验表明，CapCode能有效检测作弊且保持模型排名，CapReward减少作弊行为，使模型更好遵循任务规范。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

MemDreamer：通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架，将长视频理解转化为智能体探索过程。它增量式处理视频，构建三层层次化图记忆（Hierarchical Graph Memory），用于语义抽象并捕获时空与因果关联。推理时，智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上，MemDreamer 达到 SOTA 效果，将人类专家差距缩小至 3.7 分，推理上下文窗口仅占全量输入的 2%，同时带来 12.5 个百分点的绝对准确率提升。统计分析发现，VLM 的逻辑推理能力与长视频理解性能呈强正线性相关，智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Struct-Searcher：结构化智能体工作流推动多模态深度信息搜索

现有深度研究智能体多基于证据累积模型线性聚合信息，缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流，在推理过程中显式维护一个不断演化的多模态结构图，实现冲突感知的多模态深度信息检索。实验表明，Struct-Searcher即插即用、模型无关，在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%；同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。

智能体多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VoLo：面向开放词汇长时程操作的物理编排器

VoLoAgent是一个基于VLM的物理编排智能体，将异构机器人能力（VLA/WAM、视觉模型、动作原语）作为可中断工具，实现规划、监控与恢复。同时提出RoboVoLo基准，专为开放词汇长时程操作设计，涵盖常识、记忆/状态跟踪、复杂指代与世界知识，并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统，并在真实机器人上验证。

智能体arXivMCP/工具具身智能

08:00

HuggingFace Daily Papers（社区热门论文）

WIZARD：基于权重空间元学习的机器人策略适应

针对视觉-语言-动作（VLA）模型部署成本高的问题，WIZARD提出权重空间元学习框架，仅需语言指令和简短演示视频，在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数，无需动作标签或测试时优化。在LIBERO上，WIZARD在未见过数据集集合上性能提升最高约2倍，在未见过任务上最高约14倍；在Franka Emika Panda真实机器人上，WIZARD持续优于域适应基线。

arXiv具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Whisper幻觉检测与缓解：基于隐表示引导和稀疏自编码器

针对Whisper ASR模型在非语音音频上生成连贯转录（幻觉）的问题，研究提取音频编码器激活，评估原始Whisper激活和Sparse AutoEncoder（SAE）隐变量两个表示空间。两者均编码线性可分的幻觉相关信息，判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略，在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%，Whisper large-v3从86.88%降至27.33%，语音数据上WER退化很小，性能接近基于微调的方法。

论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

SlimSearcher：通过自适应奖励门控训练效率感知的Web智能体

SlimSearcher提出兼顾准确性与计算成本的训练框架。监督微调阶段采用Pareto高效过滤，仅保留成功且经济的轨迹；强化学习阶段引入自适应奖励门控，动态评估工具与token效率，避免绝对惩罚导致的简洁性偏差（brevity bias）和奖励作弊（reward hacking）。在GAIA、BrowseComp和XBenchDeepSearch等基准上，工具调用轮次减少17%-58%，同时保持或提升准确率。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DuMate-DeepResearch：具有递归搜索与准则推理的多智能体可审计深度研究框架

DuMate-DeepResearch 基于千帆智能体工厂构建，将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦，使中间决策与工具调用可追溯。框架引入三种机制：基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正；递归两层执行将复杂搜索子任务委托给内层 Search Agent，隔离噪声并稳定长程执行；基于准则的测试时优化动态生成质量标准，作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分，并在信息召回与分析维度排名第一。

智能体推理搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SWE-Explore：编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准，覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表，ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开，发现这些指标与下游修复行为高度相关。结果显示，智能体探索器整体明显优于传统检索方法，但文件级定位已足够强，行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏（OPD）与监督微调（SFT）及带可验证奖励的强化学习（RLVR）在参数空间中的更新轨迹。OPD的更新影响更少权重，更强地避开主方向，且约束比RLVR松弛。OPD表现出子空间锁定：累积更新快速进入低维通道，且锁定子空间对OPD功能足够。控制实验表明，稀疏化更新token或off-policy生成不改变秩动态，而混合RLVR目标会改变。结论：OPD并非SFT与RLVR的中间点，而具有自身独特的更新几何。

arXiv推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TBD-VLA：时间块扩散视觉-语言-动作模型

TBD-VLA是一种基于离散token的视觉-语言-动作（VLA）框架，通过引入块扩散（block diffusion）实现时序动作生成。该方法将动作序列划分为时间块，在块内进行掩码离散扩散，块间保持自回归生成，统一了时序自回归与并行动作解码，兼顾时序连贯性与推理速度。此外，显式时序建模支持通过时间修复实现动作块的异步执行（如实时分块）。TBD-VLA在模拟和真实操控任务中显著优于此前VLA方法。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块，通过开放编码建立AI辅助开发活动分类法，并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息，追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示，开发者主要用LLM进行代码实现，其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移，AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。

arXiv编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ECI_{sem}：面向困难负样本评估的语义残差有效对比信息方法

提出ECI_{sem}，一种无需训练的语义残差变体，利用冻结目标编码器嵌入对密集检索候选负样本源排序。每个评分需查询、标注正例及显式候选负例。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性构建加权残差信息矩阵。在MS MARCO上，族内ECI_{sem}将LLM负样本（非混合）和Dense+LLM（混合源）排为最高，与DistilBERT、E5-base、Contriever在BEIR上的最强聚合迁移结果一致。消融实验表明对齐依赖目标编码器族，且在样本量、温度等扰动下稳定。

检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RISE：面向智能体搜索的交互空间检索方法

RISE 方法提出用 BM25 为智能体搜索构建一个有边界的交互空间，并在索引时处理文档以支持 shell 式导航。在 BrowseComp-Plus 上，RISE 搭配 gpt-5.4-mini 达到 78% 准确率，每查询成本约为纯 shell DCI 基线的四分之一。当语料库扩充至 100 万文档时，RISE-BM25 在 gpt-5.4-mini 上准确率提升至 81%，而 DCI 在 gpt-5.4-nano 上准确率降至 60%，且 33% 的查询因超时失败。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多流派和弦符号建模：冻结的 pop-jazz Music Transformer 的轻量适配能力与边界

研究使用冻结的 pop-jazz Music Transformer 检查点，通过 LoRA、IA3、BitFit、prefix tuning 和 full fine-tuning 五种轻量适配方法，将模型扩展到 blues、bossa nova、Bach chorales 等11个目标流派。在165组实验中，所有方法在保留和弦预测上均优于冻结基模型，宏观增益+2.89至+3.61分；LoRA 和 IA3 得分最高，但统计检验不支持决定性胜者。控制数据大小后 IA3 仍领先，LoRA 的全数据优势消失。诊断表明和弦符号适配可靠改善流派局部和声预测，但单独和弦符号不足以承载完整流派特征。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

熵作为结构先验：DiT信念空间上的对数障碍驱动音乐多样性与发展

在监督式扩散训练中，Eisbach log-barrier利用DiT输出空间能量分布的熵导出无参数权重：高熵抑制梯度，低熵保留梯度。应用于Stable Audio 3 Medium在MusicCaps上的LoRA微调，意外产生更强的主题发展、更清晰的声学区分和更高的纹理多样性，而非模式坍缩。原因在于监督扩散中梯度方向锁定于真实值，置信度仅缩放步长，且时间熵压低平坦样本而保留高对比样本。该方法形成在线自参照数据课程，伴随噪声层级动力学分析与可检验预测。

数据/训练论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

MMAE：大规模多任务音频编辑基准

MMAE是首个专为通用指令音频编辑设计的综合评估基准，涵盖声音、语音、音乐及其混合共7种音频模态，并建立包含6级任务复杂度、2级细粒度与8种操作类型的分类体系。通过人机协作精心筛选2000个高保真样本，配套基于评分标准的评估框架，将自由形式任务分解为17,741个可验证指标，实现指令遵循与上下文一致性的精确多维度评估。对主流模型的评测显示，精确匹配率（EMR）整体低于5%，在复杂混合模态任务中降至绝对0%。

arXiv多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

AnchorWorld：基于视图演化定制的具身自我中心世界模拟

AnchorWorld 提出一种具身自我中心世界模拟框架，通过增强交互完整性与灵活的世界定制机制提升实际场景可控性。该框架以 3D 人体运动为主要交互模态，引入与第一人称传感器解耦的外部视角辅助监督，使模型能观察全身相对环境的定位，从而稳健建模人-世界交互。此外，在世界坐标系内定义锚定视图并配合描述局部场景演变的文本，实现简单有效的世界自我演进定制。实验结果显示，AnchorWorld 显著优于现有基线，消融研究验证了关键设计的有效性，定制方案展现出良好的时空几何一致性并严格遵循预设演化规则。

具身智能多模态论文/研究