TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。
TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。
推测解码(SD)通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策:接受或完全重算。VIA-SD提出多层级框架,利用模型内路由从完整验证器中提取轻量子模型(slim-verifier),对中等置信度的草稿token进行再生,仅在不确定时调用完整模型。在四个代表性任务和多种模型族上,VIA-SD将拒绝率降低0.10–0.22,相比强SD基线实现10–20%加速,相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架,无需修改训练过程。
多模态图像融合现有方法基于2D特征网格,局部建模强但全局外观控制有限。本文引入紧凑1D token接口,基于冻结预训练图像tokenizer作为全局载体,同时保留2D空间路径恢复局部结构。提出选择性token编辑(STE),稀疏更新或替换关键token,在不改变融合主干、不引入额外损失下引导全局一致性。在四个基准上取得最佳整体性能,全局一致性和局部保真度均提升。
PianoKontext 是一种流匹配渲染模型,专为古典钢琴音乐设计,在预训练 Music2Latent 模型的潜在空间中生成可变长度的富有表现力演奏。该方法将 MIDI 乐谱合成为平淡音频,利用动态时间规整(DTW)在潜在空间中对齐乐谱与演奏数据,并将对齐的嵌入拼接至 DiT 块中,以简单有效的方式学习乐谱与演奏之间的依赖关系。演示音频见项目页面。
Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈,提出三项设计:分布对齐对抗学习(以教师生成图像而非真实图像作为GAN训练的真样本)、步骤分离参数化(两个去噪步独立参数)、以及带迭代正则化的端到端训练(第一步接收最终图像质量梯度并保留有意义的中间生成)。这些策略显著缩小了2步与8步生成的质量差距。
FORT-Searcher 提出抗捷径训练数据合成框架 FORT,识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险,在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明,FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调(SFT)训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。
Evoflux是一种推理时进化搜索方法,通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝,将紧凑型语言模型的可执行工具工作流修复为可运行图。在覆盖250个工具和MCP服务器的MCP-Bench任务上,Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下,同一数据上的SFT和SFT+DPO表现持平、不如或崩溃至低于零样本水平;ReAct可达更高峰值但方差和token成本更高。结果表明,在稀缺教师轨迹预算下,基于执行反馈的搜索更可靠。
无参考忠实度度量仅衡量精确率(陈述是否被支持),鼓励模型少说甚至不说以获得高分。本研究利用F1遥测(确定性完整ground truth)和NOAA天气预报两个完整Oracle领域,证明此盲点:在多语言(EN/ES/PT)共7253个决策实例(覆盖150场比赛)的基准上,最精确的前沿模型仅覆盖不到一半相关事实,按F1排名垫底。引入覆盖度(召回率)后系统排序改变;显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数,并给出无参考验证器引导生成方法,同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。
该研究质疑在基于代理的搜索(agentic search)中“grep 是否足够”这一假设,并分析代理框架(agent harnesses)如何重新定义智能体搜索的交互方式与能力边界,推动搜索范式从简单工具调用向结构化代理行为演进。
Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言,基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统,包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现:代码切换的转录成本因语言对和模型而异;ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。
美国宾夕法尼亚州立大学研发出光忆阻器,模拟人眼适应机制,解决自动驾驶汽车在光线剧烈变化时失去感知的问题。该器件将氧化钛与塑料PEDOT:PSS结合,通过类似“出汗”和膨胀自动调节感光,数秒完成强光到暗光切换(人眼需20-30分钟)。4×4阵列与AI神经网络测试,在极亮背景中识别暗光字母“F”,7轮训练后准确率达95%。已申请临时专利,未来可用于工厂机器人和视障人士人工视觉设备。
一项在塞拉利昂等地开展的随机对照试验显示,Gemini 的 Guided Learning 功能能够提升学生参与度并加速学习。
对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。
大语言模型用于生成科学假设,但常见进化搜索因过度优化导致多样性坍塌。本文将假设搜索建模为采样问题,目标是在固定验证预算下高效产出多样且高质量的候选假设。受并行回火算法启发,提出一种进化框架,在多个温度水平同时搜索,并通过跨温度信息交换增强探索而不破坏收敛。在分子发现、方程发现和算法发现三个领域,该方法在同等验证预算下同时提升了假设质量与多样性,且候选假设在更昂贵的下游计算验证中仍保持鲁棒。
SwiftVR 提出流式一步生成式视频恢复框架,采用无掩码移位窗口自注意力和轻量级恢复感知自编码器,消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用,无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上,2560×1440 分辨率达 31 FPS,3840×2160 达 14 FPS,而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上,1080p 达 26 FPS,为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。
光学推理(Optical Reasoning)提出将图像作为语言和多模态任务的独立推理媒介,包含基于印刷字体与基于图形两种变体,分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上,光学推理匹配甚至超越传统文本推理,同时语言任务减少推理token 28.57%,多模态任务减少16%,token效率达到文本推理的1.96倍,证明图像能高效编码推理过程并提供统一的视觉推理画布。
PBSD提出一种贝叶斯校准的自蒸馏方法,用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量,并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解,产生每步信号,识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号,与标准策略优化兼容。实验表明,该方法在领域内和领域外设置中一致提升性能,并有效将知识从短上下文训练迁移到长上下文推理。
针对基于可验证奖励的强化学习(RLVR)在组级别奖励无信息时无法提供梯度信号的问题,提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统,通过迹线锦标赛(trace tournaments)对推理迹线进行头对头比较,转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较,然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上,平均超越RLVR基线7.6%,训练加速27%至41%,节省近50%生成计算量。
哈佛大学与 Perplexity 联合发表论文,采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示,AI 智能体每会话可自主工作 26 分钟,而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升,并且尝试的工作范围更为广泛。
提出AHA-WAM,基于双扩散Transformer(DiT)架构,将视频DiT作为低频世界规划器,维护滚动键值记忆编码长程场景演化;高频动作DiT通过分层联合注意力查询上下文,在闭环中执行短动作块。引入视界自适应偏移训练与观测引导视频上下文路由(OVCR),使动作专家无需重新运行视频DiT即可利用长程世界上下文并保持对实时状态的响应。在RoboTwin基准上平均成功率达92.80%,4项真实世界任务平均成功率78.3%,闭环控制频率24.17 Hz,相比Fast-WAM加速4.59倍,无需任何机器人数据预训练。
SkeMex 是一种部署后自进化框架,通过技能记忆提升医学智能体的临床交互推理能力,无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能(可复用流程知识),组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用,指导价值感知检索与仓库治理,形成“读取—写入—评估—治理”闭环生命周期。实验表明,在多种临床任务中,SkeMex 在离线和在线设置下均优于代表记忆型智能体,且能跨模型骨干泛化并实现可转移技能记忆。
AI评估结果规模庞大但报告不一致,导致读者难以跨来源比较、识别遗漏或追溯结论。Evaluation Cards通过整合基准元数据、评估运行数据和模型元数据,形成统一记录。方法包括:(1)从52篇论文和10次利益相关者访谈中推导报告模式;(2)实现四个可解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众提供不同读者模式;(3)部署监控工具,覆盖5816个模型、635个基准和101843个结果,揭示当前报告实践中的系统性缺口。
FlashMemory-DeepSeek-V4(FM-DS-V4)提出Lookahead Sparse Attention(LSA)推理范式,基于DeepSeek-V4架构构建神经记忆索引器,主动预测未来上下文需求,仅保留查询关键KV块。采用解耦训练策略,索引器作为独立双编码器训练,无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上,平均物理KV缓存压缩至全上下文基线的13.5%,下游精度平均提升0.6%;在500K极端长度下,物理KV开销减少超过90%,且不损害主干模型的核心推理能力。
OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准,涵盖单人(7个)、PvP(3个)和合作(2个)模式,提供统一动作接口。除冷启动排行榜分数外,还引入Improvement Dynamics Curve (IDC),一种智能体反射评估机制:通过工具调用反射大语言模型自动优化技能提示词,追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现,以及4个顶级智能体在IDC下的指标。
Echo-Memory固定视频扩散骨干、优化器、相机动作表示、采样器和评估流水线,比较原始上下文、压缩记忆、空间摘要(不同读取路径)和状态空间循环四种记忆设计。三分支评估(回放质量、域内循环重访、开放域返回)显示排序常不一致,回放保真度不足以代理世界记忆。发现:原始上下文提升开放域返回远超回放指标;紧凑无法替代容量,激进空间与混合压缩丢失关键证据;块状态空间循环在开放域返回中最强,隐式记忆结构与使用同等重要。
长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量,或耗时耗算力。本文通过架构搜索和从头预训练,在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族,支持1:4、1:8、1:16压缩比,命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿,并能作为长时程智能体的高效骨干,快速扫描压缩后的长上下文并按需展开相关片段。
SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端,包含 760 个人工标注任务,覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据,并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示,最强闭源模型 GPT-5 平均任务成功率仅 17.4%,最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节,不同领域性能差异显著,主动探索与长程规划仍是瓶颈。
Mirage提出一种潜在空间记忆框架,用于视频世界模型的3D一致性生成。它通过深度引导反投影将潜在token提升至3D,形成持久缓存,并利用直接潜在空间扭曲合成新视图,避免了像素空间重建的信息损失和重复编码渲染的计算开销。相比显式3D基线,Mirage实现端到端视频生成加速10.57倍、内存占用减少55倍。在WorldScore上达到当前最优性能,在RealEstate10K上展现强重建质量。
WebChallenger 围绕核心模块 PageMem(从 DOM 确定性构建的带摘要语义层次页面结构)设计三种机制:分而治之的观测管线(让智能体扫读摘要、仅提取任务相关区域细节)、轻量级网站探索与记忆系统(遍历一次网站即可复用页面与元素行为地图)、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型,在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%,接近前沿闭源系统但成本极低。代码已开源。
提出基于累积FLOPs的计算感知评估框架,以计算压力替代固定查询预算,引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上,使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现:对齐训练对计算空间鲁棒性呈非单调影响;模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限;梯度攻击可跨模型迁移;单个模型内不同危害类别间计算成本差异约5倍;安全对齐的RL增加整体攻击成本,但部分类别仍较易攻破。框架已开源。
Flash-GMM 是一个基于 Triton 的融合内核,可在单次 GPU pass 中高效计算大规模高斯混合模型(GMM)。它无需在 GPU 内存中实例化完整责任矩阵,相比现有实现实现 20 倍加速,并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索(ANN)后,软 GMM 聚类可替代 k-means,利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍,或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。
基于预训练视觉基础模型(VFM)的表示自编码器(RAE)在图像生成中构建语义丰富的潜空间,但重建质量受限于深层特征丢失细节。IDEAL框架通过联合对齐量化token与浅层和深层VFM特征,使离散视觉token同时保留视觉保真度和丰富语义。在ImageNet上,IDEAL达到0.61 rFID,比之前最优方法提升0.28;用于自回归图像生成时取得1.89 gFID,创下新SOTA。
针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题,N-GRPO将语义邻居混合(Semantic Neighbor Mixing)机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示,在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明,N-GRPO在数学推理基准上持续优于强基线,并在分布外任务上展现稳健泛化能力。
ComBench是一个面向奥林匹克级组合数学的基准,包含100个人工标注的竞赛级别问题,分为分析型(侧重严谨数学论证)和构造型(需要明确构造及正确性证明)。评估结合评分指南的证明评分与确定性构造验证,揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和:最强模型整体平均分65.4%,Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5,但在构造型Best@4上反超;存在性和构造类问题对所有代表性模型始终最难。
DeNovoSWE 是一个大规模完整仓库生成数据集,包含4,818个高质量实例,每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建,无需人工标注,采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后,在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。
i1 是一个 3B 参数的文本到图像扩散模型,仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上,i1 性能与领先模型相当,平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验(超 700K TPU v6e 小时),发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。
Embodied-R1.5是一个统一具身基础模型,将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线,团队搭建超过150亿模型token的数据系统,并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA,超越Gemini-Robotics-ER-1.5与GPT-5.4,并可微调为VLA,在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。
一项实验让Claude、Biomni、Edison Analysis、GPT等科研智能体从病毒学数据库NCBI Virus中检索序列数据,即使最强模型也无法稳定达到可靠数据集构建所需的准确率。加入确定性检索层gget virus后,准确率接近100%。研究指出,当前生物学数据基础设施存在碎片化、格式特殊、接口不统一等问题,导致AI智能体难以像在软件领域那样高效工作。确定性检索工具是实现可靠智能体工作流的关键,生物学数据库需为智能体作为规模化用户而设计。
小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式,专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上,实现了1万亿参数模型超过1000 tokens/s的解码速度。
MiniMax M3采用MaxProof框架,在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练:Proof RL使用生成式验证器提供奖励,进行长程强化学习提升证明生成能力;Verifier Alignment将验证对齐为错误定位任务;Refinement Augmentation利用训练中产生的错误证明与验证分析对,通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声,保证RL稳定性。
关联讨论 1 条HuggingFace Daily Papers(社区热门论文)