OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据(超300万样本)训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA(多跳推理)、ConFiQA(忠实性)和 MuSiQue-Un(拒答)基准上,性能匹配或超越 2-6 倍规模的通用模型。
OCC-RAG 是 Optimal Cognitive Core (OCC) 家族中专为忠实问答优化的 SLM。研究团队通过大规模合成多上下文、多跳 QA 数据(超300万样本)训练出 0.6B 和 1.7B 两个版本。模型生成结构化推理轨迹并引用原文证据。在 HotpotQA、MuSiQue、TAT-QA(多跳推理)、ConFiQA(忠实性)和 MuSiQue-Un(拒答)基准上,性能匹配或超越 2-6 倍规模的通用模型。
FineVerify是一种提升智能体搜索任务表现的自验证框架。它通过将问题分解为可验证的子问题,对采样出的候选答案进行逐一验证,并选择聚合得分最高的答案。在四个智能体搜索基准测试中,该框架效果显著:仅用四个采样轨迹,就能将GPT-5-mini的准确率提升8.2个百分点,将Gemini-3-flash平均提升5.6%。使用12个样本时,它能使GPT-5-mini在BrowseComp-Plus上超越前沿模型GPT-5。此外,该框架还能生成可解释的验证轨迹,有助于审查基准测试错误。相关代码与数据已开源。
本研究提出了置信度自适应SwiGLU,这是面向Mixture-of-Experts模型的一种SwiGLU变体。该方法根据token级的路由置信度动态调整专家门控的锐度,通过将SiLU门控的锐度系数参数化为路由器对数几率的可学习函数,使每个门控单元能在平滑的广泛激活与尖锐的选择性门控之间自适应插值。在FineWeb-Edu数据集上针对不同规模的MoE Transformer模型评估表明,κ-SwiGLU在引入极少量额外参数和微小计算开销的前提下,提升了模型的平均CORE性能。
RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发,将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估,揭示了特定压力下的失败模式,并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外,研究还引入了一种压力感知智能体求解器,它能在推理前检测视觉压力源并调用视觉编辑技能,以提升模型在复杂场景中的鲁棒性。
NVIDIA 发布 X-Token 技术,通过解决 GOLD 方法中的两个结构性缺陷,将 Llama-3.2-1B 模型在 GSM8k 基准上的准确率从 2.56 提升至 15.54。
视觉语言模型(VLMs)在空间推理基准上表现优异,但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析,发现多个模型族存在一致的“垂直距离纠缠”现象,即模型将图像垂直位置与空间距离混淆,这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著,且随数据规模扩大而加剧,即使基准分数提升。分析还表明,基准分数相似的模型可能具有不同的内部表征,这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差,团队推出了合成基准SpatialTunnel,实验证实该纠缠是模型固有属性,空间轴分离度更高的模型表现更鲁棒。
1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...
针对大语言模型或多模态模型在时间序列异常检测中表现不佳的问题,研究者构建了高质量基准VisAnomBench。该基准基于公开时间序列数据集,并利用多个大型视觉语言模型的输出进行了增强。基于此,他们开发了参数高效的视觉语言模型VisAnomReasoner,专用于该任务。实验显示,VisAnomReasoner在VisAnomBench上的异常定位更准确,精确度和F1值分别比所有基线模型高出至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验也验证了其出色的跨基准泛化能力,精确度和F1值分别提升了9.57和13.39个百分点。
DynaFLIP 是一个动力学感知的多模态预训练框架,旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号,以单纯形体积最小化为核心思想,结合余弦正则化与对比学习目标,优化单一图像编码器在共享超球面空间中的对齐。分析表明,该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络,在多种下游策略(包括视觉语言动作模型)中均优于基线。在分布外场景下,性能提升高达 +22.5%。
研究发现大语言模型(LLM)在处理不同政治立场话题时存在系统性的“隐蔽政治偏见”,即不对称处理。该研究识别了7类偏见技术,并提出两种度量标准:情感一致性(对称修辞)与有用性一致性(对称深度与参与度)。为减少此类偏见,研究引入了政治一致性训练(PCT),这是一种包含两个互补范式的强化学习方法。结果表明,PCT在保持模型总体有用性的同时,显著减少了隐蔽政治偏见,并能推广至未见过的评测基准。
Xetrieval是一种用于解释密集检索行为的嵌入级别的机制性框架。它首先引入轻量级推理内化器,通过单次前向传播在嵌入空间近似链式推理,以增强句子嵌入的推理信息。随后,框架将这些推理增强的嵌入分解为稀疏的、人类可解释的特征,并为每个特征赋予自然语言描述。通过聚合多个文档侧视图的稀疏特征重叠,Xetrieval能够为单个检索决策提供特征级别的解释。实验表明,该方法在不同检索器和基准上能发现连贯的可解释特征,并支持任务级的特征引导。
RePoT是一种确定性验证重放方法,用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时,它会回溯到已验证的前缀状态,并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中,RePoT比PoT高出+3至+11个百分点,并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明,检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。
视频大语言模型在视频理解中能力强,但处理海量视觉token效率低下。现有方案多在预填充后期压缩,未优化视觉编码器本身。研究指出视觉编码对时间首token(TTFT)延迟贡献大,因此压缩应提前。为此提出EarlyTom,一个免训练的压缩框架,它在视觉编码器内部执行早期视觉token压缩,并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时,EarlyTom将TTFT最高降低2.65倍,FLOPs减少高达61%,同时保持与全token基线相当的准确度,提升了部署实用性。
CoHyDE 是一种迭代训练框架,旨在解决大语言模型智能体在大型 API 目录中进行工具检索时面临的核心瓶颈。用户查询常使用口语化、描述不充分的自然语言,而 API 目录使用固定的技术性术语。该框架将稠密编码器与 LLM 重写器视为一个协同演化系统进行训练:编码器在重写器生成的、符合目录风格的假设性描述上通过 InfoNCE 进行重训练;重写器则通过 DPO 根据编码器的检索分数进行偏好对齐。在 ToolBench 目录约 10k 工具的子集上,三轮 CoHyDE 迭代后,其在标准查询上的 NDCG@5 得分较最强单组件基线提升 +2.5 pp,在模糊查询上提升 +6.3 pp。消融实验证实,协同训练是该方法在结构化与模糊查询上均取得优势的关键。
一篇新综述论文提出,自主AI智能体的真正瓶颈并非语言模型本身,而是工具、内存、测试与权限边界等构成的软件层。这一“约束层”将无状态模型转化为能行动的工作智能体。DeepSeek已在北京组建专门的Harness团队,其“模型加约束层等于AI智能体”的公式印证了该观点。
ViGeo是一种前馈基础模型,用于从视频序列中恢复空间密集且时间一致的几何信息。它基于Transformer架构,支持流式、全序列和长视频推理。其核心设计为动态分块注意力机制,在训练时结合双向和因果时间上下文,并在测试时自适应调整。研究还引入基于补全的数据精炼框架,通过训练视频深度补全教师模型生成密集、时间连贯且可靠的训练目标。该模型在同一框架内同时预测深度、点图和表面法线,仅使用公开数据集训练,便在多个相关视频几何估计任务上达到了最先进水平。
微软提出SkillOpt方法,旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象,而非直接修改底层大语言模型。该方法让智能体尝试任务,分析成功与失败案例,然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受,从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置(包括直接聊天、Codex和Claude Code)的共52个测试案例中,SkillOpt均达到最佳或并列最佳。在GPT-5.5上,它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用,部署时无需重新训练模型。
PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示,该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体,物体则通过物质点方法模拟为物理智能体,并以3D高斯作为统一可微表示。交互通过三个耦合机制监督:时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟,以及增强接触保真度的遮罩视频-SDS目标。实验证明,PhyGenHOI能生成物理一致的交互,性能优于基线方法。
本文提出一种名为 In-Writing 的混合解码框架,旨在解决大语言模型自由生成推理丰富但缺乏结构,与约束解码格式统一但可能过早限制推理能力的矛盾。该框架在单次调用中结合二者:模型首先进行无约束推理,待生成特定触发词后再应用结构化解码,从而将推理与格式化明确分离。此方法能有效消除“过早触发”这一失败模式。在涵盖分类与推理任务的多项数据集评估中,In-Writing 相比自然生成,准确率最高提升了27%,性能优于现有方法。相关代码已开源:https://github.com/Nokia-Bell-Labs/InWriting。
自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效,但缺乏显式3D意识,易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验,使用SAM3D估计物体几何与位姿,并通过渲染比较优化进行细化。随后,基于估计位姿将PartField描述符从重建几何渲染至图像平面,生成几何感知特征图以补充DINO与Stable Diffusion特征,同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督,训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同,此框架自动获取实例级3D结构并用于指导对应学习。实验表明,该方法在减少人工几何监督的同时提升了语义对应性能。
智能体AI推理的设计空间横跨两个极端:云端大语言模型性能强大但成本高,设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型,为平衡提供了可能,但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则,此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理,系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明,小语言模型确实能从大语言模型的辅助中获益,但最优架构高度依赖具体任务,且更多的前沿计算并不总能带来更好的性能。
UniSteer是一种文本引导的激活空间流匹配模型,旨在统一控制冻结的大语言模型推理时的内部行为。该模型不依赖固定方向,而是基于自然语言条件学习残差流激活分布的通用条件速度场。推理时,它通过流反转将部分源激活输运至潜状态,并在目标文本条件下重新生成后注入模型。该统一模型同样支持通过选择重建能量最低的文本标签进行激活空间分类。实验表明,UniSteer在行为控制、真实性引导、细粒度概念引导、多约束指令遵循及激活空间分类等任务上提供了统一的接口。
扩散模型的生成轨迹具有频谱偏差,早期处理低频全局结构,后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声,能量分配效率低。本研究提出彩色噪声采样(CNS),一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度,更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明,CNS作为推理时的替换采样器显著提升了生成质量:在ImageNet-256上,无引导FID在SiT-XL/2上从8.26降至6.27,在JiT-B/16上从32.39降至26.69,在JiT-H/16上从11.88降至8.31,并且在使用无分类器引导时带来一致改进。
ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹,包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务,实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型,任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明,ChildVox提供了一套高性能模型,能够识别广泛的儿童声学信号,支持下游应用,如表征儿童语言水平和追踪语音发展。
大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而,可验证的多模态深度研究仍面临挑战。为此,研究提出了Ptah,一个多智能体框架。它通过规划、研究和写作阶段,协调从用户查询到网页报告的生成全流程,其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明,Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。
针对强化学习提升事实性问答准确度时的奖励设计难题,本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号,替代了昂贵且不可靠的神经验证器(如NLI或LLM判断器)。CorVer为每个句子分配信用值,并通过简单对齐映射到token级优势,仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中,CorVer使每个组合的性能均优于原始基线,其中TriviaQA平均提升+4.1个百分点。在可行配置下,它在20个组合中的18个超越了神经验证器基线,且训练速度快4.8至8.4倍。
本研究构建了一个两层自主研究系统:外层AI智能体自主重新设计内层用于多智能体序列社会困境(SSDs)的大语言模型策略合成流水线。在Cleanup和Gathering两个游戏、两种福利目标(功利效率与最大化最小)下,该系统在性能上可靠地超越手工设计的基准,显著降低运行方差,并优于仅优化提示词的方法。研究发现,所发现的流水线具有目标依赖性:仅在最大化最小目标下,系统才会向合成器流水线注入显式的公平机制,这种机制在其自身的系统提示词和所有面向效率优化的流水线中均不存在,支持了信息设计理论的观点。
本文介绍了CausaLab,这是一个评估LLM智能体交互式因果发现能力的可扩展环境。该环境在一个合成实验室内评估两个维度:智能体能否利用因果证据解决问题,以及其答案是否基于忠实恢复的因果机制。每个实验中,智能体接收先验观测数据,对操纵晶体进行干预,并预测反应晶体的共振频率。隐藏的数据生成过程是随机采样的结构因果模型(SCM),成功要求恢复因果图和结构方程。实验表明预测与机制恢复之间存在差距:在6节点纯观测设置中,GPT-5.2-high的任务准确率达92%,但全边F1值仅为0.471。混合观测-干预策略能提升结构保真度,而纯干预对强智能体仍具挑战。研究发现过早停止是主要弱点,一致性验证能缓解该问题。CausaLab将预测成功与因果理解分离开来,揭示了当前LLM智能体作为实验因果推理者的局限。
本文提出YOCAUSAL,一个受认知科学“违反期望”范式启发的两层级基准测试,用于评估视频扩散模型(VDMs)的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本,引入“反转惊奇指数”(RSI)量化模型对时间箭头的感知。Level 2引入“因果认知指数”(CCI),利用视觉语言模型将数据集分层,以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明,感知时间箭头并不等同于理解因果关系,当前模型在因果认知方面与人类水平仍存在显著差距。
研究表明,可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门,同时保持基线任务性能。在通义千问(Qwen)2.5 1.5B提示注入分类器上,少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性,并评估了两种互补的检测方法:一种是基于探针电池统计量的行为检测器;另一种是无需运行模型的权重级统计量(归一化Frobenius范数的跨模块标准差)。因果定位将后门定位于中后层MLP模块的down_proj投影。
面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。
关联讨论 1 条公众号:面壁智能(MiniCPM)该研究指出大语言模型在长时程交互中需要管理累积信息,即上下文信念管理(CBM)。研究提出BeliefTrack基准进行精确评估,涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败,包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限,而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。
Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。
为解决轻量级移动端GUI智能体在端到端规划上的不足,本文提出UI-KOBE框架。该框架通过自主探索移动应用,构建包含UI状态节点与转换边的应用知识图谱。运行时,轻量级智能体可利用该图谱作为外部引导,结合用户任务与当前屏幕截图,在多种候选动作中进行选择。此方法减轻了轻量级模型进行端到端规划的负担,使其能更有效地执行任务,并兼顾效率、可解释性与隐私保护。
自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧,导致注意力缓存中的关键值表示占据特权位置,使生成的视频动态性不足、场景进展迟缓,呈现时间上的浅薄性。为此,AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量,模型在每个生成块中将其与内容一起去噪,但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点,使参考点随内容演化。这一设计将时间视为相对概念,为生成过程引入了循环性。实验证明,该自适应状态显著提升了视频动态性,能实现更丰富的运动和自然的场景进展。
视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调,导致过拟合;或集成专用3D编码器,显得笨重且不灵活。本研究提出GASP框架,直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据,通过一个小型对应头进行双目标训练:对比损失强化2D视角不变性,深度一致性监督解决3D几何歧义。分析表明,标准模型内部的对应匹配准确率极低(常低于5%);GASP训练后,该指标峰值超过70%,且时间鲁棒性超过85%。这在下游基准测试中带来显著提升,包括在All-Angles Bench上提升+18.2%,在VSI-Bench上提升+29.0%,且无需任何3D VQA数据训练。