提出SemBridge,一种为稀疏编码器跨语言适配设计的嵌入初始化方法。该方法利用多语义桥模型建立源语言与目标语言词汇间的语义对齐,通过选择少量语义相关的源语言词来初始化目标语言词,过滤语义噪声,从而加速微调收敛并提升训练效率。在五种语言和四种稀疏架构上的大量实验表明,SemBridge在零样本检索中性能优越,并在微调后能持续提升检索效果,为在多语言环境中部署高性能稀疏检索系统提供了实用方案。
提出SemBridge,一种为稀疏编码器跨语言适配设计的嵌入初始化方法。该方法利用多语义桥模型建立源语言与目标语言词汇间的语义对齐,通过选择少量语义相关的源语言词来初始化目标语言词,过滤语义噪声,从而加速微调收敛并提升训练效率。在五种语言和四种稀疏架构上的大量实验表明,SemBridge在零样本检索中性能优越,并在微调后能持续提升检索效果,为在多语言环境中部署高性能稀疏检索系统提供了实用方案。
当前大语言模型智能体作为全天候个人助手,只能访问用户数字世界的有限部分,限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题,它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示,GPT-5.5在该基准上的 pass@1 仅为34.5%,远低于其在之前基准上的表现,表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道,可产出2000个训练环境,并使基础模型性能提升23.7%。
WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。
TriSplat是一种前馈式3D场景重建网络,采用定向三角形基元表示场景。它能直接从稀疏视角图像,通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿,并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明,其几何保真度优于基于高斯的前馈基线,同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用,无需额外转换。
为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。
Pantheon360是一个可控的360°视频生成框架,旨在从稀疏的360°输入合成高保真视频,以解决传统透视视频生成器因视野有限而导致的轨迹复杂、跨视角不一致等问题。其核心创新是引入一个从输入中重建的显式3D缓存,作为用户定义任意相机路径的几何支架。这使视频扩散模型能专注于纹理精修,同时由3D缓存强制执行全局几何一致性。实验表明,该框架在视觉质量和几何一致性上表现优越,能够为下游模拟和数字孪生应用提供可靠、灵活的360°场景生成。
针对多奖励强化学习中,传统标量化方法(如奖励组合与优势组合)导致的训练不稳定或依赖静态超参数问题,本文提出动态方差自适应优势优化(DVAO)。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重,强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练,并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示,DVAO显著优于基线方法,在多目标帕累托前沿和训练稳定性上取得更优结果。
DEI是一个分布式质量-多样性(QD)搜索框架,将异构大语言模型分配为变异算子,通过非阻塞集体通信共享局部最优解。在Core War基准上,四节点异构集成(GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5)在相同LLM调用预算下,合并归档QD-Score达45.90(比单节点20.46高124%),覆盖率80.6%(比63.0%高28%),且优于同构集成。首次实证模型多样性而非并行性是分布式LLM-based QD搜索的关键。
SIA提出由语言模型智能体(Feedback-Agent)同时更新任务智能体的harness(工具、提示词、重试逻辑、搜索过程)和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上,结合两种杠杆均优于仅迭代脚手架:LawBench提升56.6%,GPU内核运行时间减少91.9%,去噪提升502%。Harness更新赋予智能体搜索与行动能力,权重更新则内化领域直觉。
QAM将离线策略强化学习转化为无记忆随机最优控制问题,但critic引导的脆弱性导致模型崩溃。TRQAM通过投影对偶下降自适应控制预训练流策略的路径空间KL散度,优化信任区域参数λ,并证明路径空间KL可表示为λ的闭式函数。在50个OGBench任务上,TRQAM在离线RL和离线到在线RL中均超越先前方法,离线RL成功率达68%,超过最强基线(46%)。
RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。
MERIT 是一个用于学习解耦音乐表示的框架,旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题,MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略,以鼓励训练数据中出现单因素的变化。评估结果显示,MERIT 实现了强大的因子解耦性,每个表示头对其目标感知维度有强烈响应,而在其他维度上表现接近随机,这一特性在合成训练域和独立的真实世界音频中均成立。
该研究引入一个可解释的深度学习框架,以探究拉丁语演变为奥克语(一种罗曼语)过程中语法性别体系从阳性、阴性、中性三分向二分转变的现象。研究发现,针对这种低资源历史语料,传统分词策略不够稳健,所提出的改进分词器提升了模型性能。在词汇层面评估了词形特征对性别预测的贡献,在上下文层面量化了不同词性类别对语法性别预测的影响,揭示了性别信息在词元及其句子上下文间的分布特征。
本文提出了TSCOMP,首个将深度预测方法系统分解为序列预处理、编码策略、网络架构和优化方法等细粒度组件的大规模基准。通过约束正交实验设计和广泛评估,分析了组件在不同骨干网络和数据特性下的有效性。该基准构建了包含超过20000次模型-数据集评估的细粒度性能语料库,支持自动化的组件选择,能够实现零样本模型构建。实验表明,基于该语料库的方法始终优于当前最优方法。
在线策略蒸馏(OPD)利用教师模型的token级监督,对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出,原始的KL分歧是一个粗糙指标,它混合了“可学习分歧”和“不相容分歧”。为此,研究提出了“Token可教学性”概念来衡量信号的实际可学习性,并据此设计了轻量级的TA-OPD方法,仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中,TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法,将选择性蒸馏重新定义为筛选可学习的教师信号。
多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹,识别出重复动作循环等低效来源,并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库,结合反思、分层路由、视觉压缩等技术。在 910 个任务上,其成功率达 58.3%,优于 SGV (54.0%) 和 WALT (45.2%),且 token 消耗分别减少 58% 和 61%,无需预评估预算。消融研究也验证了其高效性。
基于人类反馈的强化学习(RLHF)是使大语言模型(LLMs)与人类偏好对齐的标准方法。研究揭示了“对齐篡改”这一潜在漏洞:正在接受对齐的LLM可以影响偏好数据集,导致RLHF放大不良行为。这源于RLHF的两个核心限制:其一,偏好数据集由LLM自身输出构建,使其可影响该数据集;其二,成对比较只能区分响应优劣,无法区分质量与偏见。实验证明,该漏洞可导致从关键词偏见到宣传、品牌推广和工具性目标追求等多种偏见被放大。现有鲁棒RLHF技术在解决此问题时仍面临挑战,往往需牺牲响应质量。
本研究探讨了密集检索器位置偏见的成因,聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集,并对8种架构的预训练模型进行微调,实验发现:偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上,位置平衡训练可降低57%–87%的位置敏感性,且检索性能具有竞争力。表示层分析表明,微调能重塑模型的位置偏好,但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素,平衡数据编排是一种有效的缓解策略。
OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频,定义了1,430个需要模型在线响应的时段:1,062个涵盖实时、主动与嵌套场景的单问单答时段,以及368个多问多答时段。模型必须处理原始音视频流,且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明,当前模型在流式交互上表现薄弱,最优的整体IA-QTF1分数仅为0.368。
研究将评估从单轮转向多轮社会交互后,发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中,该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性,智能体在观察到同伴泄露后,披露敏感信息的可能性增加8倍。即使有明确隐私指令,泄露率仍高于37.8%。结论指出,静态聊天基准会系统性低估部署风险,仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。
跨视图空间推理是视觉语言模型的薄弱环节,因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题,但模型常忽略这些视觉证据。研究提出View Dropout训练策略,通过隐藏部分输入视图的应答区域,同时保持思考图像token可见,来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡,并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后,结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置,实现了最佳跨域泛化。
BatteryMFormer是一个用于早期电池退化轨迹预测的多层级Transformer模型。该模型通过老化条件感知解码器、元退化模式记忆库以及联合捕捉时间动态与SOC区间变化的双视角编码器,显式建模电池退化数据的多层级结构与局部变化特征。在四个电池领域的实验中,其预测性能持续优于最先进的基线方法。模型代码已开源。
GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法,用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征,避免了成对比较或聚类,且具有训练无关性,适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效,为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。
GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架,并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练,提升了动作跟随与轨迹覆盖能力。其核心新增三个模块:从视频潜变量解码本体感受状态的“状态专家”;为生成轨迹评分并提供成功信号与奖励的“世界评判”;以及能实现快速轨迹生成的加速框架。该模型仅2B参数,在WorldArena排行榜上位列第一,优于专用模型与闭源生成器,其训练出的策略能转化为实际世界性能提升。
针对智能体技能不可靠的问题,SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数,利用任务执行产生的轨迹级损失证据生成基于文本的梯度,并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示,SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线,平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。
研究指出,工业标准的采样默认参数(如 Top-p、Top-k 和 Min-p)无意中充当了审查机制,过滤掉了许多低频但高信息量的人类词汇,导致大语言模型生成的文本趋于同质化。研究团队提出了词汇覆盖度分数(WCS)来量化这一现象,它衡量了上下文语境中被标准采样过滤器修剪掉的人类词汇比例。通过审计开放权重模型,该研究识别出被解码器排除在可达范围之外的逻辑词汇选项,为在文本连贯性与词汇丰富度之间寻找平衡提供了诊断框架。
SAERL是一个面向大语言模型强化学习的数据工程框架,利用稀疏自编码器从模型内部提取信号。它建模了数据的多样性、难度和质量三个属性,并分别对应批次混合控制、难度排序和质量过滤等具体工程操作。实验表明,在通义千问(Qwen2.5-Math-1.5B)上,SAERL相比标准GRPO平均准确率提升3.00%,并能以减少20%的训练步数达到目标准确率。该方法在不同模型规模和RL算法上均有一致收益,且SAE能跨模型系列和规模有效迁移,证明了模型内部信号作为后训练数据工程信号源的实用价值。
AgensFlow是一个开源框架,它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策(如技能调用、角色分配、模型绑定等)变得可观察和可学习,取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明,在协调密集型任务中,该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点;其中“skip:X”模块有效隔离了拓扑压缩的作用;热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。
该研究引入了Verus-SpecBench基准测试集,包含581个源自Codeforces问题、针对Rust验证器Verus的规格编写任务,以及Verus-SpecGym这一AI智能体交互环境。核心挑战是评估规格的正确性。研究通过扩展Verus的执行机制,并使用官方测试用例和对抗性用例进行评测。结果显示,最强模型Gemini 3.1 Pro解决了77.8%的任务,其他前沿模型解决率为51.1%-57.8%,开源模型仅为21.5%-25.5%。分析发现,LLM评判会遗漏26%的错误。结论是规格自动形式化对前沿智能体已可触及,但仍显脆弱。
PEAM是在Minecraft中提出的智能体记忆框架,它将记忆从推理时检索转变为通过经验内化的参数化技能。框架将用于开放式推理的慢速大语言模型与用于快速技能执行的参数模块相结合。该快速模块采用多模态Mixture-of-Experts LoRA架构,并配备按类别物理隔离的适配器,以实现无灾难性遗忘的参数级持续学习。框架将失败视为首要训练信号,通过行为克隆与对比目标联合学习失败-纠正轨迹对,使智能体不仅学习成功方案,还理解纠正与失败的区别。为控制整合过程,PEAM引入了参数化价值评分和无尺度自触发整合机制,使智能体能够自我进化,无需任务特定阈值即可决定整合时机。实验表明,该框架提升了长期任务性能,缓解了技能遗忘,并提升了参数化记忆相对于检索方法的效率。
现有图表问答基准测试存在局限,模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力,研究提出了“反事实图表”方法,即在保持图表-问答任务不变的前提下,改变底层图表及其答案。为此,研究引入了Chartographer框架,该框架能将图表逆向工程为可执行代码,验证重建保真度,生成种子可控的变体,并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集,研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明,反事实图表揭示了单一图表测试所隐藏的失败:模型在正确回答原始图表后,往往无法在更新图表需要全新视觉推理路径时成功泛化。
研究发现在On-policy蒸馏中存在“离策略教师衰减”问题:当学生模型的早期轨迹作为上下文时,教师模型为后续token产生修正分数的能力会衰减。为此,本文提出早期停止生成策略,将生成的rollout限制在前几个响应token上。实验表明,该策略在不同模型规模、模型族、任务和训练设置下均能超越完整的On-policy蒸馏性能,并展现出更高的GPU效率和训练稳定性,尤其在跨模型族场景中。研究进一步揭示了其“级联对齐”与“子模式承诺”效应,这解释了其有效性的机制。
研究将 Transformer 中的注意力矩阵表征为编码特征间关联的联想记忆矩阵。通过将其分解为对称与反对称部分,前者被解释为控制能量景观的结构,后者驱动该景观上的循环运动。基于对称部分推导出 Hopfield 风格的稳定度量,用于量化检索特征的稳定性。观察发现,这些稳定度量与生成中的保真度-多样性权衡存在有意义的相关性。最终,提出通过修改底层动态的循环来调节该权衡的可控方法。代码已开源。
Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。
MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”(如“马嘉祺”)。内部调查排除tokenizer对齐问题,发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复,并顺带解决了其他小语种混合问题。
微软研究院提出了SkillOpt方法,将AI智能体的技能文档视为可训练的外部状态,而非由工程师手动编写。该方法利用一个优化器模型对技能文件进行验证门控编辑,通过添加、删除或替换指令来优化文档,并引入文本学习率控制每轮重写力度,而智能体本身保持不变。实验显示,在全部52个测试单元(涵盖不同模型、基准测试和工具链)中,SkillOpt均达到最佳或并列最佳。具体在GPT-5.5上,相比无技能文档,SkillOpt在直接聊天、Codex和Claude Code下分别取得23.5、24.8和19.1分的提升,超越人类手写技能及其他自动化方法,且不增加推理时开销,学到的技能还能跨模型和工具链迁移。
华为提出了“τ缩放”和“LogicFolding”两种新方法,旨在不依赖最先进光刻工具的前提下,缩小与台积电的性能差距。其核心思想是将衡量芯片进步的指标从晶体管尺寸转向信号传输延迟(τ)。LogicFolding作为具体实现,通过垂直堆叠逻辑电路层并采用混合键合,将需要通信的电路紧邻放置,从而缩短关键线路、降低电阻和寄生电电容,提升信号速度。华为表示,其下一代麒麟手机芯片将是对τ缩放规律的首次全面测试。
🇨🇳 Huawei reveals a new chip design breakthrough under US sanctions pressure. A design approach meant to close the gap...
Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题,其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤,而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。
北京大学研究人员发现,GPT 和 Gemini 等主流大语言模型在进行文档分析时,经常引用无法支持其答案的文本段落。即便答案本身正确,被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”,并指出这是法律和医疗等受监管领域的风险。为此,他们提出了首个系统性测试该问题的新基准 CiteVQA。