研究者提出FlowCompile,一个从编译视角优化结构化大语言模型工作流的编译器。它在部署前全局探索工作流设计空间,通过将工作流分解为子智能体、分析其在不同配置下的性能,并利用结构感知代理组合这些结果,以估算工作流级的精度与延迟。该方法一次性生成一组覆盖不同精度-延迟权衡的可复用工作流配置,无需重新训练或在线调整。实验表明,FlowCompile在多种工作流和基准测试中均优于启发式优化与基于路由的基线方法,最高可实现6.4倍加速,其编译产出支持根据运行时偏好灵活部署及下游选择。
研究者提出FlowCompile,一个从编译视角优化结构化大语言模型工作流的编译器。它在部署前全局探索工作流设计空间,通过将工作流分解为子智能体、分析其在不同配置下的性能,并利用结构感知代理组合这些结果,以估算工作流级的精度与延迟。该方法一次性生成一组覆盖不同精度-延迟权衡的可复用工作流配置,无需重新训练或在线调整。实验表明,FlowCompile在多种工作流和基准测试中均优于启发式优化与基于路由的基线方法,最高可实现6.4倍加速,其编译产出支持根据运行时偏好灵活部署及下游选择。
EVA-Bench是一个端到端语音智能体评估框架,解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真,并提出了衡量任务完成度、音频保真度的EVA-A指标,以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集,采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现,无系统能在两项核心指标上同时超过0.5,峰值与可靠性能差距显著,且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。
研究团队发布了IndicMedDialog平行多轮医疗对话数据集,涵盖英语及九种印度语言。该数据集基于MDDial扩展,利用大语言模型生成合成咨询对话,经翻译、母语者验证及脚本感知后处理流程修正错误。基于此,团队对量化小模型进行参数高效微调,得到IndicMedLM模型,可结合患者预上下文实现个性化症状询问。评估表明,该模型优于零样本多语言基线,系统错误分析和医学专家评估均验证了其临床合理性。
FeatCal是一种后合并校准方法,旨在解决模型合并后性能低于任务专家的问题。该方法通过理论分析将特征漂移分解为上游传播与局部失配,并利用少量校准集以前向顺序逐层校准合并模型的权重,以减少特征漂移,同时保持接近原始合并权重。FeatCal采用高效的闭式解更新权重,无需梯度下降、迭代优化或额外模块。在CLIP和GLUE基准测试中,FeatCal显著超越了Surgery和ProbSurgery等基线方法,如在CLIP-ViT-B/32任务算术合并上达到85.5%准确率。仅需每任务8个样本即可达到82.9%准确率,每任务256个样本的校准耗时仅53秒,比基线快约4倍,展现出更高的样本效率和更低的校准成本。
RealICU是一个基于后见之明标注的基准,用于在真实ICU条件下评估大语言模型。它包含由资深医师审阅完整病程后创建的四项临床任务标签,并发布了RealICU-Gold(930个标注)和RealICU-Scale(11,862个标注)两个数据集。测试发现,现有LLM(包括记忆增强模型)表现不佳,暴露出临床推荐中的召回-安全权衡问题及对早期患者状态的锚定偏差。研究引入的ICU-Evo智能体虽能改进长程推理,但未能完全消除安全失误。该基准为高风险护理中AI序列决策支持提供了临床基础测试平台。
针对视觉-语言-动作模型训练中密集轨迹数据存在的时间监督不平衡问题,研究团队提出了FrameSkip数据层帧选择框架。该框架通过动作变化、视觉-动作一致性、任务进度先验和夹爪状态转换等指标对帧进行评分,并在目标保留率下将训练样本重新映射至高重要性帧。FrameSkip仅作用于数据加载器,无需改变模型架构或训练目标。在三个基准测试中,其主要设定保留20%的唯一帧,宏观平均成功率达到了76.15%,优于全帧训练的66.50%,在成功率与数据保留率之间取得了更优的权衡。
PersonalAI 2.0(PAI-2)是一个集成外部知识图谱的新型框架,旨在提升大语言模型系统的性能。它通过动态多阶段查询处理流程,克服了现有图检索增强生成技术的局限,能基于实体、图节点和线索查询进行自适应迭代搜索。在六个基准数据集上的评估表明,其生成答案的事实正确性平均提升4%,有效降低了幻觉。图谱遍历算法相比标准检索器平均提升6%,而启用的搜索规划机制更带来了18%的性能提升。此外,PAI-2在MINE-1基准上取得了89%的信息保留分数,达到当前最优水平,且仅使用7-14B参数的模型,展现了作为下一代个性化AI基础模型的潜力。
传统检索流程将候选生成与重排序分阶段优化,存在效用不对齐问题。大语言模型虽能单步完成两者,但其组合输出空间面临反馈模糊的优化难题。为此,本研究提出F-GRPO统一框架,在单一自回归过程中执行生成与排序,并通过因子化组相对策略优化进行端到端训练。该方法将策略分解为生成与排序两部分,共享同一LLM主干,并联合使用顺序无关的覆盖度奖励和位置感知的效用奖励进行训练。在序列推荐和多跳问答基准测试中,F-GRPO在Top排名性能上超越了相关基线及监督学习方案,并与强大的零样本重排序模型保持竞争力,且无需改变推理架构。
针对多语言ASR模型微调中出现的“录音室偏差”问题,本研究发布了Vividh-ASR基准,涵盖印地语和马拉雅拉姆语的四个语音复杂度层级。通过控制学习率时机与课程顺序的实验发现,早期大参数更新可显著降低整体词错误率,而由难到易的课程顺序能进一步提升自发语音识别效果。据此提出的反向多阶段微调方法,使2.44亿参数的Whisper模型性能达到或超过传统微调的7.69亿参数模型。表征分析表明,有效调度将适应过程集中于解码器,同时保持了编码器的预训练声学结构。基准与模型均已开源。
针对多跳检索增强生成(RAG)中推理过程隐式、检索漂移及错误难以自查的问题,研究团队提出PyRAG框架,将多跳推理任务重构为程序合成与执行过程。该框架将推理步骤编写为可执行的Python程序,通过显式调用检索与问答工具实现多步计算,使中间状态变量化、反馈确定化,并生成完整可检查的推理轨迹。该方法无需额外训练即可支持基于编译器的自我修复与执行驱动的自适应检索。在PopQA、HotpotQA等五个问答基准测试中,PyRAG在无需训练和强化学习训练两种设定下均显著优于基线模型,尤其在组合式多跳数据集上提升显著。相关资源已开源。
研究团队与百余名专业创作者历时一年,构建了一个视频描述生成流程,其核心在于扩展精细化的人类-AI协同监督,而非单纯扩大模型规模。该研究(入选CVPR 2026亮点论文)指出,当前主流视频生成模型在理解和生成具有电影感的专业运镜(如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头)时存在明显不足,常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。
本研究系统性地探索了长上下文视觉语言模型的持续预训练方法,成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括:长文档视觉问答数据优于OCR转录;均衡的序列长度分布数据比仅聚焦目标长度的数据更有效;检索能力是主要瓶颈,需搭配检索密集型数据。基于此,团队以仅50亿token的预算,从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%,并在未经额外训练的情况下,在256K和512K的上下文长度上保持强劲性能,同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。
RoboEvolve提出一种协同进化框架,以解决机器人操作中物理交互数据稀缺的难题。该框架将视觉语言模型规划器与视频生成模型模拟器耦合,形成相互强化的循环。仅需500张无标注种子图像,通过“日间探索”与“夜间巩固”的双阶段机制,并在自主渐进课程引导下,系统能从简单动作自然扩展至复杂任务。实验表明,其将基础规划器性能提升30个绝对百分点,模拟器成功率平均提高48%,数据效率较全监督基线提升50倍,且能实现无灾难性遗忘的持续学习。
Qwen团队推出Qwen-Image-VAE-2.0高压缩变分自编码器,在重建保真度与扩散适应性上均取得显著提升。该模型采用全局跳跃连接与扩展潜在通道的改进架构,基于数十亿图像训练,并引入合成渲染引擎以增强文本场景处理能力。通过增强语义对齐策略解决高维潜在空间收敛难题,并利用非对称无注意力编码器-解码器降低计算开销。在公开重建基准及新提出的文本场景基准OmniDoc-TokenBench上均表现优异,下游DiT实验证实其能显著加速扩散模型收敛。
研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现,增加思维链示例数量主要惠及推理导向模型,而对非推理模型效果不稳定;基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效;示例顺序影响显著,性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习,并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法,在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。
MinT是一个专注于LoRA后训练与在线服务的托管基础设施系统。其核心设计是保持基础模型常驻,仅移动和更新轻量的LoRA适配器,从而隐藏分布式训练与服务等复杂性。系统从三个维度实现扩展:向上扩展支持万亿参数规模的密集与MoE架构;向下扩展使适配器体积可小于基础模型的1%,显著减少步骤与墙时间;向外扩展支持百万级可寻址策略目录,通过集群调度与张量打包技术高效处理海量适配器的冷加载与活跃服务。最终,MinT能够在共享的万亿级基础模型上,高效管理百万规模LoRA策略的训练与服务。
针对现有图像编辑模型评估基准任务难度有限、评价方法粗糙,以及奖励模型基准脱离实际强化学习场景的问题,研究团队推出了统一评估套件Edit-Compass与EditReward-Compass。Edit-Compass包含2,388个精细标注实例,涵盖世界知识推理、视觉推理等六大渐进式挑战性任务,并采用基于结构化推理的细粒度多维评估框架。EditReward-Compass则提供2,251个偏好对,以模拟强化学习优化中的真实奖励建模场景。该套件旨在为两类模型提供更可靠、贴近实用的评估标准。
研究将数据集聚合(DAgger)算法应用于长视野大语言模型智能体训练,以解决监督微调中的协变量偏移与强化学习反馈稀疏的困境。该方法通过学生与教师策略的逐轮插值收集交互轨迹,并利用教师提供的密集监督信号进行训练,使模型接触真实环境状态。在软件工程智能体训练中,经DAgger式训练的4B和8B学生模型在SWE-bench Verified基准上显著提升,最终4B智能体成功率超越已发布的代表性8B系统,8B智能体性能接近更强32B规模模型,验证了该方法的有效性。
针对一致性蒸馏模型在测试时增加采样步数性能下降的问题,研究团队提出首个基于流图的任意步数视频扩散蒸馏框架AnyFlow。该框架将蒸馏目标从端点一致性映射转向任意时间间隔的流图转换学习,从而优化整个ODE采样轨迹。其核心创新“流图反向模拟”技术,通过将完整的欧拉展开分解为捷径流图转换,实现了高效的在线策略蒸馏,有效减少了测试时的离散化误差和因果生成中的曝光偏差。实验表明,在13亿至140亿参数规模的双向与因果架构上,AnyFlow在少步采样中性能匹配或超越基于一致性的模型,并能随采样步数增加持续提升效果。
研究团队提出非对称流建模(AsymFlow),以解决高维流生成中噪声预测的难题。其核心是秩非对称速度参数化,将噪声预测限制在低秩子空间,同时保持数据预测的全维度,并能解析恢复全维速度,无需改变网络架构或训练流程。在ImageNet 256×256任务上,该方法取得了1.57的领先FID分数。此外,AsymFlow首次实现了将预训练潜在流模型微调为像素空间模型的路径:通过子空间对齐进行无缝初始化,使微调主要改善低级特征而非重新学习生成。基于FLUX.2微调得到的像素模型在多项基准测试中超越了其潜在基础模型,建立了像素空间文生图的新技术标杆。
研究为大型语言模型的上下文优化器引入维基百科搜索与浏览器工具,使其能够主动获取外部信息。单纯在标准流程中添加工具会降低性能,但配合基于搜索的训练流程——维护并修剪多个候选上下文——后,模型在多个领域实现显著提升。该方法在低资源翻译、健康场景以及强推理任务上均表现一致且高效,同时具备数据利用率高、超参数鲁棒性强等特点,所生成的文本上下文能很好地迁移至不同模型。
针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题,本研究提出可插拔的先建图后行动范式(MAP)。该范式将环境理解前置,包含全局探索、任务特定建图与知识增强执行三个阶段,旨在突破认知瓶颈。实验表明,MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中,前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明,基于环境理解的训练优于单纯模仿专家轨迹,验证了先理解环境的核心价值。
当前软件工程智能体评估仅依赖最终补丁是否通过测试的二元信号,掩盖了解决方案质量的差异。研究分析了2,614条轨迹,发现在可评估的1,815条通过轨迹中,10.7%属于“幸运通过”,表现为回归循环、盲目重试等问题。为此,研究团队提出了用于过程级评估的AgentLens框架,并发布了标注质量分数、冗余信号等信息的AgentLens-Bench数据集。基于质量分数,通过轨迹被划分为幸运、扎实和理想三个等级,不同模型的幸运通过率介于0.5%至23.2%之间。若按质量分数而非通过率排名,部分模型的排名变化显著。相关资源已开源。
研究发现,当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时,会产生错误记忆,导致性能不升反降。即使基于完全正确的经验进行整合,GPT-4在部分问题上仍有54%的失败率,而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身,而非原始经验。在受控测试中,默认保留原始经历片段的智能体,其准确率是强制整合版本的两倍;完全禁用整合、仅进行片段管理,能达到与自动管理相当的性能。因此,稳健的智能体记忆系统应将原始经历片段视为首要证据,并明确控制整合的触发条件,而非在每次交互后都自动执行。
本研究通过一维变系数波动方程,探究了傅里叶神经算子与深度算子网络在结构化分布变化下的泛化能力。在输入频率与系数平滑度独立变化的分布外设定中,两种模型对平滑度变化均表现稳定,且FNO误差更低。然而,面对输入频率变化时,FNO在未见高频数据上误差急剧上升,而DeepONet虽整体误差较高,性能下降却更平缓。分析表明,该差异源于两者对频率结构的表示与响应机制不同。结果揭示了神经算子在分布内高性能与分布外泛化间存在根本差距,凸显了架构表示偏差对于开发更可靠、适用于训练分布外物理模拟的神经算子的关键影响。
EverAnimate是一种高效的后训练方法,用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹,包含两个核心机制:持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘;恢复式流匹配在采样时引入隐式修复目标,通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调,在短时和长时动画设置下均超越现有最优方案,在10秒和90秒动画上均取得了显著的指标提升。
该研究通过构建受控的字节级预训练流程,系统性地隔离并分析了子词分词技术对大语言模型训练效率与性能的具体贡献。实验在样本吞吐量、词表规模扩展以及子词边界的语言学先验等多个维度进行假设检验。研究发现,子词分词模型相较于原始字节模型的性能优势,主要源于训练吞吐量的显著提升,以及将子词边界作为显式先验或归纳偏置的有效整合。这些结论为未来优化字节级与子词级模型的预训练方法提供了关键见解。
Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹,构建了包含1200万条轨迹的WildGUI数据集,覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后,GUI定位和行动基准测试性能提升5-20%,达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。
本研究针对图像编辑中抽象指令(如情绪)评估的空白,首次系统定义了抽象图像编辑的分类体系,并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估,其结果与人类判断高度一致。同时,发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示,现有架构难以平衡编辑意图与原图保持,常出现编辑不足或过度编辑。研究表明,结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型,助力模型理解抽象指令,推动更自然的多模态交互。
研究人员提出VideoRLVR方法,利用基于规则的反馈优化视频扩散模型,使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹,核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中,Early-Step Focus策略通过将优化集中在早期去噪阶段,减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中,VideoRLVR显著优于监督微调基线,尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型,表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。
TopoPrimer是一个将时间序列群体的全局拓扑结构作为显式输入来提升预测模型性能的框架。它通过持久同调与谱束坐标进行一次性的预计算,可作为全训练模型的输入或预训练骨干的轻量化适配器。在多个基准测试中,TopoPrimer显著提升了预测精度,在ECL数据集上最高实现7.3%的MSE改善;它在季节性需求高峰期将模型误差控制在10%以内(传统模型误差增幅达50%),并在无历史数据的冷启动场景中,较无拓扑基线降低了27%的MAE。研究表明,拓扑信号与单序列训练具有互补性,能持续稳定地带来精度增益。
针对现有金融基准测试在评估大语言模型(LLM)专业能力上的局限性,研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA(特许金融分析师)等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现,并提出了基于LLM-as-Judge范式的自动化评分方案,为实质性评估LLM的金融专业能力提供了新工具。
传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练,计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文,其核心是将原始短上下文作为第一段,附加一个简短的末端提示作为第二段,并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离,同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式,表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时,EndPrompt在LongBench上平均得分最高(76.03),超越LCEG、LongLoRA等方法,且计算量更少,证明长上下文泛化可从稀疏位置监督诱导,挑战了密集训练的必要假设。
针对扩散语言模型效果不及自回归模型的问题,本文提出DiHAL混合架构。其核心在于利用几何度量评估Transformer各层,确定最适合进行扩散干预的隐藏状态接口。该方法在选中层以下用扩散桥替换前缀,同时保留上层结构,通过重建隐藏状态而非直接处理离散token,避免了连续到离散转换的困难。实验表明,几何分数能有效预测浅层插入点,且隐状态恢复在匹配训练预算下优于连续扩散基线,为在预训练模型中定位可行的扩散替换位置提供了依据。
针对流式自回归视频生成器与人类偏好对齐的挑战,现有方法依赖噪声探索和SDE策略,与蒸馏模型的ODE动态不匹配。本文提出KVPO框架,引入因果语义探索范式,将变异源从随机噪声转移至历史键值缓存,构建语义多样的生成分支;同时提出基于轨迹速度能量的速度场代理策略,在流匹配速度空间量化分支可能性,形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。
当前对大语言模型代理的安全评估大多仅关注最终输出,忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区,研究者提出了HarnessAudit框架,从边界合规、执行保真度和系统稳定性三个维度,对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现,任务完成并不等于安全执行,违规行为会随轨迹增长而累积;风险在多智能体协作中被放大,且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。
现有自动多智能体系统存在局限,要么依赖测试时搜索,要么仅优化设计者而固定执行者,无法实现端到端联合优化。为此,研究团队提出MetaAgent-X框架,通过强化学习同时优化系统设计与执行。该框架支持脚本化生成、轨迹收集和信用分配,并引入"分层滚动"和"分阶段协同进化"技术确保训练稳定。实验显示MetaAgent-X最高提升性能达21.7%,消融分析表明设计者与执行者协同进化,验证了端到端可训练范式的有效性。
研究指出了机器遗忘评估与部署现实的关键脱节:标准评估在全精度模型上进行,而部署模型必须量化。研究发现,4位后训练量化系统性逆转了遗忘效果,其根源在于参数更新量远小于量化区间宽度,无法跨越量化边界。为此,研究提出MANSU方法,通过因果电路归因定位最小子图,结合受约束的零空间投影与参数幅度下限,确保遗忘持久且能通过量化。新引入的电路归因散度指标可区分结构擦除与行为抑制。MANSU是首个在有意义遗忘、保持保留、无量化损失及结构擦除四个属性上均达到良好效果的方法。
本研究揭示,代表用户浏览网页的LLM智能体,其操作模式与交互时间特征可被网站通过被动JavaScript追踪器捕获,从而精准识别底层大模型,构成显著安全风险。实验涵盖14个前沿大模型与4种网络任务环境,表明基于操作日志的分类器可达到96%的F1分数,且具备跨模型泛化能力。即使仅需少量交互痕迹,或在任务早期阶段,仍可有效推断智能体身份。研究发现,虽向操作间注入随机延迟会暂时干扰识别,但通过在延迟痕迹上重新训练分类器,其性能可基本恢复,因此无法提供稳健防护。团队已公开其实验框架与标注的智能体痕迹数据集。
针对SAM2在音频模态整合上的不足,本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征,生成稀疏和密集提示,并基于SAM2的特征金字塔在视觉层间传播音频线索,以强化跨模态影响。同时,引入音频引导对比损失函数,进一步对齐音频与视觉特征。实验表明,该方法在公开基准上显著提升了准确率,同时将对SAM2可提示分割交互效率的影响降至最低。