DEMON 是一个实时扩散引擎,将扩散去噪过程转化为可实时演奏的乐器。它基于 ACE-Step 1.5 和 StreamDiffusion 的环形缓冲区架构,采用 TensorRT 加速,在单块 RTX 5090 GPU 上可实现每秒 12.3 次解码完成(60秒音乐),在生产环境环深度 4 下达每秒 11.3 次生成。通过四个核心机制——异构去噪调度、共享可变状态、逐帧源混合与窗口化 VAE 解码——实现了参数的低延迟控制与高达 8.0 倍的解码加速。
DEMON 是一个实时扩散引擎,将扩散去噪过程转化为可实时演奏的乐器。它基于 ACE-Step 1.5 和 StreamDiffusion 的环形缓冲区架构,采用 TensorRT 加速,在单块 RTX 5090 GPU 上可实现每秒 12.3 次解码完成(60秒音乐),在生产环境环深度 4 下达每秒 11.3 次生成。通过四个核心机制——异构去噪调度、共享可变状态、逐帧源混合与窗口化 VAE 解码——实现了参数的低延迟控制与高达 8.0 倍的解码加速。
扩散语言模型通过迭代去噪掩码token序列解码文本,置信度常被用于选择解码位置。然而,高置信度有时会产生误导,例如EOT token可能获得高置信度导致生成不完整。为缓解此问题,插入后缀锚定可鼓励生成完整响应,但会引入锚点邻域的局部过度自信,导致锚点邻近token过早解码。为此,研究提出了后缀锚定置信度调节方法,该方法插入短后缀锚点以促生成完整响应,并根据解码进度调节锚点附近置信度。在纯文本推理、视觉-语言推理和代码生成基准测试中,该方法持续提升了基于置信度的完全非自回归解码性能,优于显式EOT抑制,并保留了完全非自回归生成的并行优势。
SwanBench-Speech是一个针对长语音生成的综合评测基准,涵盖长语音生成和对话生成,覆盖声学、语义和表现力挑战。该基准包含1,101个样本,横跨17种常见语音场景,并从上述三个维度定义了包含7个指标的自动化评测方案。实验揭示,当前模型在高表达性场景下表现依然吃力,且在一致性与层次感上与真实录音存在明显差距。
机器人行为克隆中,人类演示数据固有的高频噪声(如抖动和停顿)会被基于扩散模型的策略继承并放大。为此,研究提出了频率引导算子(FGO)。该算子在扩散策略的生成过程中,引导噪声样本依次通过频带逐步扩展的中间子频率流形,从而实现频域上的隐式操控与平滑动作生成。在5个基准的15项机器人操作任务上验证,该方法显著提升了动作平滑度和时间一致性。
针对现有媒体压缩标准在率失真复杂度权衡上的瓶颈,研究者提出了一种名为FRAPPE的新型自编码框架。该框架利用投影追踪编码器从全输入预测残差输出,实现了零开销的变速率编码。基于此构建的FRAPPE-Image可变速率RGB图像编解码器,在高压缩比(约0.1 bpp)下,其感知质量优于AVIF,且编码速度提升47倍,能够仅依靠CPU实现实时1080p 30fps的编码。相关代码与预训练模型已开源。
针对机器学习论文激增给同行评审带来的压力,研究者提出了PRISM基准框架。该框架从分析深度、新颖性评估、缺陷识别与主要问题优先级、多维建设性四个维度评估评审质量,其方法基于论点挖掘、检索增强验证和共识评分。在对ICLR、ICML和NeurIPS评审的测试中,PRISM发现大语言模型在某些单维度上表现可比甚至超越人类(如分析深度相当),但没有一个系统能在所有维度上同时达到人类的均衡表现,且各系统存在不同盲区。结论认为大语言模型评审者最适合作为人类评审的针对性补充,而非独立替代品。
RUBRIC-ARROW是一个用于解决大语言模型在主观、非可验证领域进行后训练时,评分标准奖励模型所面临的评分僵局问题的交替式奖励建模框架。该框架联合训练一个评分标准生成器和一个基于该标准的评判者,其强化学习阶段仅使用成对偏好数据。核心方法在于采用概率评分规则以减少平局,并结合交替式GRPO方案,利用阶段性偏好奖励训练逐点评分评估器。实验表明,该框架在奖励建模准确性上具备竞争力,并能为下游策略后训练带来一致收益。
针对大语言模型在技能利用中外部化与内部化的两难困境,本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器,将任务分流至不同的掌握层级。对于通用技能,通过特权蒸馏进行内化,为处理困难任务构建认知基础;对于任务特定技能,则在简单任务上通过诊断探测来强制利用,以避免捷径学习。在ALFWorld和WebShop基准测试中,Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。
Parallax是一种可扩展至大语言模型的参数化局部线性注意力机制。它消除了局部线性注意力中的数值求解器,并引入额外的查询投影器来探测KV协方差。该研究提出一种硬件感知算法,其算术强度优于FlashAttention,将注意力转向更计算密集的模式。其原型解码内核在不同批次大小和上下文长度下匹配或超越FlashAttention 2/3。在0.6B和1.7B规模的预训练中,Parallax展现出持续的困惑度改进,且该收益可迁移至下游基准测试。研究还发现Muon优化器能有效释放Parallax的性能潜力。
当前对大语言模型智能体的评估忽略了工具使用的时序维度,尤其未考虑工具响应延迟的影响,且多局限于单任务场景。为此,研究团队提出了AsyncTool,这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务,模拟真实的响应延迟,并在步骤、子任务和任务三个级别进行评估,引入了效率导向的指标。实验表明,延迟的工具反馈对现有智能体构成重大挑战并导致性能下降,而能更好协调任务切换与状态维护的模型表现更优。
现有视频生成方法多依赖文本或首尾帧等稀疏条件,难以精确控制叙事结构与节奏。为此,本文提出SmartDirector框架,通过引入多个关键帧来增强视频生成的叙事能力,支持单镜头生成、多镜头合成及视频扩展。该框架分为两阶段:Director-Gen根据关键帧生成低分辨率视频;Director-SR利用高分辨率关键帧作为语义锚点进行超分优化,以恢复细节。为支持训练,构建了从电影中策划单、多镜头序列的数据管道。实验表明,该方法显著优于现有先进方案。
OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试,旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式:从异构资产构建求解模型(Build)、根据需求修改现有模型(Revise)、以及基于工作区证据回答关于方案的问题(Explain)。它通过结合持久化工作区和面向生命周期的任务,评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。
一项新研究提出“语言模型也需要休息”的观点。该论文于2026年5月26日在arXiv发布(编号2605.26099),并在Hacker News上获得102点热度。研究可能探讨了大语言模型在持续运行后需要某种形式的“睡眠”或暂停机制,以恢复性能或优化状态。
针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。
针对Transformer架构在处理长上下文时注意力机制效率低的问题,研究提出一种“睡眠式巩固机制”。该方法让模型定期将近期上下文转换为持久化的快速权重,并清空键值缓存。期间,模型通过N次离线循环处理累积上下文,并通过局部规则更新其状态空间模型块中的快速权重。这使得额外计算被转移至“睡眠”阶段,从而保持了推理的实时性。该方法在细胞自动机、多跳图检索等合成任务及一项数学推理任务(常规Transformer及SSM-Attention混合模型均失败)上进行了测试。结果表明,增加睡眠持续期N能提升性能,在需要更深层次推理的任务上增益最大。
中国科学院深圳先进技术研究院联合亚洲六国100多个实验室,在《自然·生物技术》发布了亚洲首个合成细胞十年技术路线图。该路线图聚焦于“人工合成单细胞生命”,提出以AI驱动的生物铸造厂为核心、“中央工厂+分布式工作站”的跨国协作模式,并明确了两阶段目标:第一阶段构建“原始细胞”,第二阶段实现具备自我复制能力的“自主细胞”。
当前AI智能体是反应式的,仅在用户提问后响应,浪费了交互间的空闲时间。为解决此问题,本文提出了ProAct主动式智能体架构,它能利用空闲时间,通过分析对话历史与持久记忆预测用户需求,并迭代地获取信息、准备证据,从而在用户提问前填补知识缺口。为评估该能力,研究者发布了包含200个场景的ProActEval基准。实验表明,相比反应式基线,ProAct将任务完成所需轮次减少14.8%,用户操作负担降低11.7%,并将模型幻觉率大幅降低28.1%,同时在MemBench上取得了最先进的反思准确率。
本文提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度,自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏(AC-DMD),在子区间进行分布匹配,并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项,并推导混合策略梯度及步子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。
本研究提出一种基于 Mask R-CNN 实例分割的视觉系统,用于精细化的路面病害分析,并在车辆采集的 UWGB-StreetCrack 数据集上进行评估。研究比较了五种基于 Detectron2 的骨干网络变体。其中,采用 ResNet-101 FPN 骨干的最佳 Mask R-CNN 模型,在项目特定的边界框匹配协议下,达到了 84.23% 的精确率、90.04% 的召回率和 87.04% 的 F1 分数。该模型预测的总体裂纹面积分数为 2.164%,与标注的真实值 2.170% 高度吻合。作为对比,一个基于 CSPDarknet53 的 YOLO 检测器性能显著较低。结果表明,实例分割是处理实地路面图像和估算裂纹面积的实用方向。
本文提出InstructSAM,一个用于在任意指令下执行多实例分割的统一框架。该方法将问题形式化为集合结构的查询预测任务,通过在视觉语言模型中注入可学习实例查询,并设计混合注意力机制与SAM3交互,实现了在单次前向传播中完成多实例分割。论文同时构建了大规模指令实例分割数据集与基准Inst2Seg。实验表明,仅2B规模的InstructSAM在相关基准上取得了优异性能,优于此前的端到端方法和SAM3的智能体流程。
本文提出通道级向量量化,这是一种新的图像token化范式,用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道,将图像表示为离散的视觉细节层次。基于此,作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道,先勾勒全局结构再细化细节。实验表明,CVQ在16K+大小的码本上实现了100%利用率,显著提升了重建质量;CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。
提出Adversarial Flow Distillation(AFD)框架,用于将黑盒视频教师模型知识蒸馏至因果自回归学生模型。该方法在相同提示词下并行生成教师与学生输出,训练Bradley-Terry判别器以估计干净样本上的师生差异,并将此在策略优势转化为对学生自身噪声状态的前向过程流匹配更新,无需教师分数、潜变量、去噪轨迹或步长对齐。实验表明,AFD在两个自回归学生系列上持续提升运动与物理敏感的生成质量,同时保持整体效果,为蒸馏专有或异构视频生成器提供了实用路径。
Helix4D是一个动态网格生成框架,旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力,将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量,它采用了滑动窗口跨帧注意力并锚定第一帧。同时,其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度,无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。
现有基于深度学习的低光增强方法受限于有限数据集和单一增强目标,泛化能力和可控性不足。本文提出ControlLight框架,通过构建带有连续光照强度监督的大规模真实退化图像数据集,并引入感知对齐加权流匹配损失以确保不同控制强度下输出结构的一致性,实现了对增强强度的灵活控制。实验表明,该方法在低光增强任务上达到了最先进的性能,同时具备强连续可控性和对真实场景的良好泛化能力。
小米汽车发布 Xiaomi Auto World Model 框架,首次将三维重建与视频生成深度耦合,打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在合成数据生成(已交付超10万 clips 数据)、仿真测试、辅助驾驶学堂三大场景落地。
本文提出了从多模态无关推理迈向世界建模的路径,聚焦从后期融合范式转向原生多模态建模(NMM)。研究正式定义了架构的原生性,将中期融合与早期融合从非原生范式中区分,并依据输入输出对偶性将现有原生模型分为三类:用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”,以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径,涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。
提出SemBridge,一种为稀疏编码器跨语言适配设计的嵌入初始化方法。该方法利用多语义桥模型建立源语言与目标语言词汇间的语义对齐,通过选择少量语义相关的源语言词来初始化目标语言词,过滤语义噪声,从而加速微调收敛并提升训练效率。在五种语言和四种稀疏架构上的大量实验表明,SemBridge在零样本检索中性能优越,并在微调后能持续提升检索效果,为在多语言环境中部署高性能稀疏检索系统提供了实用方案。
当前大语言模型智能体作为全天候个人助手,只能访问用户数字世界的有限部分,限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题,它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示,GPT-5.5在该基准上的 pass@1 仅为34.5%,远低于其在之前基准上的表现,表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道,可产出2000个训练环境,并使基础模型性能提升23.7%。
WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。
TriSplat是一种前馈式3D场景重建网络,采用定向三角形基元表示场景。它能直接从稀疏视角图像,通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿,并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明,其几何保真度优于基于高斯的前馈基线,同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用,无需额外转换。
为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。
Pantheon360是一个可控的360°视频生成框架,旨在从稀疏的360°输入合成高保真视频,以解决传统透视视频生成器因视野有限而导致的轨迹复杂、跨视角不一致等问题。其核心创新是引入一个从输入中重建的显式3D缓存,作为用户定义任意相机路径的几何支架。这使视频扩散模型能专注于纹理精修,同时由3D缓存强制执行全局几何一致性。实验表明,该框架在视觉质量和几何一致性上表现优越,能够为下游模拟和数字孪生应用提供可靠、灵活的360°场景生成。
针对多奖励强化学习中,传统标量化方法(如奖励组合与优势组合)导致的训练不稳定或依赖静态超参数问题,本文提出动态方差自适应优势优化(DVAO)。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重,强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练,并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示,DVAO显著优于基线方法,在多目标帕累托前沿和训练稳定性上取得更优结果。
DEI是一个分布式质量-多样性(QD)搜索框架,将异构大语言模型分配为变异算子,通过非阻塞集体通信共享局部最优解。在Core War基准上,四节点异构集成(GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5)在相同LLM调用预算下,合并归档QD-Score达45.90(比单节点20.46高124%),覆盖率80.6%(比63.0%高28%),且优于同构集成。首次实证模型多样性而非并行性是分布式LLM-based QD搜索的关键。
SIA提出由语言模型智能体(Feedback-Agent)同时更新任务智能体的harness(工具、提示词、重试逻辑、搜索过程)和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上,结合两种杠杆均优于仅迭代脚手架:LawBench提升56.6%,GPU内核运行时间减少91.9%,去噪提升502%。Harness更新赋予智能体搜索与行动能力,权重更新则内化领域直觉。
QAM将离线策略强化学习转化为无记忆随机最优控制问题,但critic引导的脆弱性导致模型崩溃。TRQAM通过投影对偶下降自适应控制预训练流策略的路径空间KL散度,优化信任区域参数λ,并证明路径空间KL可表示为λ的闭式函数。在50个OGBench任务上,TRQAM在离线RL和离线到在线RL中均超越先前方法,离线RL成功率达68%,超过最强基线(46%)。
RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。
MERIT 是一个用于学习解耦音乐表示的框架,旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题,MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略,以鼓励训练数据中出现单因素的变化。评估结果显示,MERIT 实现了强大的因子解耦性,每个表示头对其目标感知维度有强烈响应,而在其他维度上表现接近随机,这一特性在合成训练域和独立的真实世界音频中均成立。
该研究引入一个可解释的深度学习框架,以探究拉丁语演变为奥克语(一种罗曼语)过程中语法性别体系从阳性、阴性、中性三分向二分转变的现象。研究发现,针对这种低资源历史语料,传统分词策略不够稳健,所提出的改进分词器提升了模型性能。在词汇层面评估了词形特征对性别预测的贡献,在上下文层面量化了不同词性类别对语法性别预测的影响,揭示了性别信息在词元及其句子上下文间的分布特征。
本文提出了TSCOMP,首个将深度预测方法系统分解为序列预处理、编码策略、网络架构和优化方法等细粒度组件的大规模基准。通过约束正交实验设计和广泛评估,分析了组件在不同骨干网络和数据特性下的有效性。该基准构建了包含超过20000次模型-数据集评估的细粒度性能语料库,支持自动化的组件选择,能够实现零样本模型构建。实验表明,基于该语料库的方法始终优于当前最优方法。