本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。
本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。
本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现,文本提示作为物理世界的有损压缩,是导致生成结果缺乏物理一致性的根本瓶颈。为此,我们提出NEWTON系统,其核心是将视频生成从独立的系统输出,降级为智能体工具箱中的一个动作。系统通过一个学习型规划器,协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息,并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下,实验表明该系统在VideoPhy-2基准上,将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点,显著增强了视频的物理一致性。
近期研究表明,在新兴智能体系统中,代码的角色正从目标输出转变为智能体的运行基础。本文提出“代码作为智能体的运行基础”这一统一视角,系统梳理了支撑智能体系统的三个核心层次:连接智能体与外部世界的操作接口层;支撑长期执行的规划、记忆与反馈控制机制层;以及支持多智能体协作的共享代码层。该视角涵盖了编程助手、操作系统自动化等多个应用领域,并指出了评估验证、状态一致性等工程挑战,为构建可执行、可验证、有状态的智能体系统提供了清晰的路线图。
研究者提出了WorldString,一种神经架构,能够直接从点云或RGB-D视频流中学习,从而建模真实世界物体的状态流形。该架构旨在作为物理世界模型的基础构建模块,充当通用的数字孪生体。其关键特点是完全可微分,这使其能够与策略学习和神经动力学模型进行无缝集成。WorldString为当前主要通过视频生成或动态场景重建来处理物体行动状态的方法,提供了一种统一且基于原理的建模新思路。
本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限,提出了AtlasVA框架。该框架无需教师监督,将记忆组织为三层互补的视觉结构:空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱,并将其转化为基于势函数的内在奖励,以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中,AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。
Incantation是首个交互式视频世界模型,采用自然语言作为动作接口,实现每潜变量帧(0.25秒)的精细控制。它支持同时多实体操控与概念级跨实体迁移,突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制,并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中,准确率达89%,大幅超越Action-Index基线的43%;词表外提示准确率为9
视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此,本文提出一种基于信息论的轻量级适配器模块(IB-Adapter),能从视觉输入中选择性过滤噪声,且无需额外数据或增强策略。该适配器以少于1000万的额外参数,平均提升性能30%。实验表明,即使骨干网络参数仅为0.5B(较现有7B模型小14倍),StableVLA在合成与真实视觉损坏场景下的长时程任务中,仍能达到与大模型相当的鲁棒性,并超越OpenPi基线。
研究指出,AI辅助科研已能以极低成本生成论文,并可自主执行多项研究任务。然而,这也暴露了严重的诚信和判断力问题,如伪造结果、忽略错误及难以评估创新性。AI在结构化、基于检索的任务中表现突出,但在提出原创思想、执行关键实验和科学判断方面仍显脆弱。研究表明,高度自动化可能掩盖问题,因此人机协同成为最可信的部署模式。研究提供了涵盖创作、写作、验证与传播全周期的分类体系、工具指南与设计原则。
LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施,旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法,结合NVFP4精度以降低显存成本并加速计算,且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型,并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码,在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍,推理加速1.84倍,其5B模型可达45.7 FPS并在基准测试中表现优异。
本文提出零专家自蒸馏适应框架,将训练完成的静态混合专家模型转换为高效动态模型。该方法通过在每个混合专家层注入零输出专家,并利用原始模型作为冻结教师进行两阶段自蒸馏适应,以实现稳定的架构转换。在两个大型开源模型及11个基准测试上的实验表明,该方法能消除超过50%的专家计算量,同时仅带来极小的准确率损失,并显著提升端到端推理速度。
本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。
研究人员提出结构化牛顿层级并行(SNLP)框架,解决自回归语言模型中Transformer层顺序执行的延迟瓶颈。该方法将层间隐藏状态演进视为非线性方程,采用廉价的结构化牛顿更新并行求解。训练阶段引入SNLP感知正则化,使模型通过少量迭代近似顺序前向传播,提升层并行兼容性并降低标准困惑度4.7%-23.4%。推理时,SNLP结合层融合与分块分解,在0.5B Nanochat模型上实现2.3倍加速,困惑度改善6.1%。研究同时指出预训练模型效果有限且精确收敛会退化为顺序计算。
HL-OutPaint 是一个用于长序列的高分辨率视频外绘框架。它采用由粗到精的策略,包含两阶段管线:首先通过全局-局部帧交换机制构建低分辨率的全局粗糙指导(GCG),以统一表示视频的长期结构一致性与短期时间动态;随后在该表示的引导下,进行高分辨率的外绘,生成细节丰富且时间一致的内容。实验表明,其在宽空间外推和长视频序列的挑战性场景中优于现有方法。
现有大语言模型智能体的记忆系统多采用提取事实的范式,将对话压缩为原子事实。这会丢失原始细节,限制深度推理,且静态提示词难以适应多变的对话风格。为此,本文提出了TriMem系统,它同时维护三种表示粒度:用于保真存储的原始对话片段、用于高效检索的提取原子事实,以及聚合事实以支持深度推理的合成用户画像。系统进一步利用基于TextGrad的提示词优化技术,通过响应质量反馈迭代优化提示,无需参数更新即可实现持续进化。实验表明,其效果优于强记忆基线。
现有大语言模型虽能处理超长对话,但随对话历史线性增长的KV Cache会导致内存占用迅速超出设备限制。当前KV Cache压缩方法大多在处理完整上下文后才进行缓存淘汰,造成无界峰值内存占用。此外,基于查询的淘汰机制将缓存语义狭窄化至单次查询,导致失效。
现有通过强化学习(RL)训练大语言模型(LLM)调用视频工具(如裁剪)的方法是顺序执行的,易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架,能在单次调用中分派多个时间窗口裁剪任务。研究发现,预训练模型中存在“工具先验悖论”:既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题,提出了PARA-GRPO方法,通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上,相比Qwen3-VL基线平均提升了7.9%,并将训练时的格式合规率从0.13提升至0.64。
本研究发现,视觉-语言模型在视觉任务上的性能瓶颈主要源于其视觉感知能力的不足,而非推理能力。为此,研究提出将模型能力解耦为视觉感知、视觉推理和文本推理三个独立的训练阶段,并使用专门数据进行分阶段训练。实验证明,视觉感知需要针对性优化,应优先通过分阶段训练加以巩固,且使用强化学习比基于描述的监督微调更有效。该方法在多个模型上实现了持续性能提升,使模型推理准确率提高了1.5%,推理过程缩短了20.8%。在开放权重的视觉-语言模型中,该方法在WeMath和RealWorldQA等基准上取得了领先成绩,相比基础模型分别取得了5.2%和3.7%的性能提升。
该研究指出,Muon优化器通过Newton-Schulz迭代进行统一谱白化,虽在LLM预训练中有效,但在两个新场景存在根本局限:在跨模态视觉-语言-动作训练中,低秩动作梯度会放大噪声尾部方向;在带可验证奖励的强化学习中,低信噪比梯度使得白化过程不稳定。为此,研究提出Pion作为替代方案,采用两阶段提升-抑制机制,形成高通谱效应,将主导奇异值锚定于1而抑制噪声分量,并支持按注意力头独立更新。实验表明,在LIBERO的VLA任务中,Pion在1500步训练后达到100%成功率,优于Muon的97.0%和AdamW的32.2%。在基于通义千问(Qwen3)的RLVR后训练中,Pion在MATH和GSM8K上优于AdamW,而Muon在此场景下会崩溃。
本研究基于强柏拉图表征假说,旨在探究人类大脑中是否存在类似人工神经网络的共享表征几何结构。团队利用自然场景数据集的fMRI数据,提出一种自监督编码器,从每个被试自身的脑数据中学习其专属的嵌入空间。研究发现,这些独立学习的空间可以通过无监督的正交旋转,在不同被试间实现直接转换,无需配对数据或中间模型。进一步将旋转同步到一个统一的共享空间后,跨被试的检索性能得到提升。结果为人类视觉皮层存在共享神经几何结构提供了证据,表明个体的fMRI表征在不同人之间近似等距,并可通过纯几何变换进行转换。
针对医学图像分割中的类别不平衡问题,本研究将少样本学习中的情景采样引入全监督训练,以构建类别均衡的批次。研究在公开的SAROS数据集上,对比了情景采样、随机采样和加权采样在分割9种肌肉与脂肪组织时的表现。在低数据场景下,情景采样的平均Dice系数达到0.787,优于随机采样(0.758)和加权采样(0.762),主要原因是其训练迭代次数多出12倍。研究关键发现是,训练迭代预算本身是影响采样策略评估的重要混淆因素;情景采样能多训练约三倍的迭代次数才趋于稳定,表明类别均衡批次具有隐式正则化效应,为不平衡任务提供了一种低成本的通用策略。
传统视觉惯性里程计依赖高像素相机,资源消耗大。本研究提出了一种极简方案,仅需四个向下感知的光电二极管(通过光学Gabor掩膜提取速度信息)与一个IMU,即可为差速驱动机器人提供鲁棒的平面运动估计。通过物理仿真器联合优化掩膜参数与时序卷积网络,该模型能从四个光电二极管的测量中解算速度,并结合IMU的角速度输出连续轨迹。原型传感器在多样化的室内外地形验证中,无需真实场景微调即可紧密跟踪参考真值,证明了极简传感方案能够实现高效、精准的平面里程计。
ClinSeekAgent 是一个自动化代理框架,旨在将临床推理范式从被动接收预设证据转变为主动从异构源中检索与整合多模态证据。该框架仅需临床查询和原始数据源访问权限,即可通过查询知识库、导航电子病历及调用影像工具动态收集证据,并随着新信息不断精炼假设以支持临床决策。研究通过构建ClinSeek-Bench基准测试验证其有效性,在多模态任务中将Claude Opus 4.6的F1值从47.5显著提升至62.6。此外,ClinSeekAgent 作为训练管道,可将高质量代理轨迹蒸馏为开源模型ClinSeek-35B-A3B,使其在基准测试中F1平均达到34.0,较基线提升11.9分,性能接近Claude Opus 4.6。
本文提出了一个名为π-Bench的全新基准测试,旨在评估个人助理代理的主动辅助能力。该测试包含100个多轮任务,覆盖5个特定领域的用户角色,其核心创新在于引入了隐藏的用户意图、任务间的依赖关系以及跨会话的连续性,以更真实地模拟现实交互。实验结果表明,主动辅助对当前大模型而言仍是重大挑战,且代理的“任务完成能力”与“主动识别需求能力”之间存在显著差距。
针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战,TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性,设计了基于间隔的专家刷新策略,以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题,TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明,在单GPU-CPU系统中,TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升,为现有基线方法带来显著加速。
时间序列基础模型Toto 2.0正式发布,这是一组五个开源权重的预测模型。研究表明,在400万至25亿参数范围内,采用统一训练方案的模型预测质量能持续可靠提升。该模型家族在三大预测基准测试中创下新纪录,包括其可观测性基准BOOM、通用基准GIFT-Eval以及抗污染的TIME基准。所有五个基础模型检查点均基于Apache 2.0协议开放发布。
LLMEval-Logic 是一个专注于中文逻辑推理的LLM评估基准,其数据来源于真实场景,并通过专家编写、审核及Z3验证器闭环验证以确保题目质量。基准包含两个子集:246项的Base子集(配有1400条评分标准)与190项的Hard子集(含938个多步骤子问题)。对14个前沿LLM的评估表明,当前模型在逻辑推理能力上仍有显著不足:最佳模型在Hard项目上的准确率仅为37.5%,即使结合参考符号,形式化得分最高也仅达60.16%。该基准已开源,旨在为模型逻辑推理能力的评估与提升提供可靠工具。
Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架,旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M,涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练,Mega-ASR在多个基准测试中显著超越先前系统:在VOiCES测试集上词错误率从54.01%降至45.69%,在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下,其词错误率相对强基线进一步降低超过30%,为构建稳健的实景语音识别系统确立了可扩展的技术范式。
StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战,通过将预训练的干净图像奖励模型(如CLIP ViT-L)与固定的扩散主干(如SD 3.5 Medium)轻量级地“拼接”起来。该框架的核心创新在于,使奖励模型能够直接处理噪声潜在值,从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效,仅需约10个GPU小时。实验表明,StitchVM显著提升了下游方法的效率,使DPS推理速度提升3.2倍、显存占用减半,并将DiffusionNFT加速2.3倍。
针对代理型大语言模型推理中的计算瓶颈,研究团队提出Mix-Quant,一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节,但存在显著量化冗余,而解码阶段对量化更敏感。为此,Mix-Quant采用混合精度策略:对预填充阶段应用高吞吐的NVFP4量化以加速,对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中,能有效保持任务性能,同时将预填充阶段速度提升最高3倍。
研究团队发布了CutVerse基准测试,用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流,涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估,团队开发了一个轻量级解析器,可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示,现有智能体在此类任务上的成功率仅为36.0%,凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力,但在长程可靠性与领域特定规划上仍存在局限。
该研究针对大语言模型智能体技能优化中存在的多目标挑战——即需同时提升任务性能并满足平台字段长度等硬性限制——提出了MOCHA方法。该方法采用切比雪夫标量化以完整覆盖帕累托前沿(包括非凸区域),并结合指数退火策略平衡搜索过程。实验表明,在六项任务中,现有优化器有四项无法提升基线技能,而MOCHA均实现了突破,平均正确率较最强基线提升7.5%,并发现了两倍多的帕累托最优变体。
针对从平面图和风格参考生成一致全屋VR漫游的难题,本文提出了PanoWorld。该模型将整屋合成任务转化为基于节点的360度全景图自回归生成,与真实VR产品的导航方式一致。其核心方法是使用基于平面图的3D壳体作为全局几何代理,并结合动态3D高斯溅射缓存作为可渲染的空间记忆。通过专门设计的全景LRM和房间感知组注意力机制,模型能够更新全景图并抑制跨房间特征干扰,在保持高质量2D细节的同时显著提升了跨节点间的布局与材质一致性。项目详见:https://jjrcn.github.io/PanoWorld-project-home/
本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战,指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此,团队开发了因果评估框架,筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估,发现现有方法普遍存在识别失效问题。为解决此问题,提出了基于概念的归因方法MedFocus,该方法利用非平衡最优传输定位临床相关区域,并通过定向干预量化其因果效应。实验证明,MedFocus在空间、概念及词元层面均显著优于现有方法,推动了更可靠的医疗视觉归因发展。
针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈,本文提出了OScaR压缩框架。研究发现,传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术,有效缓解了该不平衡带来的量化误差,无需复杂流程。在多种大模型上的实验表明,OScaR在INT2量化下可实现近乎无损的性能,相比基准解码速度提升最高达3.0倍,内存占用减少5.3倍,吞吐量增加4.1倍,为极致KV缓存压缩提供了高效通用方案。
本文发布了首个大规模数据集ThoughtTrace,该数据集首次将真实世界的人机多轮对话与用户的自述思维(即发送提示的原因和对助手回复的反应)进行配对。数据集包含来自20个语言模型的1058名用户、2155段对话及10174条思维标注。分析表明,这些思维捕捉了长周期、主题多样的交互,且与消息本身语义不同,前沿LLM难以从对话中准确推断。研究证实,思维数据可用于改进推理时的用户行为预测,并通过思维引导的改写为个性化助手训练提供细粒度对齐信号,为人机交互的深层认知研究与构建更懂用户的助手奠定了基础。
近日,小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。小米玄戒多媒体算法团队凭借自研SPANV2方法,以综合得分4.43夺得高效超分辨率赛道冠军,实现了画质与速度的均衡提升。小米大模型应用团队通过双阶段级联框架与单步扩散技术,获得人像修复赛道冠军;并在反光消除赛道通过骨干网络升级与知识蒸馏等策略获得亚军,主观评分达4.31分,多项客观指标位列第一。
为解决大型语言模型代理在生产环境中记忆功能与隐私保护的矛盾,MemTensor(上海)、HONOR Device与同济大学研究人员提出了MemPrivacy框架。该框架采用边云协同架构,核心是利用本地可逆假名化技术,在边缘设备上对用户数据进行处理。其特点在于既能通过云端记忆提升代理效用,又能确保原始敏感数据不出本地,在需要时可安全还原,从而在数据隐私保护和功能实用性之间取得平衡。
Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准,用于评估大模型对三千年汉字的识别能力。
小红书引擎架构团队在ICDE 2026提出一种面向多核CPU的CCD级负载感知和线程编排向量检索框架,通过感知CCD(Core Complex Die)层级负载并优化线程编排,突破多核CPU向量搜索的性能天花板。
研究发现自我蒸馏技术能够有效提升机器学习模型的持续学习能力。该论文提出,通过模型自身的输出来指导其训练过程,可以在学习新任务时显著减轻对旧知识的遗忘问题。实验表明,这种方法在多个基准测试中提升了模型在连续任务序列上的性能稳定性。研究为解决机器学习中的灾难性遗忘问题提供了一种新的思路。