OpenComputer是一个验证器基础框架,旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件:针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器,以及可记录轨迹并计算部分奖励的评估工具。目前,该框架已覆盖33款桌面应用,生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明,其硬编码验证器比大语言模型评估更贴近人类判断。同时,研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈,表明稳健的计算机自动化仍存在挑战。
OpenComputer是一个验证器基础框架,旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件:针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器,以及可记录轨迹并计算部分奖励的评估工具。目前,该框架已覆盖33款桌面应用,生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明,其硬编码验证器比大语言模型评估更贴近人类判断。同时,研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈,表明稳健的计算机自动化仍存在挑战。
现有室内场景合成方法常生成静态网格,难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括:通过规划-设计-批评循环生成对象资产请求,经五种代码生成策略转化为分部件的Blender Python程序,并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产,并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明,SceneCode提升了场景生成与提示词的一致性,产生了网格结构更清晰、包含可加载关节元数据的资产。
本文提出MSAVBench,首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度,支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性,并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明,当前模型在导演级控制和精细音视频同步上仍存在瓶颈,而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。
针对现有视频生成模型在抽象或复杂控制下表现不佳的问题,CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM,提升对模糊用户意图的专业理解与推理能力。同时,利用CogOmniDiT模块统一多种条件控制,并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明,CogOmniControl性能超越现有开源模型。
针对强化学习(RLVR)中对所有生成token给予相同奖励导致的信用分配问题,本文提出对比证据策略优化(CEPO)。该方法通过对比正确与错误答案对每个token的偏好,精准区分关键推理步骤与普通填充token,从而获得更细粒度的奖励信号。CEPO利用训练批次中已有的拒绝样本构建错误答案教师模型,不产生额外采样成本。实验表明,在2B和4B参数规模下,CEPO在多个数学推理基准上分别取得43.43%和60.56%的平均准确率,优于GRPO等基线方法。
2026年5月,微信AI团队模式识别中心的论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》在西班牙巴塞罗那举办的ICASSP 2026上荣获最佳工业论文奖。这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出的WalkVLM-LR模型专为视障人士行走辅助设计,其核心创新在于减少输出与时间冗余,优化了视觉语言模型的提醒时机。目前模型延迟控制在百毫秒量级,实时性较为可用,但距离实际落地应用仍需进一步优化。
针对学术研究中大语言模型(LLM)存在幻觉的问题,研究者将抽取式问答系统VerbatimRAG应用于ACL Anthology论文集,实现用户查询到文档原文片段的直接映射。团队构建了一个新基准数据集,由NLP研究人员基于ScIRGen方法生成的合成用户查询进行人工标注,用于训练和评估多种抽取式模型。其中,一个参数规模为150M的ModernBERT分类器,在基于ScIRGen方法生成的查询和论文片段上进行训练后,在词级F1分数上达到53.6,超越了被评估的最强LLM抽取器(48.7)。
现有大型视觉语言模型基准测试主要关注粗粒度任务,且依赖易于语言描述的实体。为此,研究者提出了Flat-Pack Bench,这是一个专注于家具组装任务的新基准,旨在评估模型的细粒度时空理解能力。该基准采用选择题与视觉提示的形式,考察模型在组装动作排序、状态定位、部件匹配理解与追踪等方面的表现。实验表明,最先进的模型在此类细粒度推理任务上表现欠佳,暴露出其在利用视频时序信息、进行目标追踪以及理解物理空间交互方面的不足。
提示词设计仍需大量人力且对格式高度敏感。现有自动化方法受限于候选搜索或固定流程,难以系统性地捕捉错误模式。文章提出反思式提示词微调(RPT)框架,通过LLM函数调用模拟人类工程师工作流:LLM优化器调用诊断函数评估目标模型,总结重复性失败模式并返回结构化报告;优化器依据该报告及历史记忆修订提示词进行下一轮迭代。框架支持置信度感知优化。实验显示,在三个推理任务上RPT最高提升12.9分,与当前最佳方法持平,并改善了置信度校准。分析表明其对多跳与数学推理任务尤为有效,能生成针对性修订。
ZeroUnlearn 提出一种将机器遗忘重新定义为通过模型编辑进行精确知识重映射的方法。该框架以少样本方式运行,通过乘法参数更新与闭合解强制表示正交性,将敏感输入覆盖并映射到中立目标状态,从而高效定向地移除其原始表示。此方法还扩展为基于梯度的多样本遗忘变体。实验表明,ZeroUnlearn 在保持模型通用效用的同时,性能优于现有基线。
RankJudge是一个评估大语言模型作为评判者在基于参考文档的多轮对话中表现的基准测试生成器。它通过生成配对对话来工作,其中一个对话的单一轮次被注入缺陷,从而明确评判结果并精准定位错误类别。该基准在机器学习、生物医学和金融三个领域实施,对21个前沿大语言模型评判者进行了评估,并使用Bradley-Terry模型对其排名。RankJudge还能为对话对生成难度评分,用于动态筛选评估数据以降低标签噪音。
交通安分析依赖整合事故记录、道路属性等地理空间数据,但许多机构和社区利益相关者因技术门槛难以使用。该论文提出了一个基于数据模式的自然语言接口,利用大语言模型(LLM)解释用户查询意图,同时通过结构化语义帧、规则验证层等设计,将查询转化为确定性的空间操作图并在PostGIS数据库上执行,确保了结果的可重复性与可审查性。该框架在马萨诸塞州全州数据库上进行评估,所有查询均成功执行,且验证层修正了29%的查询错误。
多智能体强化学习(MARL)中,通信对于协调至关重要,但常受带宽限制。现有架构常将通信与策略共享潜在表示,导致缩减通信尺寸会直接限制策略容量,造成性能下降。为此,我们提出两项贡献:一是引入归一化带宽预算β,将稀疏度、轮次和消息维度统一为一个可比约束;二是提供最小架构SLIM,它将通信路径与策略的潜在表示解耦,从而隔离带宽与策略容量的影响,并支持步内通信。在多个需要通信的部分可观测基准测试中,该方法取得了最先进的性能,在带宽受限时表现出可扩展性与鲁棒性,性能下降边际。
Equilibrium Reasoners (EqR) 提出一种无需外部验证器的测试时计算扩展框架。其核心假设是,可泛化的推理能力源于学习任务条件下的吸引子,即稳定不动点对应有效解的潜在动力系统。EqR通过深度(更多迭代)与广度(聚合多条随机轨迹)两个维度扩展内部动力。实验表明,测试时扩展的收益与向解对齐吸引子的收敛强度紧密相关。该框架使模型能根据任务难度自适应分配计算:简单案例在1至5次迭代内收敛,复杂案例则受益于大规模扩展。通过展开相当于40,000层,可扩展潜在推理在Sudoku-Extreme任务上将准确率从2.6%提升至超过99%。
SciAtlas 是一个大规模、多学科、异构的学术资源知识图谱,旨在为自动化科学研究提供“认知地图”。它整合了26个学科的超过4300万篇论文,包含1.57亿实体和30亿三元组,构建了可打破学科壁垒的结构化拓扑认知底座。为克服现有检索工具缺乏拓扑推理能力的问题,其开发了具备三路协同召回和图重排序功能的神经符号检索算法,实现从语义匹配到确定性关联发现的过渡。应用方向包括文献综述、研究趋势综合、想法定位与学术轨迹探索,旨在以结构化方式赋能科研全流程并显著降低推理成本。相关接口已在GitHub开源。
当前离散自回归文本到图像模型的后训练通常只优化策略网络而固定VQ解码器,导致潜在协变量偏移,使奖励提升但图像质量下降。为此,本文提出首个端到端后训练框架RankE,通过交替优化策略与解码器实现协同进化。在LlamaGen-XL(775M)上,标准RL仅提升CLIP但恶化FID,而RankE同时改善两者(MS-COCO 30K上FID 15.21, CLIP 33.76)。在Janus-Pro(1B)上验证了其稳定转化奖励为图像质量的能力。
扩散模型的主流架构Diffusion Transformers (DiTs)沿用了原始Transformer的残差连接。本文通过系统性分析发现,这种传统残差加法在模型深度和去噪时间步的联合维度上存在信息幅度膨胀、梯度衰减和冗余等问题。为此,研究者提出了即插即用的扩散自适应路由(DAR)作为替代方案,它通过可学习的机制对子层输出历史进行时间步自适应的聚合。在ImageNet 256×256实验中,DAR将SiT-XL/2的FID分数从9.67提升至7.56,并减少了达到基线收敛质量所需的训练迭代。该方法还可与REPA等兼容以加速训练,并应用于文生图模型的微调。
Lens是一个3.8B参数的文本到图像模型,其性能可与6B以上参数的模型竞争甚至超越,且仅需约19.3%的训练计算量。高效训练源于两大策略:一是通过GPT-4.1生成的Lens-800M数据集(含约109词的密集描述)最大化每批次数据信息密度;二是采用语义VAE和强语言编码器等架构设计以加速收敛。预训练后,模型通过应用RL训练、推理器模块和知识蒸馏实现了4步推理,并支持1:2到2:1的任意宽高比及最高1440^2分辨率。该模型在单张NVIDIA H100 GPU上生成1024^2图像需3.15秒,其蒸馏版可在0.84秒内完成4步生成。
本研究针对现有文本-图像生成模型奖励模型训练成本高、评估标准不透明的问题,提出了首个自动评规学习框架AutoRubric-T2I。该框架能够自动合成并筛选明确的评分规则,以指导视觉语言模型评判者。其核心方法在于从偏好对中合成为候选规则,并通过带L1正则化的精炼器筛选出最具区分性的规则。实验表明,该框架仅需不到0.01%的标注数据即可生成高质量且可解释的奖励信号,在多个基准测试中性能优于强基线,并能有效提升下游生成任务的质量。
本研究提出了CoTrace目标级归因框架,用于分解协作目标并追踪AI的贡献。对638份真实对话的分析发现,大语言模型在目标塑造中的直接贡献为11%-26%,但在引入具体实践需求方面作用显著,并存在多种间接影响。控制实验表明交互设计会影响AI的目标行为。用户研究显示,向用户展示目标级分析后,其对AI贡献的感知评分在5分制中变化了近2分,揭示了用户对自身AI协作成果存在系统性的校准偏差。
GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹,代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同,GenEvolve通过对比同一请求的多个轨迹,将优劣差异提炼为结构化视觉经验,并仅提供给特权教师分支。借鉴策略自蒸馏思想,这些经验为学生代理提供了密集的token级监督,从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准,实验表明该方法达到了最先进的性能。
自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。
可验证奖励强化学习是提升大语言模型推理能力的关键技术,但奖励信号如何转化为token级概率变化的机制尚不明确。本文提出判别器视角,揭示策略梯度更新方向本质上是区分不同奖励响应的线性判别器。现有方法的正负侧质心易被格式化token等高频模式主导,稀释了关键判别信息。为此,我们提出DelTA方法,通过估计token系数来重塑更新方向,放大特定侧梯度并削弱共享模式权重。实验表明,DelTA在多项数学基准上显著提升了模型性能,并在代码生成与跨域任务中展现出良好的泛化能力。
针对现有3D生成方法在物理属性与对象类别上的局限,本文提出PhysX-Omni,一个统一的模拟就绪物理3D生成框架,可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法,能够无压缩地直接编码高分辨率3D结构,从而显著提升生成质量。同时,研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse,并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明,PhysX-Omni在3D生成与理解任务上均取得了优异性能,并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。
针对视频扩散模型生成长序列时质量下降和运动重复的问题,研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频,利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹,后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频,在时间一致性和视觉质量上超越现有基线,并可扩展至音视频生成与3DGS任务。
研究发现,优化器是影响模型表示能力的一个关键维度,挑战了其作为固定训练细节的传统观点。通过对前馈网络表示的特征谱进行分析,研究发现相同Transformer架构在不同优化器下呈现显著不同的频谱缩放规律。在固定设置下,AdamW在学习难度较大的稀有词元表示上仅表现出弱谱秩缩放,而Muon实现了接近线性的缩放,其缩放指数提高了2.3倍。重要的是,这种差异无法仅由验证损失解释,即使损失匹配,表示结构也可能截然不同。研究表明,优化器带来的影响往往超过架构干预,倡导将优化器与架构进行协同设计。
本研究推出了SCICONVBENCH,这是一个用于评估大语言模型在计算科学任务构型阶段进行多轮澄清能力的基准测试。它覆盖流体力学、固体力学、材料科学与偏微分方程四个领域,重点考察模型获取缺失信息(消歧)与识别纠正内部矛盾请求(一致性解决)的能力。研究采用结构化任务本体与量规评估框架,系统测量了模型的澄清行为、对话依托与最终规格保真度。结果表明,前沿模型在一致性解决上表现较好,但在流体力学消歧任务中最佳模型仅解决了52.7%的问题,且模型常进行未基于对话的隐式假设与规格修复。
WavFlow挑战了音频生成依赖潜空间压缩的范式,提出了一种直接在原始波形空间生成高保真音频的框架。为解决高维信号建模难题,方法将音频重塑为二维令牌网格并引入幅度提升,结合流匹配的直接预测实现稳定优化。通过自动化管线构建500万高质量三元组数据集,模型从零学习细粒度声学特征。实验显示,WavFlow在视频到音频(VGGSound)和文本到音频(AudioCaps)基准上达到与主流潜空间方法相当甚至更优的性能,证明了中间压缩并非必要,为多模态音频生成提供了更简洁可扩展的路径。
针对长上下文大语言模型服务中INT2 KV缓存量化精度下降的问题,本文提出OSCAR方法。其核心是通过离线估计注意力实际使用的协方差结构,推导出固定的旋转矩阵和裁剪阈值,使KV缓存量化与下游注意力计算对齐。实验表明,OSCAR显著提升了量化精度:在Qwen3-4B和Qwen3-8B上,其与BF16的差距分别缩小至3.78和1.42个百分点,而朴素旋转方法性能几乎崩溃。该方法在更大模型及128K长上下文测试中表现稳健。在系统层面,OSCAR将KV缓存内存占用降低约8倍,并将大批次吞吐量提升最高达7倍。
研究团队推出了DexHoldem,一个基于ShadowHand机械手和德州扑克的现实世界系统级基准测试平台。平台包含1470个操作演示、物理策略基准和智能体感知基准。测试表明,π0.5模型在操作执行上表现最优,而Opus 4.7与GPT 5.5在感知任务上各有所长,揭示了视觉能力与状态恢复能力之间的差距。闭环案例研究证明感知与策略错误会在实际部署中累积。该平台统一评估了灵巧操作、感知与具身决策能力。
深度学习中,神经网络结构具有对称性,而主流优化器按坐标独立更新,两者存在不匹配。本研究提出对称兼容原则,要求优化器的梯度更新规则在相应参数块的对称群作用下保持等变性。基于此,研究为通用矩阵层提供了统一视角,并推导了适用于嵌入层、LM头、SwiGLU MLP投影矩阵及MoE路由器等不同对称性参数块的专用优化器,形成端到端的逐层优化器栈。实验表明,在稠密与稀疏MoE模型的预训练中,对称兼容更新相比AdamW一致提升了验证损失,并增强了训练稳定性。
两个基于AI的科学助手在药物重定位研究中展现出实际应用潜力。它们能够自主生成科学假设,其中一个工具还能进一步分析实验数据。这类技术有望加速药物研发流程,通过AI辅助发现现有药物的新用途,提升研究效率并降低开发成本。目前该任务已成功验证了AI在复杂生物医学问题中的辅助决策能力。
生物学家利用Co-Scientist这一工具,成功发现能够使人类细胞年轻化的新型因子。该研究通过人工智能加速了遗传线索的探索过程,为逆转细胞衰老领域提供了新的关键因素。这一发现标志着利用技术手段干预生物老化进程取得了实质性进展。
尽管具身化AI及多模态大语言模型在推理任务中表现出潜力,但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发,本研究推出ChildAgentEval——首个基于心理测量学的交互式基准,用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段,揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。
针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题,本文提出了MementoGUI框架。它是一个插件式智能体记忆框架,为基于MLLM的GUI代理配备了学习型控制器MementoCore,无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题,通过工作记忆保存文本摘要与视觉证据,并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子,并开发了相应的数据构建流程与评估基准。实验表明,该框架能稳定提升代理在多个基准上的性能。
本研究针对扩散模型去除预训练阶段不安全内容时面临的监督数据昂贵及离线方法易导致灾难性遗忘等问题,提出了SafeDiffusion-R1在线强化学习框架。该框架采用组相对策略优化算法,在正负文本提示上进行后训练,无需依赖配对监督数据。其核心在于引入了一种奖励引导机制,直接利用CLIP嵌入特性,在嵌入空间中引导文本表征向安全方向优化,从而无需微调专门的安全奖励模型。实验表明,该方法将不安全内容生成比例从48.9%降至18.07%,裸体检测数大幅减少,同时提升了组合生成质量,并可泛化至多种危害类别,达到当前最优水平。
一项发表于《自然》期刊的研究利用英国生物样本库约50万人的数据,通过机器学习构建了17大器官系统的衰老时钟。研究发现,睡眠时间与器官衰老速度呈U型关联:每日睡眠不足6小时或超过8小时,会加速大脑、心脏、肺部等多个器官的衰老;维持在6.4至7.8小时则最为健康。研究还证实,睡眠不足会直接诱发老年抑郁症,而睡眠过长则通过影响大脑和脂肪组织衰老的生物通路间接引发抑郁症,两者机制不同。
本研究针对大型推理模型(LRM)思维链监控不可靠的难题,提出“探测轨迹”方法。该方法通过在生成每个令牌时评估探测器,捕捉模型隐藏表征的演变轨迹。研究发现,结合完整轨迹的预测比基于单一点的静态预测更能准确区分模型未来行为。通过提取波动性、趋势等信号处理特征,模型状态区分度得到显著提升。同时,基于模板的训练数据可替代昂贵的动态生成数据,且采用最大池化操作能实现高达95%的AUROC性能并形成稳定轨迹。在安全与数学等四个数据集上的验证表明,该轨迹特征能编码任务动态,为监控LRM行为提供了有效补充框架。
比利时研究机构Imec于5月12日发布了全球首个专为AI设计的3D CCD内存架构。该方案通过垂直堆叠内存芯片,旨在结合DRAM的高速度与NAND闪存的高存储密度,以解决AI推理中的“内存墙”瓶颈。其核心技术采用IGZO材料,在实验室条件下实现了超过4GHz的电荷传输速度。目前该技术仍处于概念验证阶段,主要面临散热和层数扩展等挑战,离实际量产应用尚有距离。
针对大语言模型智能体在生成可复用经验轨迹时面临的噪声与治理难题,本文提出了SkillsVote框架。该框架将智能体技能定义为可执行脚本与流程指导的结合,并对百万规模的开源技能库进行环境、质量与可验证性评估。在技能执行前后,框架分别通过结构化检索与轨迹分解归因,仅将成功且可复用的发现纳入基于证据的更新。实验表明,该框架能在不更新模型本身的情况下,显著提升固定模型智能体的性能。