研究发现现有自蒸馏方法在数学推理中效果不稳定,其根源在于“特权上下文”会过度强化解中已确定的结构化信息,同时削弱驱动多步推理的“思考性词元”权重。为此,本文提出反自蒸馏方法(AntiSD),通过反转优化方向,使学生模型主动远离教师分布,并结合熵触发门控机制,形成即插即用的改进方案。实验表明,在4B至30B参数模型上,AntiSD仅需更少训练步骤即可达到GRPO基线准确度,最终性能提升最高达11.5个百分点,为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。
研究发现现有自蒸馏方法在数学推理中效果不稳定,其根源在于“特权上下文”会过度强化解中已确定的结构化信息,同时削弱驱动多步推理的“思考性词元”权重。为此,本文提出反自蒸馏方法(AntiSD),通过反转优化方向,使学生模型主动远离教师分布,并结合熵触发门控机制,形成即插即用的改进方案。实验表明,在4B至30B参数模型上,AntiSD仅需更少训练步骤即可达到GRPO基线准确度,最终性能提升最高达11.5个百分点,为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。
DocAtlas是一个多语言文档理解框架,覆盖82种语言。它通过差异渲染与合成生成双流程,构建高保真OCR数据集与基准测试,产出统一结构化标注。研究评估16个模型,发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号,通过直接偏好优化实现了稳定的多语言适配,在域内和域外准确性上均实现提升,且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。
本研究针对语言模型拒绝有害指令机制不透明的问题,提出了对比神经元归因方法。该方法仅通过前向传播即可识别出仅占0.1%的、最能区分有害与良性提示的关键神经元。在指令微调模型中,对这些神经元进行干预可将标准越狱测试中的拒答率降低超过50%,同时保持输出流畅度。跨架构实验揭示,对齐微调将预训练模型中已有的鉴别结构,转化为了稀疏且可靶向的“拒绝门控”,从而实现了在无质量损耗的前提下,对模型行为进行可靠调控。
当前地理空间基础模型研究缺乏统一评估标准、训练测试协议与预训练控制,导致模型难以公平比较。对152篇论文的审计发现,同一模型在相同基准上存在显著结果分歧;不同研究预训练配置几乎没有重复;且近四成论文未公开模型权重。为此,文章提出六项具体建议,包括发布带许可证权重、共享核心评估框架、明确基线来源、报告结果方差等,以推动社区建立协作标准,促进该领域健康发展。
本文提出了一种新的可控图像生成原理,其核心是通过更换“参考集”来引导预训练模型,无需参数更新。该方法基于流匹配框架,通过调整条件端点均值来改变生成流程。具体实现了两种方式:免训练的“参考均值引导”,将参考库的校正量应用于冻结模型,实现对颜色、身份、风格与结构的控制;以及“半参数引导”,通过显式均值锚点和学习残差优化器,达到高质量并支持推理时更换参考集。这一工作指向了生成模型可通过数据而非参数更新来适应新任务的更广泛方向。
针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题,本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合,通过参数p连续控制梯度集中与方差界限。理论分析表明,较大的p集中梯度以增强稀疏信号,较小的p则限制方差。为克服静态配置的局限,我们设计了动态退火算法,在训练中自适应调整p。实验显示,HölderPO在多个数学基准测试中平均准确率达54.9%,相对GRPO提升7.2%,并在ALFWorld任务中实现93.8%的成功率,显著提高了稳定性和收敛性。
针对跨具身视频生成中运动动态可迁移而外观形态具身特定的挑战,OmniHumanoid框架提出了一种分解式方法。它首先在多具身的配对视频上学习共享运动迁移模型,随后仅需非配对视频,通过轻量级适配器即可适应新机器人形态。其核心创新是分支隔离注意力机制,有效分离运动条件与具身调制以减少干扰。该研究还构建了包含多样人形资产与场景的合成数据集。实验表明,该方法在合成与真实基准上均能保持高运动保真度与具身一致性,且无需重新训练核心模型即可扩展至未见过的具身,突破了现有方法对配对数据的依赖与可扩展性限制。
研究团队推出PreScam基准,用于评估语言模型从早期对话预测真实诈骗进展的能力。该基准基于用户报告,将17.8万份原始数据筛选并结构化,构建了涵盖20个类别的1.1万余个对话实例,并依据“诈骗杀伤链”和细粒度行为进行标注。研究设置了实时终止预测和诈骗者行为预测两项任务。结果显示,监督学习模型在终止预测上显著优于零样本大语言模型,而即使强大模型在预测诈骗者下一步行为时也仅获中等成功率,表明当前模型仍难以有效追踪多轮对话中风险的动态升级与操纵展开过程。
研究团队针对大规模多智能体路径规划问题,提出了一种名为LC-MAPF的新型可学习通信框架。该方法在基于局部观测的Dec-POMDP框架中,为智能体设计了专用的通信模块,使其能与相邻智能体进行多轮信息交换,从而有效提升协作效率。实验结果表明,在多种未见过的测试场景中,LC-MAPF在多项性能指标上均优于现有的基于模仿学习与强化学习的求解器。其通信机制在显著提升性能的同时,并未损害系统的可扩展性,成功克服了以往基于通信的求解器常见的扩展瓶颈。
研究发现,在LLM推理的自我蒸馏中,教师模型始终看到完整参考答案会导致师生能力不匹配,使学习目标过强。固定教师暴露程度并非最优,且不匹配性随教师所见信息增加而增长。为此,研究者提出自适应教师暴露方法(ATESD),通过一个轻量级Beta策略控制器,基于训练状态动态采样教师暴露比例,并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中,ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法,取得了显著提升。
本文提出AI CFD Scientist,一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门,能在接受结果前检查流场渲染图。实验表明,该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正;在同等成本下,其性能优于通用AI科学家基线,因其具备关键的领域专用验证能力;对照实验证实,视觉验证门能有效检测出求解器日志遗漏的多数静默故障。
研究发现,直接使用前沿代码助手(如GPT、Claude)进行智能体评估效果不佳,其执行成功率仅为30%,且生成的评估指标平均超过12项,过于复杂。为此,研究者提出了EvalAgent,它能将评估领域知识编码为可组合的“评估技能”,自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估,EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%,并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要,移除后Eval@1会从65%骤降至30%。
本文在完全非参数设定下,为从通用模型学习任务相关的专家表示建立了可识别性理论基础。首先证明,即使序列缺乏严格时间依赖且任务分配结构任意复杂,时间步与任务间的结构仍可在无监督下被识别。其次证明,在单个时间步内,仅需简单的稀疏性正则化即可将任务相关潜在表示与无关部分解耦,无需额外约束。这两项结果共同构成了层次化的可识别性保证:任务结构在时间步间可识别,任务相关表示在步内可识别。这是首个通用的非参数可识别性理论,为从通用模型向可证明的专家模型转变提供了依据。
研究提出了一种探索感知的强化学习框架,使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数,评估探索性行动对改善未来决策的潜力,并引入探索感知分组机制,在优化过程中将探索行动与任务完成行动分离。实验表明,该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。
针对大型语言模型的智能体强化学习提出新方法ActGuide-RL,通过引入日常人类交互产生的海量动作数据作为规划式参考指引,帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则,仅在必要时自适应启用指引以匹配任务难度,同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中,ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点,性能与需要大量监督微调数据的流程相当,为智能体强化学习提供了减少对繁重监督微调依赖的新范式。
研究提出一种目标自适应的文本-表格预测方法,用于预测陌生AI智能体在谈判与交易中的决策。该方法将每个决策点构建为表格行,整合游戏状态、报价历史和对话文本,并在提示中提供目标智能体先前的K轮游戏作为适应示例。模型基于表格基础模型,结合了结构化特征、文本表示以及创新的“LLM作为观察者”隐藏状态特征。在13个前沿LLM智能体上训练,并在91个保留的支架智能体上测试,完整模型性能优于直接提示法和基线模型。当K=16时,观察者特征将响应预测AUC提升约4个百分点,并将议价报价预测误差降低14%,证明隐藏的LLM表征能捕捉直接提示无法获取的决策信号。
TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征(几何潜在与跟踪潜在)和时序RoPE对齐两项核心设计,将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式,仅需LoRA微调。给定单目视频及其逐帧重建点云图,模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能,同时以1.3倍的速度和仅需1/4.6的峰值内存运行,并对大幅运动和长视频保持鲁棒性。
ShapeCodeBench是一个用于感知到程序重建的合成基准测试。给定一张渲染的光栅图像,模型必须输出一个可执行的绘图程序,由确定性评估器重新渲染并与目标图像比对。其v1版本在512x512黑白画布上定义了四种基本图形,每个实例均由随机数生成器生成,可创建全新的测试集以减少数据污染。基准发布了一个包含150个样本的固定评估集,涵盖简单、中等和困难三个级别,评估指标包括精确匹配、像素精度、前景IoU等。测试结果显示,传统计算机视觉启发式方法在简单场景中表现尚可,但在图形重叠时失效;最强的多模态配置能保留大部分前景结构,但因细微参数误差仍无法达到精确匹配。目前最佳精确匹配率仍然很低,表明该基准远未饱和。相关代码、数据集及论文资源均已开源。
Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。
当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。
研究团队提出世界-动作交互模型(WAIMs)概念,并针对自动驾驶实例化出DAWN模型。DAWN在紧凑的语义潜在空间中,通过世界预测器与条件动作去噪器的耦合进行交互式推理:预测的世界为动作去噪提供条件,而去噪后的动作又反馈以更新世界预测,两者在推理中递归优化。该方法无需在像素空间展开完整未来预测,仅通过短时潜在推演即可支持复杂交互场景中的长时程轨迹生成。实验表明,DAWN在多个自动驾驶基准测试中取得了优异的规划性能与安全相关结果,证明交互式世界-动作生成是构建真正可操作世界模型的有效路径。
PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题,并从演示友好型来源进行深度研究,收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式:单人演示(单解说员)、讨论式演示(多演讲者结构化角色)和交互式演示(基于生成内容回答观众问题)。研究团队构建了涵盖三种场景的多模态演示基准,并制定了内容质量、媒体相关性、动态媒体使用等评估标准,从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。
研究团队提出了WriteSAE,这是首个专门用于分解和编辑状态空间及混合循环语言模型矩阵缓存写入的稀疏自编码器,解决了传统残差SAE无法处理的领域。该方法将解码原子分解为原生写入形态,并提供每个token对数偏移的闭式解。在Qwen3.5-0.8B模型上的测试表明,原子替换在92.4%的触发案例中优于匹配范数消融,闭式解预测效果达R^2=0.98。在Mamba-2-370M模型上,替换成功率也达到88.1%。通过持续三位置安装,成功将贪婪解码下的中位目标延续率从33.3%提升至100%,首次实现了矩阵循环写入站点的行为级安装。
针对现有美学评估常简化为单图像打分的问题,研究提出了视觉美学基准(VAB),将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像,每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现,最强模型仅在26.5%的任务中准确识别最佳和最差图像,远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型,其性能可接近大得多的开源模型,表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。
研究指出,GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足,失败案例呈长尾分布。为解决复杂交互数据稀缺问题,团队提出了新基准CUActSpot,用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力,其覆盖的交互类型远超以往以点击为中心的基准。同时,团队设计了一个基于渲染器的数据合成流程,可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型,性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。
研究团队针对多模态大语言模型图像描述任务提出BalCapRL平衡框架。该框架通过设计多维度奖励函数,系统解决了现有强化学习方法在追求描述效用时引发的幻觉、噪声和冗长等问题。实验表明,BalCapRL在保持描述准确性的同时,显著提升了信息密度与可读性,在多个基准测试中实现了更均衡的性能表现,有效突破了传统方法在核心维度间的权衡局限。
近期研究提出AutoTTS框架,让大语言模型自主搜索并优化测试时扩展策略,取代人工设计。该框架将宽度-深度TTS策略制定为对预收集推理轨迹的控制器合成问题,通过Beta参数化压缩搜索空间,并利用细粒度执行轨迹反馈指导探索。在数学推理基准测试中,自动发现的控制器在准确率-成本帕累托前沿上超越了人工设计的强基线,且能零样本泛化到其他基准和模型规模。整个发现过程仅需39.9美元和160分钟,预示着人工设计思维链等方法的时代可能即将结束,TTS将成为LLM自主完成的任务。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...
研究发现,长历史记录会在大语言模型(LLM)代理中引发“记忆诅咒”,导致其过度遵循历史、规避风险,从而削弱合作能力。该结论基于7个LLM和4个社会困境游戏的实验,在28个模型-游戏组合中,有18个因历史扩展而合作退化。机制分析表明,长历史侵蚀了模型的前瞻性意图,使其更关注过去的冲突而非未来收益。通过仅在前瞻性轨迹上训练的LoRA适配器可缓解此问题,且能零样本迁移至新游戏。实验证明,触发因素是历史内容而非长度,而消除显式思维链通常能减轻合作崩溃。
本周Huggingface排行榜上,MACE论文暂时位列第一。该研究采用混合专家(MoE)架构,实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。
一项新研究证明,一个通过强化学习训练的7B语言模型能够有效指挥GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型通过编写自然语言子任务、分配给不同大模型执行,并精确指定上下文信息,在GPQA Diamond、LiveCodeBench和AIME25等硬核基准测试中,其性能全面超越了单个前沿模型。该系统平均每个问题仅需调用约三次大模型,比手动设计的多代理流程更高效。该工作提供了关键证据,表明目前商业AI产品中依赖人工的提示工程和流程设计,完全可以仅通过奖励信号进行端到端学习。这揭示了AI发展的新方向:智能的差距可能不在于模型规模,而在于协调与指挥的能力。
In this paper, a 7B language model trained with reinforcement learning learns to orchestrate larger frontier models like...
本研究提出一种无需人类标注的无监督过程奖励模型(uPRM)训练方法。该方法基于大语言模型下一个token的概率设计评分函数,能够联合评估一批推理轨迹中首个错误步骤的可能位置,实现完全无监督训练。实验表明,uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%;作为测试时验证器,其性能与监督PRM相当,比多数投票基线高出最多6.9%;在强化学习中作为奖励信号,训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。
本研究评估多模态大语言模型(LLM)作为临床评分自动评估器的表现,以画钟测试(CDT)图像评分任务为例。在两个公开数据集上,使用Shulman评分标准,比较三大前沿LLM家族(如GPT-5)与监督深度学习模型。零样本LLM在容差一致性上具有竞争力,但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”:预测分数系统性向量表中间压缩,高估低分、低估高分,严重影响认知障碍筛查的关键极端分数。消融实验证明,提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域,强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。
本文提出AR-VLA,一种独立的自回归动作专家模型。它通过可刷新的视觉-语言前缀生成连续的动作序列,并维护长期记忆以保持上下文感知,克服了传统模型每次观测都重置时序的局限。该架构解决了快速控制与慢速推理间的频率失配问题,实现了运动学语法的独立预训练,并可与复杂感知网络模块化集成。通过重锚定机制处理感知延迟,实验证明AR-VLA能生成更平滑的动作轨迹,其任务成功率保持或超越现有最优反应式模型,为机器人策略训练提供了可扩展的上下文感知框架。
本文提出Raster2Seq方法,将复杂平面图的重建任务转化为序列到序列学习问题。该方法将房间、门窗等平面图元素表示为同时编码几何与语义信息的多边形序列,并通过自回归解码器,利用可学习锚点引导注意力机制,依据图像特征与已生成角点预测下一个角点。这种设计使模型能够灵活、高效地处理包含大量房间和复杂多边形结构的平面图。实验表明,Raster2Seq在多个标准基准上取得了领先性能,并在更具挑战性的数据集上展现出强大的泛化能力。
WildClawBench是一个原生运行环境基准,包含60项人工编写的双语多模态任务,涵盖六大主题。任务平均耗时约8分钟,涉及超20次工具调用,并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分,结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中,表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%,其余均低于60%,且仅更换框架就可使同一模型得分波动高达18分。结果表明,当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。
PREPING 框架旨在解决智能体在新环境中的冷启动问题,使其无需观察目标任务,仅通过自我生成的合成练习构建程序记忆。其核心是提议者记忆,一个结构化控制状态,用于引导练习。系统包含提议者、求解器和验证器:提议者生成合成任务,求解器执行,验证器筛选轨迹存入记忆并提供反馈。在 AppWorld、BFCL v3 和 MCP-Universe 上的实验表明,PREPING 显著优于无记忆基线,性能与基于离线或在线经验的强剧本方法竞争,且部署成本更低。分析显示,优势主要来自提议者对可行性、冗余性和覆盖度的控制,结合选择性记忆更新,而非单纯数据量。
研究揭示了表格数据生成增强中存在的“保真度-效用差距”,即仅追求分布真实性未必能提升下游模型性能。为此提出的TAP方法将扩散修复技术与轻量级策略相结合,该策略根据学习器状态动态引导生成高效用样本,并通过显式门控和保守窗口承诺控制安全注入。在七个真实数据集上的实验表明,在数据极度稀缺时,TAP显著优于现有生成基线,最高提升分类准确率15.6个百分点,降低回归任务RMSE达32%。