BA-T是一种用于两视图光束平差法的迭代Transformer,受经典BA启发,将BA风格的结构化更新实现为隐式token空间中的可重复层。不同于传统前馈3D重建模型依赖深度解码器堆叠,BA-T基于潜在残差通过单一轻量层逐步精炼位姿和重建结果。实验显示,BA-T在迭代中持续提升精度,实现比传统解码器更强的跨视图一致性,并以仅16%的decoder参数匹配或超越更大模型。代码已开源。
BA-T是一种用于两视图光束平差法的迭代Transformer,受经典BA启发,将BA风格的结构化更新实现为隐式token空间中的可重复层。不同于传统前馈3D重建模型依赖深度解码器堆叠,BA-T基于潜在残差通过单一轻量层逐步精炼位姿和重建结果。实验显示,BA-T在迭代中持续提升精度,实现比传统解码器更强的跨视图一致性,并以仅16%的decoder参数匹配或超越更大模型。代码已开源。
Anthropic分析了2025年3月至2026年3月间因恶意网络活动被封禁的832个账号,映射至MITRE ATT&CK框架。67.3%的账号使用AI编写恶意软件,6.5%用于横向移动。攻击者中高风险比例从上半年的33%升至下半年的56%。AI使用从初始访问转向后期活动,账户发现增长8.9%,AI辅助钓鱼下降8.6%。攻击者技能与使用技术数量无显著关联(最低技能者平均16种,最高约20种),所用平台也与风险等级不相关。更高风险攻击者将AI集中于操作密集型技术,并构建允许模型自动链式执行攻击步骤的脚手架。MITRE ATT&CK框架未收录AI自主编排攻击链等行为。
关联讨论 1 条X:Anthropic (@AnthropicAI)Anthropic 分析 2025 年 3 月至 2026 年 3 月间 832 个被封禁的恶意账户,映射至 MITRE ATT&CK 框架。67.3% 使用 AI 编写恶意软件,6.5% 用于横向移动。六个月间中高风险攻击者占比从 33% 升至 56%。AI 用于账户发现增长 8.9%,AI 辅助钓鱼下降 8.6%。传统基于技术数量或平台(Claude Code、API、聊天界面)的威胁评估失效,而 MITRE ATT&CK 框架尚未收录此类智能体编排行为。
关联讨论 1 条X:Anthropic (@AnthropicAI)PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。
该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程,并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本,仅依赖最终答案的统计信息,并能联合权衡答案正确性、延迟与计算成本,且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行,与ASC等强基线相比,该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。
推理模型通过延长思考链提高准确率,但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现,淘汰少量大数值价值状态会导致模型陷入重复推理循环;引入随机性则能提升缓存多样性以改善准确率。基于此,本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明,该方法进行4倍缓存压缩时,在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法,并比最强淘汰方法提升超过4%。
本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。
Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....
斯坦福团队研究发现,使用未过滤Common Crawl数据训练模型时,在计算量充足下效果可能优于清洗后数据,结论呈现模型规模依赖性:小模型(15M)上过滤数据全面领先,但大模型(330M、1B)未过滤数据在充分训练后反而超越过滤版本,原因是大模型参数容量足够大,可在训练中自行隔离噪声与有效信息。
斯坦福大学法学院的一项研究表明,人工智能的表现优于法学教授。该发现引发了广泛关注,在Hacker News平台获得了104个Points。
Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。
We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...
关联讨论 1 条X:Google DeepMind (@GoogleDeepMind)研究者提出了视觉状态追踪基准VSTAT,用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段,并配有1500个必须通过连续感知才能回答的问题。测试发现,现有顶尖多模态大语言模型在VSTAT上的表现远低于人类,仅略高于随机答案基线。分析表明,模型的文本推理能力尚可,但视觉感知所必需的事件追踪能力存在不足。初步评估也显示,包括智能体在内的现有方法也未能有效解决这一问题。
Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。
受人类学习过程启发,研究提出了一种让大语言模型持续学习的“睡眠”范式。该范式包含两个阶段:第一阶段为记忆巩固,通过“知识播种”将较小模型的记忆向上蒸馏至更大网络,以保留知识并提升容量;第二阶段为“做梦”,模型利用强化学习生成合成数据课程进行自我演练和改进,无需人工监督。实验验证了该范式在长期、持续学习、知识整合及少样本泛化任务上的重要性。
OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型,使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作,自回归地实时生成动作条件化的逼真传感器视频,可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中,作为高响应性环境。初步结果显示,基于OmniDreams后训练的世界-动作模型(WAM)在Physical AI自动驾驶NuRec数据集上,仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。
Ψ-Bench 是一个新提出的基准测试,旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景,并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估,发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现,在提供客户档案后,模型性能平均提升 18.24%,凸显了用户特定信息对于实现有效说服的重要性。该工作指出,人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。
斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。
SparDA提出解耦稀疏注意力架构,在QKV外引入第四层投影Forecast,预测下一层所需KV块,使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数,训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度,实现prefill加速1.25倍、decode加速1.7倍;相比非offload稀疏基线,单GPU上decode吞吐量提升5.3倍。代码已开源。
多智能体系统(MAS)中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优,但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议,将通信视为公共状态更新问题,把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能,同时大幅减少token消耗:在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率,在SWE-agent上解决率不变但输入token减半。代码已公开。
SGDR是一种面向Web智能体的在线技能学习方法,能在执行过程中按步骤动态复用技能。它包含三个组件:滑动窗口提取将完成轨迹转化为可调用子过程;双文本-代码表示连接技能检索与可执行动作;状态接地动态检索机制同时匹配任务目标与当前网页状态。在WebArena五个领域上,SGDR搭配GPT-4.1的平均成功率达37.5%,搭配Qwen3-4B达24.3%,分别相对最强基线提升10.6%和10.0%。代码已开源。
AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。
现有跨视角地理定位方法将城市级检索和精确位姿估计分离,导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务:采用共享Transformer编码器配合任务专用token,分离全局检索特征与空间定位线索;引入双向Transformer位姿解码器,以地面特征作为空间查询进行双向交叉注意力,弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上,CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。
研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示,两者一阶增益相当,但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度(NDS),两者更新范数相近,Muon 的 NDS 更低,且数据不平衡会放大这一优势。中后期训练中,Muon 的 NDS 优势主要源自更小的层内曲率。理论证明,Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS,在曲率异质性足够强时,同等步数下局部二次损失也更低。
研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。
多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征,使模型能在保持与输入观测一致的前提下,外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL,构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能,在 MVC 上准确率提升 3.4%,在 PT 上与强闭源模型相当,且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号,同时生成可解释的中间表征。
现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。
提出基于 Fisher 信息矩阵(FIM)谱范数的攻击无关鲁棒性度量,量化模型输出对输入扰动的 worst-case 敏感度。理论上证明 FIM 等于输入 Jacobian 的方差,并推导出 VGG、ResNet、DenseNet、Transformer 等架构的闭式谱界,给出首个理论鲁棒性排序。开发基于幂迭代和 Hutchinson 估计的高效算法,支持白盒与黑盒场景。在 CIFAR、ImageNet、医学图像等数据集上的实验表明,该度量与对抗脆弱性高度相关。代码已开源。
基因组基础模型的进展因基准碎片化、评估协议不兼容而难以评估。GENEB是一个大规模诊断基准,在统一探针协议下评估40个模型在100个任务(13个功能类别)上的冻结表示,包含少样本场景。分析显示聚合排行榜不稳定:模型排名在不同任务类别间差异显著,规模带来的收益有限且不一致,架构和预训练对齐的影响常超过参数数量。GENEB为基因组机器学习提供了原则性比较和类别感知模型选择的参考框架。
BRepCLIP是首个通过对比预训练将CAD边界表示(BRep)几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列,使用表面(如圆柱面、环面、NURBS)和曲线(如直线、圆弧、B样条)的离散词汇表,并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入,通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape,BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%,在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。
TIDE是一种模板引导的迭代框架,用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求,而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题,并基于已发现结果调节后续搜索以扩大覆盖;同时通过思维模板从历史案例中提炼复用模式,指示模型关注哪些上下文信号及如何关联,将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中,基于四个模型骨干的验证显示,TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。
SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。
研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。
VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。
Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。
世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。
经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。
SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。
一项对4,760个科学事件的研究发现,AI模型在“解释”科学方面优于“预测”科学。模型在识别可能的研究路径(尤其是选择题形式)时表现较好,但在预测科学发现是否会实际发生、何时发生以及何种方法有效等更难任务上表现薄弱,准确率接近随机猜测。即使提供额外历史信息,模型改善有限。这表明,模型内嵌大量科学知识并不等同于具备可靠的科学预见能力。研究论文发表于arXiv(2605.22681),标题为《Forecasting Scientific Progress with AI》。
研究提出“语义运动锚点”方法,用于解决协同语音手势生成与检索中语义理解不足的问题。该方法将3D手势离散化为身体-手部运动原语,并转化为结构化的自然语言描述,作为辅助监督信号锚定于语音文本。在BEAT2数据集上,该方法将文本到手势检索的R@1指标提升了8.2%,并优于现有方法。检索增强的手势生成用户研究显示,该方法检索到的手势在传达交流意图方面明显优于基线。