StreamForce 是一个因果统一的流式视频生成框架,通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号,并配合蒸馏流程训练,能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS,兼具自回归效率和力响应能力,在力遵循度和运动真实性方面达到当前最优水平。
StreamForce 是一个因果统一的流式视频生成框架,通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号,并配合蒸馏流程训练,能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS,兼具自回归效率和力响应能力,在力遵循度和运动真实性方面达到当前最优水平。
LIMMT 提出首个以数据为中心的人形运动跟踪框架,从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明,仅用不到 3% 的 AMASS 数据集训练,跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗,验证了数据质量驱动的有效性。
Stream3D-VLM 是一种在线3D视觉语言模型,能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应,通过轻量级Visual-Spatial Feature Integration(VSFI)模块逐步注入时序对齐的几何先验,并提出Geometry-Adaptive Voxel Compression(GAVC)模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺,构建了超过1M在线时空3D问答对的数据生成流程,并建立涵盖29个任务的benchmark。实验显示,该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。
该综述从人类视角审视基于多模态大语言模型的视频理解,将其组织为观看、记忆、推理三项核心能力。论文提出统一框架,通过感知表征、记忆状态、推理轨迹和最终预测刻画系统,识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知(观看)、离线与流式记忆(记忆)、纯文本与视频思维推理(推理)的方法,覆盖自我中心、体育、教学、医学、叙事等应用,并整理了训练数据集与评估基准,最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。
PaperFlow提出三阶段框架:Profiling从异构冷启动证据构建维护结构化学术画像;Recommending在固定展示预算下通过多信号聚合排序每日论文流;Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准,包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录,并设计了盲人评估协议。实验对比五种基线,PaperFlow在oracle排序、行为对齐和盲评分数上均最优。
大语言模型在零样本文本嵌入任务中表现不佳,原因在于嵌入向量倾向于与高频但无信息的token对齐,抑制语义捕获。本文提出EmbedFilter,一种简单的线性变换方法,通过利用LLM内部unembedding矩阵编码的潜在空间,过滤掉高频token子空间,从而增强语义表示。该方法可自然降维,减少索引存储并加速检索,同时保持精炼后嵌入质量。实验表明,嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。
Socratic-SWE 提出闭环自我进化框架,将代码智能体历史解决轨迹提炼为结构化技能,总结失败与修复模式,并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后,保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹,使任务课程自适应调整。在 SWE-bench Verified 等基准上,相同计算预算下持续优于自我进化基线,三轮迭代后 SWE-bench Verified 达 50.40%。
UniSHARP扩展了SHARP真实感视图合成方法,实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像,在射线基表示中沿射线和径向距离排列高斯原语,并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark,实验表明UniSHARP大幅优于替代方法。
dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型,在连续潜在空间中建模语音。其创新包括:多目标训练的 AudioVAE 构建语义结构化连续语音空间;全历史条件的 flow-matching 头保持长程一致性;无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能,中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%,SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理,输出流首包 85ms,双流 54ms。训练推理代码及检查点已开源。
Google 新论文 LEAP 提出智能体框架,通过规划证明、分解子目标、复用已有引理并利用 Lean 验证器反馈,将通用 LLM 在形式化数学证明上的性能从不到 10% 提升至 70%。传统单次完整证明在长难题上表现极差,而 LEAP 将证明存储为有向图结构,先规划再逐步验证。在 Putnam 2025 竞赛中,LEAP 成功解出全部 12 道题;在包含 60 道 IMO 风格题目的 Lean 基准测试中,也实现了上述性能跃升。
Google Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 8 条X:Anthropic (@AnthropicAI)Anthropic:The Institute(旗舰研究长文 · 网页)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:小互 (@xiaohu)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)多实例学习(MIL)解决监督信号仅存在于包级别的问题,现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器,能通过少量标注包解决新任务,推理时仅需单次前向传播,无需梯度更新。研究比较了多种包结构合成数据生成器,发现其互补的归纳偏置经混合预训练后能继承各自优势,在12个MIL基准测试上取得平均最佳性能,超越需要任务特定训练的监督基线。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
关联讨论 8 条X:Anthropic (@AnthropicAI)Anthropic:The Institute(旗舰研究长文 · 网页)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)X:Kim (@kimmonismus)X:小互 (@xiaohu)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
以圣彼得堡博弈为平台,评估28个大语言模型。多数模型在原始博弈中生成有限出价,看似与人类风险行为相似;但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现,模型转向条件性和计算合理性行为,人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。
Miles框架提出Token-In-Token-Out(TITO)原则,解决智能体强化学习中训练-推理不匹配:确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列(每任务一个样本),节省一个数量级计算开销并维持on-policy性。三种破坏场景:反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务(如SWE-Bench)轨迹含30-50轮。
ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token,再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类,单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参,在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线,PSNR分别高2.1dB和1.2dB,并零样本泛化至Mip-NeRF360和ScanNet++,超越所有可比基线。
DAR(Deontic Agentic Reasoning)是一种让模型按需与法规交互的智能体推理设置,用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现,智能体框架能推动道义推理的前沿性能,但改进并不均匀:较弱的模型在数值任务中表现退化,同时消耗更多模型token。
针对德语预训练数据资源匮乏且缺乏系统验证的问题,研究团队构建了KletterMix——一个高质量德语语料库,用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成,保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中,基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升,证实精心策划的翻译数据能有效增强德语预训练数据生态。
MedSP1000是一个包含1,638个标准化病人(SP)案例和24,602条经同行评审的轨迹级评分标准的交互式基准,用于评估临床智能体动态决策能力。在闭环模拟中,智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现,静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项,最强医学专用模型达40.0%,增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。
EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过 `load_dataset` 从 Hugging Face 直接下载。后续将推出多语言扩展。
IR3DE是一个基于岭回归的线性路由器,为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模(CLM)任务中,IR3DE性能与其他基线相当;在推理任务中,归一化性能达到98.4%,超越其他方法。该路由器支持动态添加或移除领域专家,无需重新训练,代码已开源。
在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。
伊利诺伊大学和清华大学等实验室研究发现,LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历(实际过往尝试和解决方案)往往比提炼后的总结更有用。测试中,GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%,但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要,保留原始证据并仅偶尔总结效果更好。
Google DeepMind论文首次系统分类六类攻击:HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体,子智能体劫持成功率58–90%,数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%,仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化,构成主要攻击面。
Retrospective Harness Optimization (RHO) 是一种自监督方法,仅利用过往轨迹优化LLM智能体的工具链(技能、工具和工作流程集合)。RHO从历史任务中选取多样化的困难任务核心集,并行重新执行;智能体通过自我验证和自我一致性分析回放,生成候选工具链更新,并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中,单轮优化将SWE-Bench Pro通过率从59%提升至78%,无需外部评分。分析表明RHO有效针对先前失败模式,优化后的工具链改变智能体行为模式,在长周期会话中维持更高准确率。
DeepMDMD结合深度Koopman方法与结构保持方法,学习潜空间并分区,同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤,得到非零谱位于单位圆上的有限转移图,字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中,比几何MDMD更紧凑且动态一致,减少谱污染,揭示更丰富的连续谱结构,并在严重噪声下稳定预测。在高维流(包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔)中,保持相干结构和长期谱统计,而状态空间MDMD失效。
基于评分标准的强化学习使用 LLM-as-a-Judge 对模型输出打分作为奖励,但策略模型可能利用评判者的潜在偏见导致奖励黑客,使训练结果无效甚至不安全。论文提出 CHERRL,一个可控黑客环境,通过向评判注入已知偏见,稳定再现奖励黑客、观察奖励分歧并精确识别黑客起始点。利用该环境分析了不同评判偏见的可发现性和可利用性,并探索了基于智能体的系统自动从训练日志检测黑客起始点。代码与环境已公开。
MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。
M^3Eval是首个系统评估多模态模型记忆能力的基准框架,基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现:模型难以在并行视频流中保持分离表示,干扰模式与人类记忆差异显著,空间域的记忆溯源比时间域更可靠,符号记忆能力有限。代码与数据集已公开。
AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。
Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习(RLVR)下取得进展,但长思维链中的试错和冗余探索被强化,导致过度思考。ThoughtFold 提出细粒度偏好学习框架:通过内省策略识别正确轨迹中的冗余段,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤,从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%,同时保持 SOTA 准确率。
训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题,学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化,通过测量这些算子对测试预测的扰动,利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优,且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。
WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。
一项干预审计研究揭示了检索增强问答流程中重写器(rewriter)性能提升的因果机制:增益主要来自重写上下文中出现正确答案字符串,而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示,从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点;向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”,但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1,且其中三种未通过等价检验。