AIHOT

全部动态论文 · 2148 条

6月5日周五

6月4日周四

6月5日

08:00

HuggingFace Daily Papers（社区热门论文）

StreamForce 是一个因果统一的流式视频生成框架，通过连续力输入实现物理可控的视频生成。其采用统一力表示作为控制信号，并配合蒸馏流程训练，能即时且连贯地响应局部和全局时变力。StreamForce 在单个 GPU 上可达 16.6 FPS，兼具自回归效率和力响应能力，在力遵循度和运动真实性方面达到当前最优水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LIMMT：运动跟踪中的少即是多

LIMMT 提出首个以数据为中心的人形运动跟踪框架，从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明，仅用不到 3% 的 AMASS 数据集训练，跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗，验证了数据质量驱动的有效性。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stream3D-VLM：支持增量几何先验的在线3D空间理解模型

Stream3D-VLM 是一种在线3D视觉语言模型，能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应，通过轻量级Visual-Spatial Feature Integration（VSFI）模块逐步注入时序对齐的几何先验，并提出Geometry-Adaptive Voxel Compression（GAVC）模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺，构建了超过1M在线时空3D问答对的数据生成流程，并建立涵盖29个任务的benchmark。实验显示，该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于MLLM的人类视角视频理解：观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解，将其组织为观看、记忆、推理三项核心能力。论文提出统一框架，通过感知表征、记忆状态、推理轨迹和最终预测刻画系统，识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知（观看）、离线与流式记忆（记忆）、纯文本与视频思维推理（推理）的方法，覆盖自我中心、体育、教学、医学、叙事等应用，并整理了训练数据集与评估基准，最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv多模态推理视频

08:00

HuggingFace Daily Papers（社区热门论文）

PaperFlow：跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架：Profiling从异构冷启动证据构建维护结构化学术画像；Recommending在固定展示预算下通过多信号聚合排序每日论文流；Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准，包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录，并设计了盲人评估协议。实验对比五种基线，PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXivHugging Face论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UnEmbedding矩阵：文本嵌入的潜在特征透镜

大语言模型在零样本文本嵌入任务中表现不佳，原因在于嵌入向量倾向于与高频但无信息的token对齐，抑制语义捕获。本文提出EmbedFilter，一种简单的线性变换方法，通过利用LLM内部unembedding矩阵编码的潜在空间，过滤掉高频token子空间，从而增强语义表示。该方法可自然降维，减少索引存储并加速检索，同时保持精炼后嵌入质量。实验表明，嵌入EmbedFilter的LLM在显著降低嵌入维度时仍取得更优零样本下游性能。代码已开源。

检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Socratic-SWE：基于轨迹提炼技能的自我进化SWE智能体

Socratic-SWE 提出闭环自我进化框架，将代码智能体历史解决轨迹提炼为结构化技能，总结失败与修复模式，并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后，保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹，使任务课程自适应调整。在 SWE-bench Verified 等基准上，相同计算预算下持续优于自我进化基线，三轮迭代后 SWE-bench Verified 达 50.40%。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniSHARP：通用单目视图合成方法

UniSHARP扩展了SHARP真实感视图合成方法，实现从传统透视相机到鱼眼、全景等系统的通用单目渲染。核心思路是在统一全向潜空间中对齐图像，在射线基表示中沿射线和径向距离排列高斯原语，并联合解码UniK3D编码器提取的2D语义和3D空间特征。构建了覆盖多种成像系统并按视场角分层的benchmark，实验表明UniSHARP大幅优于替代方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

dots.tts 技术报告

dots.tts 是一个 2B 参数的连续自回归 TTS 基座模型，在连续潜在空间中建模语音。其创新包括：多目标训练的 AudioVAE 构建语义结构化连续语音空间；全历史条件的 flow-matching 头保持长程一致性；无奖励自纠正后训练提升鲁棒性和音质。在 Seed-TTS-Eval 上取得最佳平均性能，中文/英文/中文-hard 的 WER 分别为 0.94%/1.30%/6.60%，SIM 分别为 81.0/77.1/79.5。其他基准也达开源 SOTA。基于 CFG 的 MeanFlow 蒸馏实现低延迟推理，输出流首包 85ms，双流 54ms。训练推理代码及检查点已开源。

多模态开源生态论文/研究

推荐理由：dots.tts 在中文 TTS 上把 WER 压到 0.94%，开源且 Apache 2.0 许可，想做语音产品的团队该立刻拉代码试试，单看延迟数据就值了。

06:24

Rohan Paul@rohanpaul_ai

Google LEAP 框架提升通用 LLM 形式化数学证明性能至 70%

Google 新论文 LEAP 提出智能体框架，通过规划证明、分解子目标、复用已有引理并利用 Lean 验证器反馈，将通用 LLM 在形式化数学证明上的性能从不到 10% 提升至 70%。传统单次完整证明在长难题上表现极差，而 LEAP 将证明存储为有向图结构，先规划再逐步验证。在 Putnam 2025 竞赛中，LEAP 成功解出全部 12 道题；在包含 60 道 IMO 风格题目的 Lean 基准测试中，也实现了上述性能跃升。

Google推理论文/研究

04:25

Google Research：Blog（网页）

精选79

Google Research 发布被动心率监测系统 PHRM

Google Research 开发了一种被动心率监测系统（PHRM），利用智能手机前置摄像头在日常使用中（人脸解锁后数秒内）捕捉面部视频，通过深度学习估算心率，平均绝对百分比误差（MAPE）低于10%（对比心电图金标准），满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率（RHR），平均绝对误差（MAE）低于5 bpm（对比可穿戴设备）。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini，合格研究人员可申请访问。

Google数据/训练端侧论文/研究

推荐理由：Google 这项发表在 Nature 上的研究，把手机前置摄像头变成了被动心率仪，而且专门解决了深肤色人群精度差的老问题，虽然离产品还远，但方向很对，穿戴设备的护城河可能又浅了一点。

04:18

Emad@EMostaque

Anthropic内部数据显示，Claude正在加速AI开发--这可能走向递归自我改进，即AI自主构建更强大的后继者。进展比预期更快，影响值得更多关注。主推文仅感叹："foom！"

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体Anthropic安全/对齐论文/研究

关联讨论 8 条

01:50

HuggingFace Daily Papers（社区热门论文）

上下文多实例学习

多实例学习（MIL）解决监督信号仅存在于包级别的问题，现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器，能通过少量标注包解决新任务，推理时仅需单次前向传播，无需梯度更新。研究比较了多种包结构合成数据生成器，发现其互补的归纳偏置经混合预训练后能继承各自优势，在12个MIL基准测试上取得平均最佳性能，超越需要任务特定训练的监督基线。

推理数据/训练论文/研究

01:29

🚨 AI News | TestingCatalog@testingcatalog

Anthropic 发布内部研究，称 Claude 正加速 AI 开发，可能通往递归自我改进--即 AI 自主构建更强大的继任者。研究显示，Claude Mythos Preview 可连续工作至少 16 小时，达到 METR 可测量上限。同时，Anthropic 工程师当前每季度交付的代码量是 2021-2025 年期间的 8 倍。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

智能体Anthropic安全/对齐论文/研究

关联讨论 8 条

01:28

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

HOLY SHIT LET'S FUCKING GOO 我们内部数据显示，Claude 正在加速 AI 发展--这可能通往递归自我改进，即 AI 自主构建更强大的后继者。这发生得比我们想象的更快，其影响值得更多关注。

Anthropic: Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...

Anthropic安全/对齐推理论文/研究

00:43

HuggingFace Daily Papers（社区热门论文）

圣彼得堡博弈揭示LLM风险决策的表面行为对齐与机制差异

以圣彼得堡博弈为平台，评估28个大语言模型。多数模型在原始博弈中生成有限出价，看似与人类风险行为相似；但通过扰动截断、重复玩法、财富量、职业身份等控制变体发现，模型转向条件性和计算合理性行为，人类提示词和指令微调仅降低出价而未改变机制层面响应模式。结果表明风险决策中的行为对齐可能停留在表面。

arXiv安全/对齐论文/研究评测/基准

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选62

不再遗漏任何Token：解析Miles中的Token-In-Token-Out（TITO）

Miles框架提出Token-In-Token-Out（TITO）原则，解决智能体强化学习中训练-推理不匹配：确保rollout过程token序列与训练器评估序列逐位一致。TITO将多轮轨迹视为一个连续序列（每任务一个样本），节省一个数量级计算开销并维持on-policy性。三种破坏场景：反分词-再分词不匹配、聊天模板修剪推理内容、有损模板重新渲染。Miles通过推理会话服务器、三级只追加保证、可插拔TITO分词器和序列比较器实现。典型任务（如SWE-Bench）轨迹含30-50轮。

开源生态数据/训练论文/研究

推荐理由：LMSYS团队把agent RL里最隐秘的训练-推理不一致问题解释透了，TITO原则直接告诉你为什么之前训练不稳，做agent训练的都该看看这篇。

6月4日

23:43

HuggingFace Daily Papers（社区热门论文）

ZipSplat：更少高斯，更好渲染

ZipSplat是一种基于token的前馈3D高斯泼溅模型。它通过k-means聚类将多视图密集视觉token压缩为紧凑场景token，再经交叉/自注意力细化后由轻量MLP解码为位置不受限的高斯组。推理时进行聚类，单一训练模型无需重训即可沿质量-效率曲线运行。无需真值位姿或内参，在DL3DV和RealEstate10K上以约6倍少于像素对齐方法的高斯数超越最佳无位姿基线，PSNR分别高2.1dB和1.2dB，并零样本泛化至Mip-NeRF360和ScanNet++，超越所有可比基线。

arXiv图像生成论文/研究

22:43

HuggingFace Daily Papers（社区热门论文）

DAR：道义推理与智能体框架

DAR（Deontic Agentic Reasoning）是一种让模型按需与法规交互的智能体推理设置，用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现，智能体框架能推动道义推理的前沿性能，但改进并不均匀：较弱的模型在数值任务中表现退化，同时消耗更多模型token。

智能体推理论文/研究

22:43

HuggingFace Daily Papers（社区热门论文）

KletterMix：面向高质量德语预训练数据的构建与验证

针对德语预训练数据资源匮乏且缺乏系统验证的问题，研究团队构建了KletterMix——一个高质量德语语料库，用于大语言模型预训练与退火阶段。KletterMix通过翻译一份最优英语预训练语料生成，保留了原文档边界、元数据、来源结构和主题多样性。COMETKiwi评估表明翻译文档在多个领域保持语义与风格丰富性。在受控预训练和退火实验中，基于KletterMix训练的模型在德语下游评测中取得可衡量性能提升，证实精心策划的翻译数据能有效增强德语预训练数据生态。

开源/仓库数据/训练论文/研究

21:44

Nathan Lambert@natolambert

我们又有另一份来自英伟达的65页前沿模型报告要读，作者@eliebakouch @stochasticchasm及其团队。

论文/研究

21:43

HuggingFace Daily Papers（社区热门论文）

MedSP1000：标准化病人驱动的临床智能体交互式基准

MedSP1000是一个包含1,638个标准化病人（SP）案例和24,602条经同行评审的轨迹级评分标准的交互式基准，用于评估临床智能体动态决策能力。在闭环模拟中，智能体行为依据专家标准逐项打分。测试通用及医学专用大语言模型发现，静态基准表现无法可靠迁移到该场景。最佳模型GPT-5.5仅完成60.4%的专家评分项，最强医学专用模型达40.0%，增加测试时计算量未带来可测量提升。当前大语言模型尚不足以安全整合到临床实践。

智能体论文/研究评测/基准

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 `load_dataset` 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

20:36

HuggingFace Daily Papers（社区热门论文）

IR3DE：大语言模型的线性路由器

IR3DE是一个基于岭回归的线性路由器，为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模（CLM）任务中，IR3DE性能与其他基线相当；在推理任务中，归一化性能达到98.4%，超越其他方法。该路由器支持动态添加或移除领域专家，无需重新训练，代码已开源。

推理论文/研究部署/工程

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

18:52

Rohan Paul@rohanpaul_ai

伊利诺伊大学和清华大学等研究发现：LLM智能体不断重写记忆反而导致记忆不可靠

伊利诺伊大学和清华大学等实验室研究发现，LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历（实际过往尝试和解决方案）往往比提炼后的总结更有用。测试中，GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%，但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要，保留原始证据并仅偶尔总结效果更好。

智能体arXiv数据/训练论文/研究

17:52

Rohan Paul@rohanpaul_ai

Google DeepMind论文揭示六类自主AI智能体攻击方法

Google DeepMind论文首次系统分类六类攻击：HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体，子智能体劫持成功率58–90%，数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%，仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化，构成主要攻击面。

智能体DeepMind安全/对齐论文/研究

17:26

HuggingFace Daily Papers（社区热门论文）

精选70

RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

智能体arXivMCP/工具编码

推荐理由：不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

16:42

HuggingFace Daily Papers（社区热门论文）

DeepMDMD：面向代数保持的Koopman学习的深度嵌入乘性动态模式分解

DeepMDMD结合深度Koopman方法与结构保持方法，学习潜空间并分区，同时将Koopman乘积规则作为精确代数约束强制执行。训练交替进行精确乘法算子更新和可微潜聚类步骤，得到非零谱位于单位圆上的有限转移图，字典由动力学而非环境几何塑造。在哈密顿、混沌和流体示例中，比几何MDMD更紧凑且动态一致，减少谱污染，揭示更丰富的连续谱结构，并在严重噪声下稳定预测。在高维流（包括158,624维圆柱尾流和噪声Re=20,000顶盖驱动空腔）中，保持相干结构和长期谱统计，而状态空间MDMD失效。

arXiv数据/训练论文/研究

15:42

HuggingFace Daily Papers（社区热门论文）

基于评分的强化学习中奖励黑客的再现、分析与检测

基于评分标准的强化学习使用 LLM-as-a-Judge 对模型输出打分作为奖励，但策略模型可能利用评判者的潜在偏见导致奖励黑客，使训练结果无效甚至不安全。论文提出 CHERRL，一个可控黑客环境，通过向评判注入已知偏见，稳定再现奖励黑客、观察奖励分歧并精确识别黑客起始点。利用该环境分析了不同评判偏见的可发现性和可利用性，并探索了基于智能体的系统自动从训练日志检测黑客起始点。代码与环境已公开。

安全/对齐数据/训练

13:51

Chubby♨️@kimmonismus

一项由斯坦福大学领导的盲测研究，对近3000场匿名对决的分析发现，16所法学院的法律教授在合同法问题中，有75%的时间更偏好AI生成的答案，而非教授自己写的答案，并且认为AI回答的教学危害性远低于后者（3.5% vs 12%）。 "研究团队测试了多种系统，包括商业辅导工具和Google的NotebookLM。" 现在想象6-12个月后模型的表现。

论文/研究评测/基准

11:42

HuggingFace Daily Papers（社区热门论文）

精选74

MapAgent：面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构，用于生成符合规范的车道级地图。它在矢量化骨干网络基础上，通过Judge-Planner-Worker循环，利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发，保持高吞吐量。MapAgent已集成至百度地图，支撑全国360多个城市的车道级地图生成，整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由：百度地图团队把Agent验证循环接入车道级地图生成，360+城市落地且自动化率超95%，复杂路口和长尾场景提升明显，做自动驾驶和在线地图的可以直接看结论。

11:42

HuggingFace Daily Papers（社区热门论文）

M^3Eval：基于认知任务的视频多模态记忆评估基准

M^3Eval是首个系统评估多模态模型记忆能力的基准框架，基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现：模型难以在并行视频流中保持分离表示，干扰模式与人类记忆差异显著，空间域的记忆溯源比时间域更可靠，符号记忆能力有限。代码与数据集已公开。

多模态论文/研究评测/基准

11:42

HuggingFace Daily Papers（社区热门论文）

AutoLab：前沿模型能否解决长周期自动研究与工程任务？

AutoLab是一个评估超长周期闭环优化能力的基准，包含36个专家设计的真实任务，覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始，要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明，成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力，但多数前沿模型要么过早终止，要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。

智能体arXiv编码论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

ThoughtFold：通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习（RLVR）下取得进展，但长思维链中的试错和冗余探索被强化，导致过度思考。ThoughtFold 提出细粒度偏好学习框架：通过内省策略识别正确轨迹中的冗余段，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤，从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%，同时保持 SOTA 准确率。

推理数据/训练论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

STRIDE：通过子集扰动的稀疏恢复实现训练数据归因

训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题，学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化，通过测量这些算子对测试预测的扰动，利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优，且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。

数据/训练论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

WebRISE：面向MLLM生成Web工件的需求诱导状态评估基准

WebRISE将任务需求编译为交互合约图（ICG），涵盖可观察状态、用户意图转换及DOM/视觉断言，实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态（文本、Markdown、草图、图像、视频），含5,495个转换和5,271个需求检查，区分显式功能与隐式产品约束。评估14个MLLM显示，最强模型仅达65.6%转换有效性和66.3%需求覆盖率；视觉质量不反映行为（Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5）。视频提供最强交互信号（隐式覆盖率比文本高10.6个百分点）；缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。

arXiv多模态论文/研究评测/基准

11:21

AK@_akhaliq

dMoE 具有可学习块专家的dLLM

图像生成数据/训练论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

答案存在性驱动RAG重写增益

一项干预审计研究揭示了检索增强问答流程中重写器（rewriter）性能提升的因果机制：增益主要来自重写上下文中出现正确答案字符串，而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示，从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点；向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”，但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1，且其中三种未通过等价检验。

检索增强论文/研究

10:51

AK@_akhaliq

自举你的生成器非配对视觉编辑与流匹配

图像生成论文/研究