AIHOT

全部动态论文 · 2148 条

5月28日周四

5月28日

10:07

Rohan Paul@rohanpaul_ai

针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题，论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”：模型在此阶段暂停，多次重读近期上下文，将有用信息写入固定大小的记忆层（如状态空间块的快速权重），然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明，更长的睡眠时间能提升性能，尤其对需要深度推理的复杂任务。该思路表明，长期智能体或可通过记忆巩固实现高效遗忘与重用，不必无限携带原始上下文。

智能体arXiv推理论文/研究

09:09

MarkTechPost（RSS）

Sakana AI 提出 DiffusionBlocks：一种将残差网络转换为独立可训练去噪模块的分块训练框架

Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络（Residual Networks）的层更新过程解释为反向扩散（reverse diffusion）的去噪步骤，从而将其转换为一系列可以独立训练的块。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

ResearchClawBench：端到端自主科学研究能力评估基准

ResearchClawBench 是一个评估自主科学研究能力的基准，涵盖10个科学领域的40个任务，每项任务基于真实已发表论文并提供相关文献与原始数据。在统一协议下评估了七个自主研究智能体，并通过 ResearchHarness 评测了17个原生大语言模型（LLM）。当前最强自主研究智能体 Claude Code 平均得分21.5，最强 ResearchHarness LLM Claude-Opus-4.7 平均得分20.7，LLM 前沿均值仅26.5。错误分析显示失败集中在实验方案不匹配、证据不匹配和缺失科学核心。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Agentic ASR：面向类人交互式语音识别的智能体校正与语义评估

针对单遍语音识别难以纠正语义关键错误的问题，研究者提出 Agentic ASR 闭环框架，将单遍 ASR 前端与语义校正、意图路由、基于推理的编辑整合，并将交互式语音识别建模为多轮校正任务。同时引入句子级语义错误率（S²ER）作为基于大语言模型的语义评估指标，并构建交互模拟系统用于可扩展、可复现的基准测试。在多语言、命名实体密集及代码切换基准上，迭代交互持续降低语义错误，S²ER 改善幅度远大于传统 token 级指标。人类-AI 对齐和消融研究验证了语义评估器的可靠性与框架的鲁棒性。代码和在线演示已公开。

智能体论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

基于LLM的多模态音乐推荐系统

研究提出一个基于LLM的多模态音乐推荐框架，在LastFM-1K数据集上融合三类信号：预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展，集成SASRec、BERT4Rec、GRU4Rec等编码器，并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线，内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现，简单拼接多模态特征并不总能带来叠加提升，并开放了一个大规模音乐推荐多模态基准。

arXiv多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

元认知记忆策略优化用于长时域LLM智能体

记忆增强的LLM智能体通过递归摘要交互轨迹应对长时域任务，但现有结果导向强化学习无法定位中间记忆质量下降。本研究提出信念熵（Belief Entropy）作为自监督代理，衡量模型对潜在任务状态的不确定性，并在此基础上提出元认知记忆策略优化（MMPO），通过惩罚高认知不确定性的摘要提供细粒度监督。实验表明，MMPO在多种长时域任务上持续优于现有方法，在扩展到1.75M token上下文时仍保持97.1%性能。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stable-Layers：基于VLM评分强化学习的图像层分解模型微调框架

Stable-Layers 是一个强化学习框架，无需配对监督即可微调预训练层分解模型，仅使用视觉语言模型（VLM）的反馈。基于 Qwen-Image-Layered 初始模型，采用 Flow-GRPO 和 LoRA 适配，每张图像采样多个候选分解，由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题，设计两阶段评估流程：先按五项编辑标准逐样本评分，再进行网格校准让 VLM 并列重评所有候选。相比基模型，Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层，并降低每层重建误差。

arXiv图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MergePipe：通过预算专家读取实现可扩展的权重空间模型合并

MergePipe 是一个预算感知的执行层，将大语言模型（LLM）权重空间合并转化为专家访问集问题。它在共享权重坐标系下，根据显式 I/O 预算选择要读取的专家增量块，生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上，MergePipe 将专家读取 I/O 最多减少一个数量级，实现最高 11 倍加速；参数偏差约为 \(10^{-3}\)，且下游基准测试未出现单调退化。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

工业视觉Sim-to-Real中的先验可用性：CAD引导与CAD不可用设置综述

该综述将工业视觉Sim-to-Real重新框架为基于先验可用性的域差距问题，区分了CAD可用（支持渲染、标定、位姿估计、分割及测试时几何验证）、CAD不可用（依赖法向参考外观、特征分布、教师‑学生残差、合成异常假设、基础特征或视觉‑语言先验）以及边界先验（仅保留部分CAD作用的近似模型、模板、参考视图或语义对应）三种设置。以T‑LESS/BOP、MVTec AD和VisA为实证锚点，发现CAD渲染数量本身并不能弥合迁移差距，源分布设计、检测器容量和小规模真实校准更为关键。测试时CAD通过掩码、姿态和深度一致性提供了独立验证通道，而CAD不可用检测则依赖校准的正常性和特征偏差。该文反对单一跨任务排行榜，主张根据先验可用性来部署决策。

arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AbaqusAgent：面向固体力学有限元分析的多AI智能体框架

AbaqusAgent 是一个基于大语言模型的多智能体框架，用于固体力学有限元分析。它通过将用户的自然语言指令转化为可执行的有限元分析流程与结果可视化，借助 Abaqus 软件完成分析。框架包含解释器、架构师、输入编写器、运行器、审查器和可视化器六个智能体，覆盖标准有限元分析的全部前处理与后处理步骤。在 50 个固体力学问题上验证，整体成功率达 86%。代码已在 GitHub 开源。

智能体arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

诊断答案正确的长链式推理训练轨迹中的有害延续

本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现，即使推理轨迹答案正确，其在结论后仍继续的推理部分也可能对训练产生有害影响，导致微调结果显著不同。这种现象被定义为“有害延续”，其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后，基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut（HCC），作为近似有害延续边界的轻量级代理方法。

arXiv推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Domino：从自回归草拟中解耦因果建模的推测解码框架

Domino是一种用于加速大语言模型推理的推测解码框架，它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布，随后应用一个轻量级的Domino头，利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程，论文提出了基础锚定训练课程，先强化并行骨干，再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明，Domino在Transformers后端下实现了高达5.49倍的端到端加速，在SGLang服务下实现了高达5.8倍的吞吐量加速。

arXivHugging Face推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

线性集成如何削弱大语言模型水印？

该研究揭示了一个根本漏洞：当用户同时使用多个大语言模型时，现有的文本水印技术会失效。因为各模型独立施加的输出分布扰动会相互抵消。团队提出了WASH方法，通过线性集成平均各模型的输出概率分布，可以恢复未加水印的分布。实验在六个水印方案和三个LLM上进行，结果显示，平均三个模型即可将检测z分数从5-300显著抑制到低于检测阈值2（阈值为4），并将5% FPR下的TPR降至50%以下，同时提升了生成质量。研究指出，要实现鲁棒的水印检测，需要模型提供商之间进行前所未有的协调。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PARCEL：基于池锚定重采样与条件弹性查询的高效视觉-语言理解架构

大型视觉语言模型在推理时面临将视觉输入映射为密集token序列带来的二次计算瓶颈。现有视觉token压缩方法在激进压缩下会损失空间保真度。本文提出PARCEL，一种新的视觉token化架构。它通过建立空间池token作为低频布局锚点，并以此为条件对弹性查询token进行重采样，从而动态分配特征提取任务。在27项基准测试中，PARCEL在不同视觉token预算下均优于现有基线方法，改善了性能与效率的帕累托前沿。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m，一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量，支持8,192 token的上下文窗口。该模型不进行完整预训练，而是采用三阶段适配流水线训练：构建优化的土耳其语分词器、克隆并适配教师模型权重，以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数，在单个GPU上训练约4小时，成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型，并在TR-MTEB的26个任务中排名靠前，实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face检索增强开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Draft-OPD：投机草稿模型的在线策略蒸馏

本文提出Draft-OPD，一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法（如EAGLE3、DFlash）存在的离线数据与推理状态不匹配问题，Draft-OPD采用目标模型辅助的序列展开，从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明，该方法对各类思考模型实现了超过5倍的无损加速，相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Brain-IT-VQA：从大脑信号到答案

针对从fMRI信号解码视觉内容并回答问题的挑战，研究提出了Brain-IT-VQA框架。该框架基于Brain-IT，从大脑活动解码语言token并与大语言模型整合以回答视觉问题，性能显著超越现有方法。同时，引入了新基准NSD-VQA数据集，每张图像平均提供20个问题-答案对，涵盖20个受控问题类别，以实现更可靠和可解释的评估。Brain-IT-VQA与NSD-VQA结合，既提供了强大的预测框架，也成为研究大脑视觉表征的工具。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ESPO：早停近端策略优化

ESPO（Early-Stopping Proximal Policy Optimization）是一种强化学习算法，它能在生成过程中实时检测失败轨迹并提前终止，以节省计算资源。该方法通过计算代理后悔值，当平滑后的累积后悔值显著超过预期时便停止生成。被截断的轨迹被视为吸收失败状态。在针对DeepSeek-R1-Distill-Qwen-7B模型的数学推理训练中，ESPO在AIME 2024、AMC 2023和MATH-500等基准上的表现均优于PPO，并累计节省了超过20%的回滚token。

arXivDeepSeek推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Crafter：一个用于从多样化输入生成可编辑科学图表的多智能体框架

科学图表生成是论文准备中最耗时的环节之一，现有自动化系统仅支持单一图表类型和纯文本输入，且输出不可编辑。为此，研究团队提出了Crafter，一个多智能体框架，它能适配多种图表类型和输入条件，生成出版质量的图表。其配套工具CraftEditor可将生成的栅格图转换为可编辑的SVG文件。同时发布的CraftBench评测基准涵盖了三种图表类型和四种输入条件。实验显示，Crafter在PaperBanana-Bench和CraftBench上均优于独立生成器和现有智能体基线，其组件贡献也得到了验证。代码与基准已开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VideoMLA：面向分钟级自回归视频扩散的低秩潜在 KV 缓存

VideoMLA是首个在视频扩散模型中研究多头潜在注意力（MLA）的工作。该方法用共享的低秩内容潜在向量和解耦的3D-RoPE位置键替代传统的每头键值对，将每层每token的KV缓存内存大幅减少92.7%。研究发现，尽管语言模型中驱动MLA的频谱假设在视频注意力中并不成立（预训练视频注意力非低秩），但MLA瓶颈本身决定了有效秩，使得模型能在压缩下保持生成质量。在VBench评测中，VideoMLA在长期视频生成中取得了最佳综合分数，并在单块B200上将吞吐量提升了1.23倍。

视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

通过测试时训练线性化Vision Transformer

本研究提出一种将预训练Transformer（如Stable Diffusion 3.5）线性化的方法。通过架构与表示的双重对齐，具体识别了TTT架构与Softmax注意力的结构相似性，并引入关键实例归一化等模块来对齐表示特性。仅在4xH20 GPU上进行1小时微调，所得SD3.5-T^5模型就能达到与微调Softmax模型相当的文本到图像生成质量，同时在1K和2K分辨率下分别实现1.32倍和1.47倍的推理加速。代码已开源。

图像生成开源/仓库推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

揭示自进化LLM智能体中的框架更新与框架增益能力

研究揭示了自进化LLM智能体中两种能力的独立表现。框架更新能力与模型基础能力无关，不同层级模型产生的框架更新所带来的增益相近，如Qwen3.5-9B的更新增益与Claude Opus~4.6相当。框架增益能力与基础能力呈非单调关系：弱模型难以从更新中受益，中等模型受益最大，强模型收益反而低于中等模型。弱模型的失败模式包括无法激活相关构件，或激活后未能遵循指令。研究建议将能力预算投入任务执行智能体而非更新器。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

内存主导但非带宽受限：批量1大语言模型解码在物理AI推理中的差距

研究表明，物理AI系统中的批量1大语言模型解码是内存主导的，但更快的内存并不带来比例性的延迟收益。通过对三款7-8B级别的GQA Transformer模型在四款NVIDIA GPU上的测量发现，例如在Qwen-2.5-7B（上下文长度2048）场景下，L4能达到其内存地板的81%，而H100仅为27%。CUDA Graphs优化在H100上将解码延迟提升1.259倍，在L4上仅为1.028倍。部署方面，常见的量化路径未能完全兑现预期的4倍权重流量削减，例如AutoAWQ+Marlin在bf16基线62.32 ms/step上优化至45.24 ms/step，而GPTQ+ExLlamaV2能达到17.36 ms/step。

推理端侧论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

VisualThink-VLA：用于高效低延迟视觉-语言-动作策略的视觉中间推理框架

本文提出 VisualThink-VLA，一个用于 VLA 策略的视觉中间推理框架，旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测，在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token，以实现低延迟推理。研究引入了 VisualEvidence-Kit，其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中，该框架在大多数任务上成功率最高，并将推理增强基线的多秒级延迟降至亚秒级。例如，在 BridgeData V2 上，其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒，实现了 22.8 倍的加速。

智能体具身智能推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GrepSeek：面向直接语料库交互的搜索智能体训练

GrepSeek是一种优化的直接语料库交互搜索智能体。它将大型文本语料库视为环境，通过执行可执行的shell命令来查找和组合证据，以解决传统检索系统的局限性。为应对在大语料库上直接应用强化学习导致的不稳定问题，研究提出了两阶段训练流程：首先使用答案感知的“导师”和答案盲目的“规划器”构建冷启动数据集；然后通过组相对策略优化进行训练，使智能体能在与语料库的直接交互中改进搜索行为。此外，引入的语义保持分片并行执行引擎在确保结果字节一致的前提下，显著提升了检索速度。实验表明，GrepSeek在多个开放域问答基准测试中表现优异。

智能体搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

每类细胞仅需一次点击：免训练的群体交互用于细胞实例分割

传统细胞实例分割模型在分布外细胞类型上性能下降，交互式基础模型虽能解决但逐实例提示的成本过高。本文提出Group Prompting新范式，将交互成本从逐实例优化为逐类型。其核心是Chain-of-Prompts框架，利用冻结的Segment Anything Model图像编码器在特征空间中自然形成的细胞聚类特性，仅需为每种细胞类型提供一个用户点击，即可通过识别多尺度编码器特征中的可靠同类型位置，并迭代选择空间距离最远的可靠点作为新提示，从而分割该类型所有实例。该方法无需任何训练，在多个基准上，单个点击可保持逐实例性能的90%甚至99%以上。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GDSD：基于引导式去噪器自蒸馏的扩散语言模型强化学习

本文提出GDSD方法，以解决扩散大语言模型中强化学习因策略似然难处理而受限的问题。该方法从反向KL正则化强化学习的闭式最优解中导出一个优势引导的自教师模型，并直接对其去噪器进行蒸馏。GDSD通过无归一化目标匹配学生的对数几率，将强化学习转化为无似然的自蒸馏过程，从而避免了以往使用证据下界作为似然代理所导致的训练-推理不匹配偏差。在LLaDA-8B与Dream-7B模型的规划、数学及代码基准测试中，GDSD训练奖励更稳定，性能一致优于此前基于证据下界的方法，测试准确率提升最高达+19.6%。

GitHub论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAAS：面向智能体搜索过度搜索缓解的自感知强化学习

智能搜索通过迭代推理和外部搜索使大语言模型解决复杂问题，但模型常因缺乏自我认知而导致过度搜索，引发延迟与成本。SAAS是一种强化学习框架，旨在培养动态自我感知以精准调控搜索行为。其核心包括搜索边界建模机制、边界感知奖励模块以及分阶段优化策略，通过序贯课程设计优先优化推理而非搜索正则化。实验证明，SAAS能在保持准确率的同时显著减少不必要的搜索行为。

智能体搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SoundnessBench：你的AI科学家真的能分辨好的研究想法和坏的吗？

SoundnessBench 是一个包含1,099个机器学习研究提案的基准，用于评估大语言模型（LLM）判断研究想法方法论可行性的能力。在对12个前沿LLM的测试中发现普遍存在乐观偏差：标准提示下模型常将低合理性提案误判为合理，激进提示则会将错误从假阳性转为假阴性。对照实验表明这种行为并非由单一混淆因素造成。结果表明，当前LLM尚不适合作为独立的科研严谨性初筛评估工具。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

恢复策略引发的错误：鲁棒GUI智能体的基准测试与轨迹合成

针对GUI智能体缺乏从自身错误中恢复能力的问题，本研究提出了GUI-RobustEval基准测试和RoTS轨迹合成框架。GUI-RobustEval包含1216个可执行测试用例，系统评估智能体在多种错误模式下的恢复能力。RoTS框架通过基于树的流程合成了80万条高质量数据。在此基础上训练的RoTS-7B和RoTS-32B模型，在GUI-RobustEval及传统基准上均获得显著提升。其中RoTS-32B在OSWorld上取得了47.4%的成功率和33.8%的All-Pass@4分数，表明长时程错误恢复能力的增强对鲁棒性和整体性能均有贡献。

智能体论文/研究评测/基准

推荐理由：GUI Agent 能不能从自己犯的错里爬起来，才是落地的关键，阿里这篇论文给出了一个不错的基准和训练方案，做 Agent 的可以看看。

08:00

HuggingFace Daily Papers（社区热门论文）

看到不等于知道：视觉语言模型（VLMs）是否知道何时不应回答空间问题（以及为什么）？

研究构建了 SpatialUncertain 评估框架，测试多种前沿视觉语言模型 (VLMs)。在遮挡和视角歧义两种空间观察挑战下，模型平均准确率分别约为 30% 和低于 10%，并常无法识别应转向的额外视角。研究主张评估重点需从回答正确性转向模型对何时放弃作答及如何寻求可靠证据的认知。

多模态推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

马尔可夫边界在表格预测中的应用：理论、实践与挑战

在标准图模型下，马尔可夫边界是使目标变量条件独立于其他特征的最小特征子集。本文在包含3450个任务的合成基准SCM3K上评估发现，直接将模型限制在理论“神谕”边界特征上，通常能显著提升预测性能，且特征空间越大越稀疏时改进越明显。然而，通过因果发现算法自动恢复边界再训练的常规流程效果不佳。原因有三：现有发现算法优化结构而非预测、误报与漏报的预测代价严重不对称，以及优于全特征的特征集远不止精确边界一种。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AnyMo：基于掩码建模的任意模态条件运动生成

提出OmniHuMo大规模高质量数据集，包含超过5000小时运动数据与320万序列，提供文本、语音、音乐和轨迹等多模态精准标注。基于此构建AnyMo统一多模态框架，结合Residual FSQ运动分词器与可扩展的掩码建模Transformer，支持任意模态组合下的高保真实时运动生成，并能灵活控制运动的空间与风格属性。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多阶段适配器感知定向遗忘

当前机器遗忘评估存在结构性偏差，测试“为什么”类因果知识的问题在主流基准中占比极低（不足1.3%）。为此，研究提出5WBENCH基准，其包含5,000个样本，均匀覆盖“5W”类别，使因果遗忘失败首次变得可量化。分析表明，现有方法无法在“为什么”类问题上同时实现高遗忘与高保留，因为这类问题涉及多跳推理链（44%）和超过40个token的答案跨度。研究提出MAAT框架，该方法在LoRA适配器权重上进行三阶段操作，结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复，是首个在因果知识上实现高遗忘与高保留平衡的方法。

arXiv安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SANA-Streaming：基于混合扩散Transformer的实时流式视频编辑

SANA-Streaming是一个为消费级GPU设计的高分辨率实时流式视频到视频编辑框架。其核心包含三点：采用混合Diffusion Transformer架构，结合softmax注意力与线性层效率；引入Cycle-Reverse Regularization训练策略，通过从生成内容预测源帧提升时序一致性；以及结合针对NVIDIA Blackwell（RTX 5090）优化的融合GDN内核与混合精度量化（MPQ）实现的高效系统协同设计。该系统在单张RTX 5090上可实现1280x704分辨率、端到端24FPS的实时编辑，其DiT核心可达58FPS。实验表明，其在时序连贯性和系统吞吐量上显著优于现有SOTA方法。

图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OpenSkillEval：为LLM智能体自动审计开放技能生态

OpenSkillEval是一个用于评估LLM智能体技能的自动评估框架。它不依赖静态基准，而是从演示生成、网页设计等五类应用的动态工件中自动构建超过600个任务实例，并收集了30个开源技能进行对比评估。研究发现，技能可用并不等同于有效使用，其增益高度依赖具体模型与智能体框架，许多流行的开源技能并未持续优于无技能的基础智能体。这强调了进行动态、任务导向评估的必要性。（https://yingjiahao14.github.io/OpenSkillEval-Web/）

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongDS：长期智能体数据分析能力的基准评测

该研究引入LongDS基准，评估AI智能体在长期、多轮数据分析任务中维护动态分析状态的能力。该基准包含68个源自真实Kaggle笔记本的任务，覆盖6个领域，共计2225轮次，任务设计围绕状态演化模式（如反事实扰动、回滚）。对五个前沿模型的评估显示，最佳模型的平均准确率仅为48.45%，其性能从早期轮次到晚期轮次下降近47个百分点，且长期错误是主要失败原因，占比52%-69%。研究指出，单纯增加智能体的交互步骤并不能有效提升性能，关键瓶颈在于正确维护随时间演变的分析状态。

智能体arXivGitHub数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

探索面向模型专化的自主智能体数据工程

大语言模型在通用任务上表现强劲，但在适应专业领域时往往缺乏高质量领域数据。现有方法依赖人工设计的工作流，本研究正式提出“自主智能体数据工程”这一新任务，旨在评估LLM作为自主数据工程师执行端到端数据整理流程以实现模型专化的能力。实验表明，GPT-5.2作为自主数据工程师，通过智能体驱动的迭代数据适配，构建训练课程使学生模型性能提升57.29%。研究将自主数据工程确立为一种可量化的能力，为智能体驱动的模型专化指明了路径，代码将于 https://github.com/zjunlp/DataAgent 发布。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VLM3：视觉语言模型是原生的3D学习者

该研究主张视觉语言模型（VLM）是原生的3D学习者。通过大规模研究发现，实现有效3D学习仅需三个核心要素：统一焦距、基于文本的像素参考以及数据混合与缩放。传统的模型架构改变、超大模型、复杂数据增强和损失函数（包括回归公式）并非必要条件。基于此，研究提出了VLM3方法，以最简设计使标准VLM掌握多样3D任务。VLM3将VLM的深度估计精度从0.84大幅提升至0.9，并实现了像素对应、相机位姿估计和物体级3D理解等任务，其精度匹配专家视觉模型，同时保持标准架构和文本训练方式。

arXiv多模态论文/研究

07:07

Anthropic：Research（发表成果 · 网页）

精选69

社会科学中的编码智能体

一项针对1260名定量社会科学家的调查显示，虽然81%的受访者用过AI聊天机器人，但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异：以男性名字命名的研究者使用率是女性研究者的两倍；顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请，但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观，但对重塑整个社会科学领域持保留态度。这是一项初步调查，更深入研究仍在进行中。

智能体Anthropic数据/训练论文/研究

推荐理由：Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了，只有 20% 的研究者真在用，而且男女、校际差距比 AI 聊天工具大得多，做学术工具的可以认真看看。