AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 1789 条
全部一手资讯X论文
5月16日周六
5月15日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月16日
22:01
Hacker News 热门(buzzing.cc 中文翻译)
精选70
Δ-Mem:适用于大型语言模型的高效在线内存

研究人员提出了Δ-Mem,一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化,而非完整的激活状态,显著降低了内存占用。实验表明,Δ-Mem能将内存使用量减少高达70%,同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型,提升其在线推理和持续学习场景下的可行性。

推理论文/研究部署/工程

推荐理由:Δ-Mem 把 LLM 的在线记忆开销压得够低,如果实验结果稳得住,长上下文推理的成本结构又要改写了。
16:25
The Decoder:AI News(RSS)
56
研究人员训练出仅需12.5%专家模块即可实现近乎全性能的AI模型

艾伦人工智能研究所和加州大学伯克利分校的研究团队开发了名为EMO的混合专家模型。该模型创新性地让专家模块专注于内容领域而非词汇类型,从而在移除75%专家模块的情况下,性能损失仅约1个百分点。这一突破使混合专家模型首次有望应用于内存受限的实际场景,大幅提升了部署效率。

arXiv论文/研究部署/工程
16:16
Google DeepMind:Blog(RSS)
精选59
寻找新型传染病背后的分子开关

Clare Bryant教授利用Co-Scientist这一工具,针对新兴传染病背后的基因触发因素进行研究,旨在揭示驱动这些疾病出现的分子开关机制。这项工作有望帮助快速识别潜在的新发传染病威胁,为疾病监测与早期预警提供新的技术路径。

DeepMind其他论文/研究

推荐理由:这不是什么惊天动地的突破,但 Co-Scientist 在传染病研究中找到分子开关的案例,标志着 AI 辅助科学发现正从「能做什么」真正走向「实际做了什么」的落地阶段。
16:00
Google DeepMind:Blog(RSS)
精选57
加速肝脏疾病机制的发现

研究者 Filippo Menolascina 使用 AI 工具 Co-Scientist,旨在寻找新的肝脏疾病治疗方法,并解释现有药物为何仅对部分患者有效。该研究聚焦于加速对疾病机制的理解,以推动更精准的治疗方案开发。

DeepMindGoogle论文/研究

推荐理由:DeepMind 的 Co-Scientist 在肝病治疗上发现了新机制,这种从数据里自动找靶点的能力,对做药物研发的人来说是实打实的加速,值得看。
15:42
IT之家(RSS)
60
我国科研团队"造"出 200 微米高质量单晶石墨,厚度为世界水平 3 倍以上

上海人工智能实验室联合苏州国家实验室、清华大学等团队成功制备出厘米级尺寸、厚度超过200微米的高质量单晶石墨,该厚度达到世界水平的3倍以上。团队构建了亿级计算材料数据库,训练出高精度机器学习势函数模型,可模拟超过十万原子规模的体系动力学,揭示了单晶石墨的生长机制。基于模拟结果优化工艺后,最终实现这一突破,验证了AI驱动科学发现的智能化科研路径。

数据/训练论文/研究
15:40
Google DeepMind:Blog(RSS)
45
揭开老药新用对抗肝纤维化的可能性

斯坦福大学遗传学家利用Co-Scientist工具,在现有药物中筛选用于治疗慢性肝病和肝纤维化的潜在疗法。这种方法专注于老药新用,旨在加速药物发现过程,为肝纤维化这一难治性疾病提供新的治疗思路。

DeepMind论文/研究
11:14
Google DeepMind:Blog(RSS)
精选60
WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆

WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量,帮助牙买加等地成功应对了这场历史性的飓风事件,显著增强了灾害预警的时效性。

DeepMind行业动态

推荐理由:AI 天气预报模型第一次在真实飓风预报中证明自己,帮社区多争取到宝贵的准备时间,比任何 benchmark 都管用,做气象和灾害响应的可以仔细看看。
08:00
HuggingFace Daily Papers(社区热门论文)
49
EVA01:基于Mixture-of-Transformers的统一原生3D理解与生成框架

论文提出EVA01框架,扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构,将模型解耦为预训练的理解专家和结构镜像的生成专家,通过共享的全局自注意力与硬模态路由进行耦合。结果显示,EVA01在文本到3D生成保真度上达到最先进水平,并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能,这是无状态重建流程无法实现的。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
MemForest:一种具有分层时间索引的高效智能体记忆系统

MemForest 是一个为提升大语言模型智能体记忆效率而设计的框架,它将记忆管理重构为时序数据问题。该框架通过并行块提取突破了记忆构建的顺序瓶颈。其核心组件 MemTree 是一种分层时间索引,以时间有序树的结构组织记忆,取代了全局摘要,从而将更新操作限制在受影响的路径,降低了维护成本并保留了时序状态。在 LongMemEval-S 和 LoCoMo 基准测试中,MemForest 在 LongMemEval-S 上取得了 79.8% 的 pass@1 准确率,并在状态感知基线中表现最佳,同时其记忆构建吞吐量比包括 EverMemOS 在内的现有方法高出约 6 倍。

智能体论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
全注意力反击:百步训练内实现高效稀疏注意力

针对大型语言模型长上下文推理中全注意力机制的计算瓶颈,本文提出RTPurbo方法。研究发现全注意力模型本身具有内在稀疏性:仅少数注意力头需要完整长上下文处理;长程检索主要依赖低维子空间,可通过轻量级索引器实现;且有用令牌预算高度依赖查询。基于此,RTPurbo仅对检索类注意力头保留完整KV缓存,并引入16维令牌索引器实现高效稀疏注意力。通过利用模型内在稀疏性,该方法仅需数百步训练即可完成稀疏化。实验显示,RTPurbo在1M上下文长度下实现9.36倍预填充加速与约2.01倍解码加速,同时保持近乎无损的推理准确率。

推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
48
基于证据校准查询聚类的LLM能力捕捉

本研究针对现有查询聚类方法因依赖表面语义而无法准确捕捉LLM潜在能力需求的问题,提出了证据校准查询聚类(ECC)算法。ECC通过有限的模型后验比较校准语义嵌入,弥合表面语义与实际能力要求的差距。它利用Bradley-Terry模型参数化的能力画像描述聚类,并通过可训练的混合权重处理混合能力需求的查询,从而构建灵活的、能力感知的聚类结构。实验表明,ECC显著提升了LLM能力排序质量,相比人工标注和嵌入基线方法平均提升17.64和18.02个百分点,并在查询路由等下游任务中表现有效。

arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
60
动态谱整形视角下的DynMuon优化方法

DynMuon是一种用于高效训练大模型的动态谱整形优化方法。它改进了Muon算法,将更新矩阵从极分解形式UΣV^top调整为UΣ^p V^top。其核心创新在于,训练过程中将谱调整参数p从正值动态调度为轻微负值。此设计基于对损失曲率、梯度噪声和训练阶段的理论分析:早期使用p>0强调高曲率方向以加速收敛;后期转为轻微负p值,将更新强度重新分配给仍含有效信号的低曲率方向。实验表明,该方法在各类设置下均优于Muon,达到相同目标损失所需步数可减少10.6%-26.5%。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
强化学习中可验证奖励语言模型的不可学习现象

研究发现,可验证奖励强化学习虽能提升语言模型的推理能力,但存在一种反直觉现象:在模型初始难以处理的困难样本中,有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析,研究揭示了不可学习样本的根本性表征缺陷,其特征是与其他样本梯度相似性低且推理模式难以泛化,而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象,并指出当前强化学习方法在推理任务上存在根本性局限。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
54
S-Bus:用于多智能体LLM状态协调的自动读集重建

针对多智能体共享状态时因并发写入和过时读取导致的结构化竞态条件,本研究提出S-Bus,一种无需修改现有框架SDK的HTTP中间件。其核心是服务端的DeliveryLog机制,能自动重建智能体的读集,提供“可观测读隔离”一致性模型。实验在427,308次并发冲突场景中,与PostgreSQL及Redis均实现零数据腐败;形式化验证覆盖超2076万状态无违规。同时指出,该机制的适用性与系统拓扑相关,在单分片协作写入中可能传播矛盾。

智能体arXiv论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
55
推理模型为何失去覆盖度?--数据与决策点的作用

研究发现,经过微调的推理模型在提升单次回答准确率(pass@1)的同时,普遍出现覆盖度(pass@k)收缩的现象。这一现象与训练数据中“决策点”场景的占比密切相关,即模型面临多种合理推理路径的不确定性情况。通过设计图分支与推理模式的对照实验,研究确认覆盖度收缩与数据中决策点的普遍性直接相关。针对性地设计决策点数据合成及引入多样性解码机制,可部分缓解该问题,凸显了以数据为中心的设计对理解与调控推理模型行为的关键意义。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
E-PMQ:基于合并权重锚定的专家指导后合并量化框架

针对模型量化与合并结合时,量化偏差与合并偏差相互耦合导致性能下降的难题,本文提出了E-PMQ框架。该框架在逐层校准过程中,利用源模型的权重提供专家指导的输出目标,并引入合并权重锚定机制以稳定校准过程,从而有效整合合并模型的行为。实验结果表明,E-PMQ显著提升了量化后模型的性能:在CLIP-ViT-B/32的8任务合并中,4位GPTQ的准确率在Task Arithmetic和TIES-Merging方法下分别从65.0%和69.1%提升至73.6%和74.8%;在更具挑战性的20任务CLIP-ViT-L/14设置上,准确率从34.8%大幅跃升至76.7%。这证明了E-PMQ能够实现高效的后合并量化与低比特部署。

数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
59
即插即用、无需训练的LLM记忆模块NGM

本文提出NGM,一种无需训练、即插即用的记忆模块,旨在提升大语言模型的知识检索效率。它包含因果N元组编码器与余弦门控记忆注入器,直接利用模型预训练词嵌入构建N元组表示,无需额外训练或检索步骤。在Qwen3系列模型的多项基准测试中,NGM平均提升性能0.5至1.2分,在代码生成与知识密集型任务中效果尤为显著(如LiveCodeBench提升3.0分,GPQA提升3.03分),并在多模态任务中也带来性能增益。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
多模态工具使用智能体基准

针对智能体在真实工作流中需处理多模态输入、调用工具并自我修正的需求,研究团队推出了MM-ToolBench基准。该基准包含来自客户服务与智能创作两大类共100个可执行任务,覆盖20个细分领域,由27个MCP服务器提供324个工具支持。其核心设计理念是“闭环多模态验证”,即智能体必须执行工具、检查输出制品并在不符合要求时进行自我修正。实验表明,该基准极具挑战性,例如Claude Opus 4.6的成功率仅为32.0%,远低于94.0%的人类基准。它旨在为评估和推进下一代全模态工具使用智能体奠定基础。

智能体MCP/工具论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
MixSD:混合上下文的自蒸馏知识注入方法

为解决监督微调(SFT)导致语言模型灾难性遗忘的问题,本文提出了MixSD方法。该方法无需外部教师模型,通过动态混合基础模型自身的“专家条件”(基于注入的事实)和“朴素条件”(模型原有先验)的token来构造监督信号,使训练目标更贴合模型原生分布。在合成数据集与开放域问答基准的实验表明,MixSD在多个模型规模下均优于SFT和自蒸馏基线,能近乎完美地保留基础模型全部未保持能力(高达100%),而标准SFT仅能保留低至1%。该方法降低了监督目标的困惑度(NLL),减少了在Fisher敏感参数方向上的有害更新,为知识注入提供了分布对齐的有效原则。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
CompactAttention:基于块联合键值选择的分块预填充加速

现有稀疏注意力方法难以高效适配长上下文大语言模型的分块预填充。CompactAttention机制将二维块稀疏掩码转化为适用于分组查询注意力的键值块表,通过联合选择生成最小化块表,实现所选键值块的原地访问,避免了显式压缩开销。该方法在LLaMA-3.1-8B-Instruct模型上,在128K上下文中实现了接近密集注意力的精度,同时带来最高2.72倍的注意力计算加速。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
66
AgentKernelArena: 一个用于评估GPU内核优化AI编程代理的开源基准平台

AgentKernelArena是一个开源基准平台,专门用于系统评估AI编程代理在GPU内核优化任务上的能力。平台包含196个任务,涵盖HIP到HIP、Triton到Triton优化以及PyTorch到HIP翻译三大类。它采用隔离工作空间和分级评估(编译、正确性、性能)来测试代理的完整工作流,并创新性地引入了“未见配置”泛化测试。基准测试发现,主流AI代理在大多数任务上能近乎完美地编译和正确完成,并在PyTorch到HIP任务上实现高达6.89倍的平均加速。然而,泛化测试显示,从零生成内核的代理(PyTorch到HIP)在新配置下正确率显著下降,表明其常固化特定形状假设。该平台为严谨评估不同代理、任务和硬件目标提供了模块化框架。

arXiv开源生态编码论文/研究
04:49
HuggingFace Daily Papers(社区热门论文)
67
为图像生成中的球面流匹配对齐潜在几何

研究提出一种球面流匹配方法,改进图像生成的潜在几何对齐。通过将潜在标记分解为径向与角度分量,发现解码后的感知与语义信息主要由方向承载。该方法将数据潜在投影到固定半径,以高斯噪声的径向投影作为球面先验,冻结编码器微调解码器,并用球面线性插值替代线性插值。由此构建的测地路径始终保持在球面上,速度目标纯由角度构成。在同等训练条件下,该方法在不同图像标记器上持续提升类别条件ImageNet-256的FID指标,无需改变扩散架构,也不依赖辅助编码器或表示对齐目标。

图像生成数据/训练论文/研究
5月15日
23:49
HuggingFace Daily Papers(社区热门论文)
64
通过随机选取少样本指导提升带可验证奖励的强化学习

针对传统RLVR在难题上样本效率低的问题,研究团队提出了少样本演示指导的强化学习算法FEST。该方法仅需从监督微调数据集中随机选取128个演示样本,即可取得显著效果。其成功关键在于结合了监督信号与同策略信号,并通过对少样本SFT数据集设置衰减权重来防止多轮训练中的过拟合。在多个基准测试中,FEST以远少于基线方法所需的SFT数据量实现了更优性能,甚至在使用完整数据集时也能达到与之匹配的水平。

arXiv数据/训练论文/研究
20:49
HuggingFace Daily Papers(社区热门论文)
68
Sat3DGen:从单张卫星图像生成全面的街景级3D场景

Sat3DGen提出了一种从单张卫星图像生成街景级3D场景的新方法。针对现有方法在几何保真度与语义丰富性间的权衡难题,该方法采用“几何优先”策略,通过整合新颖的几何约束与视角训练策略,有效缓解了因视角差异大、监督稀疏导致的几何失真。在基于VIGOR-OOD测试集与新构建的高分辨率DSM基准上,该方法将几何RMSE从6.76米显著降至5.20米,同时大幅提升视觉真实感(FID从约40优化至19)。所生成的高质量3D资源可支持语义地图转3D合成、多相机视频生成等多种下游应用。代码已开源。

图像生成开源/仓库论文/研究
17:49
HuggingFace Daily Papers(社区热门论文)
67
LiSA:通过保守策略归纳实现终身安全适应

针对AI智能体部署后因环境差异导致安全护栏失效的问题,研究团队提出LiSA终身安全适应框架。该框架通过结构化记忆改进固定基础护栏,将偶发故障转化为可复用的策略抽象,使稀疏用户反馈能泛化至个别案例之外。它引入冲突感知本地规则防止过度泛化,并采用证据感知置信度门控,使记忆复用基于累积证据。在多项测试中,LiSA在稀疏及噪声反馈下均优于强记忆基线,并将延迟-性能边界推至超越骨干模型缩放的水平。

智能体安全/对齐论文/研究
17:49
HuggingFace Daily Papers(社区热门论文)
63
BEAM:用于MoE动态路由的二进制专家激活掩码

针对混合专家模型(MoE)固定Top-K路由策略导致的计算冗余和推理延迟问题,本研究提出BEAM方法。该方法通过可训练的二进制掩码学习令牌自适应的专家选择,结合直通估计器和正则化损失,在端到端训练中实现动态专家稀疏化,同时保持模型能力。团队为BEAM开发了高效定制CUDA内核,确保与vLLM推理框架无缝集成。实验显示,BEAM能保留原始模型98%以上性能,并将MoE层浮点运算量减少高达85%,解码速度提升至2.5倍,吞吐量提高1.4倍,为高效MoE推理提供了即插即用的实用解决方案。

推理论文/研究
17:49
HuggingFace Daily Papers(社区热门论文)
68
ViMU: 视频隐喻理解基准测试

研究团队推出了首个系统评估前沿模型视频潜文本理解能力的基准ViMU。该基准旨在测试视频理解模型能否超越对物体、动作等表层内容的识别,推断视频中蕴含的隐喻、讽刺与社会意义。ViMU要求模型基于多模态证据进行推理,回答开放式与选择题,且所有问题均设计为无提示类型,确保模型在作答前无法获取关键证据。这标志着视频理解评估从字面感知迈向深层语义解读的重要一步。

arXiv多模态论文/研究
16:49
HuggingFace Daily Papers(社区热门论文)
54
FrontierSmith:大规模合成开放式编码问题

FrontierSmith 是一个自动化系统,能从现有封闭式编码任务中迭代演化出开放式问题。它通过改变问题目标、限制输出和泛化输入生成候选变体,并利用量化思维发散指标筛选能激发多元解法的问题,再由智能体生成测试用例与验证器。在两个开放式编码基准测试中,使用合成数据训练后,基础模型性能显著提升:Qwen3.5-9B 在 FrontierCS 上得分提高 +8.82,在 ALE-bench 上基于 Elo 评分的性能提升 +306.36;Qwen3.5-27B 分别提升 +12.12 和 +309.12。合成问题还使智能体进行更多轮次、消耗更多令牌,其特性与人工构建问题相似,表明封闭式问题种子可作为生成长视野编码数据的实用起点。

推理数据/训练编码论文/研究
14:37
蚂蚁 inclusionAI:GitHub 新仓库
57
ARGenSeg:基于自回归图像生成模型的全新图像分割方法

研究团队在NeurIPS 2025上提出ARGenSeg,将图像分割转化为自回归生成过程,逐像素预测分割掩码。该方法利用大规模预训练自回归图像生成模型(如GPT风格视觉模型)的表征与序列建模能力,无需专门架构设计或大量标注数据。实验证明,其在多个标准数据集上性能具有竞争力,展现了生成式基础模型处理判别式视觉任务的潜力。

GitHub图像生成论文/研究
关联讨论 1 条蚂蚁 inclusionAI:HuggingFace 新模型
13:49
HuggingFace Daily Papers(社区热门论文)
69
通过闭环验证推理解锁复杂视觉生成

针对文本到图像模型在复杂语义生成上的局限,研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证,合成可靠推理轨迹,并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟,框架引入Δ-Space权重合并方法,将每步推理成本降至仅需4次噪声估计前向传播。实验表明,该框架在多项基准测试中超越现有开源模型,性能接近专有商业模型,实现了复杂视觉生成的通用测试时扩展能力。

图像生成多模态推理论文/研究
13:49
HuggingFace Daily Papers(社区热门论文)
66
克服动态盲区:视觉-语言-行动模型的免训练步调与路径校正

视觉-语言-行动模型因单帧观测训练范式而缺乏时序动态感知能力,在非平稳场景中性能严重下降。本研究提出一种免训练的推理时校正算子,可封装任何分块动作的VLA模型。该方案通过单一二次成本联合优化,分解出正交的步调与路径两个通道:前者沿规划方向压缩执行,后者施加正交空间偏移,共同吸收动作块窗口内的动态变化。在运动控制诊断基准MoveBench上的评估表明,该方法显著优于现有免训练封装器与动态自适应方法,在纯动态及动静混合环境中,将基础VLA模型的成功率绝对提升了28.8%和25.9%。

arXiv具身智能论文/研究
12:49
HuggingFace Daily Papers(社区热门论文)
67
Causal Forcing++:用于实时交互式视频生成的可扩展少步自回归扩散蒸馏方法

本文提出Causal Forcing++,一种基于因果一致性蒸馏的少步自回归扩散蒸馏管道,旨在实现低延迟、流式的实时交互式视频生成。该方法针对帧级自回归和仅1-2采样步的激进设置,通过单步在线教师ODE监督来高效初始化学生模型,避免了预计算完整轨迹的开销。在帧级2步设置下,其性能超越现有最佳的4步块状方法,在多项评测指标上均有提升,同时将首帧延迟降低50%,并大幅减少训练成本。该管道还可扩展至动作条件世界模型生成。

视频论文/研究
12:49
HuggingFace Daily Papers(社区热门论文)
62
动态潜在路由

本文针对奖励函数时变的马尔可夫决策过程,提出了通用迪杰斯特拉搜索方法,证明了通过中间最优子策略的时间组合可恢复全局最优策略。受此启发,作者提出了动态潜在路由,这是一种语言模型后训练方法,能在单一训练阶段通过动态搜索联合学习离散潜在代码、路由策略和模型参数。在低数据微调场景下,该方法在四个数据集和六个模型上达到或超越了监督微调的性能,平均提升6.6个百分点,而先前的离散潜在基线方法则持续表现不佳。机理分析表明,该方法能学习具有不同因果角色的结构化路由行为。

推理数据/训练论文/研究
12:42
IT之家(RSS)
61
Science+1!钙钛矿太阳能电池 100 ̊C 运行 1000 小时仍能保持 97% 初始效率,上海交大新突破

上海交通大学赵一新教授团队在《Science》发表论文,宣布通过多智能体AI平台设计出新型钙钛矿太阳能电池。该电池采用甲脒-铯钙钛矿材料与双Al₂O₃保护层构型,在100°C高温下连续运行1000小时后,仍能保持97%的初始效率,突破了钙钛矿电池长期面临的稳定性瓶颈。这一成果实现了从传统“实验试错”到“机理驱动+智能迭代”的研发模式转型,有望加速其产业化进程。

智能体论文/研究
11:49
HuggingFace Daily Papers(社区热门论文)
65
VGGT-Edit:基于残差场预测的前馈式原生3D场景编辑

本文提出VGGT-Edit,一种基于文本指令的前馈式原生3D场景编辑框架。该方法通过深度同步文本注入技术,将语义引导与主干网络的空间姿态对齐,确保指令的稳定理解。其核心是一个残差变换头,直接预测3D几何位移来变形场景,同时保持背景稳定。框架采用多目标损失函数进行监督,以保障几何精度与跨视角一致性。团队还构建了经过3D一致性过滤的大规模DeltaScene数据集。实验表明,该方法显著优于基于2D提升的基线,能生成更清晰的细节、更强的多视角一致性,并具备接近实时的推理速度。

arXiv图像生成论文/研究
11:49
HuggingFace Daily Papers(社区热门论文)
62
SANA-WM:高效的分钟级世界模型,实现高清长视频生成与精准相机控制

SANA-WM是一个26亿参数的高效开源世界模型,专为生成一分钟720p高清视频设计,具备精确的6自由度相机控制能力。其核心创新包括:混合线性注意力机制实现高效长上下文建模;双分支相机控制确保轨迹精准跟随;两阶段生成流程提升视频质量与一致性;以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练,在单GPU上即可生成60秒视频,其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中,其动作跟随准确性优于先前开源基线,并在保持相当画质的同时,吞吐量提升36倍。

具身智能多模态视频论文/研究
11:49
HuggingFace Daily Papers(社区热门论文)
49
合成分层设计数据能否提升分层设计解构效果?

本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架,团队构建了合成数据集SynLayers,并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括:纯合成数据训练效果优于PrismLayersPro等非可扩展方案;性能随数据规模增加持续提升,在约5万样本处增益趋于饱和;合成数据能平衡控制图层数量分布,避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。

arXiv图像生成多模态论文/研究
11:49
HuggingFace Daily Papers(社区热门论文)
59
DiffusionOPD:扩散模型中在线策略蒸馏的统一视角

DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式,以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型,再沿学生自身采样轨迹将能力蒸馏至统一学生,从而解耦单任务探索与多任务整合。理论层面,研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程,推导出闭式逐步 KL 目标,通过均值匹配统一随机 SDE 与确定性 ODE 优化,其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明,DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线,并在全部评估基准上取得领先结果。

arXiv多模态数据/训练论文/研究
11:49
HuggingFace Daily Papers(社区热门论文)
68
MemLens:大型视觉语言模型多模态长时记忆基准测试

研究团队推出MEMLENS基准,系统评估大型视觉语言模型在多模态多轮对话中的长时记忆能力。该基准包含789个问题,涵盖五大记忆能力,并在四种标准上下文长度下测试。评估27个长上下文模型和7个记忆增强代理后发现:长上下文模型在短对话中表现良好但随对话延长性能下降;记忆代理长度稳定性好但损失视觉保真度。多轮推理任务将多数系统性能限制在30%以下,表明需结合长上下文注意力与结构化多模态检索的混合架构。

多模态论文/研究评测/基准
11:49
HuggingFace Daily Papers(社区热门论文)
65
IntentVLA:用于歧义机器人操作的短时意图建模

机器人模仿数据常具多模态性,相似观测可能对应不同动作,导致现有基于单帧的视觉语言动作模型在部分可观测环境下产生动作块冲突和执行不稳定。为此,研究者提出 IntentVLA 框架,它通过编码近期视觉观测为紧凑的短时意图表示,并以此条件生成连贯的动作块,以解决歧义问题。同时,研究发布了 AliasBench 基准测试集,基于 RoboTwin2 构建,包含12项任务,专门隔离短时观测歧义进行评估。在 AliasBench、SimplerEnv、LIBERO 和 RoboCasa 等多个测试环境中,IntentVLA 显著提升了任务执行的稳定性,并超越了现有强视觉语言动作基线模型。

具身智能论文/研究
‹ 上一页
1…2425262728…45
下一页 ›