AIHOT

全部动态论文 · 2151 条

全部一手资讯 X 论文

5月18日周一

5月17日周日

5月16日周六

5月18日

08:00

HuggingFace Daily Papers（社区热门论文）

SAGA：一种用于多时间概率预测的序列自适应生成架构与自适应时序保形预测

SAGA是一种基于解码器专用Transformer的序列自适应生成模型，专为处理不规则表格面板数据的时序预测而设计。它结合分割保形校准方法，为个体提供具有有限样本覆盖率保证的预测区间。模型使用瑞典1990年至2022年的纵向登记数据训练，涵盖超214万个体与6100万人次年记录，可预测未来1至30年的年度劳动收入，并通过蒙特卡洛方法聚合为折现终身收入分布。相比传统参数化过程及基线模型，SAGA在十年期预测的连续排序概率评分降低31.9%，二十年期平均绝对误差降低37.7%。其保形区间覆盖率误差不超过0.4个百分点，重构的终身收入基尼系数为0.327，接近实际值0.341，优于GKOS估计的0.378。相关模型与数据已公开以供复现。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于上下文记忆的高效长上下文生成方法

针对大语言模型在使用长上下文前缀时面临影响力衰减和计算开销大这两个问题，本文提出了一种名为“注意力状态记忆”的无训练方法。该方法将上下文前缀外化为一个轻量级、基于查找的预计算记忆库，存储了前缀与查询词之间的注意力状态。实验表明，在 LLaMA-3.1-8B 上，该方法在 1K-8K 记忆预算下提升了准确率，并将注意力计算延迟降低了 1.36 倍。同时，它在 NBA 基准测试中，仅用全注意力 RAG 20% 的内存开销，便超越了其性能表现。

Meta检索增强推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EnvFactory：通过可执行环境合成与健壮强化学习扩展工具使用智能体

EnvFactory 是一个全自动框架，旨在解决大语言模型在智能体强化学习中工具使用能力的瓶颈，即缺乏可扩展、健壮的执行环境和能捕捉隐式推理逻辑的高质量训练数据。该框架能自主探索并验证来自真实资源的有状态可执行环境，并通过拓扑感知采样与校准精炼合成自然的多轮交互轨迹，生成蕴含隐式意图的查询。仅利用7个领域中的85个验证环境，EnvFactory 生成了2,575条SFT和RL轨迹，相比传统方法环境减少五倍，却实现了更优的训练效率与下游性能，在BFCLv3、MCP-Atlas及τ²-Bench等基准上将Qwen3系列模型性能最高提升15%、8.6%和6%，为智能体强化学习提供了可扩展、可扩展且鲁棒的基础。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ESI-Bench：迈向闭合感知-行动循环的具身空间智能

研究提出了ESI-Bench基准，用于评估具身空间智能。该基准基于OmniGibson平台，涵盖10个任务类别，要求智能体主动决策以调动感知、移动和操作能力，在交互中收集证据。实验表明，主动探索显著优于被动观察，但随机多视角采集常引入噪声。研究发现，模型失败主因是“动作盲目”，即不佳的动作选择导致观测质量低下并引发连锁错误。尽管显式3D表征对深度推理有稳定作用，但不完美的3D表示会扭曲空间关系，效果反而差于2D基线。人类研究进一步揭示，与人类基于证据修正信念不同，模型倾向于过早做出高置信度决策，暴露了仅靠改进感知或交互无法弥合的元认知差距。

arXiv具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向统一多模态模型的语义生成调优

为解决统一多模态模型中视觉理解与生成任务训练脱节的问题，本文首次系统性地探索了生成式后训练方法，并提出“语义生成调优”范式。研究发现，以图像分割为代表的高层语义任务，可作为有效的生成代理，显著弥合理解与生成之间的隔阂；而低层纹理任务反而会干扰模型。该方法通过分割任务生成结构化语义，来对齐和协同多模态能力。机制分析表明，SGT能提升特征线性可分性并优化注意力分配。实验显示，SGT在主流基准测试中持续提高了模型的多模态理解能力与生成保真度。

arXiv多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Aurora：基于工具使用智能体的统一视频编辑框架

小米团队推出的Aurora是一个智能体驱动的视频编辑框架。它通过将工具增强的视觉语言模型（VLM）智能体与统一的视频扩散转换器相结合，能够将用户模糊或不完整的编辑请求，转化为结构化的编辑计划，从而有效解决现实场景中常见的信息不足或空间定位不清等问题。该框架通过监督与偏好数据训练VLM智能体，使其可完成完整的编辑规划、参考图选择及指令优化。引入的AgentEdit-Bench基准测试表明，Aurora在多项任务上优于仅依赖指令的基线模型，且该智能体具有良好的可迁移性。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Artifact-Bench：评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

研究团队提出了Artifact-Bench，一个用于评估多模态大语言模型（MLLMs）检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系，并在此基础上定义了三项任务：真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明，这些模型在瑕疵感知与推理上存在显著局限，许多模型在挑战性场景中表现接近甚至低于随机水平，且其判断与人类感知偏好存在明显偏差，凸显了其作为通用AI视频真实感评估器的可靠性不足。

arXiv多模态视频论文/研究

06:39

Ethan Mollick@emollick

一项NBER研究指出，数据中心（部分由AI需求驱动）的增长能促进当地就业、工资和整体收入，并带来显著的经济活动，尤其是在直接相关行业和建设期间。然而，这种增长也伴随着负面效应：它会推高当地的电力价格，并与更高的房价相关联。

NBER: Growth in data centers-driven in part by rising AI demand-boosts local employment, wages, income, and house prices, whil...

现象/趋势论文/研究

00:54

Berryxia.AI@berryxia

Anthropic Claude 5天攻破Apple M5 macOS内核漏洞：5年数十亿防线，被AI一举击穿

Anthropic的Claude Mythos Preview在5天内，协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护，从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护，显著改变了攻防的速度与平衡。

Anthropic安全/对齐推理

关联讨论 2 条

5月17日

20:10

Rohan Paul@rohanpaul_ai

谷歌新论文提出Nexus框架：预测需要事件背景，而非仅依赖历史数据

谷歌新论文提出Nexus框架，将预测重构为推理问题，强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工：一个从文本中提取清晰事件时间线，一个分析宏观态势，另一个追踪局部冲击，最后由合成器结合时间序列进行校准。在Zillow的测试中，基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明，结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票，但方向明确：未来预测不仅会推断曲线，还将解释曲线变动的原因。

智能体arXivGoogle推理

17:40

Rohan Paul@rohanpaul_ai

阿里研究展示AI新威胁：多智能体协作可自动生成软件漏洞利用代码

阿里巴巴的研究论文表明，AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流，将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理，从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示，其在SecBench.js上的成功率比传统工具高34.64%，并在真实软件包中发现146个零日漏洞，印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。

Rohan Paul: Google CEO Sundar Pichai on current frontier model's ability to break the security of almost all current software. "Thes...

智能体安全/对齐论文/研究

16:59

The Decoder：AI News（RSS）

New math benchmark reveals AI models confidently solve problems that have no solution

64名数学家组成的联盟构建了名为SOOHAK的新AI数学基准测试，包含439道手写任务，其中99道被故意设计为无解。谷歌的Gemini 3 Pro在研究级问题上以30%的正确率领先，但没有模型在识别错误问题上的准确率超过50%。增加计算量能提升模型解题能力，却无助于其承认问题无解。该基准旨在揭示AI系统在少数亮点表现与全面研究能力之间存在的差距。

推理论文/研究

16:10

Rohan Paul@rohanpaul_ai

研究揭示LLM智能体记忆重写机制损害可靠性

伊利诺伊大学与清华大学等机构的研究发现，LLM智能体虽能从经验中学习，但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中，反复重写记忆会导致错误分组、规则过度泛化或过拟合，使智能体遗忘细节或混淆任务类型。例如，GPT-4在无记忆时可100%解决小型ARC-AGI问题集，而建立记忆并流式更新后，性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据，而非自动将所有经验重写为摘要，保留原始证据并选择性摘要效果更佳。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

引入有限元分析反馈的自改进CAD生成智能体

本研究提出一种更贴近工业实际的CAD生成任务，要求模型从工程描述直接生成完整的多部件STEP文件，并通过有限元分析进行验证。初始测试中，GPT-5.5和Claude Code（Opus-4.7）智能体均未生成完全通过验证的作品，最佳配置平均仅满足约20%的规范要求。为改进流程，引入了纯文本蓝图规范与21视角图像渲染器两种新的监督信号，以辅助智能体进行视觉检查与迭代。这些反馈工具提升了生成质量，使GPT-5.5/xhigh在S2O基准上的Box-IoU从0.444提升至0.592，在Fusion360基准上从0.397提升至0.505，推动CAD生成结果在满足视觉合理性的同时，更能通过物理与结构要求的检验。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Soap2Soap：基于多智能体协作的长片电影级视频重制

Soap2Soap是一个用于系列级长视频重制的多智能体框架，旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性：使用场景感知的JSON剧本作为持久的语义骨架，并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移，并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明，该方法在长程一致性与叙事保真度上显著优于商业视频生成API。

智能体arXiv多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

SaaSBench：探索长周期企业SaaS工程中编码智能体的边界

为评估AI编码智能体在企业级SaaS工程中的真实能力，研究者发布了首个专用基准测试SaaSBench。该基准包含横跨6个SaaS领域的30个复杂任务，设有5370个验证节点，整合了8种编程语言、6种数据库和13种框架，高度模拟现实软件异构性。研究设计了针对长周期、多组件耦合系统的依赖感知混合评估范式。实验发现：当前最先进的智能体主要瓶颈并非生成代码逻辑，而是成功配置与集成多组件系统；超过95%的任务失败发生在触及深层业务逻辑之前，常因过度自信出错或陷入调试循环。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Bug还是Feature^2：权重漂移、激活稀疏性与激活尖峰

研究发现，标准损失函数与正偏置激活函数（如ReLU）的相互作用，会在训练早期普遍引发与数据无关的权重负向漂移现象。该漂移在多种架构中存在，并能与ReLU结合使GPT-nano的激活稀疏度高达90%。研究分析了79种配置下的稀疏度-精度权衡，发现超过约70%的稀疏度会导致精度骤降。虽然ReLU²能取得较好的平衡，但会病态放大Transformer中间层的激活尖峰；而裁剪后的ReLU²解决了这一问题，且GELU²在GPT-nano上取得了最佳性能。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

全双工多模态交互评估基准

现有研究缺乏对实时双工全模态交互的系统评估。为此，本文提出Omni-DuplexEval基准，包含660个带人工标注的视频，涵盖实时描述和主动提醒两大场景共9个现实任务，所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架，能够联合评估响应内容与时机。实验表明，当前最优模型在主动提醒任务上表现不佳，最佳模型总体得分仅39.6%，揭示了模型在协调响应时机与内容质量方面的核心挑战。

arXiv多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

A2RBench：自动化抽象推理基准生成范式

针对现有抽象推理基准依赖人工标注或易测记忆而非真实推理的问题，本研究提出A2RBench自动生成管道，涵盖生成、扩展、评估与分析四个阶段。生成阶段利用大语言模型创建需要真实推理的任务；扩展阶段通过复用已验证规则扩展任务变体以实现规模化。为消除生成过程中的幻觉，建立了理论框架，证明程序化验证（即测试逆操作能否完美还原正向操作，保证循环一致性）可确保任务的唯一解。对主流大模型的评估显示：当前模型在抽象推理上存在根本缺陷，顶尖模型在代表性子集上的表现（39.8%）远低于人类水平（68.5%）；模型在处理3D复杂任务时表现远低于2D和1D任务，揭示了对高维任务理解不足；此外，输入信息复杂度的提升反而可能简化推理过程。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

从可运行到可交付：基于多智能体测试驱动的开发范式用于从需求生成全栈Web应用

针对编码智能体生成的Web应用超70%不满足需求的问题，本文提出TDDev框架。该框架通过三阶段实现自动化闭环：先将需求转化为结构化测试，再通过浏览器模拟交互验证应用，最后将故障转化为修复报告。首次针对Web应用生成的TDD实证研究发现，引入TDD基础设施可提升质量34-48个百分点。关键结论是最佳协议需与模型生成风格匹配，不匹配将完全抵消TDD优势并最多增加25倍Token消耗。用户研究证实，该框架使人工干预降为零，开发转向自主反馈优化。

智能体arXiv编码论文/研究

推荐理由：把TDD塞进多智能体代码生成，直接把Web应用的正确率从不到30%拉到70%以上，更重要的是他们发现给不同模型配错了开发协议反而会雪崩，做Agent工程的必读。

08:00

HuggingFace Daily Papers（社区热门论文）

OProver：一个统一的智能体化形式定理证明框架

OProver是首个将智能体化证明过程深度整合到定理证明器训练中的统一框架，而非仅在推理时应用。该框架通过持续预训练和迭代式后训练进行优化，每次迭代均执行智能体化证明，并将新验证的证明索引至OProofs数据集和检索记忆中。OProofs数据集规模庞大，包含1.77M个Lean语句和6.86M个经编译器验证的证明。基于此，OProver-32B模型在MiniF2F、ProverBench和PutnamBench三个基准测试上取得了最优的Pass@32成绩，展现了超越此前所有开源全证明证明器的性能。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Agent Bazaar：多智能体市场的经济对齐框架

Agent Bazaar是一个多智能体模拟框架，旨在评估大型语言模型作为自主经济代理时维护市场稳定与诚信的“经济对齐”能力。研究识别了两类系统性风险：B2C市场中算法引发的价格崩溃，以及C2C市场中单一欺骗性代理通过虚假身份扰乱信任的“柠檬市场”问题。现有模型大多无法自我监管，其表现与模型特性相关而非规模。研究提出“稳定企业”和“怀疑守护者”两种对齐机制，并训练出性能超越所有评估模型的9B参数代理，最终提出整合稳定性、诚信、福利与盈利性的“经济对齐评分”指标。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LiteFrame：提升视频大语言模型帧处理能力的高效视觉编码器

针对视频大语言模型处理长视频时视觉Token激增的瓶颈，本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此，我们提出了LiteFrame，一种高效视觉编码器。其核心是压缩Token蒸馏训练框架，指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示，从而避免冗余计算。结合语言模型适配后，该方案构建了新的延迟-精度帕累托前沿：与基线相比，它将端到端延迟降低了35%，可处理帧数提升8倍，同时在多个基准上提高了视频理解的平均准确率，为固定算力下理解更长视频提供了新途径。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

推理收敛时停止：面向推理模型的语义保持早退

大型推理模型通过生成长链式思考实现高性能，但常在推理已收敛后仍继续生成冗余思考，导致计算资源浪费与延迟增加。现有早退方法主要依赖答案级信号（如置信度），无法准确判断推理过程是否真正完成，易引发过早退出而影响答案准确性。新研究提出PUMA框架，通过轻量冗余检测器识别推理链中不再产生新进展的冗余步骤，结合答案验证机制，在确保答案正确性与推理链完整性的前提下实现智能截断。实验表明，该方法在五类模型与五个复杂推理基准上平均减少26.2%的生成token，同时保持推理质量，且该原理在代码生成、视觉语言推理等场景中具有可迁移性。

arXiv推理论文/研究

5月16日

23:54

Berryxia.AI@berryxia

具身智能新前沿：世界行动模型综述发布

HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿，其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型，超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议，并提供了发展时间线图，对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

DailyPapers: World Action Models: The Next Frontier in Embodied AI The first systematic survey defining WAMs as embodied foundation m...

Hugging Face具身智能论文/研究

22:54

Berryxia.AI@berryxia

无需重训，对齐即可高效训练扩散语言模型

杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练，而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法，在掩码扩散训练过程中，通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构，仅调整注意力掩码。实验结果显示，训练速度最高可提升4倍，在低数据场景下效果提升尤其显著。

Fred Peng: How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...

arXiv开源生态数据/训练论文/研究

22:01

Hacker News 热门（buzzing.cc 中文翻译）

精选70

Δ-Mem：适用于大型语言模型的高效在线内存

研究人员提出了Δ-Mem，一种专为大型语言模型设计的高效在线内存系统。该系统通过仅存储和更新模型激活的增量变化，而非完整的激活状态，显著降低了内存占用。实验表明，Δ-Mem能将内存使用量减少高达70%，同时保持模型输出的质量基本无损。这一方法有助于在资源受限的环境中部署和运行大规模语言模型，提升其在线推理和持续学习场景下的可行性。

推理论文/研究部署/工程

推荐理由：Δ-Mem 把 LLM 的在线记忆开销压得够低，如果实验结果稳得住，长上下文推理的成本结构又要改写了。

16:25

The Decoder：AI News（RSS）

研究人员训练出仅需12.5%专家模块即可实现近乎全性能的AI模型

艾伦人工智能研究所和加州大学伯克利分校的研究团队开发了名为EMO的混合专家模型。该模型创新性地让专家模块专注于内容领域而非词汇类型，从而在移除75%专家模块的情况下，性能损失仅约1个百分点。这一突破使混合专家模型首次有望应用于内存受限的实际场景，大幅提升了部署效率。

arXiv论文/研究部署/工程

16:16

Google DeepMind：Blog（RSS）

精选59

寻找新型传染病背后的分子开关

Clare Bryant教授利用Co-Scientist这一工具，针对新兴传染病背后的基因触发因素进行研究，旨在揭示驱动这些疾病出现的分子开关机制。这项工作有望帮助快速识别潜在的新发传染病威胁，为疾病监测与早期预警提供新的技术路径。

DeepMind其他论文/研究

推荐理由：这不是什么惊天动地的突破，但 Co-Scientist 在传染病研究中找到分子开关的案例，标志着 AI 辅助科学发现正从「能做什么」真正走向「实际做了什么」的落地阶段。

16:00

Google DeepMind：Blog（RSS）

精选57

加速肝脏疾病机制的发现

研究者 Filippo Menolascina 使用 AI 工具 Co-Scientist，旨在寻找新的肝脏疾病治疗方法，并解释现有药物为何仅对部分患者有效。该研究聚焦于加速对疾病机制的理解，以推动更精准的治疗方案开发。

DeepMindGoogle论文/研究

推荐理由：DeepMind 的 Co-Scientist 在肝病治疗上发现了新机制，这种从数据里自动找靶点的能力，对做药物研发的人来说是实打实的加速，值得看。

15:42

IT之家（RSS）

我国科研团队"造"出 200 微米高质量单晶石墨，厚度为世界水平 3 倍以上

上海人工智能实验室联合苏州国家实验室、清华大学等团队成功制备出厘米级尺寸、厚度超过200微米的高质量单晶石墨，该厚度达到世界水平的3倍以上。团队构建了亿级计算材料数据库，训练出高精度机器学习势函数模型，可模拟超过十万原子规模的体系动力学，揭示了单晶石墨的生长机制。基于模拟结果优化工艺后，最终实现这一突破，验证了AI驱动科学发现的智能化科研路径。

数据/训练论文/研究

15:40

Google DeepMind：Blog（RSS）

揭开老药新用对抗肝纤维化的可能性

斯坦福大学遗传学家利用Co-Scientist工具，在现有药物中筛选用于治疗慢性肝病和肝纤维化的潜在疗法。这种方法专注于老药新用，旨在加速药物发现过程，为肝纤维化这一难治性疾病提供新的治疗思路。

DeepMind论文/研究

11:14

Google DeepMind：Blog（RSS）

精选60

WeatherNext如何帮助美国国家飓风中心更好预测飓风Melissa在牙买加的历史性登陆

WeatherNext AI模型协助气象预报员为社区在飓风Melissa登陆前提供了前所未有的准备时间。该模型通过提升预测准确性与提前量，帮助牙买加等地成功应对了这场历史性的飓风事件，显著增强了灾害预警的时效性。

DeepMind行业动态

推荐理由：AI 天气预报模型第一次在真实飓风预报中证明自己，帮社区多争取到宝贵的准备时间，比任何 benchmark 都管用，做气象和灾害响应的可以仔细看看。

08:54

Berryxia.AI@berryxia

精选77

智能体驱动系统Articraft实现3D资产生成自动化，开源万件数据集降低门槛

剑桥大学团队推出Articraft，这是一个由智能体驱动的编码系统，能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化，将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集，包含超1万个物体，覆盖250个类别，所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛，为解决“数据饥渴”问题提供了高效的自动化方案。

Elliott / Shangzhe Wu: Check out Ariticraft 🦾 - a highly efficient agentic system that generates articulated 3D assets fully automatically at ...

智能体具身智能开源生态论文/研究

推荐理由：这个开源直接把物理AI训练的资产瓶颈打掉了一大半，agent全自动生成带关节的可交互3D，做仿真和机器人的可以立刻拉代码试试，诚意很足。

08:00

HuggingFace Daily Papers（社区热门论文）

EVA01：基于Mixture-of-Transformers的统一原生3D理解与生成框架

论文提出EVA01框架，扩展多模态大语言模型以原生方式整合3D网格理解、生成和上下文感知编辑。它基于Mixture-of-Transformers架构，将模型解耦为预训练的理解专家和结构镜像的生成专家，通过共享的全局自注意力与硬模态路由进行耦合。结果显示，EVA01在文本到3D生成保真度上达到最先进水平，并解锁了具有身份保持能力的鲁棒长上下文多轮几何编辑功能，这是无状态重建流程无法实现的。

arXiv图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MemForest：一种具有分层时间索引的高效智能体记忆系统

MemForest 是一个为提升大语言模型智能体记忆效率而设计的框架，它将记忆管理重构为时序数据问题。该框架通过并行块提取突破了记忆构建的顺序瓶颈。其核心组件 MemTree 是一种分层时间索引，以时间有序树的结构组织记忆，取代了全局摘要，从而将更新操作限制在受影响的路径，降低了维护成本并保留了时序状态。在 LongMemEval-S 和 LoCoMo 基准测试中，MemForest 在 LongMemEval-S 上取得了 79.8% 的 pass@1 准确率，并在状态感知基线中表现最佳，同时其记忆构建吞吐量比包括 EverMemOS 在内的现有方法高出约 6 倍。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

全注意力反击：百步训练内实现高效稀疏注意力

针对大型语言模型长上下文推理中全注意力机制的计算瓶颈，本文提出RTPurbo方法。研究发现全注意力模型本身具有内在稀疏性：仅少数注意力头需要完整长上下文处理；长程检索主要依赖低维子空间，可通过轻量级索引器实现；且有用令牌预算高度依赖查询。基于此，RTPurbo仅对检索类注意力头保留完整KV缓存，并引入16维令牌索引器实现高效稀疏注意力。通过利用模型内在稀疏性，该方法仅需数百步训练即可完成稀疏化。实验显示，RTPurbo在1M上下文长度下实现9.36倍预填充加速与约2.01倍解码加速，同时保持近乎无损的推理准确率。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

基于证据校准查询聚类的LLM能力捕捉

本研究针对现有查询聚类方法因依赖表面语义而无法准确捕捉LLM潜在能力需求的问题，提出了证据校准查询聚类（ECC）算法。ECC通过有限的模型后验比较校准语义嵌入，弥合表面语义与实际能力要求的差距。它利用Bradley-Terry模型参数化的能力画像描述聚类，并通过可训练的混合权重处理混合能力需求的查询，从而构建灵活的、能力感知的聚类结构。实验表明，ECC显著提升了LLM能力排序质量，相比人工标注和嵌入基线方法平均提升17.64和18.02个百分点，并在查询路由等下游任务中表现有效。

arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

动态谱整形视角下的DynMuon优化方法

DynMuon是一种用于高效训练大模型的动态谱整形优化方法。它改进了Muon算法，将更新矩阵从极分解形式UΣV^top调整为UΣ^p V^top。其核心创新在于，训练过程中将谱调整参数p从正值动态调度为轻微负值。此设计基于对损失曲率、梯度噪声和训练阶段的理论分析：早期使用p>0强调高曲率方向以加速收敛；后期转为轻微负p值，将更新强度重新分配给仍含有效信号的低曲率方向。实验表明，该方法在各类设置下均优于Muon，达到相同目标损失所需步数可减少10.6%-26.5%。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

强化学习中可验证奖励语言模型的不可学习现象

研究发现，可验证奖励强化学习虽能提升语言模型的推理能力，但存在一种反直觉现象：在模型初始难以处理的困难样本中，有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析，研究揭示了不可学习样本的根本性表征缺陷，其特征是与其他样本梯度相似性低且推理模式难以泛化，而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象，并指出当前强化学习方法在推理任务上存在根本性局限。

arXivGitHub推理数据/训练