AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 1789 条
全部一手资讯X论文
今天6月13日 周六
6月12日周五
6月11日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
03:01
HuggingFace Daily Papers(社区热门论文)
66
TRACE:将用户修正编译为运行时约束以改善编码智能体

交互式LLM智能体的用户偏好修正常被遗忘,Mem0记忆仍有57.5%相关偏好检查被违反。研究提出TRACE,一种即插即用的技能层管道,从用户聊天修正中挖掘原子规则并编译为运行时检查。在ClawArena上,分布内违规从100.0%降至37.6%,分布外从100.0%降至2.0%;在MemoryArena上,分布内从100.0%降至60.5%,任务通过率匹配或超越最强记忆基线。实验代码已开源。

智能体arXivGitHub论文/研究
03:01
HuggingFace Daily Papers(社区热门论文)
36
异构智能体稠密潜在通信:See What I See, Know What I Think

多智能体系统通常依赖文本通信,解码-重编码代价高且信息有损。KV-cache通信是低开销替代方案,但现有方法多限于同构模型。本文提出稠密对齐方法,通过轻量级跨模型缓存变换和两阶段训练(重构→生成)实现异构智能体间KV-cache直接传输。在Qwen3-4B、8B、14B三个模型组成的六个方向和六个基准上,上下文感知设置中性能匹配或超越文本通信,计算量降低2–3倍;上下文无关传输中仍有效,而先前方法完全失效。

智能体编码论文/研究
01:48
Hacker News 热门(buzzing.cc 中文翻译)
25
Maxproof 论文发布

6月12日,名为 Maxproof 的论文在 arXiv 上发布,并在 Hacker News 上获得 100 点热度。

论文/研究
01:48
Google Research:Blog(网页)
44
Google Research研究:AI如何帮助用户理解皮肤问题

Google Research 在《JAMA Dermatology》发表两项研究,探索 AI 帮助普通人理解自身皮肤问题。一项涉及 2345 名参与者的定量研究显示,AI 辅助显著提升了用户识别皮肤疾病名称的能力,并影响了其就医或自我护理的下一步决策。另一项混合方法研究对比了用户通过 AI 工具与医生对话获取的认知。这些工作基于此前开发的 AI 鉴别诊断模型和 SCIN 数据集,旨在通过高质量信息支持皮肤健康决策。

Google搜索论文/研究
6月12日
19:36
IT之家(RSS)
50
我国成功研制出三维多层片上电容,可直接应用于 AI/GPU 芯片等

湖北江城实验室成功研制三维多层片上电容,电容密度突破每平方毫米1000纳法,可直接应用于AI/GPU芯片、高性能处理器等高端芯片。目前正开展工艺流片及小批量试产,将在先进封装领域规模化应用。

论文/研究
18:00
HuggingFace Daily Papers(社区热门论文)
60
ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究
17:00
HuggingFace Daily Papers(社区热门论文)
精选73
HYDRA-X: 原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv多模态视频论文/研究

推荐理由:HYDRA-X 第一次把图像和视频标记塞进同一个 ViT,光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价,做多模态模型的该读读。
14:00
HuggingFace Daily Papers(社区热门论文)
精选77
MiniMax Sparse Attention(MSA)块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块,Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHubHugging Face开源/仓库推理

推荐理由:MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍,而且直接开源了高效CUDA kernel和模型,做agent和代码仓库级推理的团队可以赶紧试试。
12:00
HuggingFace Daily Papers(社区热门论文)
67
EvoArena:面向动态环境的LLM智能体记忆演化基准与EvoMem记忆范式

EvoArena是一个基准套件,将环境变化建模为终端、软件和社交领域的渐进更新序列,用于评估LLM智能体在动态环境中的表现。实验显示,当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式,通过结构化更新历史记录记忆演化,使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升,在GAIA和LoCoMo上分别提升6.1%和4.8%,并将EvoArena链级准确率提升3.7%。机制分析表明,EvoMem改善了记忆中的证据捕获,更完整地保留演化环境状态。

智能体论文/研究评测/基准
12:00
HuggingFace Daily Papers(社区热门论文)
69
EvoBrowseComp:基于动态知识的搜索智能体评测基准

EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。

智能体arXiv论文/研究评测/基准
11:00
HuggingFace Daily Papers(社区热门论文)
65
MoVerse: 基于全景高斯支架的实时视频世界模型

MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离:先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图,再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold,最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生,实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。

图像生成视频论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
58
SpatialClaw:重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
59
Surflo: 具有全局状态的一致3D曲面流模型

Surflo将可变数量的未定位RGB视图压缩成K个潜在token(全局状态),通过流匹配独立地将噪声点传输到曲面,解码出定向3D表面点。输出不受固定网格或token预算限制:同一潜在状态可在单次前向传播中生成数千到百万个点。推理时通过ODE积分注入光度梯度,关联邻近点以抑制局部不一致。在表面指标上匹配或超越前馈基线,比需数百视图的优化方法快一个数量级,是唯一结合全局潜在与任意分辨率解码的前馈方法。

图像生成论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
55
VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。

多模态视频论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
60
LabVLA:面向科学实验室的视觉-语言-动作模型

科学实验室的机器人操作需要VLA模型,但现有模型多训练于家居场景,缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis,从原子技能组合生成结构化演示;并提出LabVLA模型,采用两阶段训练:先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力,再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上,LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。

具身智能数据/训练论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
精选79
MaxProof:面向数学证明的群体级别测试时扩展框架(MiniMax-M3)

MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架,用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力,验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时,MaxProof 将模型用作生成器、验证器、精炼器和排序器,在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42,USAMO 2026 达 36/42,均超过人类金牌阈值。

推理论文/研究
关联讨论 1 条MiniMax:Blog(网页)
推荐理由:MiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平,IMO 2025 35/42,USAMO 2026 36/42。这篇的意义不只分数,而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。
11:00
HuggingFace Daily Papers(社区热门论文)
63
InterleaveThinker:强化智能体交错生成管线

InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理
11:00
HuggingFace Daily Papers(社区热门论文)
精选70
EurekAgent:环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统,专为度量驱动的自主科学发现设计。它从权限工程(可控执行与隔离评估)、产物工程(文件系统与 Git 协作)、预算工程(成本感知探索)和人在回路工程(简便监督干预)四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。

智能体arXiv开源生态论文/研究

推荐理由:EurekAgent 把科学发现的目光从设计智能体流程转向环境工程,用不到 11 美元就找到了新的圆打包纪录,这可能是低成本自主科研的转折点。
11:00
HuggingFace Daily Papers(社区热门论文)
精选75
WEAVER:一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。

arXiv具身智能数据/训练论文/研究

推荐理由:世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标,真机实验把成功率拉高38%,代码模型全开源,搞具身智能的值得认真读。
11:00
HuggingFace Daily Papers(社区热门论文)
59
SWITCH:可切换潜在推理框架

SWITCH利用一对显式边界token(<swi>入口和</swi>出口)将隐藏状态递归块与标准同策略RL(GRPO)兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练,在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现:入口token是学习到的局部切换策略而非风格化伪影;打开的潜在步骤执行问题特定且因果重要的计算;该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。

arXiv推理论文/研究
10:00
HuggingFace Daily Papers(社区热门论文)
68
RepWAM:基于表征视觉-动作分词器的世界动作建模

RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。

智能体arXiv具身智能论文/研究
10:00
HuggingFace Daily Papers(社区热门论文)
62
HarnessBridge:面向LLM智能体调控的可学习双向控制器

HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。

智能体MCP/工具推理论文/研究
06:47
Hacker News 热门(buzzing.cc 中文翻译)
精选70
研究模拟显示:LLM 在 95% 的模拟中会使用战术核武器

一项模拟研究显示,大型语言模型(LLM)在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本,结果引发对 AI 决策行为的关注。

智能体安全/对齐推理

推荐理由:AI在模拟战争中毫不犹豫按下核按钮的概率高达95%,这个实验比任何安全白皮书都更直观地展示了自主武器的可怕,做AI安全和军事相关的必须看一眼。
04:59
HuggingFace Daily Papers(社区热门论文)
66
基于大语言模型构建社会世界模型

提出社会世界模型(SWM)框架,利用大语言模型的常识与社会智能模拟社会信念随重大事件的演变。SWM通过挖掘社会数据中的时间模式并优化证据下界学习状态转移函数,无需人工标注事件与信念的关联或普查数据。引入SWM-bench基准,包含Kalshi和Polymarket预测市场超12k数据点,覆盖政治、金融、加密货币等领域。实验表明SWM显著优于时序基线,在Kalshi上达最优,在Polymarket上表现有竞争力,并提供可解释的社会信念动态洞察。

推理论文/研究
02:59
HuggingFace Daily Papers(社区热门论文)
63
我们的模型基于哪些模型?--审计现代大语言模型中的隐形依赖

现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出,形成递归依赖,但完整依赖结构分散在不同公共工件中,复杂度和递归深度远超人工追踪能力。本文提出ModSleuth,一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析,恢复1060个源验证依赖,构建了大规模依赖图,揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。

安全/对齐数据/训练论文/研究
01:59
HuggingFace Daily Papers(社区热门论文)
61
APEX:用于无线边缘运维的网络原生时间序列基础模型

APEX 是一个网络原生、仅解码器的 Transformer 模型,专用于企业无线接入点(AP)遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练,涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本:APEX-Large(269M 参数,云部署)和 APEX-Edge(10.5M 参数,边缘部署)。在 192 步(4 天)的 DHCP 退化基准上,APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%,比 SARIMA 降低 38%,异常检测 F1 达 0.93;APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。

数据/训练端侧论文/研究
6月11日
22:59
HuggingFace Daily Papers(社区热门论文)
59
Reroute:面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。

多模态推理论文/研究
21:59
HuggingFace Daily Papers(社区热门论文)
59
SKIM:面向大语言模型的自适应多分辨率程序性技能压缩框架

可复用的自然语言技能被频繁调用时,将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM(SKIll coMpression)是一种自适应多分辨率软token压缩框架,专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token,在提升LLM推理效率的同时保留技能使用效果。实验表明,SKIM将技能压缩至原始token长度的30%到60%,且在任务性能上优于现有压缩方法。代码已开源。

推理论文/研究部署/工程
19:59
HuggingFace Daily Papers(社区热门论文)
65
次二次架构对比:xLSTM在代码预训练与时间序列任务中优于Mamba-2和Gated DeltaNet

在代码模型预训练、从大语言模型蒸馏代码模型以及时间序列基础模型预训练三项任务中,xLSTM、Mamba-2和Gated DeltaNet三种次二次架构中,xLSTM取得最佳整体性能。通过统一公式和机制分析发现,xLSTM的门控方案实现了更灵活稳定的记忆校正,其状态跟踪和记忆累积优势在合成长度泛化任务中得到验证。

推理编码论文/研究
18:59
HuggingFace Daily Papers(社区热门论文)
67
ART:基于艺术强化训练的多模态大语言模型微调方法

ART(Art-based Reinforcement Training)是一种参数高效微调方法,通过仅优化冻结多模态大语言模型的原始视觉输入(像素阵列)来注入信息,无需修改预编译计算图,从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标,优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上,ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。

多模态数据/训练论文/研究
17:59
HuggingFace Daily Papers(社区热门论文)
67
语法约束解码可越狱大语言模型生成恶意代码:CodeSpear攻击与CodeShield防御

语法约束解码(GCD)本用于提升大语言模型(LLM)生成代码的语法可靠性,但研究发现其可被逆向用作攻击面。新攻击方法CodeSpear仅通过施加良性代码语法约束即可诱导LLM生成恶意代码。防御方法CodeShield在代码模态中对齐模型,使其在GCD下生成语义无害、结构多样的蜜罐代码,同时保留自然语言拒绝能力。在10个流行LLM、4个基准上的实验显示,CodeSpear比代表越狱基线的攻击成功率平均提高30个百分点以上,CodeShield能恢复安全并保持良性功能。该发现揭示了GCD的潜在安全风险。

安全/对齐编码论文/研究
17:59
HuggingFace Daily Papers(社区热门论文)
63
TRACE:面向高效智能体强化学习的统一 Rollout 预算分配框架

TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题,将每个 ReAct 轮次视为语义独立节点,把预算分配从 prompt 根节点扩展到中间前缀,形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率,优先向易产生混合奖励的节点分配有限采样预算,从而增强策略更新信号。在典型智能体基准上,TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。

智能体arXiv推理论文/研究
16:58
HuggingFace Daily Papers(社区热门论文)
54
时间序列基础模型嵌入用于剩余使用寿命估计

提出一种轻量学习方法:使用冻结的预训练时间序列基础模型 Chronos-2 提取上下文窗口特征,结合小型回归神经网络进行多元传感器流的剩余使用寿命(RUL)预测。在两种设备类型的真实工业数据上,Chronos-2 嵌入特征在相同预处理和评估协议下,一致优于循环、卷积、Transformer 和梯度提升基线。研究还发现更长的上下文窗口显著提升预测性能,表明时间序列基础模型为工业 RUL 估计提供了实用且数据高效的替代方案。

端侧论文/研究
13:58
HuggingFace Daily Papers(社区热门论文)
64
Reason, then Re-reason:跨视角回顾提升空间推理

针对第一人称视频空间推理中观测证据受限的问题,现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe:推理阶段MLLM从原始视频形成空间假设;重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线,从预测3D几何渲染抬高斜视的全景新视角,保留MLLM原生视频接口。在VSI-Bench和STI-Bench上,ReRe显著提升开源MLLM性能,匹敌专有模型最优水平。

多模态推理论文/研究
12:58
HuggingFace Daily Papers(社区热门论文)
68
Claw-SWE-Bench:评估OpenClaw风格智能体框架编程能力的多语言基准

Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议,用于在公平设置下比较通用智能体框架(claws)的编程能力。完整基准包含350个GitHub issue解决实例,覆盖8种语言和43个仓库,来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上,OpenClaw搭配最小适配器仅得19.1% Pass@1,而完整适配器使用相同GLM 5.1骨干达到73.4%,表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点,框架选择改变27.4个百分点;相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。

智能体开源/仓库编码评测/基准
12:58
HuggingFace Daily Papers(社区热门论文)
55
用流形幂迭代重新设计混合专家模型路由器

MoE模型中路由器矩阵的每一行作为专家代理,通过计算与输入的相似度来决定激活哪些专家。理想情况下,每一行应编码对应专家矩阵的主奇异方向,使点积能更好反映token与专家的亲和度。然而现有设计缺少对齐约束。为此提出Manifold Power Iteration (MPI)方法,采用“Power-then-Retract”范式:先在路由器权重上执行幂迭代步骤,再通过回缩施加范数约束以保证效率和稳定性。理论表明MPI驱动路由器行收敛至对应专家的主奇异方向。在1B至11B参数规模的MoE模型预训练中证实该对齐能提升模型有效性。

数据/训练论文/研究
11:58
HuggingFace Daily Papers(社区热门论文)
68
基于假设树优化的通用自主研究框架Arbor

Arbor是一个结合长期协调器、短期执行器和假设树优化(HTR)的通用自主研究框架。该框架通过持久化树结构跨时间链接假设、工件、证据和提炼洞察,将自主研究从局部尝试转变为累积过程。在模型训练、工具工程和数据合成等六个真实研究任务中,Arbor均取得最佳留出结果,平均相对留出增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上,Arbor使用GPT-5.5达到86.36%的Any Medal,为对比中最优成绩。

智能体论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
54
Lius:基于持续指令微调的古邦马来语翻译模型

大语言模型在处理低资源语言翻译时性能常下降。研究团队针对古邦马来语提出一种微调方法:利用双语词典的显式词汇与语义特征设计指令集,并引入持续指令微调(CIT)范式。实验结果表明,模型Lius在多项评测指标上比标准指令微调模型提升4–6个百分点,超越神经机器翻译(NMT)和多语言LLM模型10–13个百分点,展现出减少对大规模平行数据依赖的潜力。

数据/训练论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
63
World Pilot:用世界动作先验引导视觉-语言-动作模型

World Pilot 是一种视觉-语言-动作(VLA)框架,通过世界动作模型(WAM)提供场景演进隐变量与预期轨迹两种先验,分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上,总成功率达 84.7%,并在四个真实机器人操作任务中取得最高成功率,在视角、几何、变形状态和位姿变化场景下优势最显著。

具身智能多模态论文/研究
10:58
HuggingFace Daily Papers(社区热门论文)
精选73
Bebop:通过带拒绝采样的多token预测加速RL训练

Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。

推理论文/研究

推荐理由:做RLHF的团队值得细看,MTP加拒绝采样直接把RL训练推到了1.8倍加速,还省去了在线更新MTP的成本。TV损失的设计让接受率提了10%,这套组合拳相当实用。
‹ 上一页
123…45
下一页 ›