elvis@omarsar0 · 4月27日64NEW paper from Alibaba.
A 30B MoE with only 3B active params matches Qwen3-235B on real tool-use workloads.
AgenticQwen-30B-A3B: 50.2 average on TAU-2 + BFCL-V4 Multi-Turn.
AgenticQwen-8B: 47.4.
Both more than double their vanilla Qwen baselines and close most of the gap to a 235B model.
How: two RL flywheels run in parallel.
- The reasoning loop mines the model's own errors into harder problems each round.
- The agentic loop grows simple linear tool-use trajectories into multi-branch behavior trees.
- Simulated users actively try to mislead the agent. The training distribution gets harder on its own.
Why it matters for agent devs: you can stop paying frontier prices for routine tool-use workloads.
And the flywheel recipe is reusable. Generate your hard examples from your own agent's failures, not from static synthetic data.
Paper: https://arxiv.org/abs/2604.21590
Learn to build effective AI agents in our academy: https://academy.dair.ai/
译阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。
elvis@omarsar0 · 4月27日54Here is a very common problem when building complex agents.
Long-horizon agents (in particular) fail in two ways: the decision-maker can't decompose well, or the skill library goes stale.
This new research tackles both at once.
The paper introduces a co-evolution framework where an LLM decision agent and a dynamic skill bank improve each other through iterative refinement.
The decision agent picks and chains skills. Performance feedback updates both the policy and the skills. New skills emerge by generalizing successful sequences instead of being hand-coded upfront.
Why does it matter?
Most long-horizon agent stacks treat skills and decision-making as separate optimization problems, which is why they plateau.
Co-evolution gives you adaptive planning and a growing library of reusable behaviors from a single loop, which is what you actually want when task structure isn't predetermined: robotics, game agents, complex planning.
Paper: https://arxiv.org/abs/2604.20987
Learn to build effective AI agents in our academy: https://academy.dair.ai/
译构建复杂智能体时,长期任务智能体常因决策者分解能力不足或技能库过时而失败。新研究提出一种协同进化框架,让LLM决策智能体与动态技能库通过迭代优化共同改进。决策智能体负责选取和串联技能,性能反馈同时更新其策略和技能库本身。新技能通过归纳成功序列自动生成,而非预先手动编码。传统方法将技能与决策作为独立问题优化,容易陷入瓶颈。协同进化则能在单一循环中实现自适应规划,并持续增长可复用行为库,这对任务结构不确定的领域(如机器人、游戏智能体、复杂规划)至关重要。
meng shao@shao__meng · 4月26日77[论文分享] 深入阅读 Claude Code 泄露源代码,结合 Anthropic 官方文档和社区分析,重建出一个生产级 Coding Agent 的完整架构图谱,并以独立开源系统 OpenClaw 作为对照组!
论文地址:https://arxiv.org/pdf/2604.14228
# 最核心的一个数字:1.6% vs 98.4%
社区估算:Claude Code 整个代码库里,只有约 1.6% 是"AI 决策逻辑"(提示词、模型调用、循环),其余 98.4% 是确定性的运行环境(permission、context、tool routing、recovery)。
这个悬殊比例意味着:
· 模型几乎拥有完全自主决策权(reason 在哪做、调什么工具)
· 但模型从不直接接触文件系统、shell、网络
· 工程复杂度不是为了约束模型,而是为了让模型在一个安全富饶的环境里自由发挥
这和 LangGraph(用状态图约束控制流)、Devin(显式 planner)走的是相反路线:最小脚手架 + 最大化操作型 harness。
# 团队做设计权衡时的五种人类价值驱动整套架构
· 人类决策权:用户最终拥有控制权;通过原则等级(Anthropic→operators→users)形式化
· 安全/隐私:即使用户不专心,系统也要保护代码、数据与基础设施
· 可靠执行:既要单轮正确,也要跨上下文窗口、跨会话、跨子 agent 保持一致
· 能力放大:让用户做以前根本不会尝试的事(Anthropic 内部数据:~27% 任务是"没有这工具就不会做"的)
· 情境适配:系统适应用户项目、习惯、技能,关系随时间演进
第六个是评估视角而非设计价值:长期人类能力保留——这是论文最重要的批判性观察,后面会展开。
# 十三条设计原则与架构骨架
· Deny-first with human escalation(默认拒绝、不识别就升级给人)
· Graduated trust spectrum(信任是渐进光谱)
· Defense in depth(多重独立安全层)
· Externalized programmable policy(策略外部化,可配置)
· Context as scarce resource(上下文是稀缺资源)
· Append-only durable state(追加式持久化)
· Minimal scaffolding, maximal harness(最小脚手架 + 最大 harness)
· Values over rules(重价值判断,轻硬规则)
· Composable multi-mechanism extensibility(可组合的多机制扩展)
· Reversibility-weighted risk(按可逆性加权评估风险)
· Transparent file-based config/memory(透明文件而非黑盒数据库)
· Isolated subagent boundaries(子 agent 隔离)
· Graceful recovery and resilience(优雅恢复)
整体架构可以读作两层视图:
· 七组件视图(高层):用户 → 接口 → Agent Loop → 权限系统 → 工具 → 状态/持久化 → 执行环境
· 五层视图(细化):Surface 层(CLI/SDK/IDE)→ Core 层(loop + compaction)→ Safety/Action 层(权限、hooks、tools、sandbox、subagent)→ State 层(context 装配、session、CLAUDE.md)→ Backend 层(shell、MCP、远程执行)
# Agent 主循环:一个朴素的 while-true
queryLoop() 是一个 async generator,每一轮固定走 9 步:设置解析 → 状态初始化 → 上下文装配 → 五个 pre-model shaper → 模型调用 → tool_use 派发 → 权限网关 → 工具执行 → 停止判定。
不再做的事:没有显式 planner,没有状态图,没有 tree search。这是 ReAct 的最简实现。
工具执行用 StreamingToolExecutor:模型一边流式输出 tool_use,一边并行执行只读工具,写操作串行。结果按收到顺序回填,保证模型看到的工具结果顺序与它发起请求时的顺序一致。
恢复机制有五种(输出 token 升级、reactive compact、prompt-too-long 处理、流式回退、fallback model),全部是"先静默自救、不行才告诉人"。
# 安全的"七层防御"
任何工具调用都要穿过这七层,任何一层都可以否决:
1. Tool 预过滤(被全局拒绝的工具甚至不会出现在模型视野里)
2. Deny-first 规则(deny 永远压制 allow,即使 allow 更具体)
3. Permission Mode 约束(plan/default/acceptEdits/auto/dontAsk/bypassPermissions/bubble 共七模式)
4. Auto-mode ML 分类器(yoloClassifier.ts,独立 LLM 调用判定安全性)
5. Shell sandbox(独立于权限系统的文件系统/网络隔离)
6. Resume 不恢复 session 级权限(强制重新授权)
7. Hook 拦截(PreToolUse 可阻断/重写/异步审批)
最关键的设计哲学:Anthropic 自己的研究发现用户对权限提示的批准率高达 93%——这意味着交互式确认在行为上不可靠。所以架构选择是"不靠人盯着",而是用 sandbox + 分类器把需要人决策的次数压低 84%。
# 上下文管理:五层渐进式压缩
模型的上下文窗口是整套系统的瓶颈资源。每次模型调用前依次跑 5 个 shaper:
· Budget reduction(始终生效):单条 tool 结果超尺寸就替换为引用
· Snip:删掉旧历史段
· Microcompact:缓存友好的细粒度压缩,等 API 返回后再用真实 cache_deleted_input_tokens
· Context collapse:read-time projection——存储不动,模型看到的是投影视图(这是论文里很精彩的设计)
· Auto-compact:兜底的全模型生成式摘要
为什么要 5 层而不是 1 层:每层成本不同,先做便宜的轻压缩,不行才升级。这是 lazy-degradation 思想。代价是用户难以预测系统行为,因为有些层(特别是 context collapse)对用户不可见。
CLAUDE.md 的四级层次(managed→user→project→local)是文件型记忆——刻意拒绝向量数据库,理由是"用户必须能读、能改、能 git commit"。代价是检索粒度只能到文件级(用 LLM 扫文件头选最多 5 个),不如向量检索精细。
重要洞察:CLAUDE.md 是以"用户消息"形式注入而非 system prompt,因此对模型的约束是概率性的。真正的强制力来自 deny-first 的权限规则。这是一个刻意的"指引层(概率) vs 执行层(确定)"分离。
# 扩展机制:四个、不是一个
论文回答了一个常见困惑——为什么 Claude Code 既有 MCP,又有 plugins、skills、hooks?
答案是这四者承担的上下文成本不同:
· MCP servers:外部服务集成,上下文开销高
· Plugins:多组件打包分发,上下文开销中
· Skills:领域指令 + 元工具,上下文开销低
· Hooks:生命周期拦截,上下文开销默认零
梯度上下文成本意味着便宜的扩展(hooks)可以大量铺开,昂贵的(MCP)保留给真正需要新工具的场景。代价是开发者要学 4 套 API。
Hook 系统极其细致:源码定义了 27 种事件,其中 5 种参与权限决策,22 种用于生命周期/编排。
# 子 Agent:隔离而非共享
通过 AgentTool(Task 是它的 legacy alias)派遣。子 agent 有三种隔离模式:
· Worktree:临时 git worktree,文件系统隔离
· Remote(仅内部):远端 Claude Code 运行
· In-process(默认):共享 FS,隔离上下文
关键约束:子 agent 只把最终摘要文本回传给父级,完整 transcript 走 sidechain 存独立 .jsonl 文件——既保留可审计性,又不污染父上下文。
代价:每次调用基本都得自包含 prompt(除 fork-subagent 外)。Anthropic 自己披露 agent teams 模式 token 开销约为普通 session 的 7×,这才是为什么"摘要回传"如此关键。
多 agent 协调用文件锁而不是 message broker——零依赖、可调试,但牺牲吞吐。
# 持久化:append-only JSONL
Session 存为几乎只追加的 JSONL(极少数清理重写除外)。三条独立持久化通道:
1. Session transcript(项目级,每 session 一文件)
2. 全局 prompt history(仅用户输入,supports Up 与 Ctrl+R)
3. 子 agent sidechain(独立 .jsonl + .meta.json)
--resume 重放 transcript 重建会话,但刻意不恢复 session 级权限——这是把"信任"作为会话隔离的安全不变量:用户每次都重新授权,避免旧上下文中的授权决策被带进新的语境。
compact_boundary 标记里嵌入 headUuid/anchorUuid/tailUuid,让 loader 在读取时打补丁拼接消息链——既压缩了上下文,又保留了完整历史的可重建性。
# 与 OpenClaw 的对照:同样的问题,不同的答案
维度:Claude Code vs. OpenClaw
· 系统形态:临时 CLI 进程 vs. 持久化网关 daemon
· 信任模型:每动作 deny-first 评估 + 7 模式 vs. 网关边界鉴权(DM 配对、白名单、可选沙箱)
· Agent runtime:queryLoop() 是系统中心 vs. Pi-agent 嵌入网关 RPC,per-session 队列
· 扩展架构:4 机制按上下文成本梯度 vs. manifest-first 插件,12 种能力,集中注册表
· 内存:CLAUDE.md 4 级 + 5 层压缩 vs. 工作区引导文件 + dreaming 长期记忆推举
· 多 agent:父-子任务委派 vs. 路由(多 agent 服务不同渠道) + 委派两层分离
最有意思的发现是两者可组合:OpenClaw 可以通过 ACP 把 Claude Code 当作外部 coding harness 托管。这暗示 agent 设计空间不是平面分类,而是层级式的——网关层和任务层可以叠在一起。
核心洞察:"Claude Code 把信任边界放在模型与执行环境之间;OpenClaw 把它放在网关周界。"
# 五大价值张力(最有思想深度的章节)
· Authority × Safety:93% 批准率证明人类督查不可靠,安全要靠分类器/sandbox 补
· Safety × Capability:>50 子命令的 bash 会跳过 per-subcommand 检查(解析慢导致 UI 卡顿)——defense-in-depth 的层共享性能瓶颈
· Adaptability × Safety:多个 CVE 利用"信任对话框出现前"的 hook/MCP 初始化窗口攻击
· Capability × Adaptability:主动式提示让任务完成率 +12-18%,但高频时用户偏好骤降
· Capability × Reliability:上下文有界 + 子 agent 隔离 → 局部好决策 ≠ 全局好结果
# 第六视角:长期人类能力保留
论文不把它列为价值,而作为评估透镜,外部经验证据汇总:
· Becker et al. 2025(16 名经验丰富开发者 RCT):AI 工具使开发者慢 19%,但他们自我感觉快了 20%
· Shen & Tamkin 2026:AI 辅助组理解力测试低 17%
· He et al. 2025(Cursor 在 807 个仓库的因果分析):代码复杂度 +40.7%,初期速度增益三个月内消散
· Liu et al. 2026:30.4 万 AI 提交审计,约 1/4 引入的问题持续到最新版本,安全问题留存率更高
· Kosmyna et al. 2025(54 人 EEG 研究):LLM 用户神经连接性减弱,且移除 AI 后仍持续
· Rak 2025:2023→2024 入门级技术岗招聘下降 25%
论文的判断是:Claude Code 显著放大短期能力,但提供的支持长期人类成长、深度理解、代码库连贯性的机制非常有限。 论文结尾把"未来系统应当把可持续性差距作为一等公民设计问题"作为最重要的开放挑战。
# 六个开放方向(未来 agent 系统)
1. 可观察性—评估鸿沟:78% 的 AI 失败是隐性的,89% 团队有可观察性但只 52% 做离线评估。需要 generator-evaluator 分离的脚手架。
2. 跨会话持久性:CLAUDE.md(静态)和 transcript(单会话)之间的"中间层"是空白
3. Harness 边界演化:where/when/what/with whom 四个轴向的扩展(特别是物理 VLA 行动会改变 reversibility-weighted risk 的代价不对称)
4. Horizon scaling:从单会话到多周期科学研究的可靠性
5. 治理与监管:EU AI Act(2026 年 8 月全面适用)、GPAI Code of Practice 对日志、透明度、人类监督提出外部约束
6. 长期人类能力作为一等设计目标:测量层与设计层都是空白
# 值得记住的几个判断
"模型推理在哪里、harness 执行在哪里——是整个 agent 系统设计的根问题。"
"95% 单步准确率下,100 步任务成功率只有 0.6%。"——这是为什么每一步都要验证。
"前沿模型在编码任务上的能力正在收敛,operational harness 的质量正在成为主要差异化因素。"
"agent 的设计选择不是平面的分类,而是层级化的——任务级 harness 可以被网关级控制平面托管。"
"工程复杂度不是为了限制模型决策,而是为了让模型能更好地决策。"
# 对工程实践的启示
对正在构建 agent 系统的我们:
· 投入确定性基础设施(context 管理、安全分层、恢复机制)比给越来越强的模型套 planning 脚手架更有回报
· deny-first + 多层独立检查比单一沙箱在生产环境更鲁棒,但要警惕共享性能瓶颈导致的同时降级
· 上下文压缩做成多层渐进式比一次性截断或单步摘要更可靠,但用户需要可观察性
· append-only 持久化 + 不跨会话恢复权限是把审计性和安全不变量同时拿到的便宜做法
· 扩展机制按上下文成本分层:让"贵的"扩展(MCP)只用在真正需要新工具的场景,"便宜的"(hooks)可以铺开
· 子 agent 用摘要回传,不要共享 transcript——否则 token 开销线性爆炸(Claude Code 数据:7×)
· 把用户长期能力保留写进设计目标,而不是只在事后用 metric 衡量
译论文通过分析 Claude Code 泄露源码,揭示其生产级 Coding Agent 架构的核心是“最小 AI 决策+最大确定性环境”设计。仅约 1.6% 代码为 AI 逻辑,其余 98.4% 用于构建安全、可靠的操作框架。架构围绕人类决策权、安全等五种价值驱动,采用七层独立防御体系保障工具调用安全,并通过五层渐进压缩策略高效管理上下文窗口。其扩展机制按上下文成本分级,子 Agent 采用隔离设计,整体强调透明性与用户可控性,与依赖状态图或显式规划的主流路径形成鲜明对比。
elvis@omarsar0 · 4月26日53Great paper on improving proactive agents.
译研究提出PARE框架,通过将应用程序建模为具有状态导航和状态相关操作的有限状态机,实现对主动式AI代理的更真实评估。基于此构建的PARE-Bench基准包含143项跨通信、生产力等领域的任务,测试代理的情境观察、目标推断、干预时机及多应用协调能力。该工作弥补了当前主流基准将应用视为扁平API、忽略真实交互状态性与顺序性的缺陷,为衡量代理能否推断用户未言明目标并在正确时刻行动提供了原则性方法。
elvis@omarsar0 · 4月26日63NEW paper from Microsoft.
This is an important read. (bookmark it)
The work introduces DELEGATE-52, a benchmark simulating long document-editing workflows across 52 professional domains like coding, crystallography, and music notation.
Across 19 tested models, even frontier ones (Gemini 3.1 Pro, Claude 4.6 Opus, GPT-5.4) corrupted an average of 25% of document content by the end of long workflows. Agentic tool use didn't help.
Lots of other insights in this one.
Check it out below...
Paper: https://arxiv.org/abs/2604.15597
Learn to build effective AI agents in our academy: https://academy.dair.ai/
译微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。
AK@_akhaliq · 4月25日39Context Unrolling in Omni Models
paper: https://huggingface.co/papers/2604.21921
译Omni模型中的上下文展开
paper: https://huggingface.co/papers/2604.21921
AK@_akhaliq · 4月24日44Seeing Fast and Slow
Learning the Flow of Time in Videos
paper: https://huggingface.co/papers/2604.21931
译看见快与慢
学习视频中的时间流
论文: https://huggingface.co/papers/2604.21931
AK@_akhaliq · 4月24日39Near-Future Policy Optimization
paper: https://huggingface.co/papers/2604.20733
译近未来策略优化
论文:https://huggingface.co/papers/2604.20733
Saining Xie@sainingxie · 4月24日72vision🍌 is here https://vision-banana.github.io/
if you got into computer vision the way I did, starting with pixel-level labeling tasks like segmentation, edges, depth, or surface normals, you’ll probably feel the same seeing these results -- something big has quietly shifted, and it’s going to change how we approach these problems for good 🧵
译vision🍌 现已发布 https://vision-banana.github.io/
如果你像我一样进入计算机视觉领域,从像素级标注任务(如分割、边缘、深度或表面法线)开始,看到这些结果时你可能会有同感——某些重大的转变已悄然发生,这将永久改变我们处理这些问题的方式 🧵
AK@_akhaliq · 4月22日44OneVL
One-Step Latent Reasoning and Planning with Vision-Language Explanation
paper: https://huggingface.co/papers/2604.18486
译OneVL
一步到位的潜在推理与规划,附带视觉-语言解释
论文: https://huggingface.co/papers/2604.18486
AK@_akhaliq · 4月22日47Agent-World
Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
paper: https://huggingface.co/papers/2604.18292
译智能体世界
为进化通用智能体智能而扩展真实世界环境合成
论文: https://huggingface.co/papers/2604.18292
AK@_akhaliq · 4月22日39MathNet
a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
paper: https://huggingface.co/papers/2604.18584
译MathNet
一个用于数学推理与检索的全球多模态基准
论文: https://huggingface.co/papers/2604.18584
AK@_akhaliq · 4月21日39OpenGame
Open Agentic Coding for Games
paper: https://huggingface.co/papers/2604.18394
译OpenGame
面向游戏的开放智能体编码
论文: https://huggingface.co/papers/2604.18394
AK@_akhaliq · 4月21日48PersonaVLM
Long-Term Personalized Multimodal LLMs
paper: https://huggingface.co/papers/2604.13074
译PersonaVLM
长期个性化多模态大语言模型
论文: https://huggingface.co/papers/2604.13074
AK@_akhaliq · 4月21日37Elucidating the SNR-t Bias of Diffusion Probabilistic Models
paper: https://huggingface.co/papers/2604.16044
译阐明扩散概率模型的SNR-t偏差
paper: https://huggingface.co/papers/2604.16044
AK@_akhaliq · 4月18日39UniDoc-RL
Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards
paper: https://huggingface.co/papers/2604.14967
译UniDoc-RL
具有分层动作和密集奖励的从粗到细视觉 RAG
论文: https://huggingface.co/papers/2604.14967
AK@_akhaliq · 4月18日46RAD-2
Scaling Reinforcement Learning in a Generator-Discriminator Framework
paper: https://huggingface.co/papers/2604.15308
译RAD-2
在生成器-判别器框架中扩展强化学习
论文: https://huggingface.co/papers/2604.15308
AK@_akhaliq · 4月18日55DR3-Eval
Towards Realistic and Reproducible Deep Research Evaluation
paper: https://huggingface.co/papers/2604.14683
译DR3-Eval
迈向现实且可复现的深度研究评估
论文: https://huggingface.co/papers/2604.14683
AK@_akhaliq · 4月17日46HY-World 2.0
A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
paper: https://huggingface.co/papers/2604.14268
译HY-World 2.0
一个用于重建、生成和模拟3D世界的多模态世界模型
paper: https://huggingface.co/papers/2604.14268
AK@_akhaliq · 4月17日44Seedance 2.0
Advancing Video Generation for World Complexity
paper: https://huggingface.co/papers/2604.14148
译Seedance 2.0
推进视频生成以应对世界复杂性
论文: https://huggingface.co/papers/2604.14148
AK@_akhaliq · 4月17日47Parcae
Scaling Laws For Stable Looped Language Models
paper: https://huggingface.co/papers/2604.12946
译Parcae
稳定循环语言模型的缩放定律
论文: https://huggingface.co/papers/2604.12946
AK@_akhaliq · 4月17日39Geometric Context Transformer for Streaming 3D Reconstruction
paper: https://huggingface.co/papers/2604.14141
译用于流式3D重建的几何上下文Transformer
paper: https://huggingface.co/papers/2604.14141
AK@_akhaliq · 4月17日39GameWorld
Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
paper: https://huggingface.co/papers/2604.07429
译GameWorld
迈向标准化且可验证的多模态游戏智能体评估
论文: https://huggingface.co/papers/2604.07429
AK@_akhaliq · 4月16日49GlotOCR Bench
OCR Models Still Struggle Beyond a Handful of Unicode Scripts
paper: https://huggingface.co/papers/2604.12978
译GlotOCR Bench
OCR 模型在少数 Unicode 文字体系之外仍表现不佳
paper: https://huggingface.co/papers/2604.12978
AK@_akhaliq · 4月16日39Continuous Adversarial Flow Models
paper: https://huggingface.co/papers/2604.11521
译连续对抗流模型
paper: https://huggingface.co/papers/2604.11521
AK@_akhaliq · 4月16日46ClawGUI
A Unified Framework for Training, Evaluating, and Deploying GUI Agents
paper: https://huggingface.co/papers/2604.11784
译ClawGUI
一个用于训练、评估和部署GUI智能体的统一框架
论文: https://huggingface.co/papers/2604.11784
AK@_akhaliq · 4月16日39KnowRL
Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
paper: https://huggingface.co/papers/2604.12627
译KnowRL
通过强化学习与最小充分知识指导来提升大语言模型的推理能力
论文: https://huggingface.co/papers/2604.12627
AK@_akhaliq · 4月16日48Rethinking On-Policy Distillation of Large Language Models
Phenomenology, Mechanism, and Recipe
paper: https://huggingface.co/papers/2604.13016
译重新思考大型语言模型的在线策略蒸馏
现象学、机制与方案
论文: https://huggingface.co/papers/2604.13016
AK@_akhaliq · 4月16日39Habitat-GS
A High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting
paper: https://huggingface.co/papers/2604.12626
译Habitat-GS
一种采用动态高斯泼溅的高保真导航模拟器
论文: https://huggingface.co/papers/2604.12626
AK@_akhaliq · 4月15日36QuanBench+
A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
paper: https://huggingface.co/papers/2604.08570
译QuanBench+
一个用于基于LLM的量子代码生成的统一多框架基准测试
论文: https://huggingface.co/papers/2604.08570
AK@_akhaliq · 4月15日36The Past Is Not Past
Memory-Enhanced Dynamic Reward Shaping
paper: https://huggingface.co/papers/2604.11297
译过去并未过去
记忆增强的动态奖励塑形
论文: https://huggingface.co/papers/2604.11297
AK@_akhaliq · 4月15日39Attention Sink in Transformers
A Survey on Utilization, Interpretation, and Mitigation
paper: https://huggingface.co/papers/2604.10098
译Transformers中的注意力下沉
关于其利用、解释与缓解方法的研究综述
论文: https://huggingface.co/papers/2604.10098
AK@_akhaliq · 4月15日38OmniShow
Unifying Multimodal Conditions for Human-Object Interaction Video Generation
paper: https://huggingface.co/papers/2604.11804
译OmniShow
统一多模态条件以生成人物-物体交互视频
论文: https://huggingface.co/papers/2604.11804
AK@_akhaliq · 4月14日47Matrix-Game 3.0
Real-Time and Streaming Interactive World Model with Long-Horizon Memory
paper: https://huggingface.co/papers/2604.08995
译Matrix-Game 3.0
具备长时记忆的实时流式交互世界模型
论文: https://huggingface.co/papers/2604.08995
AK@_akhaliq · 4月14日48WildDet3D
Scaling Promptable 3D Detection in the Wild
paper: https://huggingface.co/papers/2604.08626
译WildDet3D
在野外扩展可提示的3D检测
论文: https://huggingface.co/papers/2604.08626
AK@_akhaliq · 4月14日40FORGE
Fine-grained Multimodal Evaluation for Manufacturing Scenarios
paper: https://huggingface.co/papers/2604.07413
译FORGE
面向制造场景的细粒度多模态评估
论文: https://huggingface.co/papers/2604.07413
AK@_akhaliq · 4月14日48Process Reward Agents for Steering Knowledge-Intensive Reasoning
paper: https://huggingface.co/papers/2604.09482
译用于引导知识密集型推理的过程奖励智能体
paper: https://huggingface.co/papers/2604.09482
Hao AI Lab@haoailab · 8月28日49[1/5] [Lmgame Bench] 🎮
Question: Can RL-based LLM post-training on games generalize to other tasks?
We shared a preliminary study to explore this question:
- Same-family (in-domain): Training on 6×6 Sokoban → 8×8 and Tetris (1 block type) → Tetris (2 block types) transfers, yielding up to 56% improvement across same-family variants.
- Other tasks (out-of-domain): Blocksworld +3–7% and WebShop ~+6% (unstable); GSM8K: no improvement.
We introduce GRL, an agent-centric multi-turn RL framework that makes LLM–environment interaction highly customizable for systematic generalization studies.
Repo: https://github.com/lmgame-org/GRL
Blog: https://lmgame.org/#/blog/grl (check it for details!)
译研究探讨了基于强化学习的LLM游戏后训练能否泛化到其他任务。在相同任务族内(如6×6推箱子泛化至8×8版本),训练带来了高达56%的性能提升。但在跨领域任务中,效果有限或不稳定:Blocksworld有小幅提升,WebShop有约6%但不稳定,GSM8K则无改善。研究团队为此提出了GRL框架,这是一个以智能体为中心的多轮强化学习框架,旨在高度定制LLM与环境的交互,以系统研究泛化能力。
Hao AI Lab@haoailab · 8月22日35[Lmgame Bench]
🤔 Ever wondered how to evaluate different games in Lmgame-Bench or even add your own, but don’t know where to start?
We’ve made it super easy to run evaluations and integrate new games. Our latest blog walks you through a few key features from Lmgame Bench including:
- Agent & environment setup.
- One-command single & multi-agent evals.
- Model & gaming harness support.
You can find out more from our Blog 👉https://lmgame.org/#/blog/lmgame_use
译[Lmgame Bench]
🤔 是否曾想过如何在 Lmgame-Bench 中评估不同游戏,甚至添加自己的游戏,却不知从何入手?
我们已让运行评估和集成新游戏变得极其简单。我们最新的博客将引导您了解 Lmgame Bench 的几个关键功能,包括:
- 智能体与环境设置。
- 单命令单智能体与多智能体评估。
- 模型与游戏框架支持。
您可以通过我们的博客了解更多 👉https://lmgame.org/#/blog/lmgame_use