Qwen3.7-Max：智能代理的前沿

2026-05-20 21:40·25天前·kevinsimper

精选理由

Qwen3.7-Max 在多个 agent 基准上达到甚至超越 Opus 4.6 水平，长程自主优化 35 小时跑出 10 倍速度提升，证明 agent 长跑能力不是概念，做自动化工具的值得跟进。

AI 摘要

智能代理领域迎来新突破，Qwen3.7-Max于2026年5月20日发布，标志着前沿技术的演进。该模型聚焦智能代理创新，具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点，显示技术社区的广泛兴趣。尽管未披露详细性能指标，但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升，推动AI向更高效、智能的方向发展。

AI 翻译 · 中文

Qwen

Qwen Studio

下载尝试 Qwen Studio

Qwen3.7: 智能体前沿 | Qwen

Qwen3.7: 智能体前沿

2026/05/20 · 25 分钟 · 4992 词 · QwenTeam丨翻译:简体中文

DISCORD 今天，我们推出 Qwen3.7-Max，这是我们为智能体时代打造的最新专有模型。Qwen3.7-Max 被设计为一种通用的智能体基础模型——同样擅长编写和调试代码、自动化办公工作流，以及在数百或数千个步骤中维持自主执行能力。

Qwen3.7-Max 的与众不同之处在于其智能体能力的广度和深度。它作为编码智能体表现出色，从前端原型设计到复杂的多文件工程。它通过 MCP 集成和多智能体编排，成为可靠的办公与生产力助手。它能在极长的任务跨度上维持连贯推理——一次完全自主的内核优化运行持续了 35 小时，涉及超过 1,000 次工具调用。它能在多种智能体框架上泛化，无论是通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署，都能保持一致的性能。

Qwen3.7-Max——现可通过阿里云模型服务平台获取：前沿编码智能体：从前端原型设计到复杂软件工程通过 MCP 和多智能体编排实现办公生产力与工作流自动化在长周期任务中维持自主执行跨多种智能体框架的跨框架泛化能力

通过阿里云模型服务平台调用 API。

性能#

| | Opus-4.6 Max | K2.6 Thinking | GLM-5.1 Thinking | DS-V4-Pro Max | Qwen3.6-Plus | Qwen3.7-Max | | --- | --- | --- | --- | --- | --- | --- | | 编程智能体 | | Terminal Bench 2.0-Terminus | 65.4 | 66.7 | 63.5 | 67.9 | 61.6 | 69.7 | | SWE-Verified | 80.8 | 80.2 | -- | 80.6 | 78.8 | 80.4 | | SWE-Pro | 57.3 | 59.5 | 58.8 | 59.0 | 56.6 | 60.6 | | SWE-Multilingual | 77.5 | 76.7 | -- | 76.2 | 73.8 | 78.3 | | NL2repo | 47.6 | 42.8 | 41.0 | 35.5 | 34.4 | 47.2 | | SciCode | 51.9 | 52.2 | 45.1 | -- | 41.4 | 53.5 | | QwenWebDev | 1617 | -- | 1564 | 1570 | 1500 | 1568 | | QwenSVG | 1541 | 1325 | 1605 | 1506 | 1432 | 1608 | | 通用智能体 | | Qwenclaw | 65.5 | 54.7 | 58.7 | 59.2 | 57.2 | 64.3 | | CoWorkBench | 68.2 | 58.2 | 66.0 | 66.3 | 64.5 | 67.2 | | ClawEval | 70.4 | 61.5 | 62.7 | 58.4 | 57.1 | 65.2 | | Skillsbench | -- | 56.2 | 53.1 | 52.3 | 45.7 | 59.2 | | BFCL-V4 | 76.7 | 71.3 | 70.9 | 70.6 | 68.9 | 75.0 | | MCP-Mark | 56.7 | 55.9 | 57.5 | 57.1 | 48.2 | 60.8 | | MCP-Atlas | 75.8 | 66.6 | 71.8 | 73.6 | 74.1 | 76.4 | | Vitabench | -- | 39.1 | 45.1 | 51.9 | 42.8 | 47.9 | | SpreadSheetBench-v1 | 89.3 | 84.5 | 85.2 | 84.9 | 80.2 | 87.0 | | Kernel Bench L3 | 2.63/98% | 1.41/80% | 2.00/78% | 1.07/54% | 1.03/48% | 1.98/96% | | HLE w/ tools | 53.0 | 54.0 | 52.3 | 48.2 | 50.2 | 53.5 | | QwenWorldBench | 56.1 | 50.9 | 50.2 | 52.3 | 47.6 | 57.3 | | STEM 与推理 | | GPQA Diamond | 91.3 | 90.5 | 86.2 | 90.1 | 90.4 | 92.4 | | HLE | 40.0 | 36.4 | 34.7 | 37.7 | 28.8 | 41.4 | | LiveCodeBench | 88.8 | 89.6 | -- | 93.5 | 87.1 | 91.6 | | HMMT 2026 Feb | 96.2 | 92.7 | 89.4 | 95.2 | 87.8 | 97.1 | | IMOAnswerBench | 75.3 | 86.0 | 83.8 | 89.8 | 83.8 | 90.0 | | CritPT | 12.6 | 8.0 | 4.6 | 12.9 | 2.9 | 11.4 | | Apex | 34.5 | 24.0 | 11.5 | 38.3 | 8.8 | 44.5 | | 通用能力 | | MMLU-Pro | 89.7 | 87.1 | 86.3 | 87.5 | 88.5 | 89.6 | | MMLU-Redux | 95.2 | 95.3 | 94.3 | 94.8 | 94.5 | 95.0 | | SuperGPQA | 72.5 | 71.3 | 68.0 | 69.9 | 71.6 | 73.6 | | IFEval | 91.9 | 94.5 | 94.5 | 91.9 | 94.3 | 94.3 | | IFBench | 62.5 | 76.0 | 76.0 | 77.0 | 74.2 | 79.1 | | MRCR-v2 128k | 84.0 | 63.1 | 62.0 | 74.4 | 85.9 | 90.4 | | 多语言能力 | | WMT24++ | 82.7 | 81.6 | 81.8 | 82.2 | 84.3 | 85.8 | | MAXIFE | 81.3 | 87.7 | 87.7 | 88.9 | 88.2 | 89.2 | | MMMLU | 90.6 | 87.5 | 87.2 | 87.9 | 89.5 | 90.3 | | MMLU-ProX | 86.1 | 83.7 | 83.9 | 83.9 | 84.7 | 87.0 | | NOVA-63 | 59.1 | 56.7 | 54.6 | 52.8 | 57.9 | 59.0 | | INCLUDE | 87.4 | 84.2 | 84.3 | 86.1 | 85.1 | 86.2 | | Global PIQA | 91.2 | 89.2 | 89.5 |

来源：Hacker News 热门（buzzing.cc 中文翻译）

90.5 | 89.8 | 91.4 | | PolyMATH | 80.2 | 82.7 | 67.6 | 72.0 | 77.4 | 86.5 |

Terminal-Bench 2.0：Harbor/Terminus-2 测试框架；超时时间 5 小时，12 CPU/24 GB RAM；temp=1.0，topp=0.95，topk=20，maxtokens=80K，256K 上下文；5 次运行的平均值。所有实验在每一轮前添加一个 token，让模型自行决定是否进入扩展思考。

SWE-Bench 系列：内部智能体框架（bash + 文件编辑工具）；temp=1.0，topp=0.95，200K 上下文窗口。

SWE-bench Pro：修正了有问题的任务，并在精炼后的基准上评估了所有基线。

NL2Repo：通过 Claude-code 评估。我们禁用了试图访问特定仓库的 Bash 命令，例如 pip download、pip install 和 git clone。

QwenWebDev：内部前端代码生成基准；双语（英文/中文），7 个类别；自动渲染 + 多模态评估器；BT/Elo 评分。

QwenClawBench：一个基于真实用户分布的 Claw 智能体基准；开源地址：https://github.com/SKYLENAGE-AI/QwenClawBench

CoWorkBench：一个内部协作基准；涵盖计算机科学、金融、法律、医疗及其他生产力领域的长期任务。

SkillsBench：通过 OpenCode 在 78 个任务上评估（排除 9 个依赖外部 API 的任务）；5 次运行的平均值。

MCP-Mark：GitHub MCP v0.30.3；Playwright 响应截断至 32K token。

MCP-Atlas：公开集得分；使用 gemini-2.5-pro 作为评估器。

VITA-Bench：子领域平均得分；使用 claude-4.5-sonnet 作为评估器，因为旧版官方评估器已不再可用。

Kernel Bench L3：报告的指标：每个问题相较于 PyTorch eager 参考的加速中位数 / 比 torch.compile 更快的问题比例，共 50 个问题。每个测试样本在隔离的 Docker 容器中运行，配备一块 H100 80GB GPU，网络访问仅限于 CUTLASS 代码库和官方 CUDA 文档，工具调用次数限制为 500 次，并在连续 100 轮无改进后提前停止。使用 GPT-5.4 (xhigh) 检测潜在的破解行为。使用 CUPTI 进行内核级计时。

QwenWorldBench：用于评估大语言模型作为世界模型以模拟智能体环境的内部基准；7 个领域（终端、SWE、MCP、搜索、操作系统、Android、Web）；基于真实环境反馈的开放式五维评分评估器。

推理场景：推荐系统提示词："Reasoning effort is set to xhigh. Please think carefully through the task, validate key assumptions, consider plausible alternatives, and prioritize correctness, consistency, and clarity in the final answer."

MRCR-v2：使用了包含8个“针”的128K上下文子集；评估协议来自 https://github.com/google-deepmind/evalhub/tree/master/evalhub/mrcrv2。

WMT24++：更难的WMT24子集；通过XCOMET-XXL对55种语言的平均得分。

MAXIFE：英语+多语言提示词（共23种设置）上的准确率。

MMLU-ProX：29种语言的平均准确率。

空单元格（--）表示尚无可用分数。

在编程智能体方面，Qwen3.7-Max在SWE-Pro（60.6）、SWE-Multilingual（78.3）、SciCode（53.5）和QwenSVG（1608）上表现强劲。在Terminal Bench 2.0-Terminus（69.7）上，它超越了DS-V4-Pro Max（67.9）。在SWE-Verified（80.4）上，它与Opus-4.6 Max（80.8）和DS-V4-Pro Max（80.6）持平。

在通用智能体方面，改进更为显著。Qwen3.7-Max在MCP-Mark（60.8，对比GLM-5.1的57.5）、MCP-Atlas（76.4，对比Opus-4.6的75.8）和Skillsbench（59.2，对比K2.6的56.2）上表现异常出色，并在Kernel Bench L3上展示了强大的GPU内核优化能力（中位数加速1.98倍，胜率96%）。它还在BFCL-V4（75.0）、Qwenclaw（64.3）和ClawEval（65.2）上获得了高分，接近Opus-4.6 Max。在办公自动化基准SpreadSheetBench-v1上，它取得了87分的一流成绩。

在推理方面，Qwen3.7-Max在GPQA Diamond（92.4，对比Opus-4.6的91.3）、HLE（41.4，对比Opus-4.6的40）、HMMT 2026 Feb（97.1，对比Opus-4.6的96.2）、IMOAnswerBench（90，对比DS-V4-Pro的89.8）和Apex（44.5，对比DS-V4-Pro的38.3）上取得了领先结果，在最难的推理基准上展现了卓越实力。

在通用能力和多语言方面，Qwen3.7-Max在IFBench（79.1，对比DS-V4-Pro的77.0）上表现突出，展示了精确的指令遵循能力。它在WMT24++（85.8）和MAXIFE（89.2）上取得了领先分数，证实了顶级的 multilingual 理解和翻译质量。它还在SuperGPQA（73.6）和QwenWorldBench（57.3）上交付了强劲结果。

值得注意的是，这些得分来自多种多样的智能体框架。Qwen3.7-Max并未针对任何单一框架进行优化，而是在Claude Code、OpenClaw、Qwen Code以及自定义工具使用框架上始终如一地表现出色，使其成为任何智能体系统可靠且可即插即用的骨干。

Cowork Productivity Assistant#

Qwen3.7-Max 作为你的高级协作者，服务于实际生产力场景。其强大的智能体能力能够从根本上简化专业工作流程——整合复杂信息、执行深度数据分析与建模、生成可直接发布的文档和可视化内容——从而可靠地处理高复杂度的企业级工作负载。

Qwen3.7-Max 原生兼容主流智能体框架（agent harnesses）。对于长周期任务，它支持自主规划并在数小时会话中持续执行。通过数千次工具调用和数十次迭代优化，它逐步提升输出质量。原本需要专业团队一到两周才能完成的复杂项目，现在可以在数小时内端到端完成，带来可衡量的生产力提升。

视频 1

智能体规模化（Agent Scaling）#

基于 Qwen3.5 中引入的环境规模化方法，我们在 Qwen3.7 中继续大幅扩展了智能体训练环境的质量和多样性。正如语言模型从多样化的预训练文本中实现泛化，我们发现智能体能力也能从多样化的训练环境中实现泛化。

如下图所示，这种环境规模化带来了清晰且一致的提升轨迹，Qwen3.7-Max 在平均排名中进入前三，接近 Claude-4.6-Opus-Max 的水平。关键在于，我们评测中的所有基准测试都采用了完全未见过的、领域外的环境，这些环境从未出现在训练数据中。

我们还观察到规模化行为具有惊人的可预测性：在任意子集基准上的性能提升高度一致，并能可靠地预测其余基准上的相对提升或整体平均值，这表明环境规模化驱动的是真正的能力泛化，而非针对特定基准的改进。关于规模化动态和方法的进一步分析将在我们即将发布的技术报告中详细阐述。

跨框架泛化（Cross-Harness Generalization）#

我们的 Rollout 环境基础设施将每个训练实例解耦为三个正交组件——Task、Harness 和 Verifier——它们可以自由重新组合。我们支持多种 Harness 及其不断演化的版本，并将环境建立在真实场景而非合成代理之上。这种解耦式设计实现了组合缩放：同一个任务与多种 Harness（涵盖不同类型和版本）以及验证器配对，边际成本极低。更重要的是，它支持跨 Harness 和跨验证器的强化学习训练，模型在不同 Harness 配置下遇到相同任务，迫使其学习可泛化的问题解决策略，而非针对特定 Harness 的捷径。在 QwenClawBench 和 CoWorkBench 上，无论评估时使用哪种 Harness，Qwen3.7-Max 都展现出强大且一致的性能，这证实了模型已经学会了解决问题——而非利用特定 Harness。

野外的自我进化#

Extend Attention 是 SGLang 中一个生产级别的可变长度多头注意力算子。在我们的测试场景中，它计算新生成的 token 与一个最多包含 32K 条目的前缀 KV-cache 之间的注意力分数，并采用 MTP——这是 LLM 推理中一个内存密集、延迟敏感的内核。参考实现是 SGLang 官方的 Triton 实现。

我们让 Qwen3.7-Max 在配备平头哥 ZW-M890 PPU（训练期间从未见过的硬件平台）的 ECS 实例上优化该内核。模型没有任何先前的性能分析数据、硬件文档或该架构的示例内核。它从一个空的工作空间开始，其中仅包含任务描述、现有的 SGLang 实现以及一个评估脚本。

在大约 35 小时的连续自主执行过程中，模型在 1158 次工具调用中执行了 432 次内核评估。它完全自主地编写、编译、分析和迭代改进了 Extend Attention 内核——诊断编译失败、修复正确性错误、通过运行时分析识别性能瓶颈，并多次重新设计内核架构。

最终结果：在多个工作负载上测量，相对于 Triton 参考实现了 10.0 倍几何平均加速。优化轨迹显示出远超最初几个小时的持续且显著的进步：模型在超过 30 小时后仍在发现新的有意义的改进，证明了长周期自主优化不仅可行，而且富有成效。

优化轨迹中的关键结构转变

1. Split-KV 并行 (0.33x → 2.58x, ~2小时)：初始内核仅在 36 个 SM 上启动了 8 个块（4 个 token × 2 个 KV 头 × 1 个批次），导致大多数 SM 空闲。模型使用 Split-KV 分区重新设计了内核——将前缀 KV 缓存分散到每个查询的多个线程块中——并引入了一个独立的规约内核，使用在线 softmax 重新缩放来合并部分结果。

2. 启动和分配开销消除 (2.58x → 5.37x, ~2.5小时)：模型系统地消除了主机-设备同步开销：将每次调用的 cudaMalloc/cudaFree 替换为预分配的 torch::empty 张量，通过使用张量元数据来消除用于前缀长度查询的同步 cudaMemcpy 调用，并将内部循环展开 2 倍以分摊循环控制开销并增加指令级并行。

3. 工作负载自适应分割调优 (5.37x → 6.85x, ~3小时)：模型从固定的分割除数演变为依赖于工作负载大小的启发式方法——对更小的输入应用更激进的分割，并调整每个工作负载的分割数量，以最大化 36-SM 架构上的 SM 波次占用率。

4. 规约与批处理优化 (6.85x → 8.50x, 3小时–25小时)：通过切换到基于寄存器的 K/V 加载以消除共享内存屏障，从而提高 SM 占用率；使用持久静态张量存储部分结果以避免每次调用分配；对小输入采用更激进的分割启发式；以及使用批处理 softmax 更新（4 次 expf 调用而非 6 次）以减少每个 token 的开销。通过 smscale 对 Q 进行预缩放，消除了 warp 规约后每次迭代的浮点乘法。

5. MTP γ=4 专用内核（8.50x → 10.0x，32h–35h）：这是最重大的架构重新设计——将内核重构为每个块同时处理全部 4 个查询 token，通过跨查询共享 K/V 负载来分摊内存访问开销。结合用于 V 缓冲区加载的 ldg 只读缓存内联函数、多查询批处理注意力输出归约、寄存器压力调优以及重新调整的分割启发式策略，在最后几小时内带来了约 1.2 倍的提升。

我们还用其他几款模型在相同条件下运行了同一任务。GLM 5.1 达到 7.3 倍；Kimi K2.6 达到 5.0 倍；DeepSeek V4 Pro 达到 3.3 倍；Qwen3.6-Plus 达到 1.1 倍。那些提前终止的模型，是因为智能体连续五轮未发出任何工具调用——模型判断自己无法再取得进展，主动结束了会话。

除了在 PPU 上取得强大的内核生成结果外，Qwen3.7-Max 还能在各类 NVIDIA GPU 上生成高质量、生产级的内核。例如，在 KernelBench L3 上，Qwen3.7-Max 能够为 96% 的场景生成加速内核，而 Opus-4.6 为 98%，GLM 5.1 为 78%，Kimi K2.6 为 80%，DeepSeek V4 Pro 为 54%，Qwen3.6-Plus 为 48%。

这一结果突显了 Qwen3.7-Max 作为支撑长周期自主智能体的基础模型的两大特性：持续的长周期推理——模型在超过一千次工具调用中保持连贯的优化策略，不会丢失上下文或出现回退；以及强大的上下文内泛化能力——它能为从未见过的架构生成有竞争力的内核，依赖运行时反馈而非记忆的硬件知识。

面向长周期训练的成功激励监控#

我们将 Qwen3.7-Max 集成到了面向软件工程（SWE）任务的强化学习（RL）监控中，成功构建了一套用于成功激励自我监控和规则自我演化的框架。在超过 80 小时的 RL 实验中，模型自主检索并回放了训练轨迹，执行了超过 10,000 次调用。该系统系统性地识别出了候选的 hack 模式（例如试图绕过约束以访问 GitHub 上的正确答案），同时进行了规则验证、反例挖掘和迭代优化。

因此，Qwen3.7-Max 实现了多轮规则自我进化，新增 13 条启发式规则，并准确标记了 1,618 个黑客入侵案例。这不仅确保了 RL 奖励的稳定性，还促进了该模型作为一款高级软件工程智能体的持续自我改进。

创业管理中的长程规划与执行#

在动态累积生存博弈框架内，我们扩展了训练任务的时间复杂度，以专门强化长程规划与执行能力。这一进步提升了智能体在超过一千步的序列决策轨迹中的策略一致性，使其能够持续构建假设、基于环境反馈动态调整策略，并积累长期经验与记忆。因此，智能体在广阔的时间跨度上保持稳定的执行节奏，免受上下文腐烂和指令漂移等常见陷阱的干扰。

在 YC-Bench——一个模拟初创公司完整一年生命周期的基准测试——中，智能体必须处理数百轮决策，涵盖人员管理、合同筛查以及恶意客户识别，同时还要在劳动力成本上升的情况下维持利润率。Qwen3.7-Max 实现了 208 万美元的总营收，是 Qwen3.6-Plus（105 万美元）的两倍，是 Qwen3.5-Plus（35.2 万美元）的 5.9 倍，并成功完成了 237 项任务。除了指标之外，该模型还展示了跨上下文窗口进行战略演变的深刻能力：它主动探索潜在客户，识别恶意陷阱并将其列入黑名单，优先选择可靠的收入来源，并在中期危机后自主恢复，最终收敛到一个稳定、高效的执行循环中。

使用 Qwen3.7 构建#

Qwen3.7-Max 现已通过阿里云百炼平台提供。您可以将其与流行的智能体框架和编程助手集成。

API 使用#

Qwen3.7-Max 支持 preservethinking 功能：保留消息中所有先前轮次的思考内容，这对于智能体任务特别推荐。

阿里云百炼平台#

阿里云百炼平台支持行业标准协议，包括与 OpenAI 规范兼容的 chat completions 和 responses API，以及一个与 Anthropic 兼容的 API 接口。

python

环境变量： DASHSCOPEAPIKEY：你的 API Key，获取地址 https://modelstudio.console.alibabacloud.com DASHSCOPEBASEURL：（可选）兼容模式 API 的基础 URL。 - 北京：https://dashscope.aliyuncs.com/compatible-mode/v1 - 新加坡：https://dashscope-intl.aliyuncs.com/compatible-mode/v1 - 美国（弗吉尼亚）：https://dashscope-us.aliyuncs.com/compatible-mode/v1

"""from openai import OpenAIimport osapikey = os.environ.get("DASHSCOPEAPIKEY")if not apikey: raise ValueError( "DASHSCOPEAPIKEY is required. " "Set it via: export DASHSCOPEAPIKEY='your-api-key'" )client = OpenAI( apikey=apikey, baseurl=os.environ.get( "DASHSCOPEBASEURL", "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", ),)messages = [{"role": "user", "content": "Write a Python function to merge two sorted linked lists."}]completion = client.chat.completions.create( model="qwen3.7-max", messages=messages, extrabody={ "enablethinking": True, # "preservethinking": True, }, stream=True)reasoningcontent = ""answercontent = ""isanswering = Falseprint("\n" + "=" 20 + "Reasoning" + "=" 20 + "\n")for chunk in completion: if not chunk.choices: print("\nUsage:") print(chunk.usage) continue delta = chunk.choices[0].delta if hasattr(delta, "reasoningcontent") and delta.reasoningcontent is not None: if not isanswering: print(delta.reasoningcontent, end="", flush=True) reasoningcontent += delta.reasoningcontent if hasattr(delta, "content") and delta.content: if not isanswering: print("\n" + "=" 20 + "Answer" + "=" 20 + "\n") isanswering = True print(delta.content, end="", flush=True) answercontent += delta.content

更多信息，请访问 API 文档。

前端编码#

Qwen3.7-Max 可以通过单条提示词生成丰富的交互式 Web 应用——包括 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。

展开所有演示

演示1 手势控制粒子系统

1 / 5

用Three.js创建一个实时交互的3D粒子系统网页。要求：1.通过摄像头检测手掌张合控制粒子群的收缩与扩散，当手掌张开时例子扩散，当手掌握紧时例子收缩为一个球；2.当手势为1时，粒子组成文字（hello, world），当手势为2时组成文字（I’am Qwen）；3.粒子需实时响应手势变化；4.文字应有3D旋转效果；5. 用html实现

Qwen3.7-Max

视频2

办公助手#

Qwen3.7-Max 可以通过工具集成充当智能办公助手。在此示例中，它读取一份大学论文格式规范，并自动修复一份格式混乱的草稿——修正页面布局、标题样式、字体、页边距、目录和参考文献格式——全部通过自主的 office-cli 工具调用完成。（示例论文为 AI 生成，仅用于演示目的。）

展开所有演示

演示1 使用办公工具进行论文格式修复

1 / 1

为了便于前端展示，此处将原始 Word 文档专门显示为 PDF 格式。

请完成一个论文格式修复任务。 ## 输入文件 - 格式规范说明文件: 研究生学位论文格式规范.docx - 格式混乱版论文（待修复）: 论文格式混乱版.docx ## 输出文件 - 论文格式修复版.docx

工作区

研究生学位论文格式规范.docx

论文格式混乱版.docx

Qwen3.7-Max

论文格式修复版.docx

您的浏览器不支持 PDF。下载 PDF

基于大语言模型的物理世界导航智能体#

还有一点，Qwen3.7-Max 现在可以通过工具调用来操作机器狗——在物理环境中执行物理理解、规划、记忆和决策，由我们的机器人智能体工具包 Qwen-RobotClaw、导航基础模型 Qwen-RobotNav 以及基于 Qwen-plus 模型构建的多个视觉工具提供支持。在下面的演示中，左侧面板展示了智能体在物理世界中 20 分钟的工具调用交互流程；中间显示四足机器人沿其轨迹的第一人称视角；右侧显示智能体的长期记忆。

视频 3

编程助手#

Qwen3.7-Max 与流行的智能体框架和编程助手无缝集成：

Claude Code#

Qwen API 支持 Anthropic API 协议，可直接与 Claude Code 配合使用：

bash

npm install -g @anthropic-ai/claude-code export ANTHROPICMODEL="qwen3.7-max"export ANTHROPICSMALLFASTMODEL="qwen3.7-max"export ANTHROPICBASEURL=https://dashscope-intl.aliyuncs.com/apps/anthropic export ANTHROPICAUTHTOKEN= claude

OpenClaw#

通过 Model Studio 连接到 OpenClaw：

bash

curl -fsSL https://molt.bot/install.sh | bash export DASHSCOPEAPIKEY= openclaw dashboard

配置 ~/.openclaw/openclaw.json：

json

```json { "models": { "mode": "merge", "providers": { "modelstudio": { "baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1", "apiKey": "DASHSCOPEAPIKEY", "api": "openai-completions", "models": [ { "id": "qwen3.7-max", "name": "qwen3.7-max", "reasoning": true, "input": ["text"], "contextWindow": 1000000, "maxTokens": 65536 } ] } } }, "agents": { "defaults": { "model": { "primary": "modelstudio/qwen3.7-max" } } } } ```

Qwen Code#

Qwen Code 针对 Qwen 系列进行了深度优化：

bash

npm install -g @qwen-code/qwen-code@latest qwen

总结#

Qwen3.7-Max 是我们为智能体驱动工作流打造的最通用、最强大的模型。从编程和办公自动化到长期自主任务，它融合了前沿水平的推理能力与强大的跨框架泛化能力，并能够长时间维持高效执行——为构建下一代 AI 智能体提供了坚实基础。我们欢迎社区反馈，并期待看到大家用它构建的成果。

引用#

bibtex

@misc{qwen37, title = {{Qwen3.7}: 智能体前沿}, url = {https://qwen.ai/blog?id=qwen3.7}, author = {{Qwen 团队}}, month = {五月}, year = {2026} }

尝试 Qwen Studio

网页

iOS

Android

macOS

Windows

Qwen Studio

Qwen Studio 概览

下载

API 平台

我们的旗舰模型

平台概览

API 平台

Qwen Cloud

研究

Qwen3.7-Max：智能代理的前沿

2026-05-20 21:40·25天前·kevinsimper

精选理由

AI 摘要

AI 翻译 · 中文

Qwen

Qwen Studio

下载尝试 Qwen Studio

Qwen3.7: 智能体前沿 | Qwen

Qwen3.7: 智能体前沿

2026/05/20 · 25 分钟 · 4992 词 · QwenTeam丨翻译:简体中文

通过阿里云模型服务平台调用 API。

性能#

来源：Hacker News 热门（buzzing.cc 中文翻译）

90.5 | 89.8 | 91.4 | | PolyMATH | 80.2 | 82.7 | 67.6 | 72.0 | 77.4 | 86.5 |

SWE-Bench 系列：内部智能体框架（bash + 文件编辑工具）；temp=1.0，topp=0.95，200K 上下文窗口。

SWE-bench Pro：修正了有问题的任务，并在精炼后的基准上评估了所有基线。

NL2Repo：通过 Claude-code 评估。我们禁用了试图访问特定仓库的 Bash 命令，例如 pip download、pip install 和 git clone。

QwenWebDev：内部前端代码生成基准；双语（英文/中文），7 个类别；自动渲染 + 多模态评估器；BT/Elo 评分。

QwenClawBench：一个基于真实用户分布的 Claw 智能体基准；开源地址：https://github.com/SKYLENAGE-AI/QwenClawBench

CoWorkBench：一个内部协作基准；涵盖计算机科学、金融、法律、医疗及其他生产力领域的长期任务。

SkillsBench：通过 OpenCode 在 78 个任务上评估（排除 9 个依赖外部 API 的任务）；5 次运行的平均值。

MCP-Mark：GitHub MCP v0.30.3；Playwright 响应截断至 32K token。

MCP-Atlas：公开集得分；使用 gemini-2.5-pro 作为评估器。

VITA-Bench：子领域平均得分；使用 claude-4.5-sonnet 作为评估器，因为旧版官方评估器已不再可用。

MRCR-v2：使用了包含8个“针”的128K上下文子集；评估协议来自 https://github.com/google-deepmind/evalhub/tree/master/evalhub/mrcrv2。

WMT24++：更难的WMT24子集；通过XCOMET-XXL对55种语言的平均得分。

MAXIFE：英语+多语言提示词（共23种设置）上的准确率。

MMLU-ProX：29种语言的平均准确率。

空单元格（--）表示尚无可用分数。

Cowork Productivity Assistant#

视频 1

智能体规模化（Agent Scaling）#

跨框架泛化（Cross-Harness Generalization）#

野外的自我进化#

优化轨迹中的关键结构转变

面向长周期训练的成功激励监控#

创业管理中的长程规划与执行#

使用 Qwen3.7 构建#

Qwen3.7-Max 现已通过阿里云百炼平台提供。您可以将其与流行的智能体框架和编程助手集成。

API 使用#

Qwen3.7-Max 支持 preservethinking 功能：保留消息中所有先前轮次的思考内容，这对于智能体任务特别推荐。

阿里云百炼平台#

阿里云百炼平台支持行业标准协议，包括与 OpenAI 规范兼容的 chat completions 和 responses API，以及一个与 Anthropic 兼容的 API 接口。

python

更多信息，请访问 API 文档。

前端编码#

Qwen3.7-Max 可以通过单条提示词生成丰富的交互式 Web 应用——包括 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。

展开所有演示

演示1 手势控制粒子系统

1 / 5

Qwen3.7-Max

视频2

办公助手#

展开所有演示

演示1 使用办公工具进行论文格式修复

1 / 1

为了便于前端展示，此处将原始 Word 文档专门显示为 PDF 格式。

工作区

研究生学位论文格式规范.docx

论文格式混乱版.docx

Qwen3.7-Max

论文格式修复版.docx

您的浏览器不支持 PDF。下载 PDF

基于大语言模型的物理世界导航智能体#

视频 3

编程助手#

Qwen3.7-Max 与流行的智能体框架和编程助手无缝集成：

Claude Code#

Qwen API 支持 Anthropic API 协议，可直接与 Claude Code 配合使用：

bash

OpenClaw#

通过 Model Studio 连接到 OpenClaw：

bash

curl -fsSL https://molt.bot/install.sh | bash export DASHSCOPEAPIKEY= openclaw dashboard

配置 ~/.openclaw/openclaw.json：

json

Qwen Code#

Qwen Code 针对 Qwen 系列进行了深度优化：

bash

npm install -g @qwen-code/qwen-code@latest qwen

总结#

引用#

bibtex

@misc{qwen37, title = {{Qwen3.7}: 智能体前沿}, url = {https://qwen.ai/blog?id=qwen3.7}, author = {{Qwen 团队}}, month = {五月}, year = {2026} }

尝试 Qwen Studio

网页

iOS

Android

macOS

Windows

Qwen Studio

Qwen Studio 概览

下载

API 平台

我们的旗舰模型

平台概览

API 平台

Qwen Cloud

研究