Cohere 发布首个开源编程模型 North Mini Code

meng shao@shao__meng

2026-06-10 09:20·5天前

AI 摘要

Cohere 推出首个开源编程模型 North Mini Code（MoE 30B/3B，128 专家，每 token 激活 8 个），支持 256K 输入/64K 输出，最低 1×H100（FP8）。训练采用三阶段后训练：级联 SFT（含 Agent 工具调用与推理数据）→ RLVR（CISPO 算法，异步采样，Terminal+SWE 双环境联合训练）→ 跨脚手架泛化。Agent 编程方面，Artificial Analysis Coding Index 达 33.4，同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等，超过 Nemotron 3 Super 120B，稍低于 Qwen3.6 35B-A3B（约 35.2）。推理速度对比 Devstral Small 2 最高约 2.8×，词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。

Cohere 发布首个开源编程模型「North Mini Code」

小参数、高效率、专做 Agent 编程参数：MoE 架构（30B， 3B），128专家，每 token 激活 8 个上下文：256K 输入 / 64K 输出最低硬件：1× H100（FP8）

官方发布 https：//cohere.com/blog/north-mini-code HuggingFace https：//huggingface.co/CohereLabs/North-Mini-Code-1.0

# 训练方法（三阶段后训练）

1. 两阶段级联 SFT · 一阶段（64K）：代码约 70% 可训练 token（43% Agent 工具调用 + 27% 单轮竞赛/科学编程），混推理与指令跟随 · 二阶段（128K）：约 4.5B token，61% 为代码，全为 Agent/推理样本，工具调用与完成结果均校验可执行 · 数据来自 7 万+ 可验证任务、约 5000 个仓库；与 SWE-Bench 源去重，防泄漏 · SFT 目标不是刷榜，而是为 RL 打底：优化 pass@K 与采样多样性

2. RLVR（可验证奖励强化学习） · 算法：CISPO（token 级重要性采样，长轨迹不被短样本稀释） · 异步采样：vLLM sidecar + 窗口 FIFO 队列，缓解 Agent rollout 长度差异 · 双环境联合训练：Terminal（ReAct + bash）+ SWE（SWE-Agent） · 奖励：单元测试二值奖励；无效工具调用/不可解析输出得 0 分

3. 跨 Harness 泛化 · 训练时暴露多种 Agent 脚手架（SWE-Agent、mini-SWE、OpenCode 等） · 二阶段 SFT 中约 6% 为其他 benchmark harness 数据 · OpenCode 评估约 +10%；mini-SWE-Agent 上 pass@1 达 61.0%，属「免费迁移」

SFT 结束时：SWE-Bench Verified pass@10 = 80.2%，Terminal-Bench v2 pass@10 = 55.1%。RL 后 Terminal pass@1 +7.9%，SWE pass@1 +3.0%；轨迹更短、无效工具调用更少。

# 基准表现

Agent 编程（核心卖点） · Artificial Analysis Coding Index：33.4 · 同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4、Devstral Small 2 等 · 甚至超过 Nemotron 3 Super（120B）、Mistral Small 4（119B）等更大模型 · 仍略低于 Qwen3.6 35B-A3B（约 35.2）

评测集：SWE-Bench Verified/Pro、Terminal-Bench v2/Hard、SciCode、LiveCodeBench v6 Harness：SWE-Agent v1.1.0、ReAct+Tmux、Terminus-2 等；temperature=1.0，top_p=0.95，3 seed 平均

非编程 Agent 任务偏弱（第三方汇总）：GDPval-AA ~14%，τ2-Bench Telecom ~37%，Agentic Index 综合约 21.7--专精编程，非通用 Agent。

推理速度（对比 Devstral Small 2，Cohere 内部测试） · 同并发下输出吞吐最高约 2.8× · 词间延迟约 -30% · TTFT 略逊于 Devstral Small 2

# Agent 能力设计

模型原生支持交错思考与工具调用，格式类似 Cohere Command 系列： <|START_THINKING|> … <|END_THINKING|> <|START_ACTION|> 【JSON tool calls】 <|END_ACTION|> <|START_TOOL_RESULT|> … <|END_TOOL_RESULT|> <|START_RESPONSE|> … <|END_RESPONSE|>

使用要点： · 必须把 reasoning/thinking 一并写入对话历史，否则效果下降 · 工具描述建议用 JSON Schema · 推荐采样：temperature=1.0，top_p=0.95 · 需较新 Transformers 源码、vLLM main + cohere_melody>=0.9.0

面向场景：子 Agent 编排、系统架构理解、Code Review、终端操作、多步软件工程。

CohereIntroducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance and built for community input.

智能体开源/仓库模型发布编码

在 X 查看原推

meng shao@shao__meng · X