Cohere 推出首个开源编程模型 North Mini Code(MoE 30B/3B,128 专家,每 token 激活 8 个),支持 256K 输入/64K 输出,最低 1×H100(FP8)。训练采用三阶段后训练:级联 SFT(含 Agent 工具调用与推理数据)→ RLVR(CISPO 算法,异步采样,Terminal+SWE 双环境联合训练)→ 跨脚手架泛化。Agent 编程方面,Artificial Analysis Coding Index 达 33.4,同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等,超过 Nemotron 3 Super 120B,稍低于 Qwen3.6 35B-A3B(约 35.2)。推理速度对比 Devstral Small 2 最高约 2.8×,词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。
Cohere 发布首个开源编程模型「North Mini Code」
小参数、高效率、专做 Agent 编程 参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个 上下文:256K 输入 / 64K 输出 最低硬件:1× H100(FP8)
官方发布 https://cohere.com/blog/north-mini-code HuggingFace https://huggingface.co/CohereLabs/North-Mini-Code-1.0
# 训练方法(三阶段后训练)
1. 两阶段级联 SFT · 一阶段(64K):代码约 70% 可训练 token(43% Agent 工具调用 + 27% 单轮竞赛/科学编程),混推理与指令跟随 · 二阶段(128K):约 4.5B token,61% 为代码,全为 Agent/推理样本,工具调用与完成结果均校验可执行 · 数据来自 7 万+ 可验证任务、约 5000 个仓库;与 SWE-Bench 源去重,防泄漏 · SFT 目标不是刷榜,而是为 RL 打底:优化 pass@K 与采样多样性
2. RLVR(可验证奖励强化学习) · 算法:CISPO(token 级重要性采样,长轨迹不被短样本稀释) · 异步采样:vLLM sidecar + 窗口 FIFO 队列,缓解 Agent rollout 长度差异 · 双环境联合训练:Terminal(ReAct + bash)+ SWE(SWE-Agent) · 奖励:单元测试二值奖励;无效工具调用/不可解析输出得 0 分
3. 跨 Harness 泛化 · 训练时暴露多种 Agent 脚手架(SWE-Agent、mini-SWE、OpenCode 等) · 二阶段 SFT 中约 6% 为其他 benchmark harness 数据 · OpenCode 评估约 +10%;mini-SWE-Agent 上 pass@1 达 61.0%,属「免费迁移」
SFT 结束时:SWE-Bench Verified pass@10 = 80.2%,Terminal-Bench v2 pass@10 = 55.1%。RL 后 Terminal pass@1 +7.9%,SWE pass@1 +3.0%;轨迹更短、无效工具调用更少。
# 基准表现
Agent 编程(核心卖点) · Artificial Analysis Coding Index:33.4 · 同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4、Devstral Small 2 等 · 甚至超过 Nemotron 3 Super(120B)、Mistral Small 4(119B)等更大模型 · 仍略低于 Qwen3.6 35B-A3B(约 35.2)
评测集:SWE-Bench Verified/Pro、Terminal-Bench v2/Hard、SciCode、LiveCodeBench v6 Harness:SWE-Agent v1.1.0、ReAct+Tmux、Terminus-2 等;temperature=1.0,top_p=0.95,3 seed 平均
非编程 Agent 任务偏弱(第三方汇总):GDPval-AA ~14%,τ2-Bench Telecom ~37%,Agentic Index 综合约 21.7--专精编程,非通用 Agent。
推理速度(对比 Devstral Small 2,Cohere 内部测试) · 同并发下输出吞吐最高约 2.8× · 词间延迟约 -30% · TTFT 略逊于 Devstral Small 2
# Agent 能力设计