Google 和 Cohere 新模型发布同日,mlx-vlm 就把它们塞进了 Mac 本地,DiffusionGemma 用扩散思路生成文本,量化后 18GB 就跑得动,属于本地党必跟的更新。
mlx-vlm v0.6.3 上线,首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构:以 256 token 块为单位并行生成、双向注意力、迭代自纠错;26B MoE 仅激活 3.8B,量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE,仅激活 3B,BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持,可在 Mac 本地运行。可通过 `uv pip install -U mlx-vlm` 安装体验。
Prince Canuma直接把Google刚发布的DiffusionGemma和Cohere North Mini Code当天塞进Mac本地MLX,零等待直接把玩咯!
mlx-vlm v0.6.3刚上线,DiffusionGemma这个新架构直接生成256 token整块、双向注意力+迭代自纠错,26B MoE只激活3.8B,量化后18GB就能跑。
North Mini Code 30B MoE也只要3B active,BF16下66 tok/s起步。
全靠和Google DeepMind、Cohere的深度合作,Day-0支持拉满!
一键安装即可体验啊~
地址:https://huggingface.co/collections/mlx-community/diffusiongemma