Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时,也显著改变了 Flash 系列以往低成本的市场定位。
兄弟们,Google DeepMind刚放出的Gemini 3.5 Flash,直接把Intelligence vs Speed的Pareto前沿拉新高度了。
Artificial Analysis拿到预发布权限,测完后结论很明确:
它在Intelligence Index拿到55分,比Gemini 3 Flash高9分,直接超过Grok 4.3和Claude Sonnet 4.6。 Agentic任务(GDPval-AA)Elo评分飙到1656,远超前代。 幻觉率从92%暴降到61%。 多模态理解也继续领跑,MMMU-Pro 84%。 输出速度超280 tokens/s,比上一代快70%。
看起来几乎完美。
但代价是:跑一次Artificial Analysis Intelligence Index的成本是Gemini 3 Flash的5.5倍,比Gemini 3.1 Pro贵75%。 定价直接3倍($1.5/$9 per 1M input/output),加上agentic任务里token用量显著增加。
速度和智能终于兼得,但价格直接把"Flash"这个词的便宜属性干掉了。
完整基准在这里:https://artificialanalysis.ai/models/gemini-3-5-flash