开源项目OpenSquilla用Python重写“小龙虾”，大幅节省Token与成本

小互@xiaohu

2026-06-03 18:01·13天前

AI 摘要

国内团队开源项目OpenSquilla用Python重写“小龙虾”，解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类：简单任务走便宜模型，复杂任务走顶级模型。测试25个任务，纯Claude Opus 4.7成本6.2美金，OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金，分数几乎一样。同时，它根据对话语义只注入匹配度最高的Skill（原90+个），每轮省约9000 Token，100次对话累计省100万Token。

被 AI 不听话折磨了大半年，终于找到解法了

发现一个开源项目 OpenSquilla，国内团队做的

他们用 Python 把"小龙虾"重写了一遍

解决了它太费token、不按照规则执行以及安全的问题

100 次对话就能省下 100万 Token

先说省钱：

它集成了一个本地的小模型，你发的每一个请求，在真正发给大模型之前，会被这个小模型极速向量化，分析这个请求到底是简单任务还是复杂任务。简单的发给便宜模型，复杂的才派顶级模型上场。

就跟医院分诊台一个道理，感冒发烧不用挂专家号。

关键是这个分类在本地跑，不花 token，速度极快，基本感知不到。

官方跑了个测试，25 个任务，纯用 Claude Opus 4.7 总成本 6.2 美金，用 OpenSquilla 路由 Opus4.7、GLM5.1、DS4 Flash 混着跑，分数几乎一样，成本只要 0.68 美金。同样的效果，成本砍到九分之一！

这下我终于敢把 Opus 和 GPT 接进去了！每轮对话还会显示本轮省了多少 token。

而且省 token 不只省在模型调用上。

我装了九十多个 Skill，每轮对话都把所有 Skill 的 description 全塞进上下文里，算了一下每轮要消耗 9000 左右 Tokens。

OpenSquilla 会根据当前对话语义只注入匹配度最高的几个 Skill，按我的规模大概 100 次对话就能省 100万 Token

智能体MCP/工具开源/仓库端侧

在 X 查看原推

小互@xiaohu · X