国内团队开源项目OpenSquilla用Python重写“小龙虾”,解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类:简单任务走便宜模型,复杂任务走顶级模型。测试25个任务,纯Claude Opus 4.7成本6.2美金,OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金,分数几乎一样。同时,它根据对话语义只注入匹配度最高的Skill(原90+个),每轮省约9000 Token,100次对话累计省100万Token。
被 AI 不听话折磨了大半年,终于找到解法了
发现一个开源项目 OpenSquilla,国内团队做的
他们用 Python 把"小龙虾"重写了一遍
解决了它太费token、不按照规则执行以及安全的问题
100 次对话就能省下 100万 Token
先说省钱:
它集成了一个本地的小模型,你发的每一个请求,在真正发给大模型之前,会被这个小模型极速向量化,分析这个请求到底是简单任务还是复杂任务。简单的发给便宜模型,复杂的才派顶级模型上场。
就跟医院分诊台一个道理,感冒发烧不用挂专家号。
关键是这个分类在本地跑,不花 token,速度极快,基本感知不到。
官方跑了个测试,25 个任务,纯用 Claude Opus 4.7 总成本 6.2 美金,用 OpenSquilla 路由 Opus4.7、GLM5.1、DS4 Flash 混着跑,分数几乎一样,成本只要 0.68 美金。同样的效果,成本砍到九分之一!
这下我终于敢把 Opus 和 GPT 接进去了!每轮对话还会显示本轮省了多少 token。
而且省 token 不只省在模型调用上。
我装了九十多个 Skill,每轮对话都把所有 Skill 的 description 全塞进上下文里,算了一下每轮要消耗 9000 左右 Tokens。
OpenSquilla 会根据当前对话语义只注入匹配度最高的几个 Skill,按我的规模大概 100 次对话就能省 100万 Token