Hugging Face:Blog(RSS)
精选76
llama.cpp 服务器新增多模型管理功能
精选理由
本地跑模型终于能像 Ollama 一样热切换,开发调试效率大幅提升
AI 摘要
llama.cpp 服务器新增了类似 Ollama 的多模型管理功能。该功能采用多进程架构,每个模型独立运行,确保单个模型崩溃不影响其他服务。系统支持自动发现本地 GGUF 模型文件、按需加载,并默认采用 LRU 机制管理最多同时加载4个模型。用户可通过请求中的模型字段路由到特定模型,并可使用 API 进行加载、卸载和列表查看。所有加载的模型可继承路由器的统一设置,也支持通过预设文件为每个模型单独配置参数。内置 Web UI 同样支持模型切换。
这是一则列表来源,站内未收录完整正文。
阅读完整原文huggingface.co