Mistral AI发布了其最新旗舰大语言模型Mistral Large。该模型在MMLU基准测试中排名全球第二(仅次于GPT-4),拥有32K token上下文窗口,原生支持英语、法语、西班牙语、德语和意大利语,并具备函数调用能力。Mistral Large已可通过Azure AI Studio和Mistral自身的la Plateforme API访问。同时,Mistral还发布了优化低延迟的Mistral Small。
Mistral AI发布了其最新旗舰大语言模型Mistral Large。该模型在MMLU基准测试中排名全球第二(仅次于GPT-4),拥有32K token上下文窗口,原生支持英语、法语、西班牙语、德语和意大利语,并具备函数调用能力。Mistral Large已可通过Azure AI Studio和Mistral自身的la Plateforme API访问。同时,Mistral还发布了优化低延迟的Mistral Small。
Mistral AI 发布开源模型 Mixtral 8x7B,采用 Apache 2.0 许可证。这是一个稀疏混合专家(SMoE)模型,总参数 46.7B,但每个 token 仅激活 12.9B 参数。其推理速度比 Llama 2 70B 快 6 倍,并在多数基准测试中匹配或超越 GPT-3.5。模型支持 32k token 上下文窗口,掌握英语、法语、意大利语、德语和西班牙语,并具备强大的代码生成能力。同步发布经监督微调和直接偏好优化(DPO)的指令版本 Mixtral 8x7B Instruct,其在 MT-Bench 上得分 8.3。
Mistral AI团队开源了其7.3B参数模型Mistral 7B。该模型在所有基准测试中超越Llama 2 13B,在许多测试中超越Llama 1 34B,并在代码任务上接近CodeLlama 7B的性能。它采用Grouped-query attention (GQA)以加速推理,并使用Sliding Window Attention (SWA)以更低的成本处理长序列。在推理、理解和STEM推理(MMLU)上,其性能相当于超过3倍大小的Llama 2模型。模型以Apache 2.0许可证开源,并提供了一个针对对话微调的Mistral 7B Instruct版本,其在MT-Bench上表现优于所有7B模型。
关联讨论 1 条Mistral AI:News(网页)