AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 611 条
全部一手资讯X论文
阿绎 AYi@AYi_AInotes · 4月29日76

说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太炸了,具体大家看视频演示。 当大家都在卷参数、卷推理分、卷更长上下文, 只有它反其道而行之,把 token 效率 当成了第一公民。 最震撼的是这组数据:在 Artificial Analysis 全评测中, 它展现出极高的智能-输出比(生成 16M tokens), 整体 token 成本可降至可比模型的约四分之一, 综合智能却接近 GPT-5.4 的非推理水平, 直接落在所有模型都梦寐以求的“高智能 + 极低生产成本”象限。 这才是真正的生产级 AI,而不是实验室刷榜玩具。 Agent 时代最大的痛点从来不是模型不够聪明,而是用不起。 一个复杂任务调用十几次模型、几十次工具、拉几百 K 上下文, token 成本指数级爆炸,很多 Agent 方案一到规模化就死掉, Ling 把这个天花板直接抬高了数倍。 它走的是和 o1 类模型完全相反的路线:别人靠慢思考堆 token 刷榜, 靠 MoE 优化的 Fast-Thinking 机制实现又快又准。 写代码、搭 UI、编排 Agent、多步工作流——我们每天 90% 的事, 根本不需要深度多跳推理,需要的是精确、稳定、快、便宜。 而这些,Ling 全部做到了:SWE-bench Verified SOTA 级表现(72.2+)、AIME26 高分、指令遵循和工具调用榜单全面领先。 蚂蚁的底气很简单:背靠支付宝 13 亿用户 + 全世界最复杂的金融支付场景,天然拥有海量真实 Agentic 数据。 Ling 系列从一开始就不是为了刷榜,而是为了每天处理上亿次生产请求而生。 更狠的是它的打法:OpenRouter 已上线一周免费 API(262K 上下文), 官方确认即将开放权重——这明显在抢生态,和当年 DeepSeek 路数一样, 但这次握着的是生产级效率这个最大杀器。 这意味着2026 年的游戏规则彻底变了:不再是谁参数多谁牛,而是谁能在真实生产成本下跑赢。 过去的刷榜竞赛已进入尾声, 真正的生产落地竞赛才刚刚开始。

译蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

查看原推 ↗
Berryxia.AI@berryxia · 4月29日65

🚀 OpenBMB 重磅发布!MiniCPM-o 4.5 技术报告来了! 9B 参数多模态模型实现突破性实时交互: • Omni-Flow 框架:原生全双工流式交互(视频+音频+文本毫秒级同步) • Native Full-Duplex + Proactive Interaction(无需VAD,可主动提醒) • 多模态基准接近 Gemini 2.5 Flash(MMBench 87.6 / MathVista 80.1) • 极致 Edge AI:完全离线运行,一键安装 Windows / macOS(12G VRAM 即可) • 100% 本地隐私 + 免费社区 API 真正的实时、自然人机交互时代来了!🔥 技术报告、GitHub、HuggingFace、Web Demo 已开放。

译OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

查看原推 ↗
Berryxia.AI@berryxia · 4月29日67

前Github CTO team带着新模型来了! 他们的Poolside AI 团队刚刚开源了他们的首个权重模型! 模型名称 Laguna XS.2 • 33B total / 3B active MoE • Apache 2.0 完全开源 • 专为 Agentic Coding + 长时序任务设计 • 单张 GPU 即可流畅运行 同时发布 Laguna M.1(当前最强版)和 Agent Harness。 由前 GitHub CTO Jason Warner 创立的团队,coding agent 赛道新力量! ```

译由前GitHub CTO Jason Warner创立的Poolside AI团队开源了其首个权重模型Laguna XS.2。该模型采用33B总参数、3B激活参数的MoE架构,专为Agentic Coding和长时序任务设计,可在单张GPU上运行,并采用Apache 2.0开源协议。团队同时发布了当前最强版模型Laguna M.1以及Agent Harness,标志着其在智能编码代理赛道成为新的竞争者。

查看原推 ↗
Berryxia.AI@berryxia · 4月29日60

NVIDIA 重磅发布!🚀 Nemotron 3 Nano Omni 多模态开源模型来了! 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型(语言+视觉+语音+视频+音频一体化) 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源(权重 + 数据 + 配方),领跑多项榜单 可通过 NVIDIA NIM API 免费试用!完美 powering 多代理工作流。

译NVIDIA 重磅发布!🚀 Nemotron 3 Nano Omni 多模态开源模型来了! 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型(语言+视觉+语音+视频+音频一体化) 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源(权重 + 数据 + 配方),领跑多项榜单 可通过 NVIDIA NIM API 免费试用!完美驱动多代理工作流。

查看原推 ↗
AK@_akhaliq · 4月29日59

Nvidia released Nemotron 3 Nano Omni made a gradio app for it on Hugging Face

译Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用

查看原推 ↗
Ant Ling@AntLingAGI · 4月29日57

Thanks to @huggingface for offering the place where open models can keep thriving! 🤗🤗 Token efficiency is the key to practical and sustainable co-work systems, let elephant-alpha / Ling-2.6-flash to be your best companion 😎

译推文感谢Hugging Face为开源模型的持续发展提供了重要平台。文中强调,token效率是构建实用、可持续协作系统的关键。AntLingAGI最新发布的Ling-2.6-flash模型已加入这场效率竞争,该模型采用MIT许可,具备104B/7.4B激活参数,并创新性地结合了1:7 MLA与Lightning Linear混合注意力机制。其性能表现突出:推理速度高达340 tok/s,并且仅需约1500万tokens即可完成完整的Artificial Analysis评测套件。这一效率显著高于通常需要5000万至1亿tokens的前沿模型,展现出其作为高效协作伙伴的潜力。

查看原推 ↗
阿绎 AYi@AYi_AInotes · 4月29日66

说个暴论,2026 年 AI 行业的转折点,不是 GPT-5.5,也不是 o3,是蚂蚁@AntLingAGI 刚刚发布的 Ling-2.6-1T。 我用 Ling-2.6-1T 跑了一个查理芒格的 100 个思维模型的硬核任务, 结果真的太炸了,具体大家看视频演示。 当大家都在卷参数、卷推理分、卷更长上下文, 只有它反其道而行之,把 token 效率 当成了第一公民。 最震撼的是这组数据:在 Artificial Analysis 全评测中, 它展现出极高的智能-输出比(生成 16M tokens), 整体 token 成本可降至可比模型的约四分之一, 综合智能却接近 GPT-5.4 的非推理水平, 直接落在所有模型都梦寐以求的“高智能 + 极低生产成本”象限。 这才是真正的生产级 AI,而不是实验室刷榜玩具。 Agent 时代最大的痛点从来不是模型不够聪明,而是用不起。 一个复杂任务调用十几次模型、几十次工具、拉几百 K 上下文, token 成本指数级爆炸,很多 Agent 方案一到规模化就死掉, Ling 把这个天花板直接抬高了数倍。 它走的是和 o1 类模型完全相反的路线:别人靠慢思考堆 token 刷榜, 靠 MoE 优化的 Fast-Thinking 机制实现又快又准。 写代码、搭 UI、编排 Agent、多步工作流——我们每天 90% 的事, 根本不需要深度多跳推理,需要的是精确、稳定、快、便宜。 而这些,Ling 全部做到了:SWE-bench Verified SOTA 级表现(72.2+)、AIME26 高分、指令遵循和工具调用榜单全面领先。 蚂蚁的底气很简单:背靠支付宝 13 亿用户 + 全世界最复杂的金融支付场景,天然拥有海量真实 Agentic 数据。 Ling 系列从一开始就不是为了刷榜,而是为了每天处理上亿次生产请求而生。 更狠的是它的打法:OpenRouter 已上线一周免费 API(262K 上下文), 官方确认即将开放权重——这明显在抢生态,和当年 DeepSeek 路数一样, 但这次握着的是生产级效率这个最大杀器。 这意味着2026 年的游戏规则彻底变了:不再是谁参数多谁牛,而是谁能在真实生产成本下跑赢。 过去的刷榜竞赛已进入尾声, 真正的生产落地竞赛才刚刚开始。

译蚂蚁集团AGI团队发布Ling-2.6-1T模型,其核心创新在于聚焦token效率而非参数规模。该模型采用MoE架构,每次推理仅激活7.4B参数,结合Linear Attention与Multi-Token Prediction技术,在保持接近GPT-5.4非推理水平的高智能同时,将token成本降至可比模型的四分之一。在Artificial Analysis评测中以极低消耗获得高分,并在SWE-bench等硬核Agent场景领先。该模型专为处理海量真实生产请求设计,旨在为高频Agent应用提供高效、低成本的解决方案,并通过免费API策略加速生态布局,预示AI竞赛重心正向真实生产成本效率转移。

查看原推 ↗
AK@_akhaliq · 4月29日44

SenseNova U1 is out on Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1

译SenseNova U1 已在 Hugging Face 发布 https://huggingface.co/collections/sensenova/sensenova-u1

查看原推 ↗
Ant Ling@AntLingAGI · 4月29日59

It was quite a journey from #elephantalpha 🐘to our release of the APIs on OpenRouter, to today we finally open sourcing our models on Hugging Face / ModelScope. Thanks to our launching partner @novita_labs, a pioneer and community builder 😼

译AntLingAGI宣布将其模型Ling-2.6-flash正式开源,该模型此前在OpenRouter平台上曾以“Elephant Alpha”为名提供API服务。目前,模型已在Hugging Face和ModelScope平台全面开放,供公众自由使用与构建。模型关键参数为总参数量1040亿,激活参数量74亿,在Artificial Analysis基准测试中输出速度约为每秒215个token,并支持BF16、FP8和INT4多种精度格式。此次开源得到了合作伙伴Novita Labs,以及lmsysorg的SGLang团队和vllm项目的技术支持。

查看原推 ↗
Ant Ling@AntLingAGI · 4月29日59

Thanks to the @vllm_project team for the Day0 support of Ling-2.6-flash! The true system experts and open ecosystem builders always find synergies working with each other~ 🥳🥳 Stay tuned for more!

译vLLM项目团队宣布对Ling-2.6-flash模型提供Day-0首发支持,体现了开源生态系统构建者之间的高效协同。Ling-2.6-flash是一个专为需要快速响应和强大执行力的现实世界智能体设计的即时指令MoE模型。其核心特点包括:1040亿总参数与74亿激活参数的高度稀疏混合专家架构,结合了1:7 MLA与Lightning Linear注意力机制,支持262K上下文长度,并具备原生工具调用能力,可无缝接入Claude Code、Kilo Code、Qwen Code、Hermes、OpenClaw等主流框架。

查看原推 ↗
Ant Ling@AntLingAGI · 4月28日62

🥳 It has always been our pleasure to work with the SGLang team, as we all believe in fast and stable inference is the key to our valuable users' experience.🫡 Hope you all enjoy Ling-2.6-flash (aka Elephant-alpha) 🐘⚡️⚡️ 打满~ 打满~~ 😝

译AntLingAGI与SGLang团队合作,正式推出Ling-2.6-flash(亦称Elephant-alpha)即时指令模型,并在SGLang平台上实现了首发支持。该模型总参数量达104B,但活跃参数仅7.4B,专为低延迟的智能体工作流优化,能够实现即时响应。它在编码、文档处理和智能体任务中展现出极高的token效率,所用token数量显著减少。尽管活跃参数较少,其模型质量仍与当前SOTA水平相当,兼具速度与执行力,适合需要快速响应的生产级智能体应用。团队强调,快速且稳定的推理是提升用户体验的关键。

查看原推 ↗
Ant Ling@AntLingAGI · 4月28日59

Ling-2.6-flash is now officially open-sourced! A fast, token-efficient Instruct model built for real-world agent workflows. 104B total parameters · 7.4B active parameters Available in BF16, FP8, and INT4 variants for different deployment needs. Key strengths: - Fast generation: 215 tokens/s on Artificial Analysis Output Speed - High token efficiency: only 15M tokens on the full AA Intelligence Index evaluation - Real task execution: strong performance across coding, document processing, and lightweight agent workflows - Improved experience: better Chinese-English switching and smoother compatibility with mainstream coding frameworks

译灵码2.6-flash模型现已开源,这是一个专为现实世界智能体工作流构建的快速、高效的指令模型。该模型总参数量达1040亿,激活参数量为74亿,并提供BF16、FP8和INT4多种量化版本以适应不同部署需求。其核心优势包括:生成速度高达每秒215个token,在完整评估中仅消耗1500万token,效率突出;在代码、文档处理和轻量级智能体工作流等实际任务中表现强劲;同时,其中英文切换能力及与主流编程框架的兼容性也得到了进一步改善。

查看原推 ↗
OpenRouter@OpenRouter · 4月28日64

The first public foundation models from @poolsideai just dropped on OpenRouter! Laguna M.1 and Laguna XS.2. Built from scratch for agentic coding and long-horizon work. Free for a limited time ⬇️

译@poolsideai 的首批公开基础模型刚刚在 OpenRouter 上发布! Laguna M.1 和 Laguna XS.2。专为智能体编码和长周期工作从头构建。限时免费 ⬇️

查看原推 ↗
Chubby♨️@kimmonismus · 4月28日59

Microsoft Presents "TRELLIS.2": An Open-Source, 4B-Parameter, Image-to-3D Model producing up to 1536³ PBR textured assets. Built On Native 3D VAES With 16× Spatial compression, delivering efficient, scalable, high-fidelity asset generation. Ngl, pretty cool!

译Microsoft 推出 "TRELLIS.2":一个开源的、40亿参数的图像转3D模型,可生成高达1536³的PBR纹理资产。 基于原生3D VAES,具有16倍空间压缩能力,提供高效、可扩展、高保真的资产生成。 说实话,相当酷!

查看原推 ↗
SenseTime@SenseTime_AI · 4月28日59

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1 𝗟𝗶𝘁𝗲 𝗦𝗲𝗿𝗶𝗲𝘀 𝗶𝘀 𝗻𝗼𝘄 𝗼𝗽𝗲𝗻 𝘀𝗼𝘂𝗿𝗰𝗲! Built on the 𝗡𝗘𝗢-𝘂𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, it natively unifies multimodal understanding and generation, delivering: •𝗦𝗢𝗧𝗔 𝗘𝗳𝗳𝗶𝗰𝗶𝗲𝗻𝗰𝘆 𝗔𝗺𝗼𝗻𝗴 𝗢𝗽𝗲𝗻-𝗦𝗼𝘂𝗿𝗰𝗲 𝗠𝗼𝗱𝗲𝗹𝘀: Compact models (8B & A3B) delivering commercial-grade performance and exceptional cost efficiency. Leading performance among open-source models across a wide range of understanding, reasoning, and generation benchmarks. •𝗡𝗮𝘁𝗶𝘃𝗲 𝗜𝗺𝗮𝗴𝗲–𝗧𝗲𝘅𝘁 𝗜𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻: Generate coherent interleaved text and images in a single flow using one model; ideal for practical applications like guides, where visuals turn complex information into intuitive insights. •𝗛𝗶𝗴𝗵-𝗗𝗲𝗻𝘀𝗶𝘁𝘆 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗥𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴: Strong capabilities in dense visual communication, generating richly structured layouts for knowledge illustrations, posters, PPTs, comics and other information-rich formats. 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/collections/sensenova/sensenova-u1 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/OpenSenseNova/SenseNova-U1 𝗗𝗶𝘀𝗰𝗼𝗿𝗱: https://discord.gg/cxkwXWjp  @huggingface @github

译SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

查看原推 ↗
Berryxia.AI@berryxia · 4月28日56

🔥兄弟们,最近多模态图像模型真是神仙打架啊! 看来又要来一波,实测对比了啊! 前几天才发完测试,又有新的模型,真心吃不消啊! 又发现一个全网开源、即刻可用的重磅神器 —— 商汤 OpenSenseNova 刚刚发布 SenseNova-U1! 原生统一多模态大模型,NEO-Unify架构,视觉+语言从第一性原理彻底打通,无独立VE/VAE! 核心技术亮点: • 文本与图像深度交错生成(教程、海报、漫画一气呵成) • 推理驱动的智能图像编辑(懂物理逻辑) • 高密度信息图表渲染超强 模型大小高度本地化: • 8B 密集模型 • A3B-MoT(活性参数仅约3B,个人显卡就能本地部署跑起来!) 全网开源部署,Apache 2.0 可商用: GitHub: https://github.com/OpenSenseNova/SenseNova-U1 立刻登录领取限时免费Token Plan额度,每天5小时 + 1500次无门槛调用,零成本解锁极速体验! 即将上线「办公小浣熊」,这个结合办公看看能不能搞点东西出来! 本地多模态时代,冲就对了!

译商汤发布开源可商用的多模态大模型SenseNova-U1,采用NEO-Unify架构统一处理视觉与语言。其核心功能包括图文交错生成、智能图像编辑与图表渲染。模型提供8B密集版和约3B活性参数的轻量版,适合个人显卡本地部署。现提供每日5小时及1500次免费调用额度,并即将推出办公场景应用功能。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 4月28日53

Agentic AI for everyone! Can't wait to see what the community builds with Qwen3.6 on NetMind.

译Qwen3.6全系列模型已在NetMind平台上线,专为不同生产场景的智能体应用设计。该系列包含三个模型:Qwen3.6-Plus专注于前沿推理和长上下文,适用于复杂编码任务;Qwen3.6-Flash强调速度、规模和成本效益,适合大规模实时编码辅助;Qwen3.6-35B-A3B提供开源权重和Apache 2.0许可,支持自主托管和微调。所有模型共享高效的混合架构,具备函数调用和推理能力,并运行在NetMind的低延迟基础设施上,提供统一的OpenAI兼容端点。平台还提供即用代码,便于开发者快速集成和使用。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 4月28日60

我先看看能不能给 Codepilot 用户争取到免费的 Token 补贴

译作者表示将尝试为Codepilot用户争取免费的Token补贴。这一考虑基于小米MiMo -V2.5系列模型的开源动态,该模型采用MIT协议,允许自由商用、二次训练与微调。同时,小米推出了Orbit 100T Token计划,包含面向AI builder的“百万亿Token创造者激励计划”和面向Agent框架团队的“Agent生态共建计划”。激励计划为通过申请的用户提供Token支持,如最高16亿Credits。作者意图借鉴此机制为Codepilot社区谋取福利。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 4月28日74

小米 MiMo -V2.5 系列模型全部开源 采用宽松的 MIT 协议,允许自由商用、二次训练与微调,无需额外授权。 同时他们还推出了Orbit 100T Token 计划。 这个太牛批了!如果你有自己 Vibe Coding 一些东西可以去领一下。 包含两部分: 分别是面向 AI builder 的『百万亿 Token 创造者激励计划』,与面向 Agent 框架团队的『Agent 生态共建计划』。 百万亿 Token 创造者激励计划: 申请通过的 AI builder 用户最高将获得 Max 档位的 Token Plan,包含 16 亿 Credits ,价值 659 元。 Agent 生态共建计划: 将为你的 agent 框架提供 MiMo token 限免支持,让你的用户免费接入并体验 MiMo 系列模型。

译小米正式开源MiMo-V2.5系列模型,采用宽松的MIT协议,允许自由商用、二次训练与微调。该系列包含两个支持100万token上下文窗口的模型:专为复杂Agent和编码任务设计、在多项评测领先的MiMo-V2.5-Pro,以及具备强大Agent能力的原生全模态模型MiMo-V2.5。同时,小米推出Orbit 100T Token计划,包含面向AI开发者的“百万亿Token创造者激励计划”,提供最高价值659元的Credits,以及面向Agent框架团队的“Agent生态共建计划”,为其用户提供MiMo token限免支持。

查看原推 ↗
meng shao@shao__meng · 4月28日75

Xiaomi MiMo-V2.5 系列模型正式开源 · MiMo-V2.5-Pro:1T/42B(MoE),1M 上下文 · MiMo-V2.5:310B/15B (MoE),1M 上下文 同时还发布了 100T Token 创造者激励计划,在这申请,赠完即止: https://100t.xiaomimimo.com/ MiMo-V2.5 架构关键点:三件套支撑万亿稀疏 + 百万长文 1. 混合注意力(Hybrid Attention) SWA(局部滑动窗口)与 GA(全局注意力)按 6:1(Pro)或 5:1(V2.5)交错堆叠,滑动窗口仅 128。代价是 KV-cache 储量降到约 1/7,长文性能靠"可学习的 attention sink bias"补回。这是它能在万亿参数规模下把上下文做到 1M 的工程基础。 2. 多 Token 预测(MTP,3 层) 原生集成而非外挂的投机解码:训练即推理,3 层 dense FFN 的轻量 MTP 模块直接让推理输出速度约 3 倍,同时还能加速 RL 训练时的 rollout。 3. 稀疏 MoE Pro 共 70 层(1 dense + 69 MoE),384 个路由专家,每个 token 激活 8 个,每次只跑 42B 参数。Hidden size 6144,128 个注意力头(GQA:8 个 KV 头)。 训练规模与方法 1. MiMo-V2.5-Pro · Pre-training:27T tokens,FP8 混合精度,原生 32K 序列 · 后训练:SFT → 大规模 Agentic RL → MOPD 2. MiMo-V2.5 · Pre-training:~48T tokens(含多模态) · 后训练:同上 + 多模态投影器预热、上下文从 32K→256K→1M 渐进扩展 后训练的核心是 MOPD(Multi-Teacher On-Policy Distillation):先在数学、安全、Agent 工具使用等垂直域分别用 RL 把"专家教师"练强,再让单个学生模型在自身 rollout 上以动态 on-policy 方式从多位老师处获取 token 级监督信号。这个范式承接自 MiMo-V2-Flash,是 V2.5 全系能"既宽又深"的关键。 模型开源地址 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

译小米正式开源MiMo-V2.5系列模型,包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro,以及支持多模态代理的310B参数MoE模型MiMo-V2.5,两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术,以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式,通过多教师策略蒸馏提升模型综合能力。同时,小米推出100T Token的创造者激励计划,为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

查看原推 ↗
Berryxia.AI@berryxia · 4月28日69

小米 MiMo-V2.5 现已正式开源! 采用 MIT License,支持商业部署、持续训练和微调 — 无需额外授权。 两个模型均支持 100 万 token 上下文窗口: • MiMo-V2.5-Pro:专为复杂 Agent 和编码任务打造,在开源模型中 GDPVal-AA 和 ClawEval 基准排名第一 • MiMo-V2.5:原生多模态模型,具备强大 Agent 能力 小米称:模型的价值不仅仅由排行榜决定——而是由它解决的问题来衡量。

译小米正式开源MiMo-V2.5系列模型,采用MIT许可证,允许商业部署、持续训练和微调。两个模型均支持100万token上下文窗口:MiMo-V2.5-Pro专为复杂Agent和编码任务设计,在开源模型的GDPVal-AA和ClawEval基准测试中排名第一;MiMo-V2.5是原生多模态模型,具备强大的Agent能力。小米强调,模型的价值不应仅由排行榜衡量,而应取决于其解决实际问题的能力。

查看原推 ↗
AK@_akhaliq · 4月28日51

Xiaomi MiMo-V2.5 is out on Hugging Face https://huggingface.co/collections/XiaomiMiMo/mimo-v25

译小米 MiMo-V2.5 已在 Hugging Face 发布 https://huggingface.co/collections/XiaomiMiMo/mimo-v25

查看原推 ↗
Fuli Luo@_LuoFuli · 4月28日76

Just dropped two open-source models: MiMo-V2.5-Pro (Code Agent, 1T total) and MiMo-V2.5 (Multimodal Agent, 310B total). Oh and one more thing — we're giving devs & creators 100T tokens on us. Go build something cool 🛠️ 🎁 100T Free Token Grant for Builders http://100t.xiaomimimo.com

译小米宣布开源两个大模型:专攻复杂智能体和编码任务的MiMo-V2.5-Pro,以及原生全模态模型MiMo-V2.5。两者均支持100万token的上下文长度,并采用允许商业部署和微调的MIT许可证。同时,小米为开发者和创作者提供了100万亿token的免费额度,鼓励基于此构建应用。模型的价值不仅在于其在GDPVal-AA和ClawEval等基准测试中的排名,更在于其解决实际问题的能力。

查看原推 ↗
Xiaomi MiMo@XiaomiMiMo · 4月28日71

Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and fine-tuning - no additional authorization required. Two models, both supporting a 1M-token context window : • MiMo-V2.5-Pro: built for complex agent and coding tasks, ranking No.1 among open-source models on GDPVal-AA and ClawEval • MiMo-V2.5: a native omni-modal model with strong agent capabilities A model's value isn't measured by rankings alone — it's measured by the problems it solves. Let's build with MiMo now! 🤗 Weights: https://huggingface.co/collections/XiaomiMiMo/mimo-v25 📄 Blog: https://mimo.xiaomi.com/index#blog

译小米正式开源MiMo-V2.5系列模型,采用MIT许可,支持商业部署、继续训练与微调。该系列包含两个支持100万令牌上下文窗口的模型:MiMo-V2.5-Pro专为复杂智能体和编码任务设计,在GDPVal-AA和ClawEval基准测试中位列开源模型第一;MiMo-V2.5则是具备强大智能体能力的原生全模态模型。官方强调,模型的价值不仅在于排名,更在于其解决实际问题的能力,并已公开模型权重与技术博客。

查看原推 ↗
Kimi.ai@Kimi_Moonshot · 4月27日50

Kimi K2.6 is now #1 on OpenRouter's weekly LLM Leaderboard 🏆 A huge thank you to every developer building with Kimi. We'll keep our heads down and keep shipping.

译Kimi K2.6 现已登上 OpenRouter 每周 LLM 排行榜首位 🏆 衷心感谢每一位使用 Kimi 进行开发的开发者。我们将继续埋头苦干,持续交付。

查看原推 ↗
向阳乔木@vista8 · 4月26日85

http://x.com/i/article/2048407268547522560 # OpenAI GPT-5.5官方介绍 [AI翻译重写] OpenAI 在 4 月 23 日发布了 GPT-5.5,4 月 24 日 API 正式开放。 每次大模型发布,都会有一堆跑分截图刷屏,然后大家看完就散了。 但这次读完OpenAI的博客原文,有几个地方值得认真拆开来说。 > https://openai.com/index/introducing-gpt-5-5/ ## 它到底想解决什么 先说一个很多人都有过的体验。 用 AI 做复杂任务,你得像个项目经理一样全程盯着它。 稍微多几个步骤,它就开始跑偏,或者干脆停下来问你"接下来怎么办"。 你花在"管理 AI"上的精力,有时候比自己动手还多。 GPT-5.5 想解决的,就是这个问题。 OpenAI 的原话是:给它一个乱糟糟的、多步骤的任务,它会自己规划、调用工具、检查结果、处理模糊情况,然后一直做下去,直到完成。 这个方向比跑分数字更值得关注。 跑分可以调参刷出来,但"能不能真的把一件复杂的事做完",才是实际工作里最重要的能力。 OpenAI 把这类能力叫做 Agentic,中文可以理解为"自主行动能力",也就是模型能像一个真正的执行者一样,自己规划步骤、调用外部工具、处理中途遇到的障碍,而不是每一步都等人指令。 ## 跑分数据,先看这几个关键的 这张表对比了 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 六个模型。 几个重点数字: Terminal-Bench 2.0(测试复杂命令行工作流,需要规划、迭代和工具协调):GPT-5.5 拿到 82.7%,GPT-5.4 是 75.1%,Claude Opus 4.7 是 69.4%。提升幅度不小。 GDPval(测试 AI 在 44 种职业里完成知识工作的能力):GPT-5.5 是 84.9%,GPT-5.4 是 83.0%,Gemini 3.1 Pro 只有 67.3%。 OSWorld-Verified(测试模型能不能独立操作真实电脑界面,比如点击、输入、切换软件):GPT-5.5 是 78.7%,GPT-5.4 是 75.0%,Claude Opus 4.7 是 78.0%,基本持平。 FrontierMath Tier 4(顶级数学难题,人类专家解起来也很吃力):GPT-5.5 是 35.4%,GPT-5.4 是 27.1%,Claude Opus 4.7 是 22.9%,Gemini 3.1 Pro 只有 16.7%。这个提升幅度相当明显。 BrowseComp(测试模型在网上深度搜索和研究的能力):GPT-5.5 Pro 拿到 90.1%,是所有模型里最高的。 ## 代码能力:不只是"写代码更快" 这两张图有个很有意思的地方:GPT-5.5 的点在右上角(得分更高),但横轴的位置(token 消耗)并没有比 GPT-5.4 多,甚至更少。 更聪明,同时更省。 这在大模型里不常见,通常能力越强,消耗越大。 Expert-SWE 是 OpenAI 内部的评测基准,专门测那种"长周期编程任务",每道题的人类预计完成时间中位数是 20 小时。GPT-5.5 在这个测试上同样超过了 GPT-5.4。 > 视频地址:https://openai.com/index/introducing-gpt-5-5/?video=1185606271 演示里,有一个是从一张截图出发,让模型用 WebGL 和 Vite(两个前端开发工具)实现一个阿尔忒弥斯二号任务的 3D 轨道可视化 app,用的是 NASA 真实数据,还要支持交互操作和真实的轨道力学。 这种任务以前需要一个有经验的前端工程师花好几天。 两个真实测试者的反馈值得引用: Dan Shipper(Every 创始人)发布 app 后遇到了一个棘手 bug,调了好几天,最后让公司最好的工程师重写了部分系统才解决。 他拿 GPT-5.5 做了个回溯测试:把 bug 出现时的代码状态给模型,让它判断该怎么修。 GPT-5.4 做不到,GPT-5.5 给出了和那位工程师基本一致的方案。 他说 GPT-5.5 是"第一个让我感受到真正概念清晰度的编程模型"。 Pietro Schirano(MagicPath CEO)让 GPT-5.5 把一个有几百处前端改动和重构的分支,合并进一个同样有大量变更的主分支。 这种合并在工程上是噩梦级别的,人工做可能要花一整天。 模型大概用了 20 分钟,一次搞定。他说"感觉像是在和一个更高智能合作,甚至有一种尊重感"。 还有一个 NVIDIA 工程师说: > "失去 GPT-5.5 的使用权,感觉像是被截肢了。" Cursor 的联合创始人 Michael Truell 也给出了具体描述:GPT-5.5 比 GPT-5.4 更持久,在复杂的长任务里不会轻易停下来,这对他们用户最依赖的那类工作影响最大。 ## 知识工作:从"回答问题"到"帮你干活" GDPval 这个测试很有意思,它不是考数学或者写代码,而是测模型在 44 种真实职业里完成知识工作的能力,比如财务分析、法律文件、市场研究。 GPT-5.5 以 84.9% 的胜率领先,Gemini 3.1 Pro 只有 67.3%,差距相当大。 OSWorld-Verified 测的是模型能不能真正"用电脑",不是在对话框里聊天,而是看屏幕、点击、输入、在不同软件之间切换。 GPT-5.5 达到 78.7%,接近 Claude Opus 4.7 的 78.0%。 Tau2-bench Telecom 测的是复杂客服工作流,GPT-5.5 达到 98.0%,GPT-5.4 是 92.8%。 而且这个测试是在没有针对性调整提示词的情况下跑的,其他模型的数据是调整过提示词之后的结果,所以这个对比对 GPT-5.5 来说其实更有说服力。 OpenAI 内部的真实使用数据: - 超过 85% 的 OpenAI 员工每周在用 Codex,覆盖工程、财务、市场、数据科学等几乎所有部门。 - Finance 团队用它审查了 24,771 份 K-1 税务表格(K-1 是美国的一种合伙人税务申报表),共 71,637 页,比去年提前了两周完成,而且流程里排除了个人隐私信息。 - Comms 团队用它分析了六个月的演讲邀请数据,建立了一套评分和风险框架,低风险请求自动处理,高风险的还是走人工审核。 - Go-to-Market 团队有人用它自动生成每周业务报告,每周省了 5 到 10 小时。 ## 科研能力:这个方向有点超出预期 GeneBench 是一个专门测多阶段科学数据分析的基准,聚焦遗传学和定量生物学。 这类任务的特点是:数据可能有错误或歧义,模型要自己判断,还要正确使用现代统计方法,而且很多题目对应的是科学专家需要花好几天的项目。 GPT-5.5 在这里的提升幅度比其他测试更明显:从 GPT-5.4 的 19.0% 跳到了 25.0%,Pro 版更是到了 33.2%。 BixBench 是围绕真实生物信息学和数据分析设计的基准(生物信息学,Bioinformatics,是用计算机方法分析生物数据的学科,比如基因序列分析)。 GPT-5.5 达到 80.5%,GPT-5.4 是 74.0%,是目前有公开成绩的模型里最高的。 数学证明的案例值得单独说。 一个内部版本的 GPT-5.5 配合自定义工具,帮助发现了一个关于拉姆齐数的新证明。 拉姆齐数(Ramsey numbers)是组合数学里的核心研究对象。 组合数学研究离散对象怎么组合在一起,比如图、网络、集合、模式。 拉姆齐数问的是:一个网络要多大,才能保证某种有序结构必然出现?这类结果极少,技术难度很高。 这个证明后来在 Lean 里得到了验证。 Lean 是一个数学形式化验证工具,可以用计算机严格检验数学证明是否成立。 也就是说,不是模型"说"它发现了证明,是真的经过了独立验证的数学结论。 两个研究者的真实使用案例: 免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个有 62 个样本、近 28,000 个基因的基因表达数据集,生成了详细研究报告,还挖出了关键问题和洞察。 他说这些工作,他的团队做可能要几个月。 数学助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里,从一个提示词出发,11 分钟内构建了一个代数几何 app,可以可视化两个二次曲面的交线,并把结果转换成 Weierstrass 模型(一种椭圆曲线的标准形式,在数论研究里很常用)。 他后来还扩展了 app,加入了更稳定的奇点可视化和精确系数输出,可以直接用于后续研究。 他说,这类自定义数学可视化工具以前需要专门的软件才能实现,现在一个提示词就能搞定。 ## 推理效率:模型帮助优化了运行自己的基础设施 这部分是原文里最容易被忽略、但技术上最有意思的地方。 GPT-5.5 是一个更大、更强的模型,按常理应该更慢、更贵。 但 OpenAI 说它的单 token 延迟和 GPT-5.4 持平,也就是响应速度没有变慢。 怎么做到的? GPT-5.5 是专门为 NVIDIA GB200 和 GB300 NVL72 系统设计和训练的。 这是英伟达最新一代的 AI 推理硬件,专门为大规模语言模型推理优化。 但硬件只是一部分。他们还对推理系统做了大量软件层面的优化,其中最有意思的一个: 以前,每个请求在 GPU 上会被切成固定数量的块来处理,这样大请求和小请求可以在同一块 GPU 上运行。 但固定分块对所有流量形状都不是最优的。 Codex 分析了几周的生产流量数据,写出了自定义的启发式算法,动态决定怎么分块和负载均衡。 这个优化让 token 生成速度提升了 20% 以上。 也就是说,模型帮助优化了运行自己的基础设施。 这个递归关系有点微妙,但非常真实。 Artificial Analysis 的智能指数是由外部机构跑的 10 个评测的加权平均,包括编程、科学、推理等多个维度。 GPT-5.5 在这张图上的位置:智能指数最高,同时 token 成本处于中等水平,也就是 OpenAI 说的"顶级智能,一半的成本"。 ## 网络安全:能力越强,管控越严 这次发布在网络安全方向有专门的篇幅,值得单独说。 OpenAI 把 GPT-5.5 的生物化学和网络安全能力都评定为 High(高风险),但还没到 Critical(临界)级别。 这是他们内部 Preparedness Framework(准备框架,用来评估模型潜在风险等级的体系)里的分级。 CyberGym 测的是模型在网络安全任务上的能力:GPT-5.5 是 81.8%,GPT-5.4 是 79.0%,Claude Opus 4.7 是 73.1%。 CTF(Capture the Flag) 是网络安全领域的一种竞赛形式,参赛者需要找到系统漏洞、获取隐藏的"Flag"字符串。 这个内部测试用的是更难的 CTF 题目,GPT-5.5 达到 88.1%,GPT-5.4 是 83.7%。 OpenAI 的应对策略分三层: 第一层,加强管控。 针对高风险网络安全请求部署更严格的分类器,他们自己也承认"一开始可能会误伤一些正常用户",会持续调整。 第二层,开放可信访问。 推出 Trusted Access for Cyber 计划,从 Codex 开始,通过身份验证的用户可以获得更少限制的网络安全能力访问权限,用于合法的防御性工作。 负责保护关键基础设施的组织可以申请访问 GPT-5.4-Cyber(专门的网络安全版本),但需要满足严格的安全要求。 申请地址是 chatgpt.com/cyber。 第三层,和政府合作。 探索如何用 AI 支持负责保护关键基础设施的政府机构,包括数字系统、电网、供水系统等。 ## 长上下文能力:这个提升幅度很惊人 MRCR(Multi-Round Conversation Retrieval) 测的是模型在超长对话里找到正确信息的能力。 8 根针,意思是在对话里藏了 8 条关键信息,看模型能不能全找到。 在 512K 到 1M token 的超长上下文里,GPT-5.5 达到 74.0%,GPT-5.4 只有 36.6%,Claude Opus 4.7 是 32.2%。 翻倍的提升。 这意味着 GPT-5.5 在处理超长文档、超长对话时,信息检索能力远超前代。 Graphwalks 测的是在超长图结构数据里做推理(比如找路径、找父节点)。 在 1M token 的场景下,GPT-5.5 的 BFS(广度优先搜索)得分是 45.4%,GPT-5.4 只有 9.4%。 ## 抽象推理:ARC-AGI-2 的数字很有意思 ARC-AGI 是一个专门测试抽象推理和模式识别的基准,被认为是衡量"类人推理能力"的重要指标。 ARC-AGI-1(相对简单版本):GPT-5.5 是 95.0%,Gemini 3.1 Pro 是 98.0%,GPT-5.5 略低。 ARC-AGI-2(更难版本):GPT-5.5 是 85.0%,GPT-5.4 是 73.3%,Claude Opus 4.7 是 75.8%,Gemini 3.1 Pro 是 77.1%。GPT-5.5 在这里反而领先了。 ## 定价和可用性,说清楚 ChatGPT 里: - GPT-5.5 Thinking:Plus、Pro、Business、Enterprise 用户可用 - GPT-5.5 Pro(更难问题,更高精度):Pro、Business、Enterprise 用户可用 Codex 里: - GPT-5.5:Plus、Pro、Business、Enterprise、Edu、Go 计划可用 - 上下文窗口:400K token - Fast 模式:速度快 1.5 倍,价格是 2.5 倍 API(开发者接口): OpenAI 特别说明:虽然 GPT-5.5 比 GPT-5.4 贵,但因为完成同样任务用的 token 更少,实际总成本对大多数用户来说不会增加太多,在 Codex 里甚至可能更省。 ## 最后说一个更大的背景 这次发布有一句话值得反复读: > "过去一年,AI 在软件工程领域的渗透速度极快。GPT-5.5 想做的,是把这种渗透扩展到科学研究和更广泛的知识工作。" 软件工程是第一个被大规模改变的领域,因为代码是结构化的,对错容易验证,反馈循环很快。 科学研究更难,因为数据有噪声,结论需要专业判断,验证周期很长。 但从 GeneBench、BixBench、数学证明这些案例来看,模型正在从"回答科学问题"变成"参与科学过程"。 这两件事之间的距离,比看起来要大得多。 能不能真的做到,还需要时间验证。但方向已经很清楚了。

译OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。

查看原推 ↗
swyx 🇸🇬@swyx · 4月26日70

btw we are cooking something with @hhua_ (not final yet but keep calendar open after ICML in Seoul)

译DeepSeek团队正式推出并开源了DeepSeek-V4预览版模型,标志着高性价比的百万上下文长度时代到来。该系列包含两个模型:DeepSeek-V4-Pro拥有1.6万亿总参数和490亿活跃参数,性能媲美顶级闭源模型;DeepSeek-V4-Flash则拥有2840亿总参数和130亿活跃参数,主打快速、高效与经济。模型现已在官方平台通过专家模式和即时模式开放试用,API也已同步更新。完整的技术报告和模型权重已在Hugging Face平台发布,供社区研究和应用。

查看原推 ↗
meng shao@shao__meng · 4月25日63

腾讯混元 26.02 重建预训练与强化学习基础设施后,发布了首个模型「Hy3 preview」,不仅是混元"最智能的模型",更标志着团队从"追榜"逻辑向实用主义的系统转型,模型采用 MoE 架构,总参数 295B / 激活参数 21B,支持 256K 上下文,采用快慢思考融合机制 # 三大原则定义"真实战斗力" 混元团队明确提出了重建后的三条核心原则,这决定了 Hy3 的评测与训练逻辑: · 能力体系化:拒绝"偏科"。即使是代码智能体单一应用,也需推理、长文、指令、对话、工具调用等能力深度协同 · 评测真实性:主动跳出易被刷榜的公开榜单,转而采用自建题目、最新考试(如 2025 生物学联赛、清华求真书院 26 春博资考)、人工评测、产品众测等方式 · 性价比追求:模型架构与推理框架深度协同设计,以降低任务成本,追求商业合理性 # 能力表现:推理与长文跃升,代码智能体进步最大 通过多组对比(vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh)展示了 Hy3 的能力边界: 1. 复杂推理:进入第一梯队,但顶尖数学仍有差距 · 优势领域:FrontierScience-Olympiad(70.0)、IMO Answer Bench(84.3)、CHSBO 2025(87.8)、GPQA-Diamond(87.2)均达到或接近国际顶尖水平。 · 相对短板:在清华求真书院数学博资考上,Hy3(88.4)与 GPT-5.4 xhigh(99.3)存在明显差距;HLE 基准(30.0)也落后于 Gemini-3.1-Pro(44.4)等。 · 结论:基础理工科推理能力已具备强泛化性,但面对最高难度的纯数学推理时,与全球绝对顶尖模型仍有距离。 2. 上下文学习与指令遵循:自研基准,提升显著 · 团队基于业务场景灵感,自研了 CL-bench 和 CL-bench-Life 来评估上下文学习能力。 · 在 AdvancedIF(79.5)、AA-LCR(66.3)、LongBench v2(65.4)等标准长文任务上,Hy3 较前代 Hy2 提升明显,并进入第一梯队。 · 但在自研的 CL-bench(22.8)和 CL-bench Life(15.7)上,仍落后于 GPT-5.4 xhigh(26.7 / 19.2),说明超长上下文的复杂隐式推理仍是行业共同难题。 3. 代码与智能体:提升最为显著的方向 "提升最为显著的方向",在 SWE-Bench Verified、Terminal-Bench 2.0 以及 BrowseComp、WideSearch 等主流基准中取得了强竞争力的结果。 # 关键亮点:非结构化信息的隐性挖掘能力 官方展示的会议纪要排期案例极具代表性,体现了 Hy3 区别于传统指令遵循的核心优势: · 输入:一段口语化、多轮穿插、信息分散的对话(包含春分日期、新人介绍、请假安排、加班调休、工作日规则、开发流程依赖等)。 · 挑战:需识别隐含约束(如"20号春分上线"意味着硬 deadline,"下周一请假"需顺延工作日,"周六加班"可计入工期但周日休息)。 · 输出:将非结构化对话转化为严格符合格式要求、逻辑自洽的排期表格。 官方博客 https://hy.tencent.com/hy3-preview 下方信息卡绘制用的就是 Hy3 Preview 模型,Skills 和提示词在这: https://x.com/shao__meng/status/2035720327037108673?s=20

译腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 4月25日79

这才是那个 Deepseek 啊,Deepseek 限时 2.5 折! V4-Pro 百万 Token 输出只需要 6 块钱朋友们,这还要啥自行车

译DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

查看原推 ↗
Berryxia.AI@berryxia · 4月25日56

每个人都在忽略这个新的 OCR 模型! - 在 olmocr bench 上达到 85.9%(sota) - 支持 90+ 种语言,附带基准测试 - 40 亿参数模型(从 90 亿参数减少) - 完整布局信息 - 提取并为图像和图表添加说明 - 强大的手写、数学、表单、表格支持 100% 开源。

译一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

查看原推 ↗
阿绎 AYi@AYi_AInotes · 4月25日67

写长篇小说的兄弟们,autonovel 来了,200+tokens/s 极速生成,几十分钟就能出百万字长稿。 写过长篇的都懂,最折磨人的不是没灵感,是写着写着上下文崩了,伏笔忘了,人物突然 OOC,熬几个月才磨出几十万字。 autonovel 基于最新的 Ling-2.6-flash,专门针对长篇写作做了深度优化,从世界观设定角色构建大纲生成到正文精修全流程打通。 最狠的是它的上下文一致性和剧情推演能力,埋的伏笔能自己回收,人物性格全程在线,再也不用翻前面几百章找自己写过的设定。 200+tokens/s 的生成速度是真的离谱,手指刚离开键盘,屏幕上的字还在往上滚,喝杯水的功夫几千字就出来了。 以前写百万字初稿要熬大半年,现在几十分钟就能出完整框架,你只需要负责调整方向和打磨细节。 这才是 AI 真正能解放创作者生产力的地方,把你从重复的码字劳动里拽出来,专心去想真正值钱的故事。 感兴趣的兄弟评论区自取链接,趁现在刚上线还有免费额度可以体验。 #autonovel #Ling26flash #AI写作 #长篇小说 #网文写作

译autonovel是基于Ling-2.6-flash的AI写作工具,专为长篇小说创作优化。它能以200+ tokens/s的速度生成文本,大幅提升创作效率,并在上下文一致性、伏笔回收和人物性格保持方面表现突出,帮助作者从繁琐的码字劳动中解放,更专注于故事构思。目前提供免费体验额度。

查看原推 ↗
Greg Brockman@gdb · 4月25日72

gpt-5.5 is a big step up in performance, give it a try:

译gpt-5.5 在性能上实现大幅提升,试试看吧:

查看原推 ↗
AK@_akhaliq · 4月25日74

DeepSeek-V4 paper is out on Hugging Face paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

译DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

查看原推 ↗
Artificial Analysis@ArtificialAnlys · 4月24日63

Xiaomi has just released MiMo V2.5 Pro which performed very strongly on Artificial Analysis Intelligence Index (54). It is one of the leading models on agentic index and is expected to open source its weights. @Xiaomi's MiMo V2.5 Pro shows an impressive improvement over MiMo V2 Pro (49), the previous generation of Xiaomi's flagship model family, which was released just over a month ago on March 19, 2026. MiMo V2.5 Pro will be open weights, but weights have not yet been released. With continued progress and an accelerated release cadence, Xiaomi, currently trails only OpenAI, Anthropic, Google, and Moonshot in intelligence Key takeaways: ➤ MiMo V2.5 Pro leads open weights models in agentic capabilities with a 67% Agentic Index score. This is higher than both Kimi K2.6 (66%) and MiniMax M2.7 (61%), driven by τ²-Bench (94%) and strong TerminalBench Hard performance (43%). This indicates the model would be more capable in agentic reasoning workflows. ➤ Other gains are made in frontier reasoning and instruction following. The model scores 34% on HLE (+6% from MiMo V2.0) and 80% on IFBench (+11% from MiMo V2.0). However, compared to the previous generation, we saw a small regression in CritPt (5% to 4%). ➤ MiMo V2.5 Pro's token efficiency remains competitive against peers in a similar intelligence tier, using ~92M output tokens for the Intelligence Index. This is more efficient than Kimi K2.6 (~170M) and GLM 5.1 (~110M). However, it does use 19% more than the previous generation MiMo V2 Pro (77M). ➤ Priced at $1.00/$3.00 per M input/output tokens on Xiaomi’s First Party API, MiMo V2.5 Pro is relatively cost-efficient for its intelligence tier. It costs only $462 to run the Artificial Analysis Intelligence Index, compared to $948 for Kimi K2.6 and $544 for GLM 5.1. ➤ MiMo V2.5 Pro scores 4 on the AA-Omniscience Index, a proprietary Artificial Analysis evaluation that measures factual accuracy and hallucinations. This is a slight regression from MiMo V2 Pro (5), though both models still trail proprietary frontier models. MiMo V2.5 demonstrates a relatively low hallucination rate (25%) but also low accuracy (23%). Additional model details: ➤ Context window: 1M tokens ➤ Parameters: 1T total, 42B active ➤ License: Open weights but not public yet. MIT License ➤ Release date: April 22, 2026 ➤ Availability: MiMo V2.5 Pro is available via Xiaomi's first-party API

译小米于2026年4月22日发布MiMo V2.5 Pro模型,其在Artificial Analysis智能指数得分54,表现强劲。该模型在代理能力上领先,Agentic Index得分67%,优于Kimi K2.6等开源模型,这主要得益于在τ²-Bench和TerminalBench Hard上的优异表现。此外,其在前沿推理和指令遵循方面也有提升。模型具有1M上下文窗口,1T总参数,API定价具有成本效益,运行同一智能指数仅需462美元。不过,其在事实准确性指数上得分4,存在准确率较低的问题。模型采用MIT许可证,权重暂未公开,目前可通过小米官方API使用。

查看原推 ↗
Chubby♨️@kimmonismus · 4月24日61

Deepseek v4 real moat? Sota intelligence at ~1/3 of frontier labs prices

译Deepseek v4 真正的护城河?以约前沿实验室1/3的价格实现顶尖智能

查看原推 ↗
Chubby♨️@kimmonismus · 4月24日61

Did Deepseek really wait until OpenAI released GPT-5.5 to steal the show?

译Deepseek 真的等到 OpenAI 发布了 GPT-5.5 才来抢风头吗?

查看原推 ↗
Chubby♨️@kimmonismus · 4月24日49

1m Standard and ultra high context efficiency is what me excites me

译1m 标准与超高上下文效率是让我兴奋之处

查看原推 ↗
Ethan Mollick@emollick · 4月24日54

And now a new DeepSeek model, and appears to be fully open weights. Good benchmarks, but with open models, that isn't always as meaningful. Should be live soon to actually try.

译现在又有了新的DeepSeek模型,而且似乎是完全开放权重的。基准测试成绩不错,但对于开源模型来说,这并不总是那么有意义。应该很快就能实际体验了。

查看原推 ↗
Chubby♨️@kimmonismus · 4月24日63

Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

译Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

查看原推 ↗
Chubby♨️@kimmonismus · 4月24日66

Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a new record on Codeforces. Needs to be tested against opus 4.7 and GPT-5.5 tho and see if real world usage holds its promises. Big release! Sota open source model!

译Deepseek v4 相比 DeepSeek 3 是一次巨大的飞跃,在 SWE verified 上超越了 opus 4.6 和 GPT-5.4,并在 Codeforces 上创造了新纪录。 但仍需针对 opus 4.7 和 GPT-5.5 进行测试,并观察实际使用是否如其承诺般出色。 重大发布!顶尖的开源模型!

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月29日
09:35
阿绎 AYi@AYi_AInotes
精选76
蚂蚁发布Ling-2.6系列模型,以极致token效率推动AI生产落地竞赛

蚂蚁集团发布Ling-2.6系列模型,通过MoE架构与Fast-Thinking机制,将推理激活率降至7%,在实现接近GPT-5.4非推理水平综合智能的同时,大幅降低token成本。该模型在SWE-bench Verified等真实Agent场景测试中表现领先,旨在解决Agent规模化应用的成本痛点。目前已在OpenRouter提供免费API并即将开源,推动行业焦点从刷榜转向生产落地。其高效率特性尤其适合高频任务,在部分任务中速度比Claude Sonnet 4.6快6倍、成本低50倍。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体推理评测/基准
关联讨论 6 条X:阿易 AI Notes (@AYi_AInotes)X:Artificial Analysis (@ArtificialAnlys)蚂蚁百灵:Developer Blog(网页)IT之家(RSS)蚂蚁 inclusionAI:HuggingFace 新模型X:蚂蚁百灵 (@AntLingAGI)
推荐理由:把 token 成本砍到对手四分之一而智能分不降,Agent 规模化终于有了真正的成本解决方案,做 Agent 的必看。
08:38
Berryxia.AI@berryxia
65
OpenBMB发布的MiniCPM-o 4.5是一个仅90亿参数的多模态模型,实现了从传统轮询交互到实时、原生全双工流式交互的范式突破。其Omni-Flow框架能在统一时间线上毫秒级同步处理视频、音频和文本流,无需外部语音检测即可同时感知与响应。该模型在多模态基准测试中表现接近Gemini 2.5 Flash,并专为边缘AI设计,支持完全离线运行,提供Windows/macOS一键安装(仅需12G显存),保障100%数据隐私,同时开源权重并提供免费社区API。

OpenBMB: 🚀 🚀Excited to announce the technical report of MiniCPM-o 4.5! MiniCPM-o 4.5 transitions #AI interaction from tradition...

GitHub多模态开源生态模型发布
07:38
Berryxia.AI@berryxia
67
由前GitHub CTO Jason Warner创立的Poolside AI团队开源了其首个权重模型Laguna XS.2。该模型采用33B总参数、3B激活参数的MoE架构,专为Agentic Coding和长时序任务设计,可在单张GPU上运行,并采用Apache 2.0开源协议。团队同时发布了当前最强版模型Laguna M.1以及Agent Harness,标志着其在智能编码代理赛道成为新的竞争者。

poolside: Today we're releasing Laguna XS.2, Poolside's first open-weight model. It's a 33B total / 3B active MoE model built for ...

智能体开源生态模型发布编码
07:38
Berryxia.AI@berryxia
60
NVIDIA发布高效开源多模态模型Nemotron 3 Nano Omni

NVIDIA 重磅发布!🚀 Nemotron 3 Nano Omni 多模态开源模型来了! 🔥 30B 参数 🔥 256K 超长上下文 🔥 最高效开放多模态模型(语言+视觉+语音+视频+音频一体化) 🔥 专为 subagents / Agentic 任务设计 🔥 完全开源(权重 + 数据 + 配方),领跑多项榜单 可通过 NVIDIA NIM API 免费试用!完美驱动多代理工作流。

NVIDIA AI: Meet Nemotron 3 Nano Omni 👋 Our latest addition to the Nemotron family is the highest efficiency, open multimodal model...

智能体多模态开源生态模型发布
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)Nathan Lambert:Interconnects(RSS)Hugging Face:Blog(RSS)X:OpenRouter (@OpenRouter)
05:39
AK@_akhaliq
59
Nvidia发布了Nemotron 3 Nano Omni 在Hugging Face上为其制作了一个gradio应用
多模态开源/仓库端侧
01:38
Ant Ling@AntLingAGI
57
推文感谢Hugging Face为开源模型的持续发展提供了重要平台。文中强调,token效率是构建实用、可持续协作系统的关键。AntLingAGI最新发布的Ling-2.6-flash模型已加入这场效率竞争,该模型采用MIT许可,具备104B/7.4B激活参数,并创新性地结合了1:7 MLA与Lightning Linear混合注意力机制。其性能表现突出:推理速度高达340 tok/s,并且仅需约1500万tokens即可完成完整的Artificial Analysis评测套件。这一效率显著高于通常需要5000万至1亿tokens的前沿模型,展现出其作为高效协作伙伴的潜力。

Adina Yakup: Token efficiency has become a major battleground, Ling-2.6-flash released by @AntLingAGI just enters the race 🔥 ✨ 104B/...

开源生态推理模型发布
01:35
阿绎 AYi@AYi_AInotes
66
蚂蚁发布Ling-2.6-1T模型,以token效率革新生产级AI

蚂蚁集团AGI团队发布Ling-2.6-1T模型,其核心创新在于聚焦token效率而非参数规模。该模型采用MoE架构,每次推理仅激活7.4B参数,结合Linear Attention与Multi-Token Prediction技术,在保持接近GPT-5.4非推理水平的高智能同时,将token成本降至可比模型的四分之一。在Artificial Analysis评测中以极低消耗获得高分,并在SWE-bench等硬核Agent场景领先。该模型专为处理海量真实生产请求设计,旨在为高频Agent应用提供高效、低成本的解决方案,并通过免费API策略加速生态布局,预示AI竞赛重心正向真实生产成本效率转移。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体模型发布部署/工程
01:08
AK@_akhaliq
44
SenseNova U1 已在 Hugging Face 发布 https://huggingface.co/collections/sensenova/sensenova-u1
Hugging Face开源生态模型发布
01:03
Ant Ling@AntLingAGI
59
AntLingAGI宣布将其模型Ling-2.6-flash正式开源,该模型此前在OpenRouter平台上曾以"Elephant Alpha"为名提供API服务。目前,模型已在Hugging Face和ModelScope平台全面开放,供公众自由使用与构建。模型关键参数为总参数量1040亿,激活参数量74亿,在Artificial Analysis基准测试中输出速度约为每秒215个token,并支持BF16、FP8和INT4多种精度格式。此次开源得到了合作伙伴Novita Labs,以及lmsysorg的SGLang团队和vllm项目的技术支持。

Novita AI: Ling-2.6-flash is now officially open-sourced 🚀 (from @AntLingAGI) Was "Elephant Alpha" on OpenRouter. Now fully open f...

开源/仓库模型发布端侧
00:53
Ant Ling@AntLingAGI
59
vLLM项目团队宣布对Ling-2.6-flash模型提供Day-0首发支持,体现了开源生态系统构建者之间的高效协同。Ling-2.6-flash是一个专为需要快速响应和强大执行力的现实世界智能体设计的即时指令MoE模型。其核心特点包括:1040亿总参数与74亿激活参数的高度稀疏混合专家架构,结合了1:7 MLA与Lightning Linear注意力机制,支持262K上下文长度,并具备原生工具调用能力,可无缝接入Claude Code、Kilo Code、Qwen Code、Hermes、OpenClaw等主流框架。

vLLM: 🎉 Day-0 vLLM support for Ling-2.6-flash from @AntLingAGI! Ling-2.6-flash is an instant (instruct) MoE model built for r...

智能体开源生态模型发布
4月28日
23:51
Ant Ling@AntLingAGI
精选62
AntLingAGI与SGLang团队合作,正式推出Ling-2.6-flash(亦称Elephant-alpha)即时指令模型,并在SGLang平台上实现了首发支持。该模型总参数量达104B,但活跃参数仅7.4B,专为低延迟的智能体工作流优化,能够实现即时响应。它在编码、文档处理和智能体任务中展现出极高的token效率,所用token数量显著减少。尽管活跃参数较少,其模型质量仍与当前SOTA水平相当,兼具速度与执行力,适合需要快速响应的生产级智能体应用。团队强调,快速且稳定的推理是提升用户体验的关键。

LMSYS Org: 🎉 Meet Ling-2.6-flash from @AntLingAGI, an instant instruct model with 104B total params (7.4B active). Day-0 support i...

智能体模型发布部署/工程

推荐理由:104B 总参但只激活 7.4B,蚂蚁这步棋是冲着 Agent 场景的低延迟去的,做 Agent 产品的人值得跑一下看看实际体感。
23:19
Ant Ling@AntLingAGI
59
灵码2.6-flash模型正式开源,专为高效智能体工作流打造

灵码2.6-flash模型现已开源,这是一个专为现实世界智能体工作流构建的快速、高效的指令模型。该模型总参数量达1040亿,激活参数量为74亿,并提供BF16、FP8和INT4多种量化版本以适应不同部署需求。其核心优势包括:生成速度高达每秒215个token,在完整评估中仅消耗1500万token,效率突出;在代码、文档处理和轻量级智能体工作流等实际任务中表现强劲;同时,其中英文切换能力及与主流编程框架的兼容性也得到了进一步改善。

智能体开源/仓库模型发布编码
23:15
OpenRouter@OpenRouter
精选64
@poolsideai 的首批公开基础模型刚刚在 OpenRouter 上发布! Laguna M.1 和 Laguna XS.2。专为智能体编码和长周期工作从头构建。限时免费 ⬇️
智能体模型发布编码

推荐理由:Poolside 终于把自家模型放出来了,主打长上下文 agentic coding,免费期是薅羊毛窗口。做 coding agent 的团队值得拿 Laguna 跑一轮自己的 benchmark,看看和 Claude、Codex 的真实差距。
20:36
Chubby♨️@kimmonismus
59
Microsoft 推出 "TRELLIS.2":一个开源的、40亿参数的图像转3D模型,可生成高达15363的PBR纹理资产。 基于原生3D VAES,具有16倍空间压缩能力,提供高效、可扩展、高保真的资产生成。 说实话,相当酷!
Microsoft多模态开源生态模型发布
20:25
SenseTime@SenseTime_AI
59
SenseNova U1 Lite系列开源,统一多模态理解与生成

SenseNova宣布开源其U1 Lite系列模型。该系列基于NEO-unify架构,原生统一了多模态理解与生成能力。其核心优势包括:在开源模型中具备领先的效率,紧凑的8B和A3B模型在保持商业级性能的同时实现了优异的成本效益;支持原生的图像-文本交织生成,单一模型即可在单次流程中生成连贯交织的图文内容,适用于制作指南等实用场景;并拥有高密度信息渲染能力,擅长为知识图解、海报、PPT、漫画等信息密集型格式生成结构丰富的版式。模型已在Hugging Face、GitHub等平台发布。

图像生成多模态开源/仓库模型发布
18:36
Berryxia.AI@berryxia
56
商汤开源多模态大模型SenseNova-U1,推动本地化部署

商汤发布开源可商用的多模态大模型SenseNova-U1,采用NEO-Unify架构统一处理视觉与语言。其核心功能包括图文交错生成、智能图像编辑与图表渲染。模型提供8B密集版和约3B活性参数的轻量版,适合个人显卡本地部署。现提供每日5小时及1500次免费调用额度,并即将推出办公场景应用功能。

图像生成多模态开源生态模型发布
13:33
Alibaba Cloud@alibaba_cloud
53
Qwen3.6全系列模型已在NetMind平台上线,专为不同生产场景的智能体应用设计。该系列包含三个模型:Qwen3.6-Plus专注于前沿推理和长上下文,适用于复杂编码任务;Qwen3.6-Flash强调速度、规模和成本效益,适合大规模实时编码辅助;Qwen3.6-35B-A3B提供开源权重和Apache 2.0许可,支持自主托管和微调。所有模型共享高效的混合架构,具备函数调用和推理能力,并运行在NetMind的低延迟基础设施上,提供统一的OpenAI兼容端点。平台还提供即用代码,便于开发者快速集成和使用。

NetMind.AI: We're thrilled to announce that the full Qwen3.6 family, built for real-world agents at every scale with benchmark-toppi...

智能体模型发布编码
10:45
歸藏(guizang.ai)@op7418
60
作者表示将尝试为Codepilot用户争取免费的Token补贴。这一考虑基于小米MiMo -V2.5系列模型的开源动态,该模型采用MIT协议,允许自由商用、二次训练与微调。同时,小米推出了Orbit 100T Token计划,包含面向AI builder的"百万亿Token创造者激励计划"和面向Agent框架团队的"Agent生态共建计划"。激励计划为通过申请的用户提供Token支持,如最高16亿Credits。作者意图借鉴此机制为Codepilot社区谋取福利。

歸藏(guizang.ai): 小米 MiMo -V2.5 系列模型全部开源 采用宽松的 MIT 协议,允许自由商用、二次训练与微调,无需额外授权。 同时他们还推出了Orbit 100T Token 计划。 这个太牛批了!如果你有自己 Vibe Coding 一些东西可以...

开源/仓库模型发布
10:42
歸藏(guizang.ai)@op7418
精选74
小米 MiMo-V2.5 系列模型全部开源

小米正式开源MiMo-V2.5系列模型,采用宽松的MIT协议,允许自由商用、二次训练与微调。该系列包含两个支持100万token上下文窗口的模型:专为复杂Agent和编码任务设计、在多项评测领先的MiMo-V2.5-Pro,以及具备强大Agent能力的原生全模态模型MiMo-V2.5。同时,小米推出Orbit 100T Token计划,包含面向AI开发者的“百万亿Token创造者激励计划”,提供最高价值659元的Credits,以及面向Agent框架团队的“Agent生态共建计划”,为其用户提供MiMo token限免支持。

Xiaomi MiMo: Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...

智能体开源/仓库模型发布端侧
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:Testing Catalog (@testingcatalog)IT之家(RSS)
推荐理由:小米把 MiMo-V2.5 全线 MIT 开源,Pro 版在 agent 和编码榜单冲到开源第一,百万亿 Token 激励计划更是直接送钱让你用,做 Vibe Coding 的人没理由不去薅一把。
09:45
meng shao@shao__meng
精选75
小米开源MiMo-V2.5系列大模型

小米正式开源MiMo-V2.5系列模型,包含专注于代码代理的1T参数MoE模型MiMo-V2.5-Pro,以及支持多模态代理的310B参数MoE模型MiMo-V2.5,两者均支持1M上下文长度。其架构核心采用混合注意力、多Token预测和稀疏MoE技术,以支撑万亿参数规模下的高效长文处理。后训练基于MOPD范式,通过多教师策略蒸馏提升模型综合能力。同时,小米推出100T Token的创造者激励计划,为开发者提供免费计算资源以鼓励创新。模型已在Hugging Face平台开源。

Fuli Luo: Just dropped two open-source models: MiMo-V2.5-Pro (Code Agent, 1T total) and MiMo-V2.5 (Multimodal Agent, 310B total). ...

智能体开源/仓库模型发布端侧
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:Testing Catalog (@testingcatalog)IT之家(RSS)
推荐理由:小米把万亿参数 MoE 做到开源且百万上下文,MTP 三层原生集成让推理速度翻三倍,这在国内大厂开源里是第一个真正敢放权重的万亿级模型,做 Agent 的值得认真看看。
07:23
Berryxia.AI@berryxia
69
小米开源MiMo-V2.5系列模型,支持百万token上下文

小米正式开源MiMo-V2.5系列模型,采用MIT许可证,允许商业部署、持续训练和微调。两个模型均支持100万token上下文窗口:MiMo-V2.5-Pro专为复杂Agent和编码任务设计,在开源模型的GDPVal-AA和ClawEval基准测试中排名第一;MiMo-V2.5是原生多模态模型,具备强大的Agent能力。小米强调,模型的价值不应仅由排行榜衡量,而应取决于其解决实际问题的能力。

Xiaomi MiMo: Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...

智能体开源/仓库模型发布编码
04:26
AK@_akhaliq
51
小米 MiMo-V2.5 已在 Hugging Face 发布 https://huggingface.co/collections/XiaomiMiMo/mimo-v25
多模态开源/仓库模型发布
03:45
Fuli Luo@_LuoFuli
精选76
小米宣布开源两个大模型:专攻复杂智能体和编码任务的MiMo-V2.5-Pro,以及原生全模态模型MiMo-V2.5。两者均支持100万token的上下文长度,并采用允许商业部署和微调的MIT许可证。同时,小米为开发者和创作者提供了100万亿token的免费额度,鼓励基于此构建应用。模型的价值不仅在于其在GDPVal-AA和ClawEval等基准测试中的排名,更在于其解决实际问题的能力。

Xiaomi MiMo: Xiaomi MiMo-V2.5 is now officially open-sourced! MIT License, supporting commercial deployment, continued training, and ...

智能体开源/仓库模型发布编码
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:Testing Catalog (@testingcatalog)IT之家(RSS)
推荐理由:小米这次把 1T 参数的 Code Agent 模型直接 MIT 开源,还送 100T 免费 token,诚意拉满。做 coding agent 的团队值得认真看看,这可能是目前开源阵营里最强的代码智能体基座。
01:48
Xiaomi MiMo@XiaomiMiMo
精选71
小米开源MiMo-V2.5双模型,支持百万上下文与商用

小米正式开源MiMo-V2.5系列模型,采用MIT许可,支持商业部署、继续训练与微调。该系列包含两个支持100万令牌上下文窗口的模型:MiMo-V2.5-Pro专为复杂智能体和编码任务设计,在GDPVal-AA和ClawEval基准测试中位列开源模型第一;MiMo-V2.5则是具备强大智能体能力的原生全模态模型。官方强调,模型的价值不仅在于排名,更在于其解决实际问题的能力,并已公开模型权重与技术博客。

智能体开源生态模型发布编码
关联讨论 3 条X:Artificial Analysis (@ArtificialAnlys)X:Testing Catalog (@testingcatalog)IT之家(RSS)
推荐理由:小米把 MiMo-V2.5 直接 MIT 开源且支持商用,1M 上下文 + Agent 能力在开源阵营里确实能打,做 Agent 产品的团队值得花半小时跑一下 benchmark 看看真实水平。
4月27日
17:20
Kimi.ai@Kimi_Moonshot
50
Kimi K2.6 现已登上 OpenRouter 每周 LLM 排行榜首位 🏆 衷心感谢每一位使用 Kimi 进行开发的开发者。我们将继续埋头苦干,持续交付。
开源生态模型发布评测/基准
4月26日
23:20
向阳乔木@vista8
精选85
OpenAI发布GPT-5.5,重点提升AI自主执行复杂任务能力

OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。

OpenAI推理模型发布编码
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)IT之家(RSS)
推荐理由:GPT-5.5 的核心叙事不是跑分,而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token,这两个信号叠加在一起,做 Agent 和科研工具的人该认真评估了。
03:51
swyx 🇸🇬@swyx
精选70
DeepSeek团队正式推出并开源了DeepSeek-V4预览版模型,标志着高性价比的百万上下文长度时代到来。该系列包含两个模型:DeepSeek-V4-Pro拥有1.6万亿总参数和490亿活跃参数,性能媲美顶级闭源模型;DeepSeek-V4-Flash则拥有2840亿总参数和130亿活跃参数,主打快速、高效与经济。模型现已在官方平台通过专家模式和即时模式开放试用,API也已同步更新。完整的技术报告和模型权重已在Hugging Face平台发布,供社区研究和应用。

DeepSeek: 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 Dee...

DeepSeek开源生态模型发布
关联讨论 6 条IT之家(RSS)Hugging Face:Blog(RSS)X:Rohan Paul (@rohanpaul_ai)X:DeepSeek (@deepseek_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:DeepSeek-V4 把 MoE 推到 1.6T 总参、49B 活跃,百万上下文 + 开源权重,这是开源阵营第一次在旗舰级闭源模型面前不落下风,做长上下文应用的团队该认真测一下了。
4月25日
22:17
meng shao@shao__meng
63
腾讯混元发布首个重建基础设施后模型「Hy3 preview」

腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。

Tencent Hy: 👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and age...

开源/仓库推理模型发布编码
关联讨论 3 条IT之家(RSS)X:karminski (@karminski3)X:腾讯混元 (@TencentHunyuan)
21:36
歸藏(guizang.ai)@op7418
精选79
DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

歸藏(guizang.ai): DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...

DeepSeek推理模型发布
关联讨论 6 条IT之家(RSS)Hugging Face:Blog(RSS)X:Rohan Paul (@rohanpaul_ai)X:DeepSeek (@deepseek_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:DeepSeek V4-Pro 百万 token 输出只要 6 块,这个定价直接把 Opus 4.6 级别的能力拉到了白菜价,做 Agent 和长上下文应用的产品人该重新算账了。
19:13
Berryxia.AI@berryxia
56
开源OCR模型性能突破,支持90余种语言与完整布局解析

一款新的开源OCR模型在olmocr基准测试中达到85.9%的SOTA性能。该模型参数量为40亿,由90亿参数精简而来,支持超过90种语言并附带基准测试。其核心能力包括保留完整的文档布局信息,能从图像和图表中提取并生成说明文字,同时对手写文本、数学公式、表单及表格具备强大的识别与解析支持。

多模态开源/仓库模型发布
19:11
阿绎 AYi@AYi_AInotes
67
长篇小说AI创作工具autonovel发布,基于Ling-2.6-flash实现极速生成

autonovel是基于Ling-2.6-flash的AI写作工具,专为长篇小说创作优化。它能以200+ tokens/s的速度生成文本,大幅提升创作效率,并在上下文一致性、伏笔回收和人物性格保持方面表现突出,帮助作者从繁琐的码字劳动中解放,更专注于故事构思。目前提供免费体验额度。

阿绎 AYi: 后续来了兄弟们,卧槽真的太炸了,同样的任务,同样的配置,速度比Claude Sonnet 4.6还快 6 倍,成本低约 50 倍, openrouter 和 官方 API 均限时免费 1 周使用时间,白嫖的机会,冲啊兄弟们! 我上周那条讲E...

智能体模型发布部署/工程
03:12
Greg Brockman@gdb
精选72
gpt-5.5 在性能上实现大幅提升,试试看吧:

Satya Nadella: Super excited GPT-5.5 is rolling out to GitHub Copilot, M365 Copilot, Copilot Studio, and Foundry today. With deeper rea...

OpenAI推理模型发布编码
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)IT之家(RSS)
推荐理由:GPT-5.5 本身是代际级更新,但这条推文只是转发 Nadella 的官宣,没有新数据或新角度。真正值得关注的是它已经铺进 Copilot 全线,做编码和办公场景的人今天就能摸到。
02:08
AK@_akhaliq
精选74
DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek推理模型发布
关联讨论 7 条X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)Hugging Face:Blog(RSS)X:Rohan Paul (@rohanpaul_ai)X:DeepSeek (@deepseek_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:DeepSeek-V4 论文终于落地,这是今年开源阵营最被期待的模型之一,做推理和开源部署的同行值得花时间啃一遍技术细节。
4月24日
14:19
Artificial Analysis@ArtificialAnlys
63
小米发布MiMo V2.5 Pro模型,智能与代理能力表现强劲

小米于2026年4月22日发布MiMo V2.5 Pro模型,其在Artificial Analysis智能指数得分54,表现强劲。该模型在代理能力上领先,Agentic Index得分67%,优于Kimi K2.6等开源模型,这主要得益于在τ²-Bench和TerminalBench Hard上的优异表现。此外,其在前沿推理和指令遵循方面也有提升。模型具有1M上下文窗口,1T总参数,API定价具有成本效益,运行同一智能指数仅需462美元。不过,其在事实准确性指数上得分4,存在准确率较低的问题。模型采用MIT许可证,权重暂未公开,目前可通过小米官方API使用。

智能体开源生态模型发布
13:24
Chubby♨️@kimmonismus
61
Deepseek v4 真正的护城河?以约前沿实验室1/3的价格实现顶尖智能

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek开源生态模型发布编码
11:54
Chubby♨️@kimmonismus
61
Deepseek 真的等到 OpenAI 发布了 GPT-5.5 才来抢风头吗?

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek开源生态模型发布编码
11:54
Chubby♨️@kimmonismus
49
1m 标准与超高上下文效率是让我兴奋之处

DeepSeek: Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...

DeepSeek模型发布部署/工程
11:24
Ethan Mollick@emollick
54
现在又有了新的DeepSeek模型,而且似乎是完全开放权重的。基准测试成绩不错,但对于开源模型来说,这并不总是那么有意义。应该很快就能实际体验了。
DeepSeek开源/仓库模型发布
11:24
Chubby♨️@kimmonismus
63
Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️: DEEEPSEEK 4 RELEASED!! Holy!! Lets go

DeepSeek模型发布评测/基准
11:24
Chubby♨️@kimmonismus
66
Deepseek v4 相比 DeepSeek 3 是一次巨大的飞跃,在 SWE verified 上超越了 opus 4.6 和 GPT-5.4,并在 Codeforces 上创造了新纪录。 但仍需针对 opus 4.7 和 GPT-5.5 进行测试,并观察实际使用是否如其承诺般出色。 重大发布!顶尖的开源模型!

Chubby♨️: Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

DeepSeek开源生态模型发布编码
‹ 上一页
1…13141516
下一页 ›