NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。
NVIDIA研究团队发布了SANA-WM,这是一个参数规模达26亿的开源世界模型,专门用于生成长达1分钟、分辨率为720p的视频。该模型已在GitHub页面开源,旨在推动高质量长视频生成的研发。其在Hacker News社区获得了107点热度,显示出业界对该技术进展的关注。
蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制,提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流,具有低 Token 开销和快速多步执行能力,适合多轮交互与工具协作;xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择,以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。
Google发布了Gemini 3.5模型,该模型专注于提升执行复杂任务的能力。其核心特点是支持“代理式工作流”,即能够像助手一样自主规划并执行一系列多步骤、复杂的操作,旨在将先进的语言理解与实际问题解决能力相结合。
关联讨论 15 条Google Blog:AI(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)IT之家(RSS)X:阶跃星辰 StepFun (@StepFun_ai)X:Gemini (@GeminiApp)X:Google AI for Developers (@googleaidevs)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Artificial Analysis (@ArtificialAnlys)X:Sundar Pichai (@sundarpichai)Hacker News 热门(buzzing.cc 中文翻译)X:Google DeepMind (@GoogleDeepMind)X:Oran Ge (@oran_ge)X:Demis Hassabis (@demishassabis)蚂蚁集团推出 ARGenSeg-8B,一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型(MLLM)输出视觉 token,并通过通用 VQ-VAE 解码为分割掩码,使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token,降低推理延迟。在多个分割数据集上超越此前最优方法,推理速度显著提升。论文已被 NeurIPS 2025 接收,模型已发布在 HuggingFace。
关联讨论 1 条蚂蚁 inclusionAI:GitHub 新仓库Ring-2.6-1T 正式开源,这是为真实复杂任务打造的万亿级思考模型,Agent 执行能力全面增强,采用双档推理配置,兼顾效率、成本与能力上限。
IBM 发布两个 Apache 2.0 开源多语言嵌入模型:97M 参数的紧凑型(granite-embedding-97m-multilingual-r2)在 MTEB Multilingual Retrieval 上得 60.3 分,超越所有开放子 1 亿参数模型;311M 全尺寸模型(granite-embedding-311m-multilingual-r2)得 65.2 分,在 500M 以下开放模型中排第二,并支持 Matryoshka 维度。两者均基于 ModernBERT 架构,支持 200+ 种语言,针对 52 种语言和 9 种编程代码检索训练,上下文窗口达 32,768 tokens。可直接替换 sentence-transformers、LangChain、LlamaIndex 等框架中的默认模型,预置 ONNX 和 OpenVINO 权重以优化 CPU 推理。
蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。
关联讨论 2 条X:蚂蚁百灵 (@AntLingAGI)X:Berry Xia (@berryxia)阿里巴巴发布图像模型 Qwen-Image-2.0,其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练,并配备专用模块,可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成,远少于通常的40步。在用户盲测平台LMArena上,该模型目前排名第9位。
小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理,将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上,该模型全面刷新了潜在推理方法的性能上限,在精度上超越显式思维链方案,在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。
小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA(视觉语言动作模型)与世界模型这两条技术路线统一于同一框架,通过潜空间推理同时提升推理速度与精度,在多项基准测试中达到先进水平。此外,它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。
面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B,仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型,Artificial Analysis 评测得 13 分。效率方面,Token 吞吐量为竞品的 1.5 倍,计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构,图像编码计算量降低 55.8%,并支持高分辨率图像快速处理。目前已全面开源,提供完整工具链,适配主流微调与推理框架。
研究团队发布了名为Needle的轻量级模型,它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时,体积显著缩小,旨在实现更高效的部署与应用。项目代码已在GitHub开源,并在Hacker News社区获得了超过100点的关注度。
由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型,旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块,并行处理音频、视频和文本信息,专注于提升实时交互的流畅性与自然度。公司宣称,这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live,致力于推动语音助手向更自然、非问答式的对话体验演进,从而重新定义人机交互方式。
Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器,结合多模态扩散变换器进行联合建模,并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入,能生成幻灯片、海报等富文本内容,显著提升多语言文本渲染与排版质量。在生成方面,它增强了细节、纹理真实感与光照一致性,并更可靠遵循复杂指令。人工评估表明,其在生成和编辑任务上均大幅超越前代模型。
百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法,仅使用前代模型三分之一的参数量,其预训练成本仅为同类模型的6%,实现了94%的成本削减。在Search Arena排行榜上,Ernie 5.1位列全球第四,排名仅次于两个Claude Opus变体和GPT-5.5 Search。
Thinking Machines Lab发布interaction models研究预览。该模型从零训练,原生处理音频、视频和文本,采用多流微回合设计实现实时响应,无需外部脚手架。研究预览展示了全新的交互能力,并在智能性与响应性上取得综合SOTA表现。
百度发布新一代基础大模型文心大模型5.1,并已在千帆模型广场等平台上线。该模型采用“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上,文心5.1位列国内第一、全球第四。其综合能力显著提升,Agent能力实现超越,创意写作与推理能力已接近或达到业界领先水平。
蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T,专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制,提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流,注重低 Token 开销与快速多步执行;xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线,开放限时一周免费体验。
阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime,现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪,动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等,其能力基于超万个原生人设生成的百万级特征矩阵训练,并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升,可应对从闲聊到专业面试等多种场景。据2026年4月评测,其主观对话体验与语音问答基准得分均领先于同期竞品。
Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。
CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型,在 CTI-Bench 上以半参数(4B vs 8B)对标 Cisco Foundation-Sec-Instruct-8B:CTI-MCQ 得分 0.5868,领先 8.7 个百分点;CTI-RCM 得分 0.6664,保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU,训练使用 AMD Instinct MI300X,LoRA 微调(r=64, lr=5e-5),数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答,以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。
EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。
OpenAI 发布了专门用于网络安全的新模型 GPT-5.5-Cyber。该模型显著降低了安全请求的拒绝率,并能主动对测试服务器执行漏洞利用。目前访问权限仅限于经过验证的关键基础设施防御者,包括思科、CrowdStrike 和 Cloudflare 等合作伙伴。GPT-5.5-Cyber 将直接与 Anthropic 的 Mythos Preview 模型展开竞争。
ZAYA1-8B 是一个新发布的开源人工智能模型,在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿,突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效,可能降低部署成本并加速推理过程,为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步,其开源性质有望推动进一步研究和应用。
商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构,能直接理解网页、文档和图表,提升复杂任务处理效率。它取消了视觉转文本中间层,以更小参数量实现能力跨越,在权威测试中取得多项同级别SOTA,并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时,商汤推出限时免费的SenseNova Token Plan,为开发者提供首月无门槛调用额度,并将其全线办公技能SenseNova-Skills在GitHub开源。
OpenAI 发布三款集成于Realtime API的实时语音模型,旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中,GPT-Realtime-2具备GPT-5级推理能力,可在对话中进行推理、调用工具并处理打断,音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言,每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录,每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。
关联讨论 12 条X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)X:Greg Brockman (@gdb)X:Artificial Analysis (@ArtificialAnlys)X:Tibo (@thsottiaux)X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Sam Altman (@sama)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)X:Eric Mitchell (@ericmitchellai)OpenAI扩展了网络安全领域的可信访问计划,推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究,并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。
OpenAI发布了三款新型语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中,GPT-Realtime-2具备与GPT-5相匹配的实时推理能力,旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译,而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展,有望显著提升跨语言沟通和语音应用的体验。
关联讨论 12 条X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)X:Greg Brockman (@gdb)X:Artificial Analysis (@ArtificialAnlys)X:Tibo (@thsottiaux)X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Sam Altman (@sama)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)X:Eric Mitchell (@ericmitchellai)OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。
关联讨论 12 条X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)X:Greg Brockman (@gdb)X:Artificial Analysis (@ArtificialAnlys)X:Tibo (@thsottiaux)X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Sam Altman (@sama)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)X:Eric Mitchell (@ericmitchellai)小米AI实验室开源多语言语音克隆TTS模型OmniVoice,覆盖600余种语言。该模型采用极简双向Transformer架构,无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型,训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数,显著提升训练效率与语音可懂度。测试显示,在多种语言中其相似度与可懂度超越多款商用系统,并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。
腾讯混元推出的 Hy3 preview 模型上线仅两周,Token 调用量即增长 10 倍,其中代码和智能体类场景的 Token 调用增长尤为明显。
字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解,并能进行跨模态联合推理,在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译,多项基准测试优于Gemini-3.1-Pro。同时,其Agent、Coding与GUI能力升级,能更稳定处理长任务、胜任深度开发,并实现界面理解与操作执行的闭环。新版本已在火山方舟上线,旨在为企业提供高性价比的全模态任务部署方案。
豆包基础模型 Doubao-Seed-2.0-lite 完成升级,新增全模态理解能力。升级后的模型支持全模态理解,可处理多种信息形式。此为火山引擎旗下模型的最新升级。
OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant,重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域,幻觉声明较前代减少52.5%;在用户标记的事实错误测试中,不准确声明降低37.3%。回复内容更简洁,减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新,付费用户可继续使用GPT-5.3 Instant三个月。
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Vista (@vista8)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)OpenAI 将 ChatGPT 的默认模型更新为 GPT-5.5 Instant。内部测试显示,该模型在医学和法律等高风险主题上产生的幻觉声称减少了 52.5%。新功能“记忆来源”允许用户查看影响特定回答的存储上下文。该模型正立即向所有用户推出,但基于过去聊天记录、文件和 Gmail 的个性化功能将首先在网页版上向 Plus 和 Pro 用户开放。此次更新旨在提升回答的准确性和个性化体验。
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Vista (@vista8)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)OpenAI 于2026年5月5日发布了最新即时模型 GPT-5.5 Instant。该模型在网络安全、生物与化学防范两个类别首次被定位为“高能力”级别,并为此实施了相应的安全防护措施。其整体安全缓解方案与此系列前代模型相似。官方明确,不存在名为 GPT-5.4 Instant 的模型,其主要对标基线是 GPT-5.3 Instant。为避免混淆,GPT-5.5 模型被特指为 GPT-5.5 Thinking。
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Vista (@vista8)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)ChatGPT的默认模型已更新为GPT-5.5 Instant。新版模型能提供更智能、更准确的答案,并有效减少了幻觉现象。同时,用户获得了更强的个性化控制能力,使交互体验更贴合个人需求。此次升级标志着模型在理解精度与响应定制化方面取得了显著进步。
关联讨论 22 条X:Testing Catalog (@testingcatalog)Simon Willison 博客X:swyx (@swyx)X:Greg Brockman (@gdb)The Decoder:AI News(RSS)X:Vista (@vista8)X:宝玉 (@dotey)X:Rohan Paul (@rohanpaul_ai)X:Sam Altman (@sama)X:Tibo (@thsottiaux)OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)Ethan Mollick:One Useful Thing(RSS)X:歸藏 (@op7418)X:OpenAI (@OpenAI)X:Satya Nadella (@satyanadella)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:Eric Mitchell (@ericmitchellai)X:ChatGPT (@ChatGPTapp)X:Berry Xia (@berryxia)小米发布开源模型 MiMo-V2.5-Pro,其编程基准测试成绩接近 Anthropic 的 Claude Opus 4.6,同时令牌消耗量减少 40% 至 60%。该模型能持续数小时自主处理单一任务,标志着中国开源模型竞争焦点正从单纯追求基准分数,转向降低运行成本与提升任务持久性。小米借此进一步深入与 DeepSeek 等国内开源提供商的竞争。
xAI 正式推出 Grok 4.3 模型,其核心策略是大幅降低价格并增强工具使用能力。新模型在实际任务处理上有所提升,但在性能上仍落后于 OpenAI 和 Anthropic 的顶尖模型。此次发布还引入了一个基于智能体的新型图像生成器“Imagine”模式,专门服务于创意项目。