AIHOT

IT之家（RSS）

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime，现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪，动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等，其能力基于超万个原生人设生成的百万级特征矩阵训练，并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升，可应对从闲聊到专业面试等多种场景。据2026年4月评测，其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型，引入可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流，xhigh 面向数学、科研等复杂任务。评测中，high 模式 PinchBench 得分 87.60，Tau2-Bench Telecom 95.32；xhigh 模式 ARC-AGI-V2 得分 77.78，AIME 26 得分 95.83，GPQA Diamond 88.27。模型已上线 OpenRouter，近期将开源。

智能体推理模型发布

Artificial Analysis@ArtificialAnlys

StepAudio 2.5 TTS跻身语音合成榜前三

StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三，仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分，在测试集上已超越Eleven v3，语音自然度显著提升。其定价为每百万字符85美元，高于头部竞品；生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径，可精细调节语音风格与韵律。

模型发布语音

Hugging Face：Blog（RSS）

CyberSecQwen-4B 发布：防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型，在 CTI-Bench 上以半参数（4B vs 8B）对标 Cisco Foundation-Sec-Instruct-8B：CTI-MCQ 得分 0.5868，领先 8.7 个百分点；CTI-RCM 得分 0.6664，保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU，训练使用 AMD Instinct MI300X，LoRA 微调（r=64, lr=5e-5），数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答，以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face安全/对齐开源生态模型发布

Ant Ling@AntLingAGI

精选78

Ring-2.6-1T发布：万亿参数思维模型专为复杂任务设计

Ring-2.6-1T是一款万亿参数的旗舰思维模型，专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能，通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化，适用于高频工作流，提供快速多步执行和工具编排，并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限，特别适合严格数学逻辑和科学研究。

智能体推理模型发布

关联讨论 1 条

推荐理由：蚂蚁憋了个万亿参数的大家伙，而且把可调思考和 Agent 优化当主打，明显是冲着生产级落地的，做 agent 的可以盯一下实际推理成本。

Hugging Face：Blog（RSS）

精选72

EMO：为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型，通过端到端预训练使模块化结构直接从数据中涌现，无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集（即8个活跃专家中的部分），同时保持接近全模型的性能；当所有128个专家共同使用时，它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数，训练数据达1万亿令牌。与标准MoE相比，EMO通过文档级路由约束，鼓励专家形成领域专业化组，从而支持选择性使用而不导致严重性能下降，实现了可组合架构，优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face开源生态数据/训练模型发布

推荐理由：EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化，仅用 12.5% 专家就能接近全模型性能，对需要按需加载的大模型部署是真正的突破。

The Decoder：AI News（RSS）

OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber

OpenAI 发布了专门用于网络安全的新模型 GPT-5.5-Cyber。该模型显著降低了安全请求的拒绝率，并能主动对测试服务器执行漏洞利用。目前访问权限仅限于经过验证的关键基础设施防御者，包括思科、CrowdStrike 和 Cloudflare 等合作伙伴。GPT-5.5-Cyber 将直接与 Anthropic 的 Mythos Preview 模型展开竞争。

OpenAI安全/对齐模型发布

Hacker News 热门（buzzing.cc 中文翻译）

ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型，在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿，突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效，可能降低部署成本并加速推理过程，为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步，其开源性质有望推动进一步研究和应用。

DeepSeek推理模型发布编码

Greg Brockman@gdb

GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。这是一个非常强大的模型。

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布

IT之家（RSS）

商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型，Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构，能直接理解网页、文档和图表，提升复杂任务处理效率。它取消了视觉转文本中间层，以更小参数量实现能力跨越，在权威测试中取得多项同级别SOTA，并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时，商汤推出限时免费的SenseNova Token Plan，为开发者提供首月无门槛调用额度，并将其全线办公技能SenseNova-Skills在GitHub开源。

多模态开源生态模型发布

Sam Altman@sama

我们希望能帮助企业加强安全防护，并认为尽快开展这项工作至关重要

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布

IT之家（RSS）

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型，旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中，GPT-Realtime-2具备GPT-5级推理能力，可在对话中进行推理、调用工具并处理打断，音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言，每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录，每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI推理模型发布语音

关联讨论 2 条

meng shao@shao__meng

OpenAI 发布三款实时语音新模型，推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI多模态推理

关联讨论 2 条

Berryxia.AI@berryxia

OpenAI推出GPT-Realtime-2，将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2，称其为目前最智能的语音模型，为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作，在对话过程中同步完成聆听、思考与复杂问题解决，使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate，以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面，标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音

关联讨论 2 条

Berryxia.AI@berryxia

Google发布最划算AI模型，成本速度双优

能不能卷过DeppSeek v4-flash 啊！ Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新，这才是他们目前最划算的模型，专门为高体积agent任务、翻译和简单数据处理优化，价格低到离谱，速度还快得吓人。以前大家卷参数、卷智能，现在Google直接告诉你：真正能跑通高频workflow的，是这种又便宜又稳的“轻量怪”。

Google AI Studio: gemini 3.1 flash-lite is here it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, ...

智能体Google模型发布

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划，推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究，并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI安全/对齐模型发布

推荐理由：GPT-5.5 正式登场，首秀是给安全防御者用的，Trusted Access 机制把模型和真实漏洞环境连起来，做网络安全的可以关注，其他人先看看。

Artificial Analysis@ArtificialAnlys

OpenAI发布GPT-Realtime-2语音模型，在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩，与Gemini 3.1 Flash持平，较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先，最小推理努力变体得分96.1%，尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级，上下文窗口从32K增至128K，并支持文本、音频和图像输入，音频定价保持不变。

OpenAI推理模型发布语音

关联讨论 2 条

TestingCatalog News 🗞@testingcatalog

AVM 2 目前正在开发中 🚧 历史上，AVM 更新都安排在 Google I/O 的前一天快了吗？@sama 👀👀👀

TestingCatalog News 🗞: OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-r...

OpenAI模型发布语音

TestingCatalog News 🗞@testingcatalog

GOOGLE 🚨： Gemini 3.1 Flash Lite 现已全面开放！用户也可以在 AI Studio 上测试此模型。 &gt； Flash-Lite 专为超低延迟、高吞吐量任务和无可比拟的成本效益而设计，已经在改变大规模应用的构建方式。

Google AI Studio: gemini 3.1 flash-lite is here it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, ...

智能体Google模型发布

The Decoder：AI News（RSS）

OpenAI发布新语音模型，为实时对话带来GPT-5级推理能力

OpenAI发布了三款新型语音模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。其中，GPT-Realtime-2具备与GPT-5相匹配的实时推理能力，旨在实现更流畅、智能的实时对话交互。GPT-Realtime-Translate支持超过70种语言的实时翻译，而GPT-Realtime-Whisper则专注于实时语音转写功能。这一系列模型标志着OpenAI在实时音频处理和交互领域的重要进展，有望显著提升跨语言沟通和语音应用的体验。

OpenAI推理模型发布语音

关联讨论 2 条

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选86

通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型，能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平，支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具，以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音

关联讨论 2 条

推荐理由：语音模型不再只是‘听写’，开始能推理和翻译了，OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段，做语音产品的值得赶紧试试。

Ant Ling@AntLingAGI

精选76

inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法，在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时，将成本降低约75%。适用于： - 高级编程 - 复杂推理 - 大规模智能体工作流

智能体推理模型发布编码

关联讨论 6 条

推荐理由：万亿参数专攻Agent，成本还直降75%，对狂烧token费的AI Agent团队来说是个真信号。蚂蚁终于不玩虚的，OpenRouter上就能试。

Chubby♨️@kimmonismus

ZAYA1-8B小模型展现超强推理能力，采用AMD全栈方案

Zyphra发布ZAYA1-8B模型，其活跃参数不足10亿，却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸，更在于全栈技术方案：完全基于AMD基础设施训练，采用了新的架构选择和大规模强化学习。此外，模型应用了一种名为Markovian RSA的测试时计算方法，通过并行推理和递归聚合，显著提升了复杂数学问题的解决能力。

推理模型发布端侧

IT之家（RSS）

小米开源 OmniVoice 多语言语音克隆 TTS，号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice，覆盖600余种语言。该模型采用极简双向Transformer架构，无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型，训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数，显著提升训练效率与语音可懂度。测试显示，在多种语言中其相似度与可懂度超越多款商用系统，并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

arXivGitHub多模态开源生态

公众号：腾讯混元

腾讯混元 Hy3 preview 上线两周 Token 调用增长 10 倍

腾讯混元推出的 Hy3 preview 模型上线仅两周，Token 调用量即增长 10 倍，其中代码和智能体类场景的 Token 调用增长尤为明显。

智能体模型发布编码

SenseTime@SenseTime_AI

精选71

🚀 SenseNova-U1 更新： ⚡ 开源8步蒸馏LoRA：100 NFE降至8 NFE，H100推理时间从23秒缩短至2秒 🧩 现已支持ComfyUI，提供文生图、图像编辑和交错生成的即用工作流试用链接 👇 https：//github.com/OpenSenseNova/SenseNova-U1/

图像生成开源/仓库推理模型发布

关联讨论 1 条

推荐理由：从100步到8步，23秒压到2秒，商汤这个蒸馏LoRA把U1的推理成本打下来了，做实时图像应用的可以认真看看，ComfyUI一接就能跑。

IT之家（RSS）

精选71

豆包大模型家族首款全模态理解模型：字节跳动 Doubao-Seed-2.0-lite 升级

字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解，并能进行跨模态联合推理，在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译，多项基准测试优于Gemini-3.1-Pro。同时，其Agent、Coding与GUI能力升级，能更稳定处理长任务、胜任深度开发，并实现界面理解与操作执行的闭环。新版本已在火山方舟上线，旨在为企业提供高性价比的全模态任务部署方案。

智能体多模态推理模型发布

推荐理由：豆包Seed 2.0 lite把视频、音频、图片、文字原生塞进一个模型，还顺手强化了Agent和GUI操作，对需要全模态处理的企业来说，这可能是目前性价比最高的选择。

向阳乔木@vista8

豆包大模型Doubao-Seed-2.0-lite实现全模态理解与能力提升

Doubao-Seed-2.0-lite 0428 内测版本升级，新增音频理解功能，能同时支持图片、视频、音频和文本四种输入，成为豆包大模型家族首款全模态理解模型。该版本在 Agent、Coding 和 GUI 能力上也有明显提升。通过 API 测试，验证了其在前端动效复刻、视频Hooks建议和字幕识别等场景的应用潜力，具体案例详见后续推文线程。

多模态模型发布

公众号：火山引擎

豆包基础模型 Doubao-Seed-2.0-lite 升级，支持全模态理解

豆包基础模型 Doubao-Seed-2.0-lite 完成升级，新增全模态理解能力。升级后的模型支持全模态理解，可处理多种信息形式。此为火山引擎旗下模型的最新升级。

多模态模型发布

Xiaomi MiMo@XiaomiMiMo

MiMo V2.5 🥰🥰 【引用 @Designarena】：突发：小米MiMo-V2.5在设计竞技场开放权重模型中综合排名第六！其Elo评分为1297，与@Kimi_Moonshot的Kimi K2.5（思考版）处于同一性能区间。祝贺@XiaomiMiMo团队发布成功！

Design Arena: BREAKING: MiMo-V2.5 by @Xiaomi is #6 overall out of open weight models on Design Arena! This has an Elo of 1297 and is i...

开源/仓库模型发布评测/基准