AIHOT

全部动态X · 612 条

全部一手资讯 X 论文

Berryxia.AI@berryxia · 5月12日57

Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完觉得现在小模型在边缘设备上真的越来越能打。它重点做了高分辨率视觉处理，专门针对消费级硬件和手机优化。他们用了 LLaVA-UHD v4 的新技术，直接把视觉编码成本砍了 55%，让模型能在普通手机和电脑上原生跑起来，效率高得离谱。实际测下来，它在几个关键多模态基准上超过了 Gemma4-E2B-it 和Qwen3.5-0.8B，而且用的 token 只有后者的 2.5%。速度方面也特别能看：在 RTX 4090 上处理 3136² 高清图片时，首 token 时间只要 75.7ms，比 Qwen3.5-0.8B 快 2.2 倍，token 吞吐量还高出 1.5 倍左右。技术上他们玩了 Intra-ViT 早期压缩和混合 4x/16x 视觉压缩，基本把分辨率和延迟的曲线拉平了，想象一下以后手机上直接跑高分辨率视觉任务都不会卡。对开发者来说也特别友好：iOS、Android、HarmonyOS 部署代码全开源，几步就能跑起来。消费级 GPU 上就能 fine-tuning，还原生支持 SGLang、vLLM、llama.cpp、Ollama，GGUF、BNB、AWQ、GPTQ 各种量化格式都有，直接就能用。 Hugging Face、GitHub、Modelscope、网页 demo 和 App demo 都放出来了，想玩的同学可以直接去试。我改天搞个demo看看😂

译推文指出Apple的统一内存架构是端侧AI的理想平台。同时，OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型，且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时，首token延迟仅75.7ms，速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩，有效平衡了分辨率与延迟。其部署友好，支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式，相关资源已在各大平台开源。

查看原推 ↗

Artificial Analysis@ArtificialAnlys · 5月12日62

OpenBMB, a Tsinghua University / ModelBest open weights collaboration, has released MiniCPM-V 4.6 1.3B Instruct, a tiny, non-reasoning model that scores 13 on the Artificial Analysis Intelligence Index This model sits 3 points ahead of Qwen3.5 0.8B (Non-reasoning, 10) and 2 points behind Qwen3.5 2B (Non-reasoning, 15) on the Intelligence Index, establishing a new Pareto-optimal point on our Intelligence vs. Total Parameters chart. Tiny models are useful for efficient inference and on-device use cases. MiniCPM-V 4.6 1.3B Instruct is a vision-language model that supports text, image, and video input with text output. @OpenBMB is a China-based lab jointly founded in 2022 by Tsinghua University’s NLP Lab and ModelBest Inc. The model’s weights have been released under an Apache 2.0 license on Hugging Face. Key results: ➤ At 1.3B parameters, MiniCPM-V 4.6 1.3B Instruct scores 13 on the Artificial Analysis Intelligence Index, the highest for any open weights model under 2B parameters. The next-most-intelligent open weights model at comparable scale is Qwen3.5 0.8B (Reasoning, 11) and used 43x as many tokens to run the Intelligence Index; Qwen3.5 2B which scores 16 (Reasoning) and 15 (Non-reasoning) requires 1.7x as many parameters (2.27B). MiniCPM-V 4.6 1.3B Instruct also tops sub-2B open weights on MMMU-Pro, scoring 38%. ➤ MiniCPM-V 4.6 1.3B Instruct extends the open weights Pareto frontier for Intelligence vs. Total Parameters. Because the model is dense, total and active parameter counts are both 1.3B, so it pushes both frontiers. The next-most-intelligent sub-2B model (Qwen3.5 0.8B (Reasoning), 11) lands 2 points behind, despite also using a reasoning mode. ➤ MiniCPM-V 4.6 1.3B Instruct is highly token efficient, and used just 5.4M output tokens to run the Intelligence Index, ~19x fewer than Qwen3.5 0.8B (Non-reasoning, 101M) and ~43x fewer than Qwen3.5 0.8B (Reasoning, 233M). This is the lowest output token count measured for any open weights model under 4B total parameters scoring 10 or above on the Index (next-lowest is Ministral 3 3B at 15.5M). ➤ MiniCPM-V 4.6 1.3B Instruct supports native multimodal input, including text, image, and video, and scores 38% on MMMU-Pro. This is the highest visual reasoning score measured for any open weights model under 2B parameters, ahead of LFM2.5-VL-1.6B (27%) and Qwen3.5 0.8B (Non-reasoning, 26%). Video input at this parameter scale is uncommon. ➤ Knowledge recall is low, in line with other sub-2B models. AA-Omniscience is -85, in the typical range for sub-2B non-reasoning models (Qwen3.5 0.8B (Non-reasoning) at -89, Exaone 4.0 1.2B (Non-reasoning) at -83), and 2 points behind Qwen3.5 2B (Non-reasoning) at -83 (1.7x the parameter count). Additional model details: ➤ Size: 1.3B total parameters (dense) ➤ Context window: 262K ➤ Precision: BF16 ➤ License: Apache 2.0 ➤ Providers: No confirmed providers on release

译清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分，成为2B参数以下开源模型中得分最高的，刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%，领先同类小模型。模型支持文本、图像和视频输入，并具有极高的令牌效率，运行测试仅需540万输出令牌，远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当，处于较低水平。

查看原推 ↗

swyx 🌉@swyx · 5月12日64

I believe the kids call this "@thinkymachines just brutally framemogged gdm and oai". basically everyone's definition of "realtime" just got a massive frciking upgrade

译我相信年轻人会这样形容：“@thinkymachines 刚刚残酷碾压了gdm和oai”。基本上所有人的“实时”定义都得到了巨大升级。

查看原推 ↗

swyx 🌉@swyx · 5月12日62

lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimodel dream that others could not

译低调地说，这批视频中最有趣的。thinky 有一些喜剧演员！！祝贺 @thinkymachines 复活了其他人未能实现的 omnimodel 梦想。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 5月12日61

THINKING MACHINES 🔥: Research preview of a new family of realtime voice models have been announced! > Today, we’re announcing a research preview of interaction models: models that handle interaction natively rather than through external scaffolding. > Our research preview demonstrates qualitatively new interaction capabilities, as well as state-of-the-art combined performance in intelligence and responsiveness. A new SOTA?! 👀

译Thinking Machines公司宣布推出新型实时语音交互模型的研究预览。该模型被定义为“交互模型”，其核心设计理念是让人工智能能够像人类一样，同时进行交谈、倾听、观察、思考和协作，实现原生、实时的多模态交互，而非依赖外部架构拼接。初步研究展示了其在交互能力上的质变性突破，并在智能性与响应速度的综合性能上达到了当前最优水平。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 5月12日52

Google keeps preparing its upcoming Gemini Omni models for the release. > Gemini Omni model will be available on APIs as well > The model will be considered as Agent, similarly to Deep Research on AI Studio Soon? 👀 P. S. Just a reminder that Nano Banana 1 wasn’t better than Imagen v4

译谷歌持续为其即将推出的Gemini Omni模型做发布准备。 > Gemini Omni模型也将通过API提供 > 该模型将被视为智能体，类似于AI Studio上的深度研究功能快了吗？👀 附：提醒一下，Nano Banana 1并未优于Imagen v4

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 5月11日55

GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model, including a Pro variant. And I assume what we see isn't Pro? Anime sample 👀

译谷歌即将推出的Gemini Omni视频模型在视频编辑方面预计将显著进步，能够完成去除水印、替换视频中物体等复杂任务。该模型可能发布两个版本，包括一个Pro变体。引用推文展示了该模型的实际编辑效果，对比了原始视频与编辑后的视频，并证实其在去除水印方面表现优异。

查看原推 ↗

Chubby♨️@kimmonismus · 5月11日64

holy, google is cooking! New video model / gemini omni is crazy good and accurate. YouTube and TikTok will see a massive number of new AI-generated videos.

译天哪，谷歌正在放大招！新的视频模型/Gemini Omni 简直好得离谱且精准。 YouTube 和 TikTok 将涌现大量新的 AI 生成视频。

查看原推 ↗

OpenRouter@OpenRouter · 5月11日69

In case you missed it: Ring-2.6-1T from @AntLingAGI is live and free on OpenRouter through May 15th! A 1T-param thinking model with adjustable thinking effort, capable of tackling your production agent needs.

译AntLingAGI发布了其万亿参数旗舰“思考模型”Ring-2.6-1T，该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度，能动态平衡认知深度、token成本和执行速度；专为智能体优化，适用于高频工作流，提供快速的多步执行和工具调用；并具备深度思考能力，以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

查看原推 ↗

SenseTime@SenseTime_AI · 5月11日72

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝗶𝘀 𝗻𝗼𝘄 𝗿𝘂𝗻𝗻𝗮𝗯𝗹𝗲 𝗼𝗻 𝗖𝗼𝗺𝗳𝘆𝗨𝗜. Highly recognised by reviewers — including REBEL AI, who put together a great hands-on walkthrough of the 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝘄𝗼𝗿𝗸𝗳𝗹𝗼𝘄, with 𝗿𝗲𝗮𝗹-𝘄𝗼𝗿𝗹𝗱 𝘁𝗲𝘀𝘁𝘀 𝗼𝗳 𝘁𝗵𝗲 𝗺𝗼𝗱𝗲𝗹'𝘀 𝗶𝗺𝗮𝗴𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀. • 8-step turbo inference — ultra-fast generation • Portraits, surreal art, text signage, creature design & more Watch Video: https://www.youtube.com/watch?v=SYJhzEdN1S0 Try it yourself: 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/collections/sensenova/sensenova-u1 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/OpenSenseNova/SenseNova-U1 𝗗𝗶𝘀𝗰𝗼𝗿𝗱: https://discord.gg/cxkwXWjp

译SenseNova U1图像生成模型现已在ComfyUI上可运行，并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流，并对其图像生成能力进行了真实场景测试。模型支持8步快速推理，生成速度极快，应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

查看原推 ↗

Tencent Hy@TencentHunyuan · 5月11日63

Hy3 preview handles complex agentic tasks. See for yourself. 👇

译腾讯混元Hy3预览版已开放早期体验，被描述为该系列最强模型。其核心设计面向现实世界有效性，而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力，采用256K上下文长度，并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建，旨在实现大规模应用下的高成本效益。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 5月11日61

GOOGLE I/O 🔥: New evidence of the upcoming Gemini Omni vide model has been spotted on the Gemini mobile app. A video sample below 👀 > "Meet our new video model. Remix your videos, edit directly in chat, try a template, and more." > Based on the description, we might be really talking about the true "Omni" model based on Gemini, rather than Veo. > It also seems to be quickly consuming usage limits, based on early tests. "Usage" is a new tab that will be available on both the web and mobile.

译在Google I/O期间，Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”，功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出，这可能是基于Gemini的真正“Omni”模型，而非Veo。早期测试显示，该模型会快速消耗使用额度，且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。

查看原推 ↗

OpenCode@opencode · 5月10日64

OpenCode x Ring 2.6 1T - free for a limited time 256K context • reasoning • text only Thanks to @AntLingAGI and @novita_labs for making the model available

译OpenCode x Ring 2.6 1T - 限时免费开放 256K上下文 • 推理能力 • 纯文本模型感谢 @AntLingAGI 和 @novita_labs 提供模型支持

查看原推 ↗

Alibaba Cloud@alibaba_cloud · 5月10日69

Ranked No. 1 in benchmarks. Lightning speed. Native A/V sync. The era of waiting in line for AI video is over. HappyHorse is now live on Alibaba Cloud Model Studio. Done while others are still rendering. Build now: https://int.alibabacloud.com/m/1000412167/

译基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https://int.alibabacloud.com/m/1000412167/

查看原推 ↗

Chubby♨️@kimmonismus · 5月9日64

Hold on, Chinas ERNIE 5.1 is almost SOTA but using only around 6% of the pre-training cost of comparable models?? ERNIE 5.0’s pre-training foundation: Baidu says ERNIE 5.1 achieves stronger search, reasoning, knowledge Q&A, creative writing, and agentic capabilities while using only around 6% of the pre-training cost of comparable models. It now ranks No. 4 on Arena’s Search Leaderboard with a score of 1,223, and ERNIE 5.1 Preview reached 1,476 on LMArena Text, ranking No. 13 globally. Caveat: dont see a technical paper. Need to verify their claims. But big if true.

译百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础，宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升，而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四，ERNIE 5.1 Preview在LMArena Text上取得1476分，全球排名第十三。推文作者指出目前未见技术论文，需验证其宣称的低成本高性能表现，但若属实将意义重大。

查看原推 ↗

Berryxia.AI@berryxia · 5月9日72

Baidu ERNIE 推出了 ERNIE 5.1。这次升级最硬核的地方在于参数和成本的极致压缩！总参数压缩到原来的 ~1/3，激活参数压缩到 ~1/2，而预训练成本仅为同规模模型的 ~6%，却依然实现了同级别领先性能。核心亮点如下： 1. Agent 能力逼近前沿：ERNIE 5.1 在 τ3-bench 和 SpreadsheetBench-Verified 上都超越了 DeepSeek-V4-Pro，真正迈入了强 Agent 阵营。 2. 世界知识 + 创意写作大幅提升：GPQA 和 MMLU-Pro 逼近领先闭源模型，创意写作能力接近 Gemini 3.1 Pro。 3. 推理能力顶尖：带工具情况下 AIME26 拿到 99.6 分，仅次于 Gemini 3.1 Pro。 4. 深度搜索能力突出：5月9日 Arena Search 排行榜全球第4、中国模型第1，分数1223。技术创新上也干货拉满： - Multi-Dimensional Elastic Pre-Training，大幅提升参数效率和降低训练成本； - Decoupled Fully-Asynchronous RL Training，让长时序 Agent RL 更可扩展、更稳定； - 以 OPD 为核心的多阶段 RL 流水线，实现跨领域能力高效融合。 ERNIE 5.1 现已上线 ERNIE 平台和 Baidu AI Studio 模型广场，开发者可以直接去玩。对关注高性价比 Agent 模型、参数高效训练和中文大模型落地的同学来说，这波发布值得重点关注。

译百度推出ERNIE 5.1模型，核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2，预训练成本仅为同规模模型的约6%，同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro，世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro，推理能力仅次于Gemini 3.1 Pro，深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

查看原推 ↗

🚨 AI News | TestingCatalog@testingcatalog · 5月9日72

Baidu released Ernie 5.1 preview which lands at rank 4 on Search Arena. > Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reasoning, knowledge Q&A, creative writing, and agentic capabilities. Benchmarks 👀

译百度发布了基于ERNIE 5.0预训练基础的最新大模型ERNIE 5.1预览版。该模型在搜索、推理、知识问答、创意写作和智能体能力方面进行了升级。根据官方引用信息，ERNIE 5.1在Search Arena的全球搜索排行榜上位列第四，得分为1223分。这一排名反映了其更强的多源检索与信息综合能力，有助于在内容生成、AI助手、企业知识管理和智能体应用中提供更一致、可靠的答案。

查看原推 ↗

Baidu Inc.@Baidu_Inc · 5月9日73

ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reasoning, knowledge Q&A, creative writing, and agentic capabilities, while using only around 6% of the pre-training cost of comparable models. More in the thread 🧵

译ERNIE 5.1 刚刚发布。基于 ERNIE 5.0 的预训练基础，我们最新的基础模型升级了搜索、推理、知识问答、创意写作和智能体能力，而预训练成本仅需对标模型的约 6%。更多内容详见主题帖 🧵

查看原推 ↗

StepFun@StepFun_ai · 5月9日69

Highest-ranked Chinese TTS model on the @ArtificialAnlys Speech Arena. Top 3 globally. Blind test. Real ears. They picked it! StepAudio 2.5 TTS.

译StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

查看原推 ↗

Artificial Analysis@ArtificialAnlys · 5月9日67

StepFun’s new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld’s Realtime TTS 1.5 Max and Google’s Gemini 3.1 Flash TTS StepAudio 2.5 TTS represents a significant step forward for StepFun from previous TTS models, with notably increased naturalness of speech samples. The model now edges out Eleven v3 on our current prompt set with an Elo score of 1,187. Key takeaways: ➤ Quality: StepAudio 2.5 TTS has an Elo of 1,187 based on 834 arena appearances, placing it 28 points behind the leading model (Inworld TTS 1.5 Max at 1,215) and 8 points ahead of Eleven v3 at 1,179 ➤ Pricing: Model is priced at $85/1M characters, a premium to leading frontier models, Inworld TTS 1.5 Max at $35/1M and Gemini 3.1 Flash TTS at $36.6/1M ➤ Speed: Model generates characters 37.6 characters per second, compared to 220.5 chars/s for Inworld TTS 1.5 Max and 30.1 chars/s for Gemini 3.1 Flash TTS ➤ Prompting: StepAudio 2.5 TTS offers two paths to control delivery of speech: 1. Global context prompt for overall style, 2. Inline contextual tags for more granular emotion and prosody See more details and listen to samples below ⬇️

译StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三，仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分，在测试集上已超越Eleven v3，语音自然度显著提升。其定价为每百万字符85美元，高于头部竞品；生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径，可精细调节语音风格与韵律。

查看原推 ↗

Ant Ling@AntLingAGI · 5月9日78

We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and production env: 🚀 - Adjustable Thinking Effort: dynamic compute mechanism to flexibly balance cognitive depth, token cost, and execution speed; - Agent-Optimized: Built for high-frequency workflows, delivering rapid multi-step execution and tool orchestration with SOTA stability; - Deep Thinking: Unlocks the model's maximum capability ceiling for rigorous mathematical logic and scientific research;

译Ring-2.6-1T是一款万亿参数的旗舰思维模型，专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能，通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化，适用于高频工作流，提供快速多步执行和工具编排，并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限，特别适合严格数学逻辑和科学研究。

查看原推 ↗

Greg Brockman@gdb · 5月8日68

GPT-5.5-Cyber is now in limited preview for defenders for securing critical infrastructure. It's a very capable model.

译GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。这是一个非常强大的模型。

查看原推 ↗

Eric@ericmitchellai · 5月8日85

So impressed by this model... What will you build with this? What will we build with this?

译OpenAI在API中正式推出GPT-Realtime-2，这是其迄今为止最智能的语音模型，为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者，在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper，共同构成了一套面向下一代语音界面的全新音频能力组合。

查看原推 ↗

Tibo@thsottiaux · 5月8日83

We are assembling AGI in plain sight

译我们正在众目睽睽之下构建通用人工智能 [引用 @OpenAI]：在API中推出GPT-Realtime-2：这是我们迄今为止最智能的语音模型，为语音代理带来GPT-5级别的推理能力。语音代理现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供——为新一代语音界面带来全新的音频能力。

查看原推 ↗

Sam Altman@sama · 5月8日62

we'd like to help companies secure themselves and we think it's important to start work on this quickly

译我们希望能帮助企业加强安全防护，并认为尽快开展这项工作至关重要

查看原推 ↗

meng shao@shao__meng · 5月8日80

OpenAI 在 Realtime API 推出三款新模型：GPT-Realtime-2 把 GPT-5 级推理带入语音，让 Agent 能边听边想边调用工具完成任务；搭配 GPT-Realtime-Translate（70+ 语言实时互译）和 GPT-Realtime-Whisper（低延迟流式转录），共同把实时语音从"问答交互"推向"可执行任务的语音界面"。 GPT-Realtime-2：首个具备 GPT-5 级推理能力的实时语音模型；推理、工具调用、对话连贯 GPT-Realtime-Translate：实时语音翻译模型；70+ 输入语言 → 13 输出语言 GPT-Realtime-Whisper：流式语音转文字；边说边转录，低延迟 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ 三种语音应用范式 OpenAI 观察到开发者正围绕三种模式构建产品： · Voice-to-action（语音驱动行动）：听懂需求 → 推理 → 调用工具 → 完成任务。示例：Zillow 的看房助手。 · Systems-to-voice（系统主动播报）：把上下文转化为口语化提示。示例：航班延误时主动告知改签方案。 · Voice-to-voice（跨语言对话）：实时翻译让不同语言的用户自然交流。示例：Deutsche Telekom 的多语客服。 Priceline 是三者结合的典型：语音搜机票、改酒店、落地后翻译沟通。 GPT-Realtime-2 的关键升级 · Preambles（前置语）：可插入 "let me check that" 等过渡语，让用户感知系统在工作。 · 并行工具调用 + 工具透明化：可同时调用多工具，并用语音说明 "正在查日历"。 · 更优雅的失败恢复：能说 "我现在处理这个有点困难"，而非沉默或崩溃。 · 上下文窗口 32K → 128K：支撑更长的 agent 流程。 · 更强的领域词汇保持：医疗术语、专有名词识别更稳。 · 可控语调：冷静、共情、振奋等模式可调。 · 可调推理强度：minimal / low / medium / high / xhigh 五档，默认 low，平衡延迟与思考深度。性能对比（相对 GPT-Realtime-1.5）： · Big Bench Audio（音频推理）：+15.2%（high 档） · Audio MultiChallenge（指令跟随）：+13.8%（xhigh 档）客户验证（Zillow）：在最难的对抗性基准上，呼叫成功率从 69% → 95%（+26 分），且在公平住房合规上更稳健。 GPT-Realtime-Translate 的定位 · 面向客服、跨境销售、教育、活动、媒体等全球化场景。 · 在保持语速同步的同时保留含义，支持口音、方言与领域术语。 · 客户验证（BolnaAI）：印度语种（印地语、泰米尔语、泰卢固语）测试中，词错率比此前最佳模型再降 12.5%。 · Vimeo 已用其为产品教学视频做现场多语播报。 GPT-Realtime-Whisper 的应用面低延迟流式转录，瞄准： · 会议 / 课堂 / 直播实时字幕 · 边谈边生成的会议纪要 · 需要持续理解用户的语音 agent · 客服、医疗、销售、招聘等高频口语场景的后续工作流

译OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

查看原推 ↗

Berryxia.AI@berryxia · 5月8日83

OpenAI直接把语音AI拉到GPT-5级别了。他们今天在API里推出GPT-Realtime-2，这是目前最聪明的语音模型，能让语音代理真正实时协作。边听你说话、边思考、边解决复杂问题，整个对话过程像真人一样自然流畅。同时还一起发布了GPT-Realtime-Translate（70+语言实时翻译）和GPT-Realtime-Whisper（实时转录生成字幕），直接把下一代语音界面整明白了。以前语音代理总像在背台词，现在它终于能真正“听懂你在说什么”并且边听边想。 ChatGPT语音大更新也快来了，OpenAI自己都说“stay tuned，我们在准备”。这波升级，直接把语音从“辅助工具”推向了“实时智能伙伴”。你觉得语音代理真正成熟后，第一个被干掉的行业会是哪个？

译OpenAI在API中正式发布GPT-Realtime-2，称其为目前最智能的语音模型，为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作，在对话过程中同步完成聆听、思考与复杂问题解决，使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate，以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面，标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

查看原推 ↗

Berryxia.AI@berryxia · 5月8日67

能不能卷过DeppSeek v4-flash 啊！ Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新，这才是他们目前最划算的模型，专门为高体积agent任务、翻译和简单数据处理优化，价格低到离谱，速度还快得吓人。以前大家卷参数、卷智能，现在Google直接告诉你：真正能跑通高频workflow的，是这种又便宜又稳的“轻量怪”。

译能不能卷过DeppSeek v4-flash 啊！ Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新，这才是他们目前最划算的模型，专门为高体积agent任务、翻译和简单数据处理优化，价格低到离谱，速度还快得吓人。以前大家卷参数、卷智能，现在Google直接告诉你：真正能跑通高频workflow的，是这种又便宜又稳的“轻量怪”。

查看原推 ↗

Artificial Analysis@ArtificialAnlys · 5月8日73

OpenAI has released GPT-Realtime-2, achieving 96.6% in our Speech Reasoning benchmark, Big Bench Audio, and #1 in our Conversational Dynamics benchmark Released today, GPT-Realtime-2 is OpenAI's new flagship native Speech to Speech model, introducing adjustable reasoning effort levels from minimal through to xHigh. The high variant achieves a Big Bench Audio result of 96.6% equal to Gemini 3.1 Flash Live Preview - High. GPT-Realtime-2 continues to lead our Conversational Dynamics benchmark with the minimal variant achieving a score of 96.1%, showing particular strengths in our Pause Handling and Turn Taking tests. The model supports short phrases before its main response, like “let me check that”, as well as providing audible transparency while performing tool calls, like “checking your calendar”. Additionally, the model context window has increased from 32K to 128K, enabling longer, more coherent sessions across complex task flows. Key takeaways: ➤ Model’s measured intelligence score on Big Bench Audio Speech to Speech reasoning benchmark of 96.6%, an increase of ~13% from previous highest result ➤ GPT-Realtime-2 is the leading model on Conversational Dynamics (Full Duplex Bench subset) benchmark with a score of 96.1% ➤ GPT-Realtime-2’s average Time to First Audio on Big Bench Audio benchmark is 2.33 seconds on high reasoning and 1.12 seconds on minimal reasoning ➤ Audio pricing of model remains unchanged, with higher context window (128k tokens), higher max output tokens (32k), and support of text, audio and image input ➤ Model introduces adjustable reasoning effort levels minimal, low, medium, high, and xhigh, with low as the current default See below for more detail ⬇️

译OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩，与Gemini 3.1 Flash持平，较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先，最小推理努力变体得分96.1%，尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级，上下文窗口从32K增至128K，并支持文本、音频和图像输入，音频定价保持不变。

查看原推 ↗

TestingCatalog News 🗞@testingcatalog · 5月8日59

AVM 2 is currently in development 🚧 Historically, AVM updates are reserved to the day before Google I/O Soon? @sama 👀👀👀

译AVM 2 目前正在开发中 🚧 历史上，AVM 更新都安排在 Google I/O 的前一天快了吗？@sama 👀👀👀

查看原推 ↗

TestingCatalog News 🗞@testingcatalog · 5月8日64

GOOGLE 🚨: Gemini 3.1 Flash Lite is now Generally Available! Users can also test this model on AI Studio. > Designed for ultra-low latency, high-volume tasks, and unmatched cost-efficiency, Flash-Lite is already transforming how applications are built at scale.

译GOOGLE 🚨: Gemini 3.1 Flash Lite 现已全面开放！用户也可以在 AI Studio 上测试此模型。 > Flash-Lite 专为超低延迟、高吞吐量任务和无可比拟的成本效益而设计，已经在改变大规模应用的构建方式。

查看原推 ↗

Sam Altman@sama · 5月8日79

people are really starting to use voice to interact with AI, especially when they have a lot of context to dump. GPT-Realtime-2 comes to the API today; it is a pretty big step forward. (we are working on improvements to voice in chat.)

译人们真的开始用语音与AI互动了，尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API；这是相当大的一步前进。（我们正在改进聊天中的语音功能。）

查看原推 ↗

Greg Brockman@gdb · 5月8日87

You can now just build amazing voice agents, with the GPT-Realtime-2 reasoning model in our API:

译OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型，标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者，在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型，共同构成了一套面向下一代语音界面的全新音频能力组合，为开发者构建卓越的实时语音交互应用提供了强大工具。

查看原推 ↗

Chubby♨️@kimmonismus · 5月8日75

OpenAI just dropped three new realtime voice models: -GPT-Realtime-2 (with GPT-5-class reasoning for voice agents that can actually think mid-conversation), - GPT-Realtime-Translate (live translation across 70+ input languages), and - GPT-Realtime-Whisper (streaming speech-to-text as people talk). However, their teaser probably refers to their upcoming new Voice Mode in ChatGPT (advanced voice mode 2?)

译OpenAI近日发布了三款新的实时语音模型：GPT-Realtime-2具备近似GPT-5的推理能力，允许语音助手在对话中实时思考；GPT-Realtime-Translate支持超过70种语言的实时翻译；GPT-Realtime-Whisper则能实现流式语音转文本。与此同时，OpenAI官方通过引用推文暗示，用户期待已久的ChatGPT语音功能更新正在积极准备中，即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式，进一步提升其交互体验与应用能力。

查看原推 ↗

TestingCatalog News 🗞@testingcatalog · 5月8日81

OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-realtime-translate ChatGPT Voice Mode upgrade soon? 👀

译OpenAI在Playground和API中推出了三款新模型：GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中，GPT-Realtime-2被描述为迄今最智能的语音模型，为语音智能体带来了GPT-5级别的推理能力，使其能作为实时协作者，在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集，也预示着ChatGPT的语音模式可能即将迎来重要更新。

查看原推 ↗

OpenAI@OpenAI · 5月8日86

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.

译在API中推出GPT-Realtime-2：我们迄今为止最智能的语音模型，为语音助手带来GPT-5级别的推理能力。语音助手现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线——为新一代语音界面提供全新的音频功能套件。

查看原推 ↗

OpenAI Developers@OpenAIDevs · 5月8日78

Voice agents are getting more capable. Here’s what’s new: • GPT-Realtime-2 for voice agents that reason and take action • GPT-Realtime-Translate enabling translation from 70 input languages into 13 output languages • GPT-Realtime-Whisper, making transcription even faster

译OpenAI通过API正式发布了新一代实时语音模型系列，显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平，使语音智能体能作为实时协作者，在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译，GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

查看原推 ↗

Ant Ling@AntLingAGI · 5月7日76

Announcing Ling-2.6-1T by inclusionAI, now available on OpenRouter. 🚀 This trillion-parameter flagship instruct model is built for real-world agents. It utilizes a “fast thinking” approach to cut costs by ~75% while maintaining SOTA performance on AIME26 and SWE-bench Verified. Ideal for: - Advanced coding - Complex reasoning - Large-scale agent workflows

译inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法，在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时，将成本降低约75%。适用于： - 高级编程 - 复杂推理 - 大规模智能体工作流

查看原推 ↗

Rohan Paul@rohanpaul_ai · 5月7日65

Newly launched BACH 1.0 from @video_rebirth solved one of the hardest problems in AI video models: keeping the same character face consistent across different angles and cuts. Not just 1 nice close-up. Actual multi-shot consistency from the same identity, which is where most Image-to-Video models still break. BACH excels at facial emotion expression of characters. Overall, very cinematic direction and production-ready output. And currenly #6 in the world on Artificial Anlysis. 🧵 1.

译由@video_rebirth新推出的BACH 1.0解决了AI视频模型中最棘手的难题之一：在不同角度和镜头切换中保持同一角色面部的一致性。不仅是单个优质特写镜头。它实现了同一身份的真实多镜头一致性，而这正是多数图像转视频模型仍会失效的环节。 BACH擅长表现角色的面部情绪。整体而言，其输出极具电影感且达到制作水准。目前在Artificial Anlysis全球榜单中位列第六。 🧵 1.

查看原推 ↗

Chubby♨️@kimmonismus · 5月7日66

Zyphra under 1B active parameters, AMD-Trained, big evals, look strong? Zyphra says its new ZAYA1-8B model delivers unusually high reasoning power for its size, using under 1 billion (!) active parameters while competing with much larger open-weight and proprietary systems on math, coding, and reasoning benchmarks. The interesting part is not just the model’s size, but its full-stack bet: AMD-only training infrastructure (!), new architectural choices, large-scale RL, and a test-time compute method called Markovian RSA that appears to boost hard math performance through parallel reasoning and recursive aggregation.

译Zyphra发布ZAYA1-8B模型，其活跃参数不足10亿，却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸，更在于全栈技术方案：完全基于AMD基础设施训练，采用了新的架构选择和大规模强化学习。此外，模型应用了一种名为Markovian RSA的测试时计算方法，通过并行推理和递归聚合，显著提升了复杂数学问题的解决能力。

查看原推 ↗

5月12日

09:49

Berryxia.AI@berryxia

57

Apple押注端侧AI，开源小模型MiniCPM-V 4.6实现高效边缘部署

推文指出Apple的统一内存架构是端侧AI的理想平台。同时，OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型，且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时，首token延迟仅75.7ms，速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩，有效平衡了分辨率与延迟。其部署友好，支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式，相关资源已在各大平台开源。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态开源/仓库模型发布端侧

06:58

Artificial Analysis@ArtificialAnlys

62

清华大学与ModelBest合作发布MiniCPM-V 4.6 1.3B Instruct多模态小模型

清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分，成为2B参数以下开源模型中得分最高的，刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%，领先同类小模型。模型支持文本、图像和视频输入，并具有极高的令牌效率，运行测试仅需540万输出令牌，远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当，处于较低水平。

Hugging Face多模态模型发布端侧

06:35

swyx 🌉@swyx

64

我相信年轻人会这样形容："@thinkymachines 刚刚残酷碾压了gdm和oai"。基本上所有人的"实时"定义都得到了巨大升级。

swyx 🌉: lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimod...

多模态模型发布视频语音

06:05

swyx 🌉@swyx

62

低调地说，这批视频中最有趣的。thinky 有一些喜剧演员！！祝贺 @thinkymachines 复活了其他人未能实现的 omnimodel 梦想。

Mira Murati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time intera...

多模态模型发布

05:33

🚨 AI News | TestingCatalog@testingcatalog

61

Thinking Machines公司宣布推出新型实时语音交互模型的研究预览。该模型被定义为"交互模型"，其核心设计理念是让人工智能能够像人类一样，同时进行交谈、倾听、观察、思考和协作，实现原生、实时的多模态交互，而非依赖外部架构拼接。初步研究展示了其在交互能力上的质变性突破，并在智能性与响应速度的综合性能上达到了当前最优水平。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

模型发布语音

04:03

🚨 AI News | TestingCatalog@testingcatalog

52

谷歌持续为其即将推出的Gemini Omni模型做发布准备。 > Gemini Omni模型也将通过API提供 > 该模型将被视为智能体，类似于AI Studio上的深度研究功能快了吗？👀 附：提醒一下，Nano Banana 1并未优于Imagen v4

Google多模态模型发布

5月11日

23:33

🚨 AI News | TestingCatalog@testingcatalog

55

谷歌即将推出的Gemini Omni视频模型在视频编辑方面预计将显著进步，能够完成去除水印、替换视频中物体等复杂任务。该模型可能发布两个版本，包括一个Pro变体。引用推文展示了该模型的实际编辑效果，对比了原始视频与编辑后的视频，并证实其在去除水印方面表现优异。

Just a dragon: 🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new ...

Google多模态模型发布视频

22:23

Chubby♨️@kimmonismus

64

天哪，谷歌正在放大招！新的视频模型/Gemini Omni 简直好得离谱且精准。 YouTube 和 TikTok 将涌现大量新的 AI 生成视频。

Chetaslua: Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coheren...

Google模型发布视频

22:00

OpenRouter@OpenRouter

精选69

AntLingAGI发布了其万亿参数旗舰"思考模型"Ring-2.6-1T，该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度，能动态平衡认知深度、token成本和执行速度；专为智能体优化，适用于高频工作流，提供快速的多步执行和工具调用；并具备深度思考能力，以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Ant Ling: We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...

智能体推理模型发布

推荐理由：万亿参数的思维模型免费到5月15日，可调思考力度的设计很接地气，做agent的可以趁窗口压测一下，看看它能不能扛住真实生产环境。

18:39

SenseTime@SenseTime_AI

精选72

SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行，并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流，并对其图像生成能力进行了真实场景测试。模型支持8步快速推理，生成速度极快，应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHubHugging Face图像生成模型发布

关联讨论 1 条

推荐理由：商汤把新模型U1的ComfyUI部署流程完整放出，还有实测视频，想在自己机器上跑国产图像模型的开发者可以直接抄作业了。

17:51

Tencent Hy@TencentHunyuan

63

腾讯混元Hy3预览版已开放早期体验，被描述为该系列最强模型。其核心设计面向现实世界有效性，而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力，采用256K上下文长度，并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建，旨在实现大规模应用下的高成本效益。

Python Space: Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...

智能体推理模型发布

关联讨论 3 条

14:32

🚨 AI News | TestingCatalog@testingcatalog

61

Google I/O曝光Gemini Omni视频模型新证据

在Google I/O期间，Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”，功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出，这可能是基于Gemini的真正“Omni”模型，而非Veo。早期测试显示，该模型会快速消耗使用额度，且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。

Google多模态模型发布视频

5月10日

16:58

OpenCode@opencode

64

OpenCode x Ring 2.6 1T - 限时免费开放 256K上下文 • 推理能力 • 纯文本模型感谢 @AntLingAGI 和 @novita_labs 提供模型支持

推理模型发布

00:51

Alibaba Cloud@alibaba_cloud

69

基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https：//int.alibabacloud.com/m/1000412167/

多模态模型发布视频

关联讨论 3 条

5月9日

20:51

Chubby♨️@kimmonismus

64

百度ERNIE 5.1以极低预训练成本逼近SOTA

百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础，宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升，而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四，ERNIE 5.1 Preview在LMArena Text上取得1476分，全球排名第十三。推文作者指出目前未见技术论文，需验证其宣称的低成本高性能表现，但若属实将意义重大。

Baidu Inc.: ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...

推理搜索模型发布

18:43

Berryxia.AI@berryxia

72

百度发布ERNIE 5.1模型，实现参数与成本的极致压缩

百度推出ERNIE 5.1模型，核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2，预训练成本仅为同规模模型的约6%，同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro，世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro，推理能力仅次于Gemini 3.1 Pro，深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布

关联讨论 1 条

16:29

🚨 AI News | TestingCatalog@testingcatalog

72

百度发布了基于ERNIE 5.0预训练基础的最新大模型ERNIE 5.1预览版。该模型在搜索、推理、知识问答、创意写作和智能体能力方面进行了升级。根据官方引用信息，ERNIE 5.1在Search Arena的全球搜索排行榜上位列第四，得分为1223分。这一排名反映了其更强的多源检索与信息综合能力，有助于在内容生成、AI助手、企业知识管理和智能体应用中提供更一致、可靠的答案。

Baidu Inc.: ERNIE 5.1 ranked No. 4 globally on @arena's Search Leaderboard, with a score of 1,223. That ranking reflects stronger mu...

智能体搜索模型发布

关联讨论 1 条

15:19

Baidu Inc.@Baidu_Inc

73

ERNIE 5.1 刚刚发布。基于 ERNIE 5.0 的预训练基础，我们最新的基础模型升级了搜索、推理、知识问答、创意写作和智能体能力，而预训练成本仅需对标模型的约 6%。更多内容详见主题帖 🧵

智能体推理搜索模型发布

关联讨论 1 条

12:35

StepFun@StepFun_ai

69

StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

Artificial Analysis: StepFun's new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld's Real...

模型发布评测/基准语音

08:20

Artificial Analysis@ArtificialAnlys

67

StepAudio 2.5 TTS跻身语音合成榜前三

StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三，仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分，在测试集上已超越Eleven v3，语音自然度显著提升。其定价为每百万字符85美元，高于头部竞品；生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径，可精细调节语音风格与韵律。

模型发布语音

01:54

Ant Ling@AntLingAGI

精选78

Ring-2.6-1T发布：万亿参数思维模型专为复杂任务设计

Ring-2.6-1T是一款万亿参数的旗舰思维模型，专为现实世界复杂任务和生产环境构建。该模型具备可调节思维努力功能，通过动态计算机制灵活平衡认知深度、token成本和执行速度。它针对代理优化，适用于高频工作流，提供快速多步执行和工具编排，并具有SOTA稳定性。深度思维特性解锁了模型的最大能力上限，特别适合严格数学逻辑和科学研究。

智能体推理模型发布

推荐理由：蚂蚁憋了个万亿参数的大家伙，而且把可调思考和 Agent 优化当主打，明显是冲着生产级落地的，做 agent 的可以盯一下实际推理成本。

5月8日

11:05

Greg Brockman@gdb

68

GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。这是一个非常强大的模型。

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布

11:05

Eric@ericmitchellai

85

OpenAI在API中正式推出GPT-Realtime-2，这是其迄今为止最智能的语音模型，为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者，在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper，共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音

关联讨论 5 条

09:43

Tibo@thsottiaux

83

我们正在众目睽睽之下构建通用人工智能【引用 @OpenAI】：在API中推出GPT-Realtime-2：这是我们迄今为止最智能的语音模型，为语音代理带来GPT-5级别的推理能力。语音代理现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布

关联讨论 5 条

09:40

Sam Altman@sama

62

我们希望能帮助企业加强安全防护，并认为尽快开展这项工作至关重要

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布

07:39

meng shao@shao__meng

80

OpenAI 发布三款实时语音新模型，推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型，将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力，支持边听边思考、并行调用工具并完成任务，关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译，GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式，旨在构建下一代语音协作智能体。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI多模态推理

关联讨论 5 条

06:21

Berryxia.AI@berryxia

83

OpenAI推出GPT-Realtime-2，将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2，称其为目前最智能的语音模型，为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作，在对话过程中同步完成聆听、思考与复杂问题解决，使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate，以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面，标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音

关联讨论 5 条

06:21

Berryxia.AI@berryxia

67

Google发布最划算AI模型，成本速度双优

能不能卷过DeppSeek v4-flash 啊！ Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新，这才是他们目前最划算的模型，专门为高体积agent任务、翻译和简单数据处理优化，价格低到离谱，速度还快得吓人。以前大家卷参数、卷智能，现在Google直接告诉你：真正能跑通高频workflow的，是这种又便宜又稳的“轻量怪”。

Google AI Studio: gemini 3.1 flash-lite is here it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, ...

智能体Google模型发布

04:35

Artificial Analysis@ArtificialAnlys

73

OpenAI发布GPT-Realtime-2语音模型，在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩，与Gemini 3.1 Flash持平，较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先，最小推理努力变体得分96.1%，尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级，上下文窗口从32K增至128K，并支持文本、音频和图像输入，音频定价保持不变。

OpenAI推理模型发布语音

关联讨论 5 条

03:42

TestingCatalog News 🗞@testingcatalog

59

AVM 2 目前正在开发中 🚧 历史上，AVM 更新都安排在 Google I/O 的前一天快了吗？@sama 👀👀👀

TestingCatalog News 🗞: OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-r...

OpenAI模型发布语音

03:12

TestingCatalog News 🗞@testingcatalog

64

GOOGLE 🚨： Gemini 3.1 Flash Lite 现已全面开放！用户也可以在 AI Studio 上测试此模型。 &gt； Flash-Lite 专为超低延迟、高吞吐量任务和无可比拟的成本效益而设计，已经在改变大规模应用的构建方式。

Google AI Studio: gemini 3.1 flash-lite is here it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, ...

智能体Google模型发布

03:10

Sam Altman@sama

79

人们真的开始用语音与AI互动了，尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API；这是相当大的一步前进。（我们正在改进聊天中的语音功能。）

OpenAI模型发布语音

关联讨论 5 条

02:05

Greg Brockman@gdb

87

OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型，标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者，在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型，共同构成了一套面向下一代语音界面的全新音频能力组合，为开发者构建卓越的实时语音交互应用提供了强大工具。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布

关联讨论 5 条

02:01

Chubby♨️@kimmonismus

75

OpenAI近日发布了三款新的实时语音模型：GPT-Realtime-2具备近似GPT-5的推理能力，允许语音助手在对话中实时思考；GPT-Realtime-Translate支持超过70种语言的实时翻译；GPT-Realtime-Whisper则能实现流式语音转文本。与此同时，OpenAI官方通过引用推文暗示，用户期待已久的ChatGPT语音功能更新正在积极准备中，即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式，进一步提升其交互体验与应用能力。

OpenAI: We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.

OpenAI多模态模型发布语音

关联讨论 5 条

01:42

TestingCatalog News 🗞@testingcatalog

81

OpenAI在Playground和API中推出了三款新模型：GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中，GPT-Realtime-2被描述为迄今最智能的语音模型，为语音智能体带来了GPT-5级别的推理能力，使其能作为实时协作者，在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集，也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音

关联讨论 5 条

01:40

OpenAI@OpenAI

86

在API中推出GPT-Realtime-2：我们迄今为止最智能的语音模型，为语音助手带来GPT-5级别的推理能力。语音助手现已成为实时协作者，能够在对话展开时倾听、推理并解决复杂问题。现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。

OpenAI推理模型发布语音

关联讨论 5 条

01:36

OpenAI Developers@OpenAIDevs

78

OpenAI通过API正式发布了新一代实时语音模型系列，显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平，使语音智能体能作为实时协作者，在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译，GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布

关联讨论 5 条

5月7日

23:06

Ant Ling@AntLingAGI

精选76

inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法，在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时，将成本降低约75%。适用于： - 高级编程 - 复杂推理 - 大规模智能体工作流

智能体推理模型发布编码

关联讨论 6 条

推荐理由：万亿参数专攻Agent，成本还直降75%，对狂烧token费的AI Agent团队来说是个真信号。蚂蚁终于不玩虚的，OpenRouter上就能试。

20:34

Rohan Paul@rohanpaul_ai

65

由@video_rebirth新推出的BACH 1.0解决了AI视频模型中最棘手的难题之一：在不同角度和镜头切换中保持同一角色面部的一致性。不仅是单个优质特写镜头。它实现了同一身份的真实多镜头一致性，而这正是多数图像转视频模型仍会失效的环节。 BACH擅长表现角色的面部情绪。整体而言，其输出极具电影感且达到制作水准。目前在Artificial Anlysis全球榜单中位列第六。 🧵 1.

多模态模型发布

19:31

Chubby♨️@kimmonismus

66

ZAYA1-8B小模型展现超强推理能力，采用AMD全栈方案

Zyphra发布ZAYA1-8B模型，其活跃参数不足10亿，却在数学、编程和推理基准测试中媲美更大的开源及专有系统。其亮点不仅在于小尺寸，更在于全栈技术方案：完全基于AMD基础设施训练，采用了新的架构选择和大规模强化学习。此外，模型应用了一种名为Markovian RSA的测试时计算方法，通过并行推理和递归聚合，显著提升了复杂数学问题的解决能力。

推理模型发布端侧