AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
5月21日周四
19:29🚨 AI News | TestingCatalog72阿里发布Qwen 3.7 Max专有模型18:06IT之家(RSS)70腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署16:56Tencent Hy74精选腾讯开源Hy-MT2多语言翻译模型16:43公众号:腾讯混元58腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验16:28Artificial Analysis70阿里云发布Qwen3.7 Max模型,评测得分56.6分15:27MarkTechPost(RSS)63一个模型,三种模态:字节跳动发布 Lance 用于图像与视频的理解、生成和编辑05:35Chubby♨️64通用大模型突破:计算资源驱动性能飞跃04:17Google DeepMind84精选Gemini 3.5 Flash 正式发布00:44Google Gemini74精选Gemini 3.5 Flash快速整理混乱输入00:36Rohan Paul63商汤开源统一多模态模型SenseNova U100:06Artificial Analysis69Cohere推出开源权重模型Command A+,智能指数得分达37
5月20日周三
23:56IT之家(RSS)71精选Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲23:03The Decoder:AI News(RSS)61Stability AI 发布 Stable Audio 3.0,支持长达六分钟音轨并开放权重23:00TechCrunch:AI(RSS)63Stability AI发布可生成6分钟音频的新模型22:02Hacker News 热门(buzzing.cc 中文翻译)81精选Qwen3.7-Max:智能代理的前沿18:46SenseTime68精选SenseNova U1:同时思考文本与图像的AI18:41MarkTechPost(RSS)63英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型16:09MarkTechPost(RSS)63阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言15:56IT之家(RSS)67AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate15:12MarkTechPost(RSS)68Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型13:53公众号:通义实验室(千问)55Qwen3.5-LiveTranslate 发布:开口即同传12:36Kling AI72Kling AI推出全球首个原生4K视频生成模型11:55IT之家(RSS)76阿里千问最强智能体模型 Qwen3.7-Max 发布11:34Rohan Paul73SenseNova U1开源发布,革新原生多模态生成11:05Berryxia.AI73Google DeepMind 发布 Gemini 3.5 Flash:性能大幅提升,但成本显著增加11:04公众号:通义实验室(千问)62精选Qwen3.7-Max 重新定义 AI Agent 基座10:49Qwen:Blog Retrieval(API)79精选Qwen3.7-Max:面向智能体时代的最新专有模型10:04Rohan Paul74谷歌发布Gemini 3.5 Flash:速度更快、性价比更高的代理模型09:55IT之家(RSS)62曝字节 Seedance 2.1 模型即将发布,系列已狂揽 AI 视频生成 80% 算力消耗09:14meng shao64Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!09:08Demis Hassabis81Gemini 3.5 Flash性能与速度全面领先09:04Rohan Paul69Gemini 3.5 Flash发布,性能强劲且免费08:05Berryxia.AI71Google DeepMind发布Gemini Omni,迈向"生成万物"愿景07:10Simon Willison 博客70Gemini 3.5 Flash:价格显著上涨,但谷歌计划将其全面应用06:42karminski-牙医61Gemini-3.5-flash发布! 价格直接翻三倍?06:36Orange AI77Gemini Flash 3.5发布,性能价格双优势06:03Rohan Paul67谷歌发布Gemini Omni全能AI模型,支持多模态输入与精准视频编辑06:03Jeff Dean81谷歌发布Gemini 3.5 Flash,速度快且性能强05:25Google Developers Blog(RSS)87Google I/O 2026:从辅助工具到独立智能体的战略转型04:38Demis Hassabis79Gemini Omni实现多模态编辑与场景生成
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
19:29
🚨 AI News | TestingCatalog@testingcatalog
72
阿里巴巴发布了其最新的专有模型 Qwen 3.7 Max,专为智能体编码设计。 Qwen 3.7 Max 在人工智能分析智能指数上获得 56.6 分,超越了近期发布的 Gemini 3.5 Flash 和 Kimi K2.6。

Alibaba Group: Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...

智能体推理模型发布编码
18:06
IT之家(RSS)
70
腾讯混元发布新一代翻译模型Hy-MT2,支持手机端本地部署

腾讯混元正式开源新一代多语言翻译模型Hy-MT2,提供1.8B、7B、30B-A3B三种尺寸,支持33种语言及5种民族语言/方言互译。相比上一代,模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储,可部署于手机芯片进行本地推理,速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译,并开源了翻译指令遵循测试集IFMTBench,模型已上架GitHub、HuggingFace等平台。

开源生态模型发布端侧部署/工程
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
16:56
Tencent Hy@TencentHunyuan
精选74
腾讯开源Hy-MT2多语言翻译模型

腾讯正式开源Hy-MT2多语言翻译模型,支持33种语言间的无缝互译。其7B与30B-A3B版本在开源模型中达到最先进的翻译性能,超越了许多参数规模大数十倍的模型。更具突破性的是,1.8B轻量级版本性能超越微软等主流商业API,并凭借腾讯AngelSlim 1.25-bit极量化技术,仅需440MB存储空间,即可在主流手机芯片上本地运行,推理速度较前代提升1.5倍,显著降低了高质量AI翻译的部署门槛。

开源生态模型发布端侧
关联讨论 1 条X:腾讯混元 (@TencentHunyuan)
推荐理由:虽然翻译领域不算最热,腾讯这个1.8B开源模型用1.25位量化直接跑在手机上,效果还超微软商业API,做本地化翻译工具的人值得关注。
16:43
公众号:腾讯混元
58
腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验
开源生态模型发布
16:28
Artificial Analysis@ArtificialAnlys
70
阿里云发布Qwen3.7 Max模型,评测得分56.6分

阿里云发布闭源旗舰模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升4.8分,与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是,本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多,从而将幻觉率从44.2%显著降至22.9%。此外,该模型的上下文窗口已扩大至100万token,但仍延续了Max系列的闭源策略。

推理模型发布编码
15:27
MarkTechPost(RSS)
63
一个模型,三种模态:字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance,这是一款开源的原生统一多模态模型。它能够在单一框架内,同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数,实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布
05:35
Chubby♨️@kimmonismus
64
OpenAI即将推出通用型大语言模型,强调其并非为特定问题或数学领域专门训练。该模型通过增加测试时的计算资源,性能实现显著提升,展现了通用模型在扩展计算时的潜力。官方表示当前重点在于快速发布,供用户自主探索,暂未在开放问题上追求极限优化。这标志着大模型发展的一条新路径。

Noam Brown: This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...

OpenAI推理模型发布
04:17
Google DeepMind@GoogleDeepMind
精选84
Gemini 3.5 Flash 已正式发布。
Google多模态模型发布
关联讨论 2 条X:opencode (@opencode)X:阿易 AI Notes (@AYi_AInotes)
推荐理由:Google 在 Gemini 3.5 上继续扩展 Flash 线,这种轻量模型对成本和延迟敏感场景很关键,如果你在等一个便宜的 Gemini API,该看了。
00:44
Google Gemini@GeminiApp
精选74
Gemini 3.5 Flash能快速提供整理好的结果,无论输入多么混乱。 看看Gemini如何将与客户的聊天和文本,转化为您小企业可用的文档。
Google推理模型发布
关联讨论 14 条Google Blog:AI(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)IT之家(RSS)X:阶跃星辰 StepFun (@StepFun_ai)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Artificial Analysis (@ArtificialAnlys)X:Sundar Pichai (@sundarpichai)X:Google DeepMind (@GoogleDeepMind)X:Gemini (@GeminiApp)Google DeepMind:Blog(RSS)
推荐理由:Gemini 3.5 Flash 的核心不是刷榜,而是解决现实中‘信息像一堆垃圾’的问题,这种从杂乱输入直接生成文档的能力,对小企业和自由职业者比 SOTA 更有用。
00:36
Rohan Paul@rohanpaul_ai
63
商汤开源统一多模态模型SenseNova U1

商汤科技近日开源了SenseNova U1,其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构,采用单一共享表示空间原生处理图像与文本,极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容,在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面,其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

图像生成多模态开源/仓库模型发布
00:06
Artificial Analysis@ArtificialAnlys
69
Cohere推出开源权重模型Command A+,智能指数得分达37

Cohere发布了开源权重模型Command A+,其在AI分析智能指数上的得分与Claude 4.5 Haiku持平。该模型核心优势为极低的幻觉率,在相关榜单上以86%领先,体现出模型“知其不知”的可靠性。在速度方面,其API输出速度超过GPT-5.4 nano等多款模型,但仍略逊于Gemini 3.1 Flash-Lite。模型在科学推理与代码生成等高难度任务上表现稍弱,但具备视觉推理能力,性能位于Claude 4.5 Haiku与GPT-5.4 nano之间。

开源/仓库模型发布评测/基准
5月20日
23:56
IT之家(RSS)
精选71
Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲

Stability AI 推出 Stability Audio 3.0 音频生成模型家族,包含四款不同规格模型,参数从45900万到27亿。小型模型专注设备端运行,可本地生成两分钟以内的音频;中型和大型模型支持创作超过6分20秒的完整音乐,

多模态开源/仓库模型发布

推荐理由:Stability Audio 3.0 把AI音乐从几十秒的demo拉到了六分钟的完整歌曲,而且中小模型直接开源,任何一个能跑模型的设备都能玩,音乐创作的门槛继续被踩低。
23:03
The Decoder:AI News(RSS)
61
Stability AI 发布 Stable Audio 3.0,支持长达六分钟音轨并开放权重

Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本,能够生成最长六分钟的连贯音乐音轨。公司强调,所有模型均完全基于授权音乐数据集进行训练,确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步,为音乐创作者和开发者提供了更长时长、更开放可用的工具。

多模态模型发布
23:00
TechCrunch:AI(RSS)
63
Stability AI发布可生成6分钟音频的新模型

Stability AI正式推出Stability Audio 3.0 small模型,该模型可在用户设备本地运行,生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同,此次更新强调了模型的轻量化与端侧部署能力,降低了对云计算资源的依赖。

多模态开源生态模型发布
22:02
Hacker News 热门(buzzing.cc 中文翻译)
精选81
Qwen3.7-Max:智能代理的前沿

智能代理领域迎来新突破,Qwen3.7-Max于2026年5月20日发布,标志着前沿技术的演进。该模型聚焦智能代理创新,具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点,显示技术社区的广泛兴趣。尽管未披露详细性能指标,但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升,推动AI向更高效、智能的方向发展。

智能体推理模型发布编码
关联讨论 10 条X:OpenRouter (@OpenRouter)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)Qwen:Blog Retrieval(API)IT之家(RSS)
推荐理由:Qwen3.7-Max 在多个 agent 基准上达到甚至超越 Opus 4.6 水平,长程自主优化 35 小时跑出 10 倍速度提升,证明 agent 长跑能力不是概念,做自动化工具的值得跟进。
18:46
SenseTime@SenseTime_AI
精选68
将你的想法转化为激发故事的视觉画面 🧨 【引用 @Adamaestr0_】:大多数AI工具可以写作或生成图像。 但这个能同时做这两件事。 向你介绍 SenseNova U1。 一个能同时思考文本和图像的AI。 这改变了一切 🧵

Adam: La mayoría de las herramientas de IA pueden escribir o generar imágenes. Pero esta hace AMBAS cosas a la vez. Te present...

多模态模型发布

推荐理由:商汤发了 SenseNova U1,主打文本和图像同时生成的「全模态」,但宣传语太简略,没给任何性能数据或技术细节,暂时看不出是真突破还是常规迭代,先标记关注。
18:41
MarkTechPost(RSS)
63
英伟达AI发布Nemotron-Labs-Diffusion:单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族,其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模,并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B,其8B参数版本在单次前向传播中能够生成多达6倍的Token数量,显著提升了吞吐效率。

多模态推理模型发布
16:09
MarkTechPost(RSS)
63
阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。

多模态模型发布语音
15:56
IT之家(RSS)
67
AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音
15:12
MarkTechPost(RSS)
68
Google发布Gemini 3.5 Flash:在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型

Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本,同时运行速度提升四倍,推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性,特别面向需要快速响应和复杂任务处理的开发者场景。

智能体Google推理模型发布
13:53
公众号:通义实验室(千问)
55
Qwen3.5-LiveTranslate 发布:开口即同传

通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音
12:36
Kling AI@Kling_ai
72
Kling AI推出全球首个原生4K视频生成模型

4月23日,Kling AI正式推出全球首个原生4K视频生成模型,专为专业内容创作设计。该功能支持一键生成真4K画质视频,显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出,这是其工作流中首个使用的原生4K基础模型;Wonder Studios强调,原生4K从底层生成避免了传统放大技术的角色变形问题,保持了画面一致性;动画导演则认为,该模型在保留艺术色调与复杂特效纹理方面优于同类产品。

多模态模型发布视频
11:55
IT之家(RSS)
76
阿里千问最强智能体模型 Qwen3.7-Max 发布

阿里云千问大模型今日正式发布新一代旗舰智能体模型 Qwen3.7-Max,定位为全能的智能体基座。该模型在编程、办公自动化及长周期自主任务方面能力突出,其中在一项持续35小时、超过1000次工具调用的内核优化实验中验证了其稳定的推理与执行能力。基准测试显示,Qwen3.7-Max 在 SWE-Pro、MCP-Mark、GPQA Diamond 等多项评测中成绩领先,其编程、通用智能体及推理能力已达到业界顶尖水平。该模型即将通过阿里云百炼 API 提供服务。

智能体推理模型发布
关联讨论 10 条X:OpenRouter (@OpenRouter)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)Qwen:Blog Retrieval(API)IT之家(RSS)
11:34
Rohan Paul@rohanpaul_ai
73
SenseNova U1开源发布,革新原生多模态生成

商汤科技SenseNova U1已开源发布。其核心创新在于原生多模态统一建模,将视觉、语言与图像生成视为一个统一问题,而非分立模块的链式处理,从而减少了信息损失。该模型采用MoT架构(38B-Active 3B MoE),在生成信息图、海报、漫画等结构复杂的密集图文内容时能保持高度一致性。详细的技术报告披露了其包括近无损视觉接口、联合训练策略在内的完整构建方案,为行业提供了前沿参考。

SenseTime: 🔥 New week, New SenseNova-U1 Drop - and this one goes Deep!🔥 📄 The full Technical Report is OUT - the most detailed d...

图像生成多模态开源生态模型发布
11:05
Berryxia.AI@berryxia
73
Google DeepMind 发布 Gemini 3.5 Flash:性能大幅提升,但成本显著增加

Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在性能与速度的平衡上取得突破。其智能指数得分为 55,较上一代大幅提升,超越了 Grok 4.3 和 Claude Sonnet 4.6。模型在智能体任务和降低幻觉率方面进步显著,输出速度超过 280 tokens/s。然而,其 API 定价相比前代模型上涨约 3 倍,运行基准测试的成本更是达到 5.5 倍。这意味着 Gemini 3.5 Flash 在实现“更快更智能”的同时,也显著改变了 Flash 系列以往低成本的市场定位。

Artificial Analysis: Google's new Gemini 3.5 Flash is the clear leader on the Intelligence vs Speed Pareto frontier and makes large gains on ...

智能体DeepMind多模态模型发布
11:04
公众号:通义实验室(千问)
精选62
Qwen3.7-Max 重新定义 AI Agent 基座

通义实验室推出 Qwen3.7-Max,定位为重新定义 AI 智能体基座的模型,侧重提升智能体的基础能力与架构。

智能体模型发布

推荐理由:Qwen3.7-Max 是通义系列对 Agent 基座的一次关键升级,发布时间虽已过两周,但做 Agent 的开发者仍不能忽略,选型必看。
10:49
Qwen:Blog Retrieval(API)
精选79
Qwen3.7-Max:面向智能体时代的最新专有模型

通义千问发布 Qwen3.7-Max,专为智能体时代设计。它具备从原型到复杂多文件工程的编码智能体能力,通过 MCP 和多智能体编排实现办公自动化,能自主执行超 1000 步工具调用(如 35 小时全自主内核优化)。兼容 Claude Code、OpenClaw、Qwen Code 等多框架。在多项基准测试中超越 Opus-4.6 Max 等模型:Terminal Bench 2.0 (69.7)、SWE-Verified (80.4)、GPQA Diamond (92.4)、HLE (41.4) 等。现已通过阿里云 Model Studio 提供 API 调用。

智能体推理模型发布编码
关联讨论 10 条X:OpenRouter (@OpenRouter)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)Qwen:Blog Retrieval(API)IT之家(RSS)
推荐理由:Qwen3.7-Max 把 agent 能力拉到了新高度,35 小时自主内核优化证明长程执行有真实生产力,做 coding agent 的团队该认真测一下。
10:04
Rohan Paul@rohanpaul_ai
74
谷歌发布Gemini 3.5 Flash:速度更快、性价比更高的代理模型

谷歌推出Gemini 3.5 Flash模型,其输出速度提升至四倍,在终端基准测试等多项高难度任务中超越了Gemini 3.1 Pro。该模型以高速度与低成本,成为适合日常工作的强大代理工具。它已登陆Gemini应用、搜索AI模式及企业级产品等平台。配合升级的Antigravity工具,Gemini 3.5 Flash可驱动协作子代理,大规模并行处理代码审查、重写与测试等复杂任务,实现高效自动化工作流。

Rohan Paul: Gemini 3.5 in few more hours. 🔥

智能体Google推理模型发布
09:55
IT之家(RSS)
62
曝字节 Seedance 2.1 模型即将发布,系列已狂揽 AI 视频生成 80% 算力消耗

字节跳动即将发布AI视频生成模型Seedance 2.1,其生成质量较当前2.0版本提升约20%,改进重点在于提升视频时间一致性与物理场景模拟效果。该模型预计将整合至剪映等字节系内容创作工具中。目前,Seedance系列已占据AI视频生成领域日均超80%的算力消耗份额,主要竞争对手包括可灵与万相。与此同时,谷歌于近期大会发布了Gemini Omni模型,加剧了该领域的竞争。

模型发布视频
09:14
meng shao@shao__meng
64
Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同,它采用底层原生设计,支持以意图驱动生成视频,并能通过多轮对话进行编辑,每一步都基于上一结果,确保一致性。该模型融合了Gemini的世界知识与物理直觉,并能将图、文、音视频等任意参考物组合,实现跨模态叙事生成。其目标是“从任何东西创造任何东西”,并从视频生成起步。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle多模态模型发布
09:08
Demis Hassabis@demishassabis
81
Gemini 3.5 Flash 太棒了! - 在编码和智能体任务上表现优于 3.1 Pro - 速度比其他前沿模型快 4 倍 - 在 @antigravity 中快 12 倍 - 达到 800 tokens/sec! - 成本通常不到一半 Pro 版本即将到来… 在 @antigravity、@GeminiApp 等平台体验吧 - 享受吧!
智能体Google模型发布编码
关联讨论 14 条Google Blog:AI(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)IT之家(RSS)X:阶跃星辰 StepFun (@StepFun_ai)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Artificial Analysis (@ArtificialAnlys)X:Sundar Pichai (@sundarpichai)X:Google DeepMind (@GoogleDeepMind)X:Gemini (@GeminiApp)Google DeepMind:Blog(RSS)
09:04
Rohan Paul@rohanpaul_ai
69
Google Gemini 3.5 Flash 是其类别中非常强大的模型。在众多基准测试中超越了 Gemini 3.1 Pro。 这是一个代理模型,每秒处理的令牌速度快4倍。 @aimlapi 刚刚将 Gemini 3.5 Flash 添加到其 API 中,并且在24小时内免费提供。 设置说明见评论。

AI/ML API: .@Google : "We're releasing Gemini 3.5 Flash" Us: *We're offering it for free* free for 24hrs via our API find instructi...

Google多模态模型发布
08:05
Berryxia.AI@berryxia
71
Google DeepMind发布Gemini Omni,迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google多模态模型发布视频
07:10
Simon Willison 博客
70
Gemini 3.5 Flash:价格显著上涨,但谷歌计划将其全面应用

谷歌在I/O大会上发布了Gemini 3.5 Flash模型,该模型跳过预览阶段直接正式发布,并已被集成到谷歌Gemini应用、搜索、开发者平台及企业解决方案等多项核心产品中。该模型价格显著上涨:输入价格为每百万令牌1.50美元,输出价格为9美元,分别是前代模型的3倍和6倍,已接近更高端的Gemini 3.1 Pro定价。技术上,它支持约100万输入令牌和约6.5万最大输出令牌。同时,谷歌推出了新的Interactions API测试版。这一价格上调趋势与OpenAI等公司近期策略相似,表明主要AI实验室正在试探API客户的价格承受能力。

Google模型发布
关联讨论 1 条X:Testing Catalog (@testingcatalog)
06:42
karminski-牙医@karminski3
61
Gemini-3.5-flash发布! 价格直接翻三倍?

在Google I/O大会上,Gemini-3.5-flash模型正式发布,其定价从上一代的$0.5/$3大幅上涨至$1.5/$9。实测显示,其性能介于Gemini-3.0-Pro与Gemini-3.1-Pro之间,但稳定性有所不足。此举被视为Google借鉴Anthropic的产品分层策略,计划用flash-lite、新flash和Pro形成梯队。其中新flash主打在百万级上下文内不设阶梯定价,以承接Pro模型溢出的用户。此次调价也可能旨在配合新发布的Antigravity CLI工具,定位类似Claude Code中的Sonnet模型,从而构建其开发生态。

Google推理模型发布编码
06:36
Orange AI@oran_ge
77
Gemini flash 3.5 昨晚发布,现已可用。 - 模型效果大幅超越 3.1 Pro,指标和 gpt 5.5 接近,比 gpt5.5 好的是 Agentic 和 多模态。 - 价格只要 gpt5.5 的三分之一,缓存价格只要六分之一。 - API 定价 $1.50 / $9.00 per 1M token(输入/输出),缓存 输入 $0.15。上下文窗口 1M token。 - 速度极快,是其他旗舰模型的4倍,非常适合 Agent 使用。 官方介绍地址: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
智能体Google多模态模型发布
关联讨论 14 条Google Blog:AI(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)IT之家(RSS)X:阶跃星辰 StepFun (@StepFun_ai)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Artificial Analysis (@ArtificialAnlys)X:Sundar Pichai (@sundarpichai)X:Google DeepMind (@GoogleDeepMind)X:Gemini (@GeminiApp)Google DeepMind:Blog(RSS)
06:03
Rohan Paul@rohanpaul_ai
67
谷歌发布Gemini Omni全能AI模型,支持多模态输入与精准视频编辑

谷歌近日推出Gemini Omni,这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作,且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力,能更真实地模拟重力、流体等物理交互,使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证,以明确标识其AI生成属性。

Google模型发布视频
06:03
Jeff Dean@JeffDean
81
谷歌发布了新模型Gemini 3.5 Flash,该模型强调速度与性能的出色结合。与Gemini 3.1 Pro相比,3.5 Flash在几乎所有基准测试上表现更优,尤其在编程能力方面有巨大进步。其核心优势在于极快的推理速度,比其他前沿模型快4倍。在智能水平与输出速度的坐标图中,该模型凭借其卓越表现独占右上角优势区域,代表了速度与能力的新标杆。

Sundar Pichai: Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...

Google模型发布编码
关联讨论 14 条Google Blog:AI(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)IT之家(RSS)X:阶跃星辰 StepFun (@StepFun_ai)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Google AI (@GoogleAI)X:Jeff Dean (@JeffDean)X:Artificial Analysis (@ArtificialAnlys)X:Sundar Pichai (@sundarpichai)X:Google DeepMind (@GoogleDeepMind)X:Gemini (@GeminiApp)Google DeepMind:Blog(RSS)
05:25
Google Developers Blog(RSS)
87
Google I/O 2026:从辅助工具到独立智能体的战略转型

在2026年开发者大会上,Google宣布其AI战略核心从辅助工具转向开发独立智能体。大会重点发布了Gemini 3.5系列模型,并对“反重力”智能体优先平台进行了重大更新。面向移动开发者,推出了Android CLI工具、评估排行榜及能将多种框架代码快速迁移至原生Kotlin的智能体。Web开发领域也迎来变革,包括专为智能体设计的Chrome DevTools、HTML-in-Canvas API,以及旨在让浏览器内AI智能体执行复杂任务的开放标准WebMCP提案。

智能体Google模型发布编码
关联讨论 4 条Google Research:Blog(网页)Google Blog:AI(RSS)X:Google AI for Developers (@googleaidevs)Ars Technica:AI(RSS)
04:38
Demis Hassabis@demishassabis
79
Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出--从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:
Google多模态模型发布视频
关联讨论 9 条X:Gemini (@GeminiApp)X:Google DeepMind (@GoogleDeepMind)X:Google AI (@GoogleAI)X:Berry Xia (@berryxia)X:Ethan Mollick (@emollick)X:Sundar Pichai (@sundarpichai)X:阿易 AI Notes (@AYi_AInotes)Google DeepMind:Blog(RSS)IT之家(RSS)
‹ 上一页
1…1213141516…27
下一页 ›