AIHOT

全部动态

全部一手资讯 X 论文

5月22日周五

5月21日周四

5月20日周三

5月22日

10:42

karminski-牙医@karminski3

腾讯近期发布了三款翻译专用大模型（Hy-MT2系列）。其中，Hy-MT2-30B-A3B在金融、法律等专业领域的翻译基准测试中，性能超越了DeepSeek-V4-Pro。该系列模型具备强大的多语言翻译能力，可应用于包括特定内容在内的多种翻译场景。

karminski-牙医: 这一波估计XX词典凉的透透的了... 刚看到这个图坐不住了, 30B-A3B 的小模型跑分碾压 DeepSeek-V4-Pro? 谁给你的勇气? 然后定睛一看, 原来是翻译专用大模型. 腾讯刚刚放出了3个翻译专用大模型, 分别是 Hy-MT...

开源/仓库模型发布

10:09

IT之家（RSS）

精选73

智谱GLM-5.1高速版发布：刷新全球大模型API速度纪录

5月22日，智谱向部分企业客户推出了旗舰大模型GLM-5.1的高速版API“GLM-5.1-highspeed”。该版本输出速度达400 tokens/s，刷新了全球大模型API速度上限。关键突破在于，它首次在国产大模型中实现了旗舰级能力与低延迟的结合，打破了“高速模型即轻量模型”的传统。该版本由智谱GLM团队与TileRT团队合作，通过系统级优化确保了速度的生产级稳定性，适用于AI编程、实时语音交互等场景。

推理模型发布部署/工程

推荐理由：智谱把旗舰模型拉到 400 tokens/s，还保持全尺寸能力，不是那种为快阉割的小模型。做实时交互、AI 编程的可以认真看看，延迟敏感场景的选型参数要重写了。

09:41

公众号：智谱（GLM）

精选63

智谱推出GLM-5.1高速版

智谱发布GLM-5.1高速版，推理速度达400 tokens/s，在顶尖模型中生成速度最快。

推理模型发布部署/工程

关联讨论 1 条

推荐理由：智谱把GLM-5.1做到了400 tokens/s，虽然发布已半个月，但这是国产模型在推理速度上的新标杆，做实时应用的可以看看。

09:39

karminski-牙医@karminski3

腾讯发布翻译专用大模型，性能超越DeepSeek-V4-Pro

腾讯推出了三款翻译专用大模型：Hy-MT2-1.8B、Hy-MT2-7B与Hy-MT2-30B-A3B。其中，30B-A3B版本在专攻金融、法律、医疗、技术等特定领域的 DomainMTBench 翻译能力测试中，其表现全面超越了通用大模型 DeepSeek-V4-Pro。这显示了专用模型在垂直领域的显著性能优势。

模型发布

08:13

Berryxia.AI@berryxia

Stable Audio 3登陆Mac本地运行，音乐生成效率惊人

Stable Audio 3官方正式发布，并提供了针对苹果MLX框架的优化版本，使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度，性能表现突出。此外，该工具支持在不到1小时内完成LoRA微调，并提供快速（Sm）与高质量（Medium）两种生成模式。开发者鼓励社区积极探索其潜力，标志着本地化音乐创作工具达到了新高度。

dadabots: 🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...

开源/仓库模型发布端侧语音

06:35

MarkTechPost（RSS）

Qwen推出Qwen3.7-Max：配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上，阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口，并引入扩展思考模式，专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中，该模型获得56.6分，在所有专有模型中排名第五。

智能体推理模型发布编码

06:05

MarkTechPost（RSS）

Cohere发布Command A+：适用于智能体工作流的218B稀疏MoE模型，最少需两块H100 GPU运行

Cohere发布开源模型Command A+，采用218B参数稀疏混合专家架构，整合了此前四个Command A变体。该模型支持智能体工作流，在W4A4量化配置下仅需两块H100 GPU即可运行，支持48种语言，并首次具备多模态推理能力。

智能体多模态模型发布

02:45

Runway：News（网页）

Runway发布Aleph 2.0视频编辑模型及Edit Studio应用

Runway于2026年5月21日发布了视频编辑模型Aleph 2.0及其新产品Edit Studio。Aleph 2.0支持编辑最长30秒的1080p视频，具备精准局部编辑能力，可只改变指定内容而完全保留原视频其余部分。该模型引入了基于单帧图像的精确控制，并支持一次性跨多个镜头应用编辑。Edit Studio是基于这些新能力构建的应用，旨在帮助用户高效地将现有视频素材转化为所需版本，例如更换产品、调整背景或修复拍摄瑕疵。该功能现已向所有付费Runway桌面网页端用户开放，使用优惠码可享受套餐折扣。

模型发布视频

关联讨论 2 条

02:38

Runway@runwayml

Aleph 2.0来了。现在你可以编辑视频中的单个帧，预览更改，然后Aleph 2.0会将该编辑应用到整个视频。立即在下方链接的网页版新编辑工作室中尝试。

图像生成模型发布视频

关联讨论 2 条

02:13

Alibaba Cloud@alibaba_cloud

Qwen3.7-Max已在@OpenRouter上线 https：//x.com/OpenRouter/status/2057500097206976983？s=20

OpenRouter: The new Qwen3.7-Max from @Alibaba_Qwen is live on OpenRouter. The flagship of the Qwen3.7 series, built for agent-centri...

智能体模型发布编码

关联讨论 8 条

01:56

Rohan Paul@rohanpaul_ai

阿里巴巴发布旗舰模型Qwen3.7-Max，专为Agent时代打造

阿里巴巴正式推出最新旗舰模型Qwen3.7-Max，定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6，较前代显著提升，性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性，能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化，模型实现了10倍推理加速，并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室，并兼容Claude Code、OpenClaw等主流开发框架，助力开发者构建实际应用。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体MCP/工具推理模型发布

关联讨论 8 条

00:36

OpenRouter@OpenRouter

精选78

阿里巴巴通义千问团队的全新Qwen3.7-Max现已登陆OpenRouter。作为Qwen3.7系列的旗舰模型，专为以智能体为核心的工作场景打造：编程、办公与生产力任务，以及长周期自主执行。在编程和智能体基准测试中较Qwen3.6有显著提升，并支持显式提示缓存以处理重复上下文。

智能体模型发布编码

关联讨论 8 条

推荐理由：阿里旗舰迭代，重点转向 agent 和长程任务，这次 benchmark 跳跃不是挤牙膏，做 coding agent 的可以认真试试。

00:07

美团 LongCat：HuggingFace 新模型

精选73

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库

关联讨论 1 条

推荐理由：美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

00:00

Mistral AI：News（网页）

Vibe中的远程智能体，由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体，以及Le Chat中用于复杂任务的新Work模式。2026年5月22日，Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体（remote coding agents）提供支持，这些智能体可在终端、IDE和后台运行。同时，Le Chat新增Work模式，专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码

关联讨论 2 条

5月21日

23:26

The Decoder：AI News（RSS）

Cohere开源迄今最强模型

加拿大AI公司Cohere以Apache 2.0许可证开源了其迄今最强语言模型Command A+。该公司宣称这是其最高性能的模型，此次开源标志着Cohere在开放AI生态中的重要布局。Command A+面向开发者与研究社区免费开放，旨在推动大模型技术的透明化与协同创新，为行业提供更高性能的基础模型选择。

开源生态模型发布

22:12

Alibaba Cloud@alibaba_cloud

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码

关联讨论 8 条

21:56

Chubby♨️@kimmonismus

阿里云发布Qwen3.7 Max：代理能力泛化或比性能突破更重要

阿里云发布新旗舰模型Qwen3.7 Max，定位为“代理时代”的基础模型，强调其在端到端编码、办公自动化等实际任务中的执行能力。模型在一个内核优化任务中展示了35小时无人干预的自主运行能力，完成了超过1000次工具调用。但这并非模型的全面自我进化，而是针对特定优化目标的迭代改进。更值得关注的是，Qwen声称其代理能力能从多样化的训练环境中泛化，如同语言能力从文本中泛化。这一观点若成立，其意义将远超任何基准测试成绩。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体模型发布编码

21:42

Alibaba Cloud@alibaba_cloud

通义千问旗舰模型Qwen3.7-Max发布

阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max，定位为面向智能体时代的通用基础模型。该模型旨在为“能真正完成任务”的智能体提供强大支撑，其核心能力包括：支持端到端的复杂编码任务，可作为集成多智能体协作的办公助手，并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性，可适配Claude Code、OpenClaw等多种工具链。目前，用户已可通过Model Studio平台调用其API。

智能体MCP/工具模型发布编码

关联讨论 8 条

21:40

Qwen@Alibaba_Qwen

精选82

Qwen3.7-Max：面向Agent时代的旗舰模型

Qwen3.7-Max是Qwen系列面向Agent时代推出的最新旗舰模型，旨在为能完成实际任务的智能体提供强大基础。其核心能力包括：可作为端到端编码智能体，处理前端原型与多文件重构；作为可靠的办公助手，通过MCP集成与多智能体编排协同工作；并支持超长时间（超过35小时）的自主运行，执行复杂任务链。该模型兼容Claude Code、OpenClaw等主流开发框架，现已上线阿里云模型工作室与Qwen Studio提供服务。

智能体MCP/工具模型发布

关联讨论 8 条

推荐理由：Qwen 3.7-Max 的亮点不在榜上分数，而是它瞄准 Agent 场景的连贯执行能力，35 小时不间断跑 kernel 优化，对需要长线任务的开发者是直接可用的探索方向。

21:40

Qwen@Alibaba_Qwen

阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升了4.8分，创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面，同时显著降低了模型幻觉率。值得注意的是，其分数提升部分源于模型更倾向于拒绝回答，而非完全依靠事实准确率的提高。技术上，其上下文窗口已扩大至100万tokens，仍保持闭源权重。尽管如此，该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码

关联讨论 8 条

19:29

🚨 AI News | TestingCatalog@testingcatalog

Alibaba Group: Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...

智能体推理模型发布编码

18:06

IT之家（RSS）

腾讯混元发布新一代翻译模型Hy-MT2，支持手机端本地部署

腾讯混元正式开源新一代多语言翻译模型Hy-MT2，提供1.8B、7B、30B-A3B三种尺寸，支持33种语言及5种民族语言/方言互译。相比上一代，模型在指令遵循与专业领域翻译能力上显著提升。其中1.8B轻量模型仅需440MB存储，可部署于手机芯片进行本地推理，速度提升1.5倍。同步推出的腾讯Hy翻译小程序支持自定义风格、离线翻译，并开源了翻译指令遵循测试集IFMTBench，模型已上架GitHub、HuggingFace等平台。

开源生态模型发布端侧部署/工程

关联讨论 1 条

16:56

Tencent Hy@TencentHunyuan

精选74

腾讯开源Hy-MT2多语言翻译模型

腾讯正式开源Hy-MT2多语言翻译模型，支持33种语言间的无缝互译。其7B与30B-A3B版本在开源模型中达到最先进的翻译性能，超越了许多参数规模大数十倍的模型。更具突破性的是，1.8B轻量级版本性能超越微软等主流商业API，并凭借腾讯AngelSlim 1.25-bit极量化技术，仅需440MB存储空间，即可在主流手机芯片上本地运行，推理速度较前代提升1.5倍，显著降低了高质量AI翻译的部署门槛。

开源生态模型发布端侧

关联讨论 1 条

推荐理由：虽然翻译领域不算最热，腾讯这个1.8B开源模型用1.25位量化直接跑在手机上，效果还超微软商业API，做本地化翻译工具的人值得关注。

16:43

公众号：腾讯混元

腾讯混元全新翻译模型Hy-MT2开源，小程序「腾讯Hy翻译」开放体验

开源生态模型发布

16:28

Artificial Analysis@ArtificialAnlys

阿里云发布Qwen3.7 Max模型，评测得分56.6分

阿里云发布闭源旗舰模型Qwen3.7 Max，在Artificial Analysis智能指数上获得56.6分，较前代Qwen3.6 Max Preview提升4.8分，与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是，本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多，从而将幻觉率从44.2%显著降至22.9%。此外，该模型的上下文窗口已扩大至100万token，但仍延续了Max系列的闭源策略。

推理模型发布编码

15:27

MarkTechPost（RSS）

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

05:35

Chubby♨️@kimmonismus

OpenAI即将推出通用型大语言模型，强调其并非为特定问题或数学领域专门训练。该模型通过增加测试时的计算资源，性能实现显著提升，展现了通用模型在扩展计算时的潜力。官方表示当前重点在于快速发布，供用户自主探索，暂未在开放问题上追求极限优化。这标志着大模型发展的一条新路径。

Noam Brown: This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...

OpenAI推理模型发布

04:17

Google DeepMind@GoogleDeepMind

精选84

Gemini 3.5 Flash 已正式发布。

Google多模态模型发布

关联讨论 2 条

推荐理由：Google 在 Gemini 3.5 上继续扩展 Flash 线，这种轻量模型对成本和延迟敏感场景很关键，如果你在等一个便宜的 Gemini API，该看了。

00:44

Google Gemini@GeminiApp

精选74

Gemini 3.5 Flash能快速提供整理好的结果，无论输入多么混乱。看看Gemini如何将与客户的聊天和文本，转化为您小企业可用的文档。

Google推理模型发布

关联讨论 16 条

推荐理由：Gemini 3.5 Flash 的核心不是刷榜，而是解决现实中‘信息像一堆垃圾’的问题，这种从杂乱输入直接生成文档的能力，对小企业和自由职业者比 SOTA 更有用。

00:36

Rohan Paul@rohanpaul_ai

商汤开源统一多模态模型SenseNova U1

商汤科技近日开源了SenseNova U1，其核心创新在于架构设计。该模型摒弃了传统的视觉编码器与变分自编码器分离结构，采用单一共享表示空间原生处理图像与文本，极大减少了模块间转换导致的信息损耗。这一设计使模型能够连贯地同时生成图文内容，在信息图、海报、漫画等需要高一致性的密集视觉内容创作上优势显著。性能方面，其信息图生成速度在同等质量下约为Qwen-Image-2.0/Seedream-4.5的两倍。

图像生成多模态开源/仓库模型发布

00:06

Artificial Analysis@ArtificialAnlys

Cohere推出开源权重模型Command A+，智能指数得分达37

Cohere发布了开源权重模型Command A+，其在AI分析智能指数上的得分与Claude 4.5 Haiku持平。该模型核心优势为极低的幻觉率，在相关榜单上以86%领先，体现出模型“知其不知”的可靠性。在速度方面，其API输出速度超过GPT-5.4 nano等多款模型，但仍略逊于Gemini 3.1 Flash-Lite。模型在科学推理与代码生成等高难度任务上表现稍弱，但具备视觉推理能力，性能位于Claude 4.5 Haiku与GPT-5.4 nano之间。

开源/仓库模型发布评测/基准

5月20日

23:56

IT之家（RSS）

精选71

Stability AI 推出音频模型 Stability Audio 3.0，可生成最长 6 分钟专业级歌曲

Stability AI 推出 Stability Audio 3.0 音频生成模型家族，包含四款不同规格模型，参数从45900万到27亿。小型模型专注设备端运行，可本地生成两分钟以内的音频；中型和大型模型支持创作超过6分20秒的完整音乐，

多模态开源/仓库模型发布

推荐理由：Stability Audio 3.0 把AI音乐从几十秒的demo拉到了六分钟的完整歌曲，而且中小模型直接开源，任何一个能跑模型的设备都能玩，音乐创作的门槛继续被踩低。

23:03

The Decoder：AI News（RSS）

Stability AI 发布 Stable Audio 3.0，支持长达六分钟音轨并开放权重

Stability AI正式推出Stable Audio 3.0音频生成模型套件。该系列包含三个已开放模型权重的版本，能够生成最长六分钟的连贯音乐音轨。公司强调，所有模型均完全基于授权音乐数据集进行训练，确保了生成内容的合规性。此次发布标志着在AI音乐生成领域的技术进步，为音乐创作者和开发者提供了更长时长、更开放可用的工具。

多模态模型发布

23:00

TechCrunch：AI（RSS）

Stability AI发布可生成6分钟音频的新模型

Stability AI正式推出Stability Audio 3.0 small模型，该模型可在用户设备本地运行，生成时长最高达两分钟的音乐音轨。与此前云端生成较长音频的方案不同，此次更新强调了模型的轻量化与端侧部署能力，降低了对云计算资源的依赖。

模型发布语音

22:02

Hacker News 热门（buzzing.cc 中文翻译）

Qwen3.7-Max：智能代理的前沿

智能代理领域迎来新突破，Qwen3.7-Max于2026年5月20日发布，标志着前沿技术的演进。该模型聚焦智能代理创新，具体细节可通过qwen.ai博客获取。发布消息在Hacker News上获得128个关注点，显示技术社区的广泛兴趣。尽管未披露详细性能指标，但Qwen3.7-Max的推出暗示了在自主代理架构或任务处理能力上的提升，推动AI向更高效、智能的方向发展。

智能体推理模型发布

关联讨论 8 条

18:46

SenseTime@SenseTime_AI

精选68

将你的想法转化为激发故事的视觉画面 🧨 【引用 @Adamaestr0_】：大多数AI工具可以写作或生成图像。但这个能同时做这两件事。向你介绍 SenseNova U1。一个能同时思考文本和图像的AI。这改变了一切 🧵

Adam: La mayoría de las herramientas de IA pueden escribir o generar imágenes. Pero esta hace AMBAS cosas a la vez. Te present...

多模态模型发布

推荐理由：商汤发了 SenseNova U1，主打文本和图像同时生成的「全模态」，但宣传语太简略，没给任何性能数据或技术细节，暂时看不出是真突破还是常规迭代，先标记关注。

18:41

MarkTechPost（RSS）

英伟达AI发布Nemotron-Labs-Diffusion：单次前向传播生成Token数较Qwen3-8B提升6倍的三模式语言模型

英伟达发布了Nemotron-Labs-Diffusion语言模型家族，其核心创新在于将自回归、基于扩散的并行解码以及自推测解码三种解码模式统一于单一架构。该模型提供3B、8B和14B三种参数规模，并包含基础版、指令微调版和视觉语言版本。相较于Qwen3-8B，其8B参数版本在单次前向传播中能够生成多达6倍的Token数量，显著提升了吞吐效率。

多模态推理模型发布

16:09

MarkTechPost（RSS）

阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash：实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入，支持60种语言的输入和29种语言的语音输出，端到端延迟低至2.8秒。相比前代，新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解，以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中，性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务，采用 WebSocket 协议通信。

多模态模型发布语音

15:56

IT之家（RSS）

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种，输出音频语种从10种增加至29种。通过采用新的流式翻译技术，端到端字均延迟降低至2.8秒，同时支持实时音色克隆以保留说话人原声特征，并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音

15:12

MarkTechPost（RSS）

Google发布Gemini 3.5 Flash：在2026年I/O大会上推出一款更快速、更经济的AI智能体与编码模型

Google在2026年I/O大会上发布了新一代模型Gemini 3.5 Flash。该模型在代码生成和AI智能体任务等基准测试中性能超越了此前的旗舰版本，同时运行速度提升四倍，推理成本降低一半。这一更新显著增强了模型在实际应用中的效率与经济性，特别面向需要快速响应和复杂任务处理的开发者场景。

智能体Google推理模型发布