AIHOT

Krea@krea_ai

精选73

Krea 2 访问码发放！ K2-PRFUF8 / K2-NRWW9E / K2-CAP48S - 每个码可使用50次。访问链接如下 👇 【引用 @krea_ai】：this is Krea 2. our first foundation model， built completely from scratch for aesthetic diversity and stylistic control. learn more and get early access 👇

Krea: this is Krea 2. our first foundation model, built completely from scratch for aesthetic diversity and stylistic control....

图像生成模型发布

关联讨论 1 条

推荐理由：Krea 从套壳到自研模型这一步走得关键，专攻美学多样性和风格控制，对设计师来说是个值得立刻上手试的新选择。

Chubby♨️@kimmonismus

GPT-5.6 来得那么快，这不在我的预料之中。

leo 🐾: 🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...

OpenAI模型发布

IT之家（RSS）

小米开源 Xiaomi OneVL 自动驾驶模型，业内率先实现 VLA、世界模型等多技术路线统一

小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA（视觉语言动作模型）与世界模型这两条技术路线统一于同一框架，通过潜空间推理同时提升推理速度与精度，在多项基准测试中达到先进水平。此外，它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。

具身智能多模态模型发布

SenseTime@SenseTime_AI

精选72

SenseNova-U1 技术报告深度发布：前沿原生多模态模型构建全指南

SenseNova-U1 技术报告详尽披露了构建前沿原生多模态模型的方法，核心包括原生多模态统一建模、无损视觉接口、联合自回归与像素空间流匹配训练、以及原生混合专家骨干网络。报告提供了六阶段训练方案、强化学习后训练与蒸馏的完整实践指南。其开源版本 SenseNova-U1-A3B-MoT 基于混合专家架构，仅激活30亿参数，实现了高效快速的性能。相关资源已全面开放，涵盖技术报告、模型权重、代码和演示平台。

多模态开源/仓库模型发布

关联讨论 1 条

推荐理由：商汤把原生多模态模型的训练细节全公开了，无视觉编码器、原生MoE架构，还开源了38B-A3B权重，做多模态模型的可以直接照着技术报告复现。

IT之家（RSS）

面壁智能 MiniCPM-V 4.6 发布开源：1.3B 参数仅需 6G 内存即可流畅运行

面壁智能联合清华大学及 OpenBMB 开源社区发布新一代端侧多模态大模型 MiniCPM-V 4.6。该模型参数为 1.3B，仅需约 6GB 内存即可在端侧设备运行。其在通用图文理解、STEM 推理等任务上超越同尺寸模型，Artificial Analysis 评测得 13 分。效率方面，Token 吞吐量为竞品的 1.5 倍，计算消耗仅为其 2.5%。模型采用 LLaVA-UHD v4 架构，图像编码计算量降低 55.8%，并支持高分辨率图像快速处理。目前已全面开源，提供完整工具链，适配主流微调与推理框架。

多模态开源/仓库模型发布端侧

Tencent Hy@TencentHunyuan

精选76

Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由：腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜，295B MoE 架构在推理和代码上提升明显，不是小厂的刷榜产品，搞 agent 和 coding 的可以认真试试。

公众号：面壁智能（MiniCPM）

新一代「小钢炮」来袭！1.3B 模型性能效率双杀，MiniCPM-V 4.6 正式开源

多模态开源/仓库模型发布端侧

Berryxia.AI@berryxia

Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face检索增强多模态开源生态

Hacker News 热门（buzzing.cc 中文翻译）

Show HN： Needle：我们将"双子座工具召唤"浓缩为一个26M模型

研究团队发布了名为Needle的轻量级模型，它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时，体积显著缩小，旨在实现更高效的部署与应用。项目代码已在GitHub开源，并在Hacker News社区获得了超过100点的关注度。

智能体MCP/工具开源生态模型发布

StepFun@StepFun_ai

Step Image Edit 2图像模型发布，性能领先且高效

Step Image Edit 2模型正式发布。这是一个35亿参数的图像模型，在指令式图像编辑的权威基准KRIS-Bench中，于综合、事实和概念类别均排名第一，性能超越参数量为其5-6倍的模型。其核心能力包括文生图、基于指令的图像编辑、精准的中英双语文字渲染以及保持主体一致性的风格迁移。该模型生成速度快，单次编辑成本低，目前已上线Stepfun开放平台。

图像生成多模态模型发布

ClaudeDevs@ClaudeDevs

精选76

Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。

Anthropic推理模型发布编码

关联讨论 2 条

推荐理由：Opus 4.7 加推 Fast mode，编程场景延迟会降一大截，Claude Code 可以直接用，对天天在终端敲代码的人是个实在提升。

OpenRouter@OpenRouter

精选69

Perceptron Mk1已在OpenRouter上线，由@perceptroninc开发。前沿视频与具身推理的视觉语言模型。以动态帧率（最高2 FPS）分析视频，具备32k多模态上下文，采用混合推理和结构化空间基元（点、框、多边形、片段）作为首要输出。

多模态推理模型发布

推荐理由：将视频理解提升到结构化空间输出，动态帧率分析让模型能真正「看懂」动作，做具身智能的开发者可以关注。

Krea@krea_ai

精选68

这是Krea 2。我们的首个基础模型，完全从零构建，旨在实现美学多样性和风格控制。了解更多并获取早期访问权限👇

图像生成模型发布

推荐理由：Krea 终于自研基础模型了，而且是从零开始做，专门为美学多样性和风格控制优化的，对做视觉内容的人来说多了一个风格自由度的选择，值得试试 early access。

The Decoder：AI News（RSS）

Thinking Machines Lab发布首款模型，主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型，旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块，并行处理音频、视频和文本信息，专注于提升实时交互的流畅性与自然度。公司宣称，这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live，致力于推动语音助手向更自然、非问答式的对话体验演进，从而重新定义人机交互方式。

多模态模型发布语音

HuggingFace Daily Papers（社区热门论文）

精选76

Qwen-Image-2.0技术报告

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器，结合多模态扩散变换器进行联合建模，并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入，能生成幻灯片、海报等富文本内容，显著提升多语言文本渲染与排版质量。在生成方面，它增强了细节、纹理真实感与光照一致性，并更可靠遵循复杂指令。人工评估表明，其在生成和编辑任务上均大幅超越前代模型。

arXiv图像生成多模态模型发布

推荐理由：这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里，长文本渲染和多语言排版提升肉眼可见，做海报和幻灯片的可以重点关注。

Rohan Paul@rohanpaul_ai

Thinking Machines 推出"始终在场"AI模型，革新传统轮替式交互

Thinking Machines公司发布了TML-Interaction-Small模型，旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构，将音频、视频和文本流切分为200毫秒的微轮次，使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟（0.40秒）的同时，保留了强大的推理与指令遵循能力，且交互性直接内建于模型架构，而非依赖外部组件拼凑实现。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态模型发布语音

歸藏(guizang.ai)@op7418

Thinking Machines发布原生多模态"交互模型"，实现实时人机协作

前OpenAI CTO Mira创立的Thinking Machines公司发布了一种创新的“交互模型”。该模型能原生、持续地接收音频、视频和文本等多模态输入，并实时思考与响应，而非通过Agent串联多个独立模型。其架构分为两部分：前台交互模型以200毫秒为节点处理输入并维持用户“在场感”，支持随时打断；后台推理模型则处理长程规划、工具调用等复杂任务。两者协同工作，最终呈现为一个既能实时交互又能处理重度任务的统一界面。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态推理模型发布

歸藏(guizang.ai)@op7418

谷歌或即将发布新一代视频模型Veo 4，功能全面升级

谷歌可能即将推出新一代视频生成模型，暂称Veo 4或类似名称。该模型被描述为类似Sora 2.0的全能参考模型，支持对现有视频进行修改参考和内容替换等操作。在文字生成质量上，它被认为比Sora 2.0略有优势，清晰度和细节可能也稍有提升。据透露，这款即将到来的Gemini Omni视频模型在视频编辑功能上将更为先进，能够完成去除水印、替换视频内物体等复杂任务。谷歌预计会发布该模型的两个版本，包括一个性能更强的Pro变体，而目前展示的样本可能并非Pro版本。

🚨 AI News | TestingCatalog: GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capabl...

Google模型发布视频

Berryxia.AI@berryxia

Apple押注端侧AI，开源小模型MiniCPM-V 4.6实现高效边缘部署

推文指出Apple的统一内存架构是端侧AI的理想平台。同时，OpenBMB发布了专为消费级硬件优化的1.3B多模态模型MiniCPM-V 4.6。该模型采用LLaVA-UHD v4技术，将视觉编码成本降低55%，实现了高效的边缘原生部署。其在多项关键基准测试中超越了更大的模型，且token消耗仅为对比模型的2.5%。在RTX 4090上处理高分辨率图像时，首token延迟仅75.7ms，速度快2.2倍。模型技术亮点包括Intra-ViT早期压缩和混合视觉压缩，有效平衡了分辨率与延迟。其部署友好，支持iOS、Android、HarmonyOS及多种主流推理框架与量化格式，相关资源已在各大平台开源。

OpenBMB: 1/5 MiniCPM-V 4.6 (1.3B) is now live 🚀🚀 High-res visual processing, optimized for consumer-grade and mobile hardware. ...

多模态开源/仓库模型发布端侧

Artificial Analysis@ArtificialAnlys

清华大学与ModelBest合作发布MiniCPM-V 4.6 1.3B Instruct多模态小模型

清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分，成为2B参数以下开源模型中得分最高的，刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%，领先同类小模型。模型支持文本、图像和视频输入，并具有极高的令牌效率，运行测试仅需540万输出令牌，远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当，处于较低水平。

Hugging Face多模态模型发布端侧

swyx 🌉@swyx

我相信年轻人会这样形容："@thinkymachines 刚刚残酷碾压了gdm和oai"。基本上所有人的"实时"定义都得到了巨大升级。

swyx 🌉: lowkey the funniest videos of the batch. thinky has some comedians!! congrats to @thinkymachines on reviving the omnimod...

多模态模型发布视频语音

swyx 🌉@swyx

低调地说，这批视频中最有趣的。thinky 有一些喜剧演员！！祝贺 @thinkymachines 复活了其他人未能实现的 omnimodel 梦想。

Mira Murati: Today we're sharing our work on interaction models. A new class of model trained from scratch to handle real-time intera...

多模态模型发布

The Decoder：AI News（RSS）

Baidu的Ernie 5.1在性能比肩顶尖模型的同时，将预训练成本削减94%

百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法，仅使用前代模型三分之一的参数量，其预训练成本仅为同类模型的6%，实现了94%的成本削减。在Search Arena排行榜上，Ernie 5.1位列全球第四，排名仅次于两个Claude Opus变体和GPT-5.5 Search。

搜索数据/训练模型发布

Chubby♨️@kimmonismus

天哪，谷歌正在放大招！新的视频模型/Gemini Omni 简直好得离谱且精准。 YouTube 和 TikTok 将涌现大量新的 AI 生成视频。

Chetaslua: Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coheren...

Google模型发布视频

OpenRouter@OpenRouter

精选69

AntLingAGI发布了其万亿参数旗舰"思考模型"Ring-2.6-1T，该模型在5月15日前可通过OpenRouter免费使用。其核心特性包括可调节的思考强度，能动态平衡认知深度、token成本和执行速度；专为智能体优化，适用于高频工作流，提供快速的多步执行和工具调用；并具备深度思考能力，以应对严密的数学逻辑和科学研究任务。模型旨在满足实际生产环境中复杂任务的需求。

Ant Ling: We are launching Ring-2.6-1T, a trillion-parameter flagship thinking model engineered for real-world complex tasks and p...

智能体推理模型发布

关联讨论 1 条

推荐理由：万亿参数的思维模型免费到5月15日，可调思考力度的设计很接地气，做agent的可以趁窗口压测一下，看看它能不能扛住真实生产环境。

SenseTime@SenseTime_AI

精选72

SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行，并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流，并对其图像生成能力进行了真实场景测试。模型支持8步快速推理，生成速度极快，应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHubHugging Face图像生成模型发布

推荐理由：商汤把新模型U1的ComfyUI部署流程完整放出，还有实测视频，想在自己机器上跑国产图像模型的开发者可以直接抄作业了。

Tencent Hy@TencentHunyuan

腾讯混元Hy3预览版已开放早期体验，被描述为该系列最强模型。其核心设计面向现实世界有效性，而非单纯追求基准测试分数。模型具备处理复杂智能体任务的能力，采用256K上下文长度，并融合了快慢思维机制的混合专家架构。该模型基于重建的预训练和强化学习基础设施构建，旨在实现大规模应用下的高成本效益。

Python Space: Got early access to Tencent's Hy3 preview. This is the strongest model in the Hy series. Built on rebuilt pre-training a...

智能体推理模型发布

关联讨论 3 条

🚨 AI News | TestingCatalog@testingcatalog

Google I/O曝光Gemini Omni视频模型新证据

在Google I/O期间，Gemini移动应用中发现了即将推出的Gemini Omni视频模型的新证据。该模型被描述为“我们的新视频模型”，功能包括混剪视频、在聊天中直接编辑以及使用模板等。分析指出，这可能是基于Gemini的真正“Omni”模型，而非Veo。早期测试显示，该模型会快速消耗使用额度，且网络和移动端应用都将新增一个“使用情况”标签页来追踪用量。

Google多模态模型发布视频

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

Alibaba Cloud@alibaba_cloud

基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https：//int.alibabacloud.com/m/1000412167/

多模态模型发布视频

关联讨论 3 条

Chubby♨️@kimmonismus

百度ERNIE 5.1以极低预训练成本逼近SOTA

百度发布的ERNIE 5.1模型基于ERNIE 5.0预训练基础，宣称在搜索、推理、知识问答、创意写作和智能体能力方面获得提升，而其预训练成本仅为同类可比模型的约6%。该模型在Arena搜索排行榜以1223分位列第四，ERNIE 5.1 Preview在LMArena Text上取得1476分，全球排名第十三。推文作者指出目前未见技术论文，需验证其宣称的低成本高性能表现，但若属实将意义重大。

Baidu Inc.: ERNIE 5.1 just dropped. Built on ERNIE 5.0's pre-training foundation, our latest foundation model upgrades search, reaso...

推理搜索模型发布

Berryxia.AI@berryxia

百度发布ERNIE 5.1模型，实现参数与成本的极致压缩

百度推出ERNIE 5.1模型，核心突破在于参数与成本的大幅压缩。其总参数和激活参数分别压缩至原规模的约1/3和1/2，预训练成本仅为同规模模型的约6%，同时保持了领先性能。模型在Agent能力上超越DeepSeek-V4-Pro，世界知识与创意写作接近领先闭源模型及Gemini 3.1 Pro，推理能力仅次于Gemini 3.1 Pro，深度搜索位列全球第四。技术创新包括提升参数效率的弹性预训练、增强可扩展性的异步强化学习训练等。模型已上线ERNIE平台和Baidu AI Studio。

ERNIE for Developers: ERNIE 5.1 is here 🚀 ERNIE 5.1 significantly reduces pretraining cost while compressing total parameters to ~1/3 and act...

智能体推理数据/训练模型发布

关联讨论 1 条