AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
6月6日周六
6月5日周五
6月4日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
00:59
Google AI Developers@googleaidevs
精选72
谷歌发布 Gemma 4 QAT 检查点,支持消费级 GPU 和移动设备本地运行

谷歌发布 Gemma 4 量化感知训练 (QAT) 检查点,支持在消费级 GPU 和移动设备上本地运行,质量损失极小。新检查点提供 GGUF(Q4_0)格式,覆盖所有尺寸及起草模型,实现最佳本地性能。自定义移动模式采用混合精度方案,将 Gemma 4 压缩至 1GB 以下,包含 2-bit 解码层、优化 KV 缓存和静态激活。通过在训练中模拟压缩(而非训练后量化),大幅降低内存占用并加速解码,同时保持推理质量。

Google开源/仓库模型发布端侧
关联讨论 4 条Google Developers Blog(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)
推荐理由:Gemma 4 的量化版把模型压到 1GB 以下,手机本地跑大模型的门槛又低了一大截。Google 这次没用传统的训练后量化,而是把压缩直接嵌进训练里,效果比 PTQ 好一截,搞端侧部署的可以拿 checkpoint 试起来了。
00:30
Chubby♨️@kimmonismus
65
最近发现的"Oceanus"检查点输出预览曝光,据传闻这是 Anthropic 即将发布的 Mythos 模型的一个版本,计划在"几周内"公开发布。

🚨 AI News | TestingCatalog: MYTHOS 🔥: Another early preview of recently spotted "Oceanus" checkpoint output. "Oceanus" is rumored to be a version o...

Anthropic模型发布
6月5日
23:36
🚨 AI News | TestingCatalog@testingcatalog
64
MYTHOS 🔥: 近期发现的"Oceanus"检查点输出的另一个早期预览。 "Oceanus"被传是即将推出的Mythos模型的一个版本,根据Anthropic,计划在"数周内"公开发布。 "Oceanus"提示词 👀
Anthropic模型发布
15:58
Chubby♨️@kimmonismus
71
@Lentils80 分享了两段来自 Claude Mythos 的惊人输出,零样本且几乎无需费力。这是自 2025 年 10 月 Gemini A/B 模型以来,针对该提示词我看到的最佳输出。主推文感叹:Claude Mythos 将进入完全不同的水准,这些输出太疯狂了。

Lentils: Seeing as Claude Mythos is releasing soon, I have two VERY astonishing outputs to share from it. 👀 ZERO-SHOT and LOW ef...

Anthropic模型发布
15:40
Elon Musk@elonmusk
精选67
更新后的 Grok-build 模型(仍是 0.5T 那个)比以前好很多。它不那么偷懒、更自主、更准确。我们仍在改进长时任务。请期待并在我们漂亮的 TUI 中使用新的使用限制!🚀

Bill Yuchen Lin: The updated Grok-build model (still the 0.5T one) is much better than before. It's less lazy, more autonomous, and more ...

xAI模型发布

推荐理由:马斯克亲口确认Grok模型更新,虽然还是0.5T参数,但改进后更自主、更准确,做长期任务的开发者可以看看。
14:14
IT之家(RSS)
71
谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型:延迟降低至 1/15

谷歌 Magenta 团队昨日发布 Magenta RealTime 2(MRT2)模型,免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模:高质量模型 mrt2_base(24 亿参数)和高速模型 mrt2_small(2.3 亿参数),均针对苹果 Apple Silicon 优化,mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒,MRT2 改为逐帧生成(每帧 40 毫秒),控制延迟约 200 毫秒,降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model,采用 SpectroStream 编解码器处理 48kHz 立体声音频。

Google多模态模型发布
13:27
公众号:京东JoyAI
精选72
京东开源JoyAI-Echo长音视频生成框架

6月3日,京东开源JoyAI-Echo框架,解决长视频生成中角色身份崩坏、音色突变和生成缓慢三大难题。该框架通过跨模态音视频记忆库保持5分钟内角色外观与音色一致,记忆驱动后训练结合DMD技术带来约7.5倍推理加速。新增Director Agent支持自然语言对话式局部修订,无需重跑整条视频。配套轻量化实时超分模块,支持736×1280→1152×1920及1472×2560两档分辨率。评测集显示,语音内容准确率0.8646,用户偏好多项领先。代码与权重已开源至GitHub。

GitHub多模态模型发布

推荐理由:长视频生成一直被角色崩塌和龟速生成卡死,JoyAI-Echo 开源给出了角色一致性方案和 7.5 倍加速,Director Agent 对话式编辑的思路很先进,做 AI 视频的朋友可以直接去 GitHub 开跑。
13:14
IT之家(RSS)
58
xAI 开放预览版图转视频模型 grok-imagine-video-1.5-preview,单图生成最高 720p 电影感视频

xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,可将一张静态图像扩展为流畅的电影感视频片段。用户提供起始图片并用自然语言描述运动方式后,模型可控制镜头移动、画面节奏、环境氛围与物理效果。该模型最高支持 720p 视频生成,适合概念验证、分镜测试和短内容生产,并能通过逐段动画化将多镜头串联为更长场景。

xAI图像生成模型发布视频
05:54
MarkTechPost(RSS)
69
NVIDIA AI 发布 Nemotron 3 Ultra:开源 550B MoE 混合 Mamba-Transformer,面向长时间运行智能体

NVIDIA 发布 Nemotron 3 Ultra,总参数量 550B(活跃参数 55B)的开源混合专家(MoE)模型,采用 Mamba-Transformer 混合架构,专为长时间运行的 AI 智能体设计。该模型支持 1M token 上下文窗口,推理吞吐量比同等准确率的开源大语言模型最高提升约 6 倍。权重、训练数据和配方以 OpenMDW-1.1 许可开放。

智能体开源生态模型发布
04:03
🚨 AI News | TestingCatalog@testingcatalog
72
NVIDIA 在 Huggingface 上发布 Nemotron 3 Ultra(Nemotron-3-Ultra-550B-A55B-NVFP4),一个 550B 参数的 MoE 前沿智能开源大语言模型,专为长时间运行的 AI 智能体设计。相比其他开源前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低 30%。模型具备强大的智能体、推理和对话能力。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态推理模型发布
03:55
Chubby♨️@kimmonismus
66
那太酷了!我爱这些家伙的创意。 一个仅2.4B参数的开放模型,用于实时音乐生成。 如果你在长途飞行中无聊,现在可以开始创作神曲了。

Omar Sanseviero: Introducing Magenta RealTime 2 🎺 - Open model for live music generation - Just 2.4B parameters, perfect for on-device -...

Google开源生态模型发布端侧
03:43
Hugging Face:Blog(RSS)
精选78
Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由:Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」,自定义策略和推理 trace 让企业能审计决策,做安全平台的值得细看。
02:54
Google AI Developers@googleaidevs
精选70
Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 (MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。

Google Magenta Project: Introducing Magenta RealTime 2 (MRT2): the live music model you can play as an instrument. MRT2 offers MIDI and prompt c...

Google多模态开源生态模型发布

推荐理由:Magenta RealTime 2 把音乐生成从「后期制作」拉到了「实时演奏」,开放权重且延迟低于 200ms,音乐创作者值得立刻上手试试。
6月4日
23:23
Chubby♨️@kimmonismus
81
NVIDIA Nemotron 3 Ultra 发布:完全开源 550B MoE 模型

NVIDIA 正式发布 Nemotron 3 Ultra,550B 总参数(55B 活跃)的完全开源 MoE 模型,权重、训练数据和完整配方全部公开。采用混合 Mamba-Attention 架构,专为长上下文快速解码和轻内存占用设计。在长输出智能体工作负载上,吞吐量约为可比开源模型的 6 倍(推理速度提升 5 倍),复杂智能体任务成本降低最多 30%。该模型在 4-bit(NVFP4)精度下预训练 20T tokens,后训练使用 MOPD 技术,由十余个专家教师模型蒸馏技能至学生模型。这是首个达到前沿水平且可完全复现的开源模型。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态推理模型发布
关联讨论 4 条X:Perplexity (@perplexity_ai)IT之家(RSS)X:opencode (@opencode)X:Artificial Analysis (@ArtificialAnlys)
23:16
SenseTime@SenseTime_AI
69
商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
23:15
SiliconFlow@SiliconFlowAI
精选72
Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平

neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。

多模态推理模型发布编码

推荐理由:后训练模型能直追 GPT-5.5 和 Claude 4.7,免费两周,对做 agent 和 deep search 的人来说是难得的低成本试错机会。
22:46
SenseTime@SenseTime_AI
精选69
SenseNova U1 开源统一模型:原生图文生成

商汤 SenseTime 推出 SenseNova U1 开源多模态模型,实现原生理解与生成文本和图像,可一键将提示词转化为专业信息图。该模型被开发者 @gurru_tech 评价为“非常令人印象深刻”。项目已开源,提供 SenseNova Studio 在线试用,并公开 HuggingFace 模型集合、GitHub 源码仓库及 Discord 社区入口。

图像生成多模态开源生态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:商汤这回把图文统一模型开源了,SenseNova U1的infographic功能比市面上大多数文生图工具更懂文字和布局,做内容的朋友可以上手试试。
22:22
elvis@omarsar0
74
NVIDIA 今日发布 Nemotron 3 Ultra,一个 550B MoE 前沿智能开源模型,专为长时间运行智能体设计。相比其他开源前沿模型,推理速度提升 5 倍,复杂智能体任务成本降低 30%。

NVIDIA AI: Today we're shipping Nemotron 3 Ultra. A 550B MoE frontier-intelligence open model built for long-running agents. It del...

智能体开源生态模型发布
21:54
Artificial Analysis@ArtificialAnlys
74
NVIDIA 发布 Nemotron 3 Ultra,成美国开源权重模型智能新标杆

NVIDIA 发布 Nemotron 3 Ultra,为目前最智能的美国开源权重模型。在 Artificial Analysis Intelligence Index 得分 47.7,领先 Gemma 4 31B(39.2)、Nemotron 3 Super(36.0)和 gpt-oss-120b(33.3),但低于中国开源模型 Kimi K2.6(53.9)。模型总参数约 550B,激活 55B,推理速度超 400 tokens/s,较 gpt-oss-120b 略快且智能显著更高。NVFP4 精度得分 47.7,BF16 得分 48.2,精度差异极小。

开源生态推理模型发布评测/基准
21:18
StepFun@StepFun_ai
精选77
阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型(VLM),含 196B 语言骨干和 1.8B 视觉编码器,从设计之初优化推理效率,采用硬件友好架构与 MTP 辅助解码,速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力,面向真实智能体工作负载,采用 Apache 2.0 开源许可。

Fireworks AI: Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B sparse MoE VLM designed b...

多模态推理模型发布
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)
推荐理由:198B稀疏MoE加MTP解码把速度推到400 tok/s,还开源Apache 2.0,这规格做agent的大脑正合适,做实时应用的可以试试手。
20:52
LMSYS:Blog(Chatbot Arena 团队)
81
SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型,总参数 550B、激活参数 55B,采用混合 Transformer-Mamba 架构的 MoE,支持最长 1M token 上下文。针对长运行自主智能体优化,具备工具调用、编码、深度研究与编排能力,后训练使用多环境强化学习(NeMo RL)。SGLang 提供高性能推理,支持 NVFP4 和 BF16 精度,NVFP4 检查点可在 Blackwell GPU 运行;Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先,成本节省高达 30%。

智能体开源生态推理模型发布
关联讨论 4 条X:Perplexity (@perplexity_ai)IT之家(RSS)X:opencode (@opencode)X:Artificial Analysis (@ArtificialAnlys)
16:21
MarkTechPost(RSS)
61
Miso Labs 发布 MisoTTS:8B 参数情感文本转语音模型,开放权重

Miso Labs 推出 MisoTTS,一款开放权重的 8B 参数文本转语音模型。该模型采用残差向量量化(RVQ)在不增加参数量的情况下扩展声音范围,并同时基于文本和音频上下文来响应用户语调。架构由 7.7B 主骨干与 300M 深度解码器组成。

开源生态模型发布语音
16:18
The Decoder:AI News(RSS)
55
xAI 更新 Grok Imagine 至 1.5,新增 720p 图像转视频生成

xAI 发布 grok-imagine-video-1.5-preview 图像转视频模型,能将静态图片转换为最高 720p 分辨率的影视级视频,支持文本提示控制,多个片段可拼接为更长的场景。

xAI图像生成模型发布视频
14:11
IT之家(RSS)
75
Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

图像生成开源生态模型发布
关联讨论 1 条X:Krea AI (@krea_ai)
12:17
StepFun@StepFun_ai
73
阶跃星辰发布开源 Step 3.7 Flash(Apache 2.0),采用 MoE 架构(198B 总参/11B 活跃参),配备 MTP 辅助解码(3 个预测头),输出速度超 400 tokens/s,是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6,较 Step 3.5 Flash 提升 4 分。智能体能力明显增强:GDPval-AA Elo 升至 1298,TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器,MMMU-Pro 得分 75.3%。上下文窗口 256K tokens,提供 BF16、FP8、NVFP4 版本。缺点:AA-Omniscience 准确率仅 25.4%,幻觉率 84.4%。

Artificial Analysis: StepFun's Step 3.7 Flash sits on the Intelligence vs Output Speed Pareto frontier, scoring 43 on the Artificial Analysis...

智能体多模态推理模型发布
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)X:OpenRouter (@OpenRouter)
12:00
DogeDesigner@cb_doge
65
Grok Imagine Video 1.5 现在在 Video Arena 排行榜上排名第一。🥇

Elon Musk: Iliad (Troy) trailer made by Grok Imagine 1.5, which was just released

多模态模型发布视频
11:52
Artificial Analysis@ArtificialAnlys
67
StepFun 开源 Step 3.7 Flash 模型,性能与速度并进

StepFun 开源 Step 3.7 Flash(Apache 2.0),总参数 198B、激活 11B(MoE),上下文 256K。在 Artificial Analysis 智能指数上得分 42.6,较 Step 3.5 Flash 提升 4 分,输出速度超 400 tokens/s,通过 Multi-Token Prediction(3 个 token)加速。新增 1.8B 视觉编码器支持原生多模态,MMMU-Pro 得分 75.3%。代理能力提升:GDPval-AA Elo 从 1070 升至 1298,TerminalBench Hard 达 35.6%,AA-LCR 63.7%。知识/幻觉仍弱:AA-Omniscience 准确率 25.4%,幻觉率 84.4%。提供 BF16、FP8、NVFP4 精度权重以降低部署成本。

多模态开源生态推理模型发布
11:10
IT之家(RSS)
64
香港首个生产力级超级智能体发布,本地大模型 HKGAI V3 登场

香港生成式人工智能研发中心(HKGAI)发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升,Agent无干预运行时长增长近百倍,单次稳定运行达28小时,并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机,内置V3模型实现本地推理、数据不出站,适用于政务、金融、医疗等高安全场景。

智能体模型发布
11:00
歸藏(guizang.ai)@op7418
61
Reve 2.0 图像模型:原生4K输出与分层编辑能力

Reve 2.0 图像模型支持原生4K输出,核心亮点在于类似 Photoshop 的图像分层编辑能力。用户点击图像中的任意部分即可选中该区域,无需复杂的中间处理步骤,直接进行针对性编辑。该功能大幅简化了图像局部修改的工作流。

图像生成模型发布
10:23
Jeff Dean@JeffDean
75
来看看我们的 Gemma 4 12B 模型:它是一个功能非常强大的开源权重模型,可以直接在你的笔记本电脑上运行。

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态开源生态模型发布
关联讨论 4 条Google Developers Blog(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)
09:58
MiniMax (official)@MiniMax_AI
71
MiniMax M3 即将推出,现在即可在 OpenCode 免费试用。M3 已回到免费层,快来体验!

OpenCode: MiniMax M3 will be launching soon You can try it right now in OpenCode For free

开源生态模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
09:40
小互@xiaohu
73
Ideogram 4.0 开源:边界框控制+多语言文字渲染

Ideogram 发布首个开源 AI 图像模型 Ideogram 4.0,主推文字渲染与版面控制。模型引入 bounding box(边界框)控制,允许用坐标精确指定元素位置;支持结构化 JSON 提示词格式,不再仅限纯文本;英文 OCR 准确率达 0.97(X-Omni 基准),支持跨语言密集文字渲染,涵盖中日韩等非拉丁文字。

图像生成开源生态模型发布
09:28
xAI:News(网页)
精选75
xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)

xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频
关联讨论 1 条X:cb_doge (@cb_doge)
推荐理由:xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
09:06
Elon Musk@elonmusk
精选72
Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频,一次性完成。示例代码: `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI图像生成模型发布视频

推荐理由:Grok Imagine Video 1.5 把同步音频塞进了图生视频,一条 prompt 直接出带声短片,做短视频和创意的可以换上这条流水线了。
09:06
Elon Musk@elonmusk
精选73
伊利亚特(特洛伊)预告片由刚刚发布的 Grok Imagine 1.5 制作
xAI多模态模型发布视频

推荐理由:Elon 亲自演示 Grok Imagine 1.5,生成的《伊利亚特》预告片质感让我觉得视频生成赛道又要卷一轮,做短片的可以盯一下。
08:51
Berryxia.AI@berryxia
67
MOSS-Audio:开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。

MOSI: MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...

多模态模型发布语音
08:40
小互@xiaohu
71
Google 发布 Gemma 4 12B 开源模型

Google 发布 Gemma 4 12B 开源模型,采用无编码器 Unified 架构,可直接处理文本、图像、音频、视频,无需独立编码器。16GB 显存可运行,4-bit 量化后低至 8GB。支持 256K token 上下文、140+ 语言,内置 Thinking 模式和 Function Calling。

Google多模态开源生态模型发布
07:58
MiniMax (official)@MiniMax_AI
77
15.6× faster decoding at 1M tokens 🔥 感谢 @FireworksAI_HQ 为 M3 提供推理支持。 立即尝试 👇

Fireworks AI: MiniMax M3 arrives with MiniMax Sparse Attention (MSA), 15.6x faster decoding at 1M tokens. We're partnering with @MiniM...

推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
07:51
Berryxia.AI@berryxia
69
Google 昨晚发布Gemma 4 12B 多模态的大模型,至少需要16G 内存就可以运行。 应该和Qwen 的模型进行对比其效果如何~

Google Gemma: Meet Gemma 4 12B! A unified, encoder-free multimodal model designed to bring high-performance intelligence directly to y...

Google多模态模型发布端侧
06:59
DogeDesigner@cb_doge
70
SpaceXAI 不断刷新标准。🔥 Grok Imagine Video 1.5 预览版现已上线 API,效果看起来极为电影感。📽️ 去亲自试试吧。💻 祝 SpaceXAI 好运。🚀
多模态模型发布视频
‹ 上一页
1…34567…27
下一页 ›