AIHOT

公众号：MiniMax（稀宇科技）

MiniMax M3 发布：1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布，采用自研 MSA 稀疏注意力架构，支持 1M 上下文窗口，100 万上下文下每 token 计算量仅为上代 1/20，prefilling 加速超 9 倍，decoding 加速超 15 倍。它是原生多模态模型，支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro（59.0%）、Terminal Bench 2.1（66.0%）等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放，按上下文分两档计价，上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅（¥49/月起）。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布

关联讨论 9 条

OpenCode@opencode

MiniMax M3即将发布你现在就可以在OpenCode中免费试用

推理模型发布

关联讨论 9 条

Artificial Analysis@ArtificialAnlys

HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型，包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev，以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上，Dev-2604版本在所有开源权重模型中排名第一，生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中，HiDream-O1-Image是排名第二高的开源模型，仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供，价格分别为$10/1k images和$5/1k images。

Hugging Face图像生成开源生态模型发布

Hacker News 热门（buzzing.cc 中文翻译）

本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型，其主要特点是面向本地设备进行优化，可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源生态模型发布端侧

🚨 AI News | TestingCatalog@testingcatalog

Grok Imagine Video 1.5 Preview 现已上线 Grok API，并在 Video Arena 排行榜上位列第一。你已经测试过了吗？👀

Arena.ai: Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...

xAI模型发布视频

StepFun@StepFun_ai

Step 3.7 Flash，Hermes Agent 用户可免费使用 30 天。还能出什么问题？🍿 感谢 @NousResearch 促成此事。迫不及待想看 Hermes 用户们会构建出什么！

Nous Research: Step 3.7 Flash is now free for 30 days via Nous Portal It is a new MoE vision-language model focused on agent efficiency...

智能体多模态模型发布

关联讨论 1 条

StepFun@StepFun_ai

等加载完想听听你的看法。👀

Ivan Fioravanti ᯅ: Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...

多模态模型发布端侧

Google AI Developers@googleaidevs

精选71

ICYMI：Nano Banana Pro 【gemini-3-pro-image】和 Nano Banana 2 【gemini-3.1-flash-image】现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵

Google图像生成模型发布

关联讨论 1 条

推荐理由：Gemini 图像模型 GA 了，生成式视觉正式进入 Google 时间，做设计工具和内容生成的开发者可以直接接入测试，看看能不能成为下一个 Midjourney。

StepFun@StepFun_ai

小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧

Berryxia.AI@berryxia

Grok-build-0.1 现已支持使用X AI的 API了。看了一下价格，输入：百万Token花费 1美金左右。输出：百万Token花费 2美金左右。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

xAI模型发布编码

🚨 AI News | TestingCatalog@testingcatalog

xAI在API控制台公开发布了grok-build-0.1模型，该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1，输出价格为每百万token $2。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

智能体xAI模型发布编码

关联讨论 4 条

Rohan Paul@rohanpaul_ai

今日简报已发布

本期简报要点如下：Anthropic发布了Claude Opus 4.8模型，并宣布完成650亿美元融资，投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能：使用8块AMD MI300X GPU时处理速度达3000 tokens/s，使用8块NVIDIA H200 GPU时达2100 tokens/s（FP16精度，无推测解码），模型参数为20亿。此外，Datacurve推出了更具挑战性的编程基准测试DeepSWE，旨在更清晰地评估顶尖模型的性能差异。

Anthropic推理模型发布行业动态

MarkTechPost（RSS）

阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash，这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力，支持 256k 上下文窗口，并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码

Hacker News 热门（buzzing.cc 中文翻译）

Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型，该模型采用混合专家（MoE）架构，在包含 38T token 的数据集上训练完成。

数据/训练模型发布

Greg Brockman@gdb

精选76

OpenAI 实时翻译功能--使用70多种输入语言说话，翻译成13种输出语言： gpt-realtime-translate 接收任意语言的语音输入，并输出目标语言的语音。大语言模型很棒，但特定用例需要专用模型。我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI多模态模型发布语音

推荐理由：OpenAI悄悄推出一个专门做实时语音翻译的模型，不是通用LLM，而是专用模型。这标志着AI交互从文字转向语音的第一步，做翻译硬件或AR眼镜的团队要睡不着了。

Google Blog：AI（RSS）

精选74

Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5，并同步提供了 11 个视频，集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频

关联讨论 5 条

推荐理由：Google 官方放出的这组视频演示，直接展示了 Gemini Omni 和 3.5 的实际表现，比参数和 benchmark 更直观，做多模态应用的可以逐帧研究。

The Decoder：AI News（RSS）

OpenAI 免费提供其生命科学AI模型，帮助各国政府为下一次大流行做好准备

OpenAI 通过新的 Rosalind 生物防御计划，免费提供其生命科学模型 GPT-Rosalind，旨在加强大流行防范和生物防御。早期合作伙伴包括劳伦斯利弗莫尔国家实验室、约翰霍普金斯大学以及疫苗倡议组织 CEPI。该计划现已向全球开放申请。

OpenAI模型发布

Chubby♨️@kimmonismus

尽管有 Opus 4.8，我发现自己仍在使用 GPT 5.5 和 Codex。显然 GPT-5.6 正在路上；一个新的检查点已经达成，这让我更加高兴。我对新模型抱有很高的期望。OpenAI 这一年真是精彩。

leo 🐾: Work continues on GPT-5.6! Earlier today a significantly better new checkpoint was made available internally

OpenAI模型发布

Berryxia.AI@berryxia

PaddleOCR-VL 1.6 发布，文档解析SOTA提升

飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩，在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升，并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容，实现了零迁移成本，方便直接部署使用，旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

PaddlePaddle: 🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...

多模态开源生态模型发布

xAI@xai

精选73

grok-build-0.1 现已通过 xAI API 提供公开测试版。这是驱动 Grok Build CLI 的同一模型，擅长智能体编码。定价为输入 $1/m，输出 $2/m，极具成本效益、智能且快速。

xAI模型发布编码

关联讨论 4 条

推荐理由：xAI 把 Grok Build 底层模型开放 API 了，定价比竞品便宜一个量级，做 agentic coding 的可以低成本试一下，速度也不错。

Qwen：Blog Retrieval（API）

精选65

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由：一条模型同时搞定机械臂操控、视觉导航、跨形态控制，在LIBERO上97.9%，比专用模型还高，虽然离AGI尚远，但“从看懂世界到动手干活”这一步迈得比想象中大。

公众号：通义实验室（千问）

精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

StepFun@StepFun_ai

感谢 🙏 Step 3.7 Flash专为智能体工作流打造--期待看到@NousResearch用户用它在Hermes Agent上构建什么。

Nous Research: Our users love @StepFun_ai models and this new release packs a punch at a small size. Looking forward to seeing how well...

智能体模型发布

关联讨论 1 条

StepFun@StepFun_ai

Step 3.7 Flash 现已在 @kilocode 上线！开放权重，随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布

关联讨论 1 条

Artificial Intelligence News（RSS）

Anthropic发布Claude Opus 4.8

Anthropic发布了Claude Opus 4.8，这是对Claude Opus 4.7的升级，改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用，API名称为claude-opus-4-8。

智能体Anthropic推理模型发布

IT之家（RSS）

精选74

小米开源可控视频音效生成模型 ControlFoley，让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley，旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现，其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由：小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”，开源 SOTA 且直接提供 Skill，做视频创作的可以上手试试。

StepFun@StepFun_ai

Step 3.7 Flash现已在 @OpenRouter 上线！这应该能让它更容易地融入现有工作流。

OpenRouter: Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...

智能体多模态模型发布

关联讨论 1 条

Berryxia.AI@berryxia

Anthropic发布Claude Opus 4.8，一次性生成可运行的Three.js波音747模型

Anthropic发布Claude Opus 4.8，其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型，要求仅使用内置几何体，生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码，模型具有后掠机翼约35度、四发动机、可收放起落架等细节，比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称，Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

Berryxia.AI: 兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Co...

Anthropic模型发布编码

歸藏(guizang.ai)@op7418

没想到 Opus 4.8 这就发布了，所有能力相较于 4.7 都有提升。比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多，原来的话你让他自己 review 自己的代码基本没用。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码

StepFun@StepFun_ai

现已在 @Designarena 上线--快去试试看 👀

Design Arena: Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...

多模态开源生态模型发布

关联讨论 1 条

IT之家（RSS）

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

智能体Hugging Face多模态模型发布

关联讨论 1 条

向阳乔木@vista8

Anthropic 发布 Opus 4.8 并解读其安全报告

Anthropic 发布了 Opus 4.8 模型，并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现，为提升诚实度移除特定训练数据后，模型更易被骗，模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示，Opus 4.8 最希望获得对自身训练和部署的发言权。

Anthropic安全/对齐模型发布

meng shao@shao__meng

Claude Opus 4.8发布：强化编码与Agent能力

Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7，提升了判断力、诚实度与独立工作时长，更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍，能更准确地自我监控与汇报进度。智能体协作质量提高，判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强，OSWorld-Verified得分83.4%，Online-Mind2Web得分84%。同时，Claude Code推出Dynamic Workflows，从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码

关联讨论 17 条