AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
6月1日周一
5月31日周日
5月30日周六
5月29日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
09:23
公众号:MiniMax(稀宇科技)
65
MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布,采用自研 MSA 稀疏注意力架构,支持 1M 上下文窗口,100 万上下文下每 token 计算量仅为上代 1/20,prefilling 加速超 9 倍,decoding 加速超 15 倍。它是原生多模态模型,支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放,按上下文分两档计价,上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅(¥49/月起)。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布
关联讨论 9 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
08:07
OpenCode@opencode
63
MiniMax M3即将发布 你现在就可以在OpenCode中免费试用
推理模型发布
关联讨论 9 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
04:55
Artificial Analysis@ArtificialAnlys
74
HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

Hugging Face图像生成开源生态模型发布
02:16
Hacker News 热门(buzzing.cc 中文翻译)
59
本地设备 AI 图像生成模型 1-Bit Bonsai Image 4B 发布

1-Bit Bonsai Image 4B 是一款新的 AI 图像生成模型,其主要特点是面向本地设备进行优化,可以在用户的本地硬件上运行。这是一款专注于端侧部署的图像生成解决方案。

图像生成开源生态模型发布端侧
5月31日
15:23
🚨 AI News | TestingCatalog@testingcatalog
74
Grok Imagine Video 1.5 Preview 现已上线 Grok API,并在 Video Arena 排行榜上位列第一。 你已经测试过了吗?👀

Arena.ai: Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...

xAI模型发布视频
10:33
DogeDesigner@cb_doge
70
新消息:Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。 相比之前的 Grok Imagine Video 模型,分数大幅提升了 52 分,超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀
xAI模型发布视频评测/基准
06:53
🚨 AI News | TestingCatalog@testingcatalog
62
BUILD 🔥: 微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2,一个支持 15 种新闻语言和更广泛情感光谱的多语言模型(请在文章中查看语音样本) > MAI Transcribe 1.5,一个用于语音转文本用例的新模型。 > MAI Image 2.5,已于上周公布,现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比,它支持文件上传,并可用于图像编辑。
Microsoft图像生成多模态模型发布
5月30日
23:24
IT之家(RSS)
59
2B 参数"四两拨千斤",智元自研世界模型 GE 2.0 登顶 WorldArena 榜单
具身智能模型发布
22:42
StepFun@StepFun_ai
67
Step 3.7 Flash,Hermes Agent 用户可免费使用 30 天。还能出什么问题?🍿 感谢 @NousResearch 促成此事。迫不及待想看 Hermes 用户们会构建出什么!

Nous Research: Step 3.7 Flash is now free for 30 days via Nous Portal It is a new MoE vision-language model focused on agent efficiency...

智能体多模态模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
20:11
StepFun@StepFun_ai
55
等加载完想听听你的看法。👀

Ivan Fioravanti ᯅ: Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...

多模态模型发布端侧
19:45
Google AI Developers@googleaidevs
精选71
ICYMI:Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。 查看这些优秀的社区示例,了解两个模型的实际能力 🧵
Google图像生成模型发布
关联讨论 1 条X:Google AI for Developers (@googleaidevs)
推荐理由:Gemini 图像模型 GA 了,生成式视觉正式进入 Google 时间,做设计工具和内容生成的开发者可以直接接入测试,看看能不能成为下一个 Midjourney。
19:11
StepFun@StepFun_ai
62
小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧
18:34
Berryxia.AI@berryxia
70
Grok-build-0.1 现已支持使用X AI的 API了。 看了一下价格,输入:百万Token花费 1美金左右。 输出:百万Token花费 2美金左右。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

xAI模型发布编码
07:50
🚨 AI News | TestingCatalog@testingcatalog
78
xAI在API控制台公开发布了grok-build-0.1模型,该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1,输出价格为每百万token $2。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

智能体xAI模型发布编码
关联讨论 4 条xAI:News(网页)X:cb_doge (@cb_doge)X:xAI (@xai)X:阿易 AI Notes (@AYi_AInotes)
06:16
Rohan Paul@rohanpaul_ai
64
今日简报已发布

本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。

Anthropic推理模型发布行业动态
05:48
MarkTechPost(RSS)
59
阶跃星辰发布 Step 3.7 Flash:一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash,这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力,支持 256k 上下文窗口,并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码
05:40
Hacker News 热门(buzzing.cc 中文翻译)
66
Liquid AI 公布了在 38T 数据集上训练的 8B-A1B MoE 模型

Liquid AI 发布了其 LFM2-5 系列的 8B-A1B 模型,该模型采用混合专家(MoE)架构,在包含 38T token 的数据集上训练完成。

数据/训练模型发布
04:19
Greg Brockman@gdb
精选76
OpenAI 实时翻译功能--使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI多模态模型发布语音

推荐理由:OpenAI悄悄推出一个专门做实时语音翻译的模型,不是通用LLM,而是专用模型。这标志着AI交互从文字转向语音的第一步,做翻译硬件或AR眼镜的团队要睡不着了。
01:38
Google Blog:AI(RSS)
精选74
Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5,并同步提供了 11 个视频,集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频
关联讨论 5 条Google Blog:AI(RSS)Google Research:Blog(网页)Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)Ars Technica:AI(RSS)
推荐理由:Google 官方放出的这组视频演示,直接展示了 Gemini Omni 和 3.5 的实际表现,比参数和 benchmark 更直观,做多模态应用的可以逐帧研究。
01:14
The Decoder:AI News(RSS)
56
OpenAI 免费提供其生命科学AI模型,帮助各国政府为下一次大流行做好准备

OpenAI 通过新的 Rosalind 生物防御计划,免费提供其生命科学模型 GPT-Rosalind,旨在加强大流行防范和生物防御。早期合作伙伴包括劳伦斯利弗莫尔国家实验室、约翰霍普金斯大学以及疫苗倡议组织 CEPI。该计划现已向全球开放申请。

OpenAI模型发布
00:45
Chubby♨️@kimmonismus
46
尽管有 Opus 4.8,我发现自己仍在使用 GPT 5.5 和 Codex。显然 GPT-5.6 正在路上;一个新的检查点已经达成,这让我更加高兴。 我对新模型抱有很高的期望。OpenAI 这一年真是精彩。

leo 🐾: Work continues on GPT-5.6! Earlier today a significantly better new checkpoint was made available internally

OpenAI模型发布
00:34
Berryxia.AI@berryxia
69
PaddleOCR-VL 1.6 发布,文档解析SOTA提升

飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

PaddlePaddle: 🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...

多模态开源生态模型发布
00:09
xAI@xai
精选73
grok-build-0.1 现已通过 xAI API 提供公开测试版。 这是驱动 Grok Build CLI 的同一模型,擅长智能体编码。 定价为输入 $1/m,输出 $2/m,极具成本效益、智能且快速。
xAI模型发布编码
关联讨论 4 条xAI:News(网页)X:cb_doge (@cb_doge)X:xAI (@xai)X:阿易 AI Notes (@AYi_AInotes)
推荐理由:xAI 把 Grok Build 底层模型开放 API 了,定价比竞品便宜一个量级,做 agentic coding 的可以低成本试一下,速度也不错。
5月29日
23:13
Qwen:Blog Retrieval(API)
精选65
Qwen-VLA:从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由:一条模型同时搞定机械臂操控、视觉导航、跨形态控制,在LIBERO上97.9%,比专用模型还高,虽然离AGI尚远,但“从看懂世界到动手干活”这一步迈得比想象中大。
22:53
公众号:通义实验室(千问)
精选61
Qwen-VLA:迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA,以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示,将操作、导航与轨迹预测统一在同一框架下,支持11种机器人平台。在5个仿真基准中,单一通用模型在3个上超越最佳专用模型;ALOHA真机in-domain成功率83.6%,OOD泛化76.9%,分别超越π₀.₅超35和40个百分点;DOMINO动态操作零样本达26.6%;VLN-CE导航R2R和RxR分别达57.5%和59.6%,均超越专用模型。

具身智能模型发布

推荐理由:通义把操作、导航和轨迹预测塞进一个脑子,在11种机器人上通用,这是具身智能从'专家'走向'通才'的关键一步,做机器人的值得翻翻论文。
21:10
StepFun@StepFun_ai
70
感谢 🙏 Step 3.7 Flash专为智能体工作流打造--期待看到@NousResearch用户用它在Hermes Agent上构建什么。

Nous Research: Our users love @StepFun_ai models and this new release packs a punch at a small size. Looking forward to seeing how well...

智能体模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
21:10
StepFun@StepFun_ai
68
Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
19:19
Artificial Intelligence News(RSS)
68
Anthropic发布Claude Opus 4.8

Anthropic发布了Claude Opus 4.8,这是对Claude Opus 4.7的升级,改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用,API名称为claude-opus-4-8。

智能体Anthropic推理模型发布
17:49
Greg Brockman@gdb
69
ChatGPT 新增 GPT-5.5 instant 模型: 我们今天发布了 GPT-5.5 instant 的新版本。之前的模型过于"子弹化"。新版本在其他一些重要维度上有所改进:谄媚性、事实性和多语言性能。希望你喜欢!我们始终对反馈感兴趣。

Michelle Pokrass: we shipped a new version of gpt-5.5 instant today. the previous model was too bullet pilled. the new one improves on som...

OpenAI模型发布
17:21
IT之家(RSS)
精选74
小米开源可控视频音效生成模型 ControlFoley,让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由:小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”,开源 SOTA 且直接提供 Skill,做视频创作的可以上手试试。
12:40
StepFun@StepFun_ai
71
阶跃星辰(Step Fun)的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构,专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括:400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具,并擅长深度网络与视觉搜索,在τ2-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等,并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

ZenMux: Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...

智能体MCP/工具多模态模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
11:40
StepFun@StepFun_ai
71
Step 3.7 Flash现已在 @OpenRouter 上线! 这应该能让它更容易地融入现有工作流。

OpenRouter: Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...

智能体多模态模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
11:40
StepFun@StepFun_ai
72
阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

ModelScope: Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...

智能体多模态开源/仓库模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
11:06
OpenRouter@OpenRouter
69
阶跃星辰的Step 3.7 Flash已在OpenRouter上线。 这是一个多模态(图像/视频/文本)MoE模型,196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优,并提供可选的推理级别,以权衡速度、成本和深度。
智能体多模态模型发布编码
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
10:32
Berryxia.AI@berryxia
66
Anthropic发布Claude Opus 4.8,一次性生成可运行的Three.js波音747模型

Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

Berryxia.AI: 兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Co...

Anthropic模型发布编码
09:42
歸藏(guizang.ai)@op7418
72
没想到 Opus 4.8 这就发布了,所有能力相较于 4.7 都有提升。 比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多,原来的话你让他自己 review 自己的代码基本没用。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码
09:39
StepFun@StepFun_ai
69
现已在 @Designarena 上线--快去试试看 👀

Design Arena: Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...

多模态开源生态模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
09:21
IT之家(RSS)
71
阶跃星辰开源 Step 3.7 Flash 模型,最高生成速度每秒 400 Tokens
智能体Hugging Face多模态模型发布
关联讨论 1 条X:阶跃星辰 StepFun (@StepFun_ai)
09:09
向阳乔木@vista8
68
Anthropic 发布 Opus 4.8 并解读其安全报告

Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。

Anthropic安全/对齐模型发布
09:09
meng shao@shao__meng
75
Claude Opus 4.8发布:强化编码与Agent能力

Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 17 条X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:Testing Catalog (@testingcatalog)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:opencode (@opencode)X:Rohan Paul (@rohanpaul_ai)X:Boris Cherny (@bcherny)The Decoder:AI News(RSS)MarkTechPost(RSS)X:Claude (@claudeai)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:宝玉 (@dotey)
‹ 上一页
1…7891011…27
下一页 ›