AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
最新一期2026-06-12
2026 年 6 月12
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
6月12日6月11日6月10日更早
AIHOT DAILY
2026年5月30日 · 周六

1模型发布/更新

OpenAI推出实时翻译模型,支持70+语言输入

OpenAI 实时翻译功能——使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

X:Greg Brockman (@gdb)
小米开源可控视频音效生成模型 ControlFoley,让声音“按你想要的来”

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。

IT之家(RSS)
Qwen-VLA:从理解世界到在其中行动

Qwen Studio提供全面功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及Artifacts。

Qwen:Blog Retrieval(API)

2产品发布/更新

Codex可自主管理对话线程与并行任务

Codex用于管理Codex界面: [引用 @guinnesschen]:如果你厌倦了管理Codex对话线程,就让Codex自己管理自己吧!Codex现在可以创建对话线程、搜索它们、整理它们、固定重要的线程,并为并行任务启动工作树。

X:Greg Brockman (@gdb)
Gemini Omni可将草图变为现实

Gemini Omni甚至能将简单的草图变为新的现实。 在Gemini应用中亲自尝试。上传一段有人画圆的视频,然后输入这个提示词:当我画完这个圆时,它变成了___。

X:Gemini (@GeminiApp)
Codex现已支持Windows端计算机使用功能

Windows用户,这条消息是给你的。 计算机使用功能现已在Windows上可用,因此Codex可以在你的Windows电脑上执行操作。 通过ChatGPT移动应用中Codex的Windows支持,你可以在工作继续在Windows电脑上进行时,随时随地启动、审查和引导任务。 这是一项早期体验,但我们正在努力提供更多方式,让你的工作无论身在何处都能持续进行。

X:OpenAI (@OpenAI)
Guardrails:保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

OpenRouter:Announcements(RSS)
ComfyUI现已支持OpenRouter模型直接调用

现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了! [引用 @ComfyUI]:ComfyUI刚刚添加了@OpenRouter支持。 你不再局限于单一的大语言模型,现在可以直接在Comfy中访问20多个模型。 更多灵活性,更少摩擦,同样的工作流。 工作流链接在下方👇

X:OpenRouter (@OpenRouter)
Runway API持续扩展模型与端点支持

我们持续为 Runway API 添加新模型和端点,以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API,您可以在一个地方获得所需的所有模型,包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。

X:Runway (@runwayml)
OpenRouter支持模型生成文件补丁

OpenRouter 现已支持 "apply_patch",这是一个服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。 模型生成一个补丁(创建、更新或删除文件)。OpenRouter 在服务器端验证 diff 语法。

X:OpenRouter (@OpenRouter)
ChatGPT对话目录功能现已上线

对于每个始于“就问一件事”却演变成完整长篇的ChatGPT对话:目录功能现已推出。 适用于包含5条以上回复的对话。

X:ChatGPT (@ChatGPTapp)

3行业动态

Anthropic估值9650亿美元超越OpenAI

Anthropic在最新融资轮中筹集了650亿美元,融资后公司估值达到9650亿美元,首次超越竞争对手OpenAI的估值水平。

Bloomberg:Technology(RSS)
中央网信办等四部门:提升全民人工智能素养,加快人才培育、深化普及应用

中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》,部署了六项重点任务。其中明确要求“提升全民人工智能素养”,具体包括强化人工智能赋能教育、加快人工智能人才培育、深化人工智能普及应用。其他任务涵盖数字资源供给、应用场景建设、普惠包容发展、安全有序网络空间以及协同联动机制。

IT之家(RSS)
波士顿儿童医院利用AI解锁新诊断

波士顿儿童医院通过部署OpenAI技术,用于改善患者护理并减轻运营负担,成功帮助诊断了超过40种罕见病病例。

OpenAI:官网动态(RSS · 排除企业/客户案例)

4论文研究

GPIC:大规模视觉生成基准数据集发布

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

X:Fei-Fei Li (@drfeifei, World Labs)

5技巧与观点

这个 skill 看着不错,可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料,支持 28 种布局和 10 种主题。

claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了“写完文章”后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。

X:洪明 (@hongming731)
亲测为实:难以置信的推理速度

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。

X:Rohan Paul (@rohanpaul_ai)
Adam’s Law:用高频词写Prompt效果更好

FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。

X:Berry Xia (@berryxia)
Cursor 团队发布《开发者习惯报告》

报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

X:邵猛 (@shao__meng)
Claude Code——文档中未提及的所有可配置选项

该篇文章标题涉及“Claude Code”的可配置选项,但提供的正文内容仅包含一张图片和一个外部链接,未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则,无法在摘要中提及原文不存在的细节。

Hacker News 热门(buzzing.cc 中文翻译)
当公司过于"AI上瘾"时会发生什么?

Box创始人Aaron Levie指出,决定用AI替代员工的人往往最不了解工作的实际内容,他将此称为“AI psychosis”。ClickUp近期为部署AI智能体裁员22%即是一例。2026年的科技行业裁员规模已接近2025年全年。

TechCrunch:AI(RSS)
23今日事件
9一手报道
3新模型
18信源
← 前一日历史后一日 →
VOL.2026.05.30·23 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年五月三十日 星期六DAILY · 每早八时
01

模型发布/更新

Model Releases
3 篇

OpenAI推出实时翻译模型,支持70+语言输入

X·KOLX:Greg Brockman (@gdb)

OpenAI 实时翻译功能——使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

小米开源可控视频音效生成模型 ControlFoley,让声音“按你想要的来”

综合资讯IT之家(RSS)

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。

Qwen-VLA:从理解世界到在其中行动

官方Qwen:Blog Retrieval(API)

Qwen Studio提供全面功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及Artifacts。

02

产品发布/更新

Product
8 篇

Codex可自主管理对话线程与并行任务

X·KOL
特斯拉 FSD 安全性宣称遭质疑

特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。

IT之家(RSS)
Cognition的Scott Wu表示:AI编程智能体不应取代人类

Cognition公司开发了Devvin,这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示,该智能体并非旨在取代人类程序员。

TechCrunch:AI(RSS)
X:Greg Brockman (@gdb)

Codex用于管理Codex界面: [引用 @guinnesschen]:如果你厌倦了管理Codex对话线程,就让Codex自己管理自己吧!Codex现在可以创建对话线程、搜索它们、整理它们、固定重要的线程,并为并行任务启动工作树。

Gemini Omni可将草图变为现实

官方·XX:Gemini (@GeminiApp)

Gemini Omni甚至能将简单的草图变为新的现实。 在Gemini应用中亲自尝试。上传一段有人画圆的视频,然后输入这个提示词:当我画完这个圆时,它变成了___。

Codex现已支持Windows端计算机使用功能

官方·XX:OpenAI (@OpenAI)

Windows用户,这条消息是给你的。 计算机使用功能现已在Windows上可用,因此Codex可以在你的Windows电脑上执行操作。 通过ChatGPT移动应用中Codex的Windows支持,你可以在工作继续在Windows电脑上进行时,随时随地启动、审查和引导任务。 这是一项早期体验,但我们正在努力提供更多方式,让你的工作无论身在何处都能持续进行。

Guardrails:保护你的智能体、数据与成本

官方OpenRouter:Announcements(RSS)

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

ComfyUI现已支持OpenRouter模型直接调用

官方·XX:OpenRouter (@OpenRouter)

现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了! [引用 @ComfyUI]:ComfyUI刚刚添加了@OpenRouter支持。 你不再局限于单一的大语言模型,现在可以直接在Comfy中访问20多个模型。 更多灵活性,更少摩擦,同样的工作流。 工作流链接在下方👇

Runway API持续扩展模型与端点支持

官方·XX:Runway (@runwayml)

我们持续为 Runway API 添加新模型和端点,以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API,您可以在一个地方获得所需的所有模型,包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。

OpenRouter支持模型生成文件补丁

官方·XX:OpenRouter (@OpenRouter)

OpenRouter 现已支持 "apply_patch",这是一个服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。 模型生成一个补丁(创建、更新或删除文件)。OpenRouter 在服务器端验证 diff 语法。

ChatGPT对话目录功能现已上线

官方·XX:ChatGPT (@ChatGPTapp)

对于每个始于“就问一件事”却演变成完整长篇的ChatGPT对话:目录功能现已推出。 适用于包含5条以上回复的对话。

03

行业动态

Industry
3 篇

Anthropic估值9650亿美元超越OpenAI

综合资讯Bloomberg:Technology(RSS)

Anthropic在最新融资轮中筹集了650亿美元,融资后公司估值达到9650亿美元,首次超越竞争对手OpenAI的估值水平。

中央网信办等四部门:提升全民人工智能素养,加快人才培育、深化普及应用

综合资讯IT之家(RSS)

中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》,部署了六项重点任务。其中明确要求“提升全民人工智能素养”,具体包括强化人工智能赋能教育、加快人工智能人才培育、深化人工智能普及应用。其他任务涵盖数字资源供给、应用场景建设、普惠包容发展、安全有序网络空间以及协同联动机制。

波士顿儿童医院利用AI解锁新诊断

官方OpenAI:官网动态(RSS · 排除企业/客户案例)

波士顿儿童医院通过部署OpenAI技术,用于改善患者护理并减轻运营负担,成功帮助诊断了超过40种罕见病病例。

04

论文研究

Research
1 篇

GPIC:大规模视觉生成基准数据集发布

X·KOLX:Fei-Fei Li (@drfeifei, World Labs)

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

05

技巧与观点

Tips & Takes
8 篇

这个 skill 看着不错,可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料,支持 28 种布局和 10 种主题。

X·KOLX:洪明 (@hongming731)

claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了“写完文章”后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。

亲测为实:难以置信的推理速度

X·KOLX:Rohan Paul (@rohanpaul_ai)

Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。

Adam’s Law:用高频词写Prompt效果更好

X·KOLX:Berry Xia (@berryxia)

FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。

Cursor 团队发布《开发者习惯报告》

X·KOLX:邵猛 (@shao__meng)

报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

Claude Code——文档中未提及的所有可配置选项

综合资讯Hacker News 热门(buzzing.cc 中文翻译)

该篇文章标题涉及“Claude Code”的可配置选项,但提供的正文内容仅包含一张图片和一个外部链接,未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则,无法在摘要中提及原文不存在的细节。

当公司过于"AI上瘾"时会发生什么?

综合资讯TechCrunch:AI(RSS)

Box创始人Aaron Levie指出,决定用AI替代员工的人往往最不了解工作的实际内容,他将此称为“AI psychosis”。ClickUp近期为部署AI智能体裁员22%即是一例。2026年的科技行业裁员规模已接近2025年全年。

特斯拉 FSD 安全性宣称遭质疑

综合资讯IT之家(RSS)

特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。

Cognition的Scott Wu表示:AI编程智能体不应取代人类

综合资讯TechCrunch:AI(RSS)

Cognition公司开发了Devvin,这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示,该智能体并非旨在取代人类程序员。

23
今日事件
9
一手报道
3
新模型
18
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成