AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
最新一期2026-06-12
2026 年 6 月12
  • 12 日Gemini Omni Flash 视频任务达 SOTA
  • 11 日DiffusionGemma:文本生成速度提升4倍的开源扩散模型
  • 10 日Claude Fable 5 和 Claude Mythos 5
  • 9 日小米 MiMo-V2.5-Pro-UltraSpeed 突破 1,000 tokens/s,单台 8-GPGPU 节点运行 1T MoE 模型
  • 8 日Harness-1:基于强化学习训练的有状态搜索20B检索子智能体
  • 7 日GitHub 开源 Spec Kit 工具包,用产品规范引导 AI 编码
  • 6 日Riverflow 2.5:可控制评分标准的图像模型
  • 5 日Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
  • 4 日Grok Imagine 1.5 预览版发布
  • 3 日微软首款高级推理AI模型MAI-Thinking-1发布
  • 2 日MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
  • 1 日OpenAI发布生物防御AI工具Rosalind
2026 年 5 月31
  • 31 日Nano Banana Pro与Nano Banana 2正式发布
  • 30 日OpenAI推出实时翻译模型,支持70+语言输入
  • 29 日Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级
  • 28 日Runway 推出 Model Context Protocol 服务器
  • 27 日谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
  • 26 日面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
  • 25 日Luma Agents 实现规模化真实 UGC 广告生成
  • 24 日StepAudio 2.5实时语音发布:副语言感知与人格化交互
  • 23 日首个基于华为昇腾910B NPU全栈训练的1.58比特开源大模型BitCPM-CANN发布
  • 22 日Aleph 2.0 与 Edit Studio
  • 21 日Qwen3.7:智能体前沿
  • 20 日I/O 2026: 欢迎来到自主的 Gemini 时代
  • 19 日阿里云推出HappyHorse视频生成模型
  • 18 日Grok Imagine图像生成功能正式发布
  • 17 日社区协作再创佳绩,vLLM支持万亿级模型
  • 16 日MiniMax M2.7模型上线OrcaRouter平台
  • 15 日SenseNova U1技术报告发布,基于MoE架构开放模型权重
  • 14 日Hy3预览版登陆GMI,开源最强模型领跑
  • 13 日Claude Opus 4.7快速模式开放研究预览
  • 12 日SenseNova U1图像生成模型登陆ComfyUI平台
  • 11 日OpenCode x Ring 2.6 1T限时免费开放
  • 10 日ERNIE 5.1发布,预训练成本仅需对标模型6%
  • 9 日Ring-2.6-1T发布:万亿参数思维模型专为复杂任务设计
  • 8 日通过 API 中的新模型推进语音智能
  • 7 日SenseNova-U1开源8步蒸馏LoRA,推理速度大幅提升
  • 6 日GPT-5.5 Instant:更智能、更清晰、更个性化
  • 5 日语音克隆技术上线 真假难辨
  • 4 日从单张图像构建实时视频智能体:Runway Characters技术解析
  • 3 日模型别名新增"-latest"指向最新版本
  • 2 日GPT-5.5发布一周创营收新高
  • 1 日AntLingAGI开源Ling-2.6-1T模型,登陆Hugging Face平台
2026 年 4 月9
  • 30 日旗舰指令模型快速高效执行的秘诀:可靠基础设施与优化
  • 29 日Mistral AI发布Mistral Medium 3.5模型及Vibe远程编程智能体
  • 28 日小米开源MiMo-V2.5双模型,支持百万上下文与商用
  • 27 日Mistral AI 发布 Workflows 公开预览版,为企业AI工作流提供编排支持
  • 26 日DeepSeek V4模型限时2.5折优惠
  • 25 日迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源
  • 24 日OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、每兆瓦输出提升 50 倍
  • 23 日inclusionAI/LLaDA2.0-Uni
  • 22 日inclusionAI/DR-Venus-4B-RL 发布
全部日报 →
AI 日报每早八时
6月12日6月11日6月10日更早
AIHOT DAILY
2026年4月23日 · 周四

1模型发布/更新

inclusionAI/LLaDA2.0-Uni

inclusionAI团队发布了LLaDA2.0-Uni模型。该版本在统一的多模态理解与生成能力上取得显著进展,支持图像、文本、音频等多种输入与输出模态。模型参数量达到约70B,在多项基准测试中,其综合性能较前代提升超过15%。此次发布延续了通过开源与开放科学来推动人工智能民主化的核心使命。

蚂蚁 inclusionAI:HuggingFace 新模型

2产品发布/更新

microsoft/amplifier-module-provider-chat-completions

微软为Amplifier项目发布了Chat Completions Provider模块。该模块旨在为Amplifier框架提供聊天补全功能,使其能够集成和利用支持聊天接口的大型语言模型。这一新增组件扩展了Amplifier项目的核心能力,使其开发者能够更便捷地构建基于对话式AI的应用。

Microsoft:GitHub 新仓库

3行业动态

ChatGPT 推出 Workspace Agents

ChatGPT 发布了由 Codex 驱动的 Workspace Agents。这些智能体能够自动化复杂的工作流程,并在云端运行,旨在帮助团队安全地跨工具扩展工作。其核心功能是实现工作流的自动化与规模化,同时确保操作过程的安全性。

OpenAI:官网动态(RSS · 排除企业/客户案例)
这款机器人能在乒乓球桌上击败你

一款自主机器人成功击败了精英乒乓球运动员。该系统通过高速视觉和机械臂,能够预测人类对手的回球轨迹并实时制定策略进行反击。研究团队在《自然》期刊上发表了相关论文,标志着人工智能在动态、高速度的实体运动竞技中首次超越顶尖人类选手。该机器人展示了在毫秒级时间内完成感知、决策和精准动作执行的能力。

Nature:Machine Learning 主题(RSS)
解耦式DiLoCo:分布式AI训练的新前沿

Google团队提出解耦式DiLoCo架构,通过将训练任务解耦到多个计算“岛屿”并实现异步数据流,显著提升了分布式AI训练的韧性与灵活性。该架构能有效隔离本地硬件故障,使系统其余部分持续学习。在实际测试中,仅使用2-5 Gbps广域网带宽,便在四个美国区域成功训练了一个120亿参数模型,训练速度比传统同步方法快20倍以上。系统在硬件故障时仍能保持高集群可用性与训练吞吐量,且最终模型性能与传统方法相当,同时支持混合使用不同代际硬件。

Google DeepMind:Blog(RSS)
Seed3D 2.0发布,更高精度、更强可用性

Seed3D 2.0正式发布,这是一个在几何精度与材质质量上显著提升的新一代3D生成大模型。它采用两阶段DiT策略优化几何生成,并通过统一PBR模型增强纹理的真实感与稳定性。评测显示,其在两项核心指标上均达到SOTA,人类打分员在纹理任务中对它的偏好率超过69%。此外,模型拓展了下游可用性,支持部件级生成与场景组合,为具身智能和工业制造提供生产级3D内容。

字节 Seed:Research Feed(网页内嵌数据)
CellNiche:基于对比学习的图谱级空间组学细胞微环境表征框架

研究人员开发了CellNiche,一个基于对比学习的可扩展框架,用于从图谱级空间组学数据中识别和表征细胞微环境。该框架利用以细胞为中心的空间邻近子图,融合空间共定位与分子共表达信息,学习具有微环境感知能力的嵌入表示。在涵盖多个平台、总计超千万细胞的数据集上验证表明,其表征能力随数据量增加而提升,且计算高效。在人类非小细胞肺癌队列中,它能识别保守及样本特异的肿瘤-免疫微环境;在四个独立小鼠脑图谱中,它能整合293个切片构建统一虚拟脑图,实现跨图谱注释转移与空间细化。

Nature:Machine Learning 主题(RSS)
dsLassoCov:一种结合协变量控制的联邦Lasso方法

针对联邦学习中协变量控制困难、通信成本高的问题,本文提出了dsLassoCov方法。该方法整合Lasso回归,能在保护数据隐私的分布式训练中有效控制混杂效应,降低高维数据下的通信开销,支持生物医学研究中的生物标志物识别。模拟数据验证了其管理混杂效应的有效性;在利用六个地理分布数据库复制大规模暴露组研究的真实数据分析中,其结果与先前研究一致。这一方法有望推动联邦学习在大型生物医学项目中的应用。

Nature:Machine Learning 主题(RSS)
Claude Managed Agents 的内置记忆功能

Claude Managed Agents 推出内置记忆功能,现已进入公测阶段。该功能基于文件系统的记忆层,允许代理从每个会话中学习,优化跨会话性能。记忆以文件形式存储,开发者可通过API导出和管理,并拥有完全控制权,支持权限范围、审计日志和并发访问。实际应用中,Rakuten的代理减少97%首过错误;Wisedocs的文档验证流程加快30%;整体上,代理实现97%首过错误减少、成本降低27%和延迟降低34%。Netflix、Ando等团队利用该功能实现上下文跨会话传递和基础设施简化,提升代理的持续学习能力。

Claude:Blog(网页)
Claude新增日常生活连接器

2026年4月23日,Anthropic宣布扩展其AI助手Claude的连接器生态,新增15款日常生活应用,包括AllTrails、Instacart、Audible等。自2025年7月上线以来,连接器目录已增长至超过200个,覆盖设计、金融、生产力等领域。新版本支持动态情境化推荐,能根据用户对话上下文智能建议相关应用,并在多应用适用时并列展示选项。所有连接操作需用户授权确认,用户数据不会用于模型训练,且可随时断开。该功能全版本可用,移动端处于测试阶段。

Claude:Blog(网页)

4论文研究

OpenAI/可监控性评估

OpenAI开源了一套可监控性评估工具集,该套件源自《Monitoring Monitorability》论文。这套工具旨在系统评估大型语言模型的可监控性,帮助开发者测量与理解模型在部署过程中的行为可控性与透明度。它提供了一系列标准化测试方法,用于检测模型潜在的风险行为与输出不确定性,为AI安全研究提供了重要的基准评估框架。

OpenAI:GitHub 新仓库
alibaba/OSWorld

阿里巴巴在NeurIPS 2024上发布了OSWorld基准测试框架,用于评估多模态智能体在真实计算机环境中的开放式任务执行能力。该框架提供了一个可复现的虚拟环境,支持对基于GPT、Claude、LLaMA等模型的智能体进行标准化测试。其核心变化在于从封闭任务转向开放任务评估,涵盖了网页浏览、软件操作、文件管理等跨平台实际场景。项目以开源形式发布,鼓励通过Fork提交修改并向上游发起PR贡献。

Alibaba:GitHub 新仓库
12今日事件
12一手报道
1新模型
9信源
← 前一日历史后一日 →
VOL.2026.04.23·12 STORIES·AI HOT DAILY

AIHOT日报

二〇二六年四月二十三日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
1 篇

inclusionAI/LLaDA2.0-Uni

官方蚂蚁 inclusionAI:HuggingFace 新模型

inclusionAI团队发布了LLaDA2.0-Uni模型。该版本在统一的多模态理解与生成能力上取得显著进展,支持图像、文本、音频等多种输入与输出模态。模型参数量达到约70B,在多项基准测试中,其综合性能较前代提升超过15%。此次发布延续了通过开源与开放科学来推动人工智能民主化的核心使命。

02

产品发布/更新

Product
1 篇

microsoft/amplifier-module-provider-chat-completions

官方Microsoft:GitHub 新仓库

微软为Amplifier项目发布了Chat Completions Provider模块。该模块旨在为Amplifier框架提供聊天补全功能,使其能够集成和利用支持聊天接口的大型语言模型。这一新增组件扩展了Amplifier项目的核心能力,使其开发者能够更便捷地构建基于对话式AI的应用。

03

行业动态

Industry
8 篇

ChatGPT 推出 Workspace Agents

官方
OpenAI:官网动态(RSS · 排除企业/客户案例)

ChatGPT 发布了由 Codex 驱动的 Workspace Agents。这些智能体能够自动化复杂的工作流程,并在云端运行,旨在帮助团队安全地跨工具扩展工作。其核心功能是实现工作流的自动化与规模化,同时确保操作过程的安全性。

这款机器人能在乒乓球桌上击败你

官方Nature:Machine Learning 主题(RSS)

一款自主机器人成功击败了精英乒乓球运动员。该系统通过高速视觉和机械臂,能够预测人类对手的回球轨迹并实时制定策略进行反击。研究团队在《自然》期刊上发表了相关论文,标志着人工智能在动态、高速度的实体运动竞技中首次超越顶尖人类选手。该机器人展示了在毫秒级时间内完成感知、决策和精准动作执行的能力。

解耦式DiLoCo:分布式AI训练的新前沿

官方Google DeepMind:Blog(RSS)

Google团队提出解耦式DiLoCo架构,通过将训练任务解耦到多个计算“岛屿”并实现异步数据流,显著提升了分布式AI训练的韧性与灵活性。该架构能有效隔离本地硬件故障,使系统其余部分持续学习。在实际测试中,仅使用2-5 Gbps广域网带宽,便在四个美国区域成功训练了一个120亿参数模型,训练速度比传统同步方法快20倍以上。系统在硬件故障时仍能保持高集群可用性与训练吞吐量,且最终模型性能与传统方法相当,同时支持混合使用不同代际硬件。

Seed3D 2.0发布,更高精度、更强可用性

官方字节 Seed:Research Feed(网页内嵌数据)

Seed3D 2.0正式发布,这是一个在几何精度与材质质量上显著提升的新一代3D生成大模型。它采用两阶段DiT策略优化几何生成,并通过统一PBR模型增强纹理的真实感与稳定性。评测显示,其在两项核心指标上均达到SOTA,人类打分员在纹理任务中对它的偏好率超过69%。此外,模型拓展了下游可用性,支持部件级生成与场景组合,为具身智能和工业制造提供生产级3D内容。

CellNiche:基于对比学习的图谱级空间组学细胞微环境表征框架

官方Nature:Machine Learning 主题(RSS)

研究人员开发了CellNiche,一个基于对比学习的可扩展框架,用于从图谱级空间组学数据中识别和表征细胞微环境。该框架利用以细胞为中心的空间邻近子图,融合空间共定位与分子共表达信息,学习具有微环境感知能力的嵌入表示。在涵盖多个平台、总计超千万细胞的数据集上验证表明,其表征能力随数据量增加而提升,且计算高效。在人类非小细胞肺癌队列中,它能识别保守及样本特异的肿瘤-免疫微环境;在四个独立小鼠脑图谱中,它能整合293个切片构建统一虚拟脑图,实现跨图谱注释转移与空间细化。

dsLassoCov:一种结合协变量控制的联邦Lasso方法

官方Nature:Machine Learning 主题(RSS)

针对联邦学习中协变量控制困难、通信成本高的问题,本文提出了dsLassoCov方法。该方法整合Lasso回归,能在保护数据隐私的分布式训练中有效控制混杂效应,降低高维数据下的通信开销,支持生物医学研究中的生物标志物识别。模拟数据验证了其管理混杂效应的有效性;在利用六个地理分布数据库复制大规模暴露组研究的真实数据分析中,其结果与先前研究一致。这一方法有望推动联邦学习在大型生物医学项目中的应用。

Claude Managed Agents 的内置记忆功能

官方Claude:Blog(网页)

Claude Managed Agents 推出内置记忆功能,现已进入公测阶段。该功能基于文件系统的记忆层,允许代理从每个会话中学习,优化跨会话性能。记忆以文件形式存储,开发者可通过API导出和管理,并拥有完全控制权,支持权限范围、审计日志和并发访问。实际应用中,Rakuten的代理减少97%首过错误;Wisedocs的文档验证流程加快30%;整体上,代理实现97%首过错误减少、成本降低27%和延迟降低34%。Netflix、Ando等团队利用该功能实现上下文跨会话传递和基础设施简化,提升代理的持续学习能力。

Claude新增日常生活连接器

官方Claude:Blog(网页)

2026年4月23日,Anthropic宣布扩展其AI助手Claude的连接器生态,新增15款日常生活应用,包括AllTrails、Instacart、Audible等。自2025年7月上线以来,连接器目录已增长至超过200个,覆盖设计、金融、生产力等领域。新版本支持动态情境化推荐,能根据用户对话上下文智能建议相关应用,并在多应用适用时并列展示选项。所有连接操作需用户授权确认,用户数据不会用于模型训练,且可随时断开。该功能全版本可用,移动端处于测试阶段。

04

论文研究

Research
2 篇

OpenAI/可监控性评估

官方OpenAI:GitHub 新仓库

OpenAI开源了一套可监控性评估工具集,该套件源自《Monitoring Monitorability》论文。这套工具旨在系统评估大型语言模型的可监控性,帮助开发者测量与理解模型在部署过程中的行为可控性与透明度。它提供了一系列标准化测试方法,用于检测模型潜在的风险行为与输出不确定性,为AI安全研究提供了重要的基准评估框架。

alibaba/OSWorld

官方Alibaba:GitHub 新仓库

阿里巴巴在NeurIPS 2024上发布了OSWorld基准测试框架,用于评估多模态智能体在真实计算机环境中的开放式任务执行能力。该框架提供了一个可复现的虚拟环境,支持对基于GPT、Claude、LLaMA等模型的智能体进行标准化测试。其核心变化在于从封闭任务转向开放任务评估,涵盖了网页浏览、软件操作、文件管理等跨平台实际场景。项目以开源形式发布,鼓励通过Fork提交修改并向上游发起PR贡献。

12
今日事件
12
一手报道
1
新模型
9
信源
← 前一日查看历史后一日 →
AI HOT · 编辑系统自动生成