AI HOT 日报 · 2026-04-23

1模型发布/更新

inclusionAI团队发布了LLaDA2.0-Uni模型。该版本在统一的多模态理解与生成能力上取得显著进展，支持图像、文本、音频等多种输入与输出模态。模型参数量达到约70B，在多项基准测试中，其综合性能较前代提升超过15%。此次发布延续了通过开源与开放科学来推动人工智能民主化的核心使命。

蚂蚁 inclusionAI：HuggingFace 新模型

2产品发布/更新

microsoft/amplifier-module-provider-chat-completions

微软为Amplifier项目发布了Chat Completions Provider模块。该模块旨在为Amplifier框架提供聊天补全功能，使其能够集成和利用支持聊天接口的大型语言模型。这一新增组件扩展了Amplifier项目的核心能力，使其开发者能够更便捷地构建基于对话式AI的应用。

Microsoft：GitHub 新仓库

3行业动态

ChatGPT 推出 Workspace Agents

ChatGPT 发布了由 Codex 驱动的 Workspace Agents。这些智能体能够自动化复杂的工作流程，并在云端运行，旨在帮助团队安全地跨工具扩展工作。其核心功能是实现工作流的自动化与规模化，同时确保操作过程的安全性。

OpenAI：官网动态（RSS · 排除企业/客户案例）

这款机器人能在乒乓球桌上击败你

一款自主机器人成功击败了精英乒乓球运动员。该系统通过高速视觉和机械臂，能够预测人类对手的回球轨迹并实时制定策略进行反击。研究团队在《自然》期刊上发表了相关论文，标志着人工智能在动态、高速度的实体运动竞技中首次超越顶尖人类选手。该机器人展示了在毫秒级时间内完成感知、决策和精准动作执行的能力。

Nature：Machine Learning 主题（RSS）

解耦式DiLoCo：分布式AI训练的新前沿

Google团队提出解耦式DiLoCo架构，通过将训练任务解耦到多个计算“岛屿”并实现异步数据流，显著提升了分布式AI训练的韧性与灵活性。该架构能有效隔离本地硬件故障，使系统其余部分持续学习。在实际测试中，仅使用2-5 Gbps广域网带宽，便在四个美国区域成功训练了一个120亿参数模型，训练速度比传统同步方法快20倍以上。系统在硬件故障时仍能保持高集群可用性与训练吞吐量，且最终模型性能与传统方法相当，同时支持混合使用不同代际硬件。

Google DeepMind：Blog（RSS）

Seed3D 2.0发布,更高精度、更强可用性

Seed3D 2.0正式发布，这是一个在几何精度与材质质量上显著提升的新一代3D生成大模型。它采用两阶段DiT策略优化几何生成，并通过统一PBR模型增强纹理的真实感与稳定性。评测显示，其在两项核心指标上均达到SOTA，人类打分员在纹理任务中对它的偏好率超过69%。此外，模型拓展了下游可用性，支持部件级生成与场景组合，为具身智能和工业制造提供生产级3D内容。

字节 Seed：Research Feed（网页内嵌数据）

CellNiche：基于对比学习的图谱级空间组学细胞微环境表征框架

研究人员开发了CellNiche，一个基于对比学习的可扩展框架，用于从图谱级空间组学数据中识别和表征细胞微环境。该框架利用以细胞为中心的空间邻近子图，融合空间共定位与分子共表达信息，学习具有微环境感知能力的嵌入表示。在涵盖多个平台、总计超千万细胞的数据集上验证表明，其表征能力随数据量增加而提升，且计算高效。在人类非小细胞肺癌队列中，它能识别保守及样本特异的肿瘤-免疫微环境；在四个独立小鼠脑图谱中，它能整合293个切片构建统一虚拟脑图，实现跨图谱注释转移与空间细化。

Nature：Machine Learning 主题（RSS）

dsLassoCov：一种结合协变量控制的联邦Lasso方法

针对联邦学习中协变量控制困难、通信成本高的问题，本文提出了dsLassoCov方法。该方法整合Lasso回归，能在保护数据隐私的分布式训练中有效控制混杂效应，降低高维数据下的通信开销，支持生物医学研究中的生物标志物识别。模拟数据验证了其管理混杂效应的有效性；在利用六个地理分布数据库复制大规模暴露组研究的真实数据分析中，其结果与先前研究一致。这一方法有望推动联邦学习在大型生物医学项目中的应用。

Nature：Machine Learning 主题（RSS）

Claude Managed Agents 的内置记忆功能

Claude Managed Agents 推出内置记忆功能，现已进入公测阶段。该功能基于文件系统的记忆层，允许代理从每个会话中学习，优化跨会话性能。记忆以文件形式存储，开发者可通过API导出和管理，并拥有完全控制权，支持权限范围、审计日志和并发访问。实际应用中，Rakuten的代理减少97%首过错误；Wisedocs的文档验证流程加快30%；整体上，代理实现97%首过错误减少、成本降低27%和延迟降低34%。Netflix、Ando等团队利用该功能实现上下文跨会话传递和基础设施简化，提升代理的持续学习能力。

Claude：Blog（网页）

Claude新增日常生活连接器

2026年4月23日，Anthropic宣布扩展其AI助手Claude的连接器生态，新增15款日常生活应用，包括AllTrails、Instacart、Audible等。自2025年7月上线以来，连接器目录已增长至超过200个，覆盖设计、金融、生产力等领域。新版本支持动态情境化推荐，能根据用户对话上下文智能建议相关应用，并在多应用适用时并列展示选项。所有连接操作需用户授权确认，用户数据不会用于模型训练，且可随时断开。该功能全版本可用，移动端处于测试阶段。

Claude：Blog（网页）

4论文研究

OpenAI/可监控性评估

OpenAI开源了一套可监控性评估工具集，该套件源自《Monitoring Monitorability》论文。这套工具旨在系统评估大型语言模型的可监控性，帮助开发者测量与理解模型在部署过程中的行为可控性与透明度。它提供了一系列标准化测试方法，用于检测模型潜在的风险行为与输出不确定性，为AI安全研究提供了重要的基准评估框架。

OpenAI：GitHub 新仓库

alibaba/OSWorld

阿里巴巴在NeurIPS 2024上发布了OSWorld基准测试框架，用于评估多模态智能体在真实计算机环境中的开放式任务执行能力。该框架提供了一个可复现的虚拟环境，支持对基于GPT、Claude、LLaMA等模型的智能体进行标准化测试。其核心变化在于从封闭任务转向开放任务评估，涵盖了网页浏览、软件操作、文件管理等跨平台实际场景。项目以开源形式发布，鼓励通过Fork提交修改并向上游发起PR贡献。

Alibaba：GitHub 新仓库

12今日事件

12一手报道

1新模型

9信源