AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2416 条
全部一手资讯X论文
3月31日周二
3月30日周一
3月29日周日
3月28日周六
3月27日周五
3月26日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
3月31日
08:00
Google Developers Blog(RSS)
精选81
Boost Training Goodput: 连续检查点功能如何优化 Orbax 和 MaxText 的训练可靠性

Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。

Google产品更新数据/训练部署/工程

推荐理由:大规模模型训练的可靠性和效率提升,开发者可优化资源使用。
08:00
Google Developers Blog(RSS)
精选81
ADK Go 1.0 正式发布:迈向生产就绪的多智能体开发框架

Agent Development Kit (ADK) for Go 1.0 版本正式发布,标志着其从实验性脚本转向生产就绪的服务框架。本次更新核心在于强化可观测性、安全性与可扩展性,主要特性包括:原生集成OpenTelemetry以实现深度追踪;支持自愈逻辑的新插件系统;在敏感操作中引入“人在回路”安全确认机制。此外,新版本提供了基于YAML的配置以加速迭代,并优化了Agent2Agent协议,以支持跨编程语言的智能体无缝通信。该框架使开发者能够依托Go语言的高性能工程标准,构建复杂且可靠的多智能体系统。

智能体Google产品更新

推荐理由:Go 语言开发者迎来官方 AI Agent 开发框架,可快速构建可靠多智能体系统。
08:00
Hugging Face:Blog(RSS)
58
TRL v1.0:与领域同步发展的后训练库

Hugging Face 正式发布 TRL v1.0,这是一个专为大语言模型后训练设计的开源库。该版本整合了 SFT、RLHF 等多种高效微调技术,提供从监督微调到人类反馈强化学习的完整工具链。新库支持与 Transformers、PEFT 等主流框架无缝集成,显著简化了模型对齐流程。此次更新旨在降低大语言模型微调门槛,推动AI技术民主化,使开发者能够更便捷地提升模型在对话、安全等方面的性能表现。

Hugging Face开源/仓库数据/训练
00:00
Meta Engineering Blog(RSS)
精选71
AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta模型发布部署/工程

推荐理由:Meta 将 AI 应用于传统建筑行业,展示垂直领域落地案例,启发其他行业探索 AI 应用。
00:00
Mistral AI:News(网页)
59
Spaces:为人类与AI智能体共同工作而构建的命令行工具

Mistral AI 于2026年3月31日发布了其命令行工具 Spaces,专为人类用户与 AI 智能体共同工作设计。此次发布是其完整产品矩阵的一部分,该矩阵包括用于构建应用的 Studio、用于训练模型的 Forge、用于长周期任务的 AI 智能体 Vibe 及其代码版本 Vibe for Code,以及用于前沿规模训练与推理的 Compute 基础设施。同时,Mistral 更新了模型产品线,发布了最新的 Mistral Medium 3.5 和 Mistral Small 4 模型。

智能体MCP/工具产品更新
00:00
Mistral AI:News(网页)
80
面向双重用户:Mistral AI 如何改进CLI工具以同时服务人类与AI智能体

Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。

智能体教程/实践部署/工程
00:00
Google Research:Blog(网页)
通过负责任披露量子漏洞保护加密货币

Google Quantum AI 发布白皮书指出,未来量子计算机破解保护加密货币的椭圆曲线加密(ECDLP-256)仅需不到 1,200 个逻辑量子比特和 50 万个物理量子比特,资源需求较此前估计降低约 20 倍。团队采用零知识证明方式负责任地披露该漏洞,避免为恶意攻击者提供路线图,同时呼吁加密货币社区在 2029 年前迁移至后量子密码学(PQC),并建议避免暴露或重复使用脆弱的钱包地址。

Google论文/研究
00:00
Google Research:Blog(网页)
构建更优的 AI 基准测试:多少评分者才够?

Google Research 提出基于"gold"评级数据的机器学习评估框架,通过模拟器优化评分项目数量与评分者数量的权衡。研究挑战了当前 AI 基准测试仅使用 1-5 名评分者的行业标准,发现要准确捕捉人类观点差异通常需要超过 10 名评分者。该框架为构建高可复现性且成本高效的 AI 评估体系提供了路线图,并开源了模拟工具。

Google数据/训练论文/研究
00:00
Runway:News(网页)
推出 Runway Builders 计划

Runway 推出 Runway Builders 计划,为 Seed 至 Series C 初创企业提供最高50万免费 API 积分及 Characters 实时视频代理接口。该接口基于 GWM-1 模型,支持从单张图片零微调生成可控数字角色,适用于客服、销售助手等实时交互场景。

智能体产品更新视频
00:00
Runway:News(网页)
Runway 推出 Runway Fund 投资基金

Runway 正式成立 Runway Fund,专注投资 AI、媒体与世界模拟领域的早期初创公司。基金初始规模 1000 万美元,单笔投资最高 50 万美元,重点布局 AI 研究、新应用及新媒体内容三大方向,已投项目包括 Cartesia、LanceDB 等。

行业动态视频
00:00
Anthropic:Newsroom(网页)
澳大利亚政府与 Anthropic 签署 AI 安全与研究合作备忘录

Anthropic 与澳大利亚政府签署备忘录,承诺与澳 AI 安全研究所共享前沿模型风险研究及经济指数数据,并探索在当地投资数据中心。公司宣布向澳大利亚国立大学等四家机构提供 300 万澳元 Claude API 积分,支持罕见疾病基因分析与计算机教育;同时推出深科技初创企业计划,提供最高 5 万美元 API 积分用于药物发现等领域。Anthropic 还将开设悉尼办公室作为亚太扩张起点。

Anthropic行业动态
00:00
Anthropic:Research(发表成果 · 网页)
Anthropic宣布在澳扩张并发布Claude使用数据

Anthropic宣布在悉尼设立办公室,并与澳大利亚政府签署AI安全合作备忘录。数据显示,澳大利亚占全球Claude流量1.6%,人均使用量是预期的4倍以上,全球排名第11位,人均第7位。使用集中在新南威尔士州(37%)和维多利亚州(31%)。使用场景为46%工作、47%个人、7%课程作业。澳用户倾向于处理更复杂任务,但耗时比平均短20%,AI自主性得分较低(3.38/5),表明更多采用协作而非完全委托模式。

智能体Anthropic现象/趋势
3月30日
21:08
公众号:通义实验室(千问)
59
215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布

Qwen3.5-Omni发布,在215项基准上达到SOTA,并自然涌现出Vibe Coding能力,成为原生全模态新标杆。

多模态模型发布
21:02
Nathan Lambert:Interconnects(RSS)
最新开源成果第20期发布:新增组织与模型类型,涵盖 Nemotron Super、Sarvam、Cohere Transcribe 等

第20期开源成果更新引入多个新组织与全新模型类型,收录 NVIDIA Nemotron Super、Sarvam 及 Cohere Transcribe 等最新模型。此次扩展显著丰富了开源生态的模型种类与来源多样性,覆盖更多技术领域与应用场景,为开发者提供更广泛的模型选择。

开源/仓库开源生态
11:25
美团 LongCat:HuggingFace 新模型
精选
LongCat-AudioDiT-1B:高保真波形潜空间扩散式文本转语音模型

美团 LongCat 团队开源的扩散式 TTS 模型摒弃传统的 mel-spectrogram 中间表示,直接在波形潜空间操作,仅通过 Wav-VAE 与扩散骨干网络即可合成语音。该模型修复了训练-推理不匹配问题,并以自适应投影引导替代无分类器引导。最大版本 3.5B 在 Seed 基准实现 SOTA 零样本语音克隆,说话人相似度(SIM)在 Seed-ZH 达 0.818、Seed-Hard 达 0.797,超越此前最优的 Seed-TTS。研究还发现 Wav-VAE 的重建保真度与最终合成质量并非正相关。

开源生态模型发布语音
关联讨论 1 条美团 LongCat:HuggingFace 新模型
推荐理由:美团开源 1B 语音克隆模型,Seed 基准超 Seed-TTS,零样本推理可用
08:00
Google Developers Blog(RSS)
精选81
Google 发布 Java 智能体开发套件 (ADK) 1.0.0 版本

Google 正式发布了 Java 版智能体开发套件 (ADK) 的 1.0.0 版本。该版本引入了多项关键功能:支持接入 Google Maps 数据、内置 URL 抓取工具,以及用于跨框架协作的标准化 Agent2Agent 协议。其全新的“App”和“Plugin”架构增强了控制能力,实现了全局日志记录、通过事件压缩自动管理上下文窗口,以及需要人工确认的“Human-in-the-Loop”工作流。此外,该版本深度集成 Google Cloud 服务(如 Firestore 和 Vertex AI),提供了强大的会话与记忆管理功能,以处理长期状态和大型数据工件,助力开发者构建更复杂的 AI 智能体应用。

智能体GoogleMCP/工具产品更新

推荐理由:Java开发者可利用官方工具快速构建集成Google服务的AI代理。
06:15
OpenAI:官网动态(RSS · 排除企业/客户案例)
帮助亚洲灾害响应团队将 AI 转化为行动

OpenAI 与 Gates Foundation 合作举办亚洲灾害响应 AI 工作坊,帮助应急团队将人工智能技术转化为实际行动,提升区域救灾能力。

OpenAI行业动态
04:00
Qwen:Blog Retrieval(API)
精选
Qwen3.5-Omni:全面扩展,迈向原生全模态 AGI

Qwen Studio 发布,集成聊天机器人、图像视频理解、图像生成、文档处理、网页搜索、工具使用及 Artifacts 功能,提供全模态 AI 一站式解决方案。

智能体多模态模型发布
关联讨论 1 条Qwen:Blog Retrieval(API)
推荐理由:阿里发布Qwen3.5-Omni多模态模型,迈向原生全模态AGI
3月29日
22:32
Gary Marcus:The Road to AI We Can Trust(RSS)
精选
当前前沿模型视觉理解的幻象

当前前沿多模态大模型在标准胸部X光问答基准测试中,无需访问任何图像即可获得顶级排名。这一反常现象暴露出模型视觉理解能力的严重缺陷,表明其性能可能依赖数据偏见或文本线索而非真实的图像解析能力。研究揭示了现有视觉语言模型评估体系的深层漏洞,指出所谓"视觉理解"可能只是缺乏真实感知能力的幻觉。

多模态大佬观点评测/基准

推荐理由:揭示多模态基准测试漏洞,医学AI应用需警惕数据泄露风险
18:50
Google DeepMind:Blog(RSS)
33
为AI时代重新构想鼠标指针

Google DeepMind 将鼠标指针升级为可感知上下文的AI协作工具。这一革新旨在消除传统AI提示操作的繁琐性,在Chrome等平台实现直觉式交互。鼠标指针不再仅用于点击,而是能理解界面内容并主动提供智能辅助,标志着人机交互从“手动指令”向“情境协同”的范式转变。

DeepMindGoogle行业动态
3月28日
22:34
公众号:昆仑万维(天工)
19
昆仑万维携 SkyReels V4 与 Mureka V9 亮相2026中关村论坛,获高度赞誉

昆仑万维在2026中关村论坛上展示两大全球顶尖模型 SkyReels V4 和 Mureka V9,获得多方高度赞誉。

图像生成行业动态视频
12:01
公众号:阶跃星辰(Step)
11
雪琴也要来养虾:3月29日晚7点,解锁阶跃「龙虾全家桶」!
其他
06:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
STADLER 重塑拥有230年历史企业的知识工作

拥有230年历史的 STADLER 借助 ChatGPT 重塑知识工作,为650名员工节省时间并提升生产效率。

OpenAI行业动态
02:00
OpenAI:Alignment 研究博客(RSS)
50
对齐中期训练的泛化能力究竟如何?

研究人员开展初步实验,探究对齐与错位的中期训练、推理后训练以及向聊天和智能体评估任务的泛化效果。实验涵盖不同训练阶段对模型行为的影响,并测试其在多样化评估场景中的适应性,旨在评估当前对齐方法在跨任务与跨领域中的泛化能力边界。

OpenAI安全/对齐论文/研究
3月27日
21:12
公众号:昆仑万维(天工)
54
昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型发布

昆仑万维在2026中关村论坛发布AIGC全家桶,其中包括三款达到世界第一梯队的模型。

多模态模型发布
20:00
Cursor Blog
精选72
Composer 2技术报告:面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由:Cursor 把 Composer 2 的训练全流程摊开讲了,从 Kimi K2.5 继续预训练到大规模 RL,关键是 RL 在真实 Cursor 会话里跑,不是玩具环境。做 coding agent 的团队,这份报告值得逐段拆。
19:21
公众号:智谱(GLM)
52
GLM-5.1已面向所有Coding Plan用户开放

智谱GLM-5.1已面向所有Coding Plan用户开放。

模型发布编码
08:00
Hugging Face:Blog(RSS)
43
解放你的OpenClaw:致力于通过开源与开放科学推动AI民主化

Anthropic公司发布新一代大模型Claude 3.5 Sonnet,在多项基准测试中超越前代Opus及GPT-4o等竞争对手,尤其在高级推理、知识掌握和编程能力上表现卓越。新模型处理速度提升至两倍且定价更低。同时推出的“Artifacts”功能可将生成的代码或文本在独立面板实时展示,标志着其向交互式工作空间演进。

Hugging Face其他开源生态
01:00
Google Blog:AI(RSS)
James Manyika 与 LL COOL J 对谈 AI 与创造力

Google「科技与社会对话」系列最新一期,James Manyika 与 LL COOL J 探讨 AI 与创造力。

Google大佬观点
00:00
Meta AI:Blog(网页)
精选86
Meta发布SAM 3.1模型:通过对象复用实现更快、更易获取的实时视频检测与跟踪

Meta发布了SAM 3.1模型,作为SAM 3的直接升级版。新模型引入了对象复用技术,能在单次前向传播中同时跟踪多达16个对象,从而将视频处理速度提升一倍。在单个H100 GPU上,对中等数量对象的视频处理吞吐量从每秒16帧提升至32帧,实现了复杂视频的实时对象跟踪,并降低了对GPU资源的需求,使得高性能应用能在更小、更易获取的硬件上运行。SAM 3.1的模型检查点、代码库和研究论文均已开放。

Meta多模态模型发布部署/工程

推荐理由:实时视频跟踪效率翻倍,中小团队也能低成本部署复杂视觉应用。
00:00
Google Blog:AI(RSS)
Google Translate 耳机实时翻译功能登陆 iOS

Google Translate 耳机实时翻译功能正式支持 iOS,可将耳机变为个人实时翻译器。该功能同时面向 iOS 和 Android 用户扩展至更多国家。

Google产品更新语音
3月26日
23:23
Google DeepMind:Blog(RSS)
Gemini 3.1 Flash Live:让语音 AI 更自然可靠

Gemini 推出 3.1 Flash Live 语音模型,通过提升精度、降低延迟,使语音交互更流畅自然且精准可靠。

DeepMindGoogle产品更新语音
23:21
Google Blog:AI(RSS)
精选
Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

Gemini 3.1 Flash Live 已上线 Google 全系产品,提供更自然、可靠的实时音频 AI 交互能力。

Google模型发布语音
关联讨论 6 条Google DeepMind:Blog(RSS)X:Demis Hassabis (@demishassabis)X:Gemini (@GeminiApp)X:Google DeepMind (@GoogleDeepMind)X:Sundar Pichai (@sundarpichai)Google Blog:AI(RSS)
推荐理由:Google发布Gemini 3.1 Flash Live,提升音频AI自然度与可靠性
23:00
Google Blog:AI(RSS)
Search Live 扩展至全球

Search Live 功能正式面向全球推出,覆盖所有已上线 AI Mode 的语言和地区,实现全面可用。

Google产品更新搜索
20:01
公众号:小米 MiMo
20
Xiaomi MiMo Agent 框架调用限免活动延长一周
智能体产品更新
19:58
公众号:龙猫LongCat(美团)
36
ICLR 2026美团学术论文精选及分享会(下)

ICLR 2026美团学术论文精选及分享会(下)将于4月9日(周四)下午线上直播,分享美团在ICLR 2026的精选学术论文成果。

行业动态论文/研究
19:58
公众号:龙猫LongCat(美团)
31
2026 美团科研合作课题 | 公开征集启动

由美团技术团队组织的2026年科研合作课题公开征集活动已正式启动,面向学术界开放合作申请。

行业动态
12:10
公众号:可灵AI(快手·视频)
23
周杰伦《太阳之子》AIMV创作挑战赛上线

可灵AI邀请创作者参与周杰伦新歌《太阳之子》AIMV创作挑战赛,用AI影像为旋律续写MV故事,具体参与方式及规则见活动页面。

图像生成行业动态视频
08:00
Cursor Blog
精选69
通过实时强化学习改进Composer编码模型

Cursor团队将实时强化学习技术应用于Composer编码模型,利用真实用户交互产生的推理令牌作为训练信号,以解决模拟环境与真实使用间的匹配问题。该技术使团队能够以每五小时一次的频率部署改进后的模型检查点。通过A/B测试,新版本实现了关键指标提升:代理编辑在代码库中的持久性增加2.28%,用户不满意后续减少3.13%,延迟降低10.3%。实时RL也带来了奖励黑客等新挑战,但真实用户反馈有助于识别和修正此类问题。

智能体现象/趋势编码

推荐理由:Cursor 把真实用户交互当训练信号,每五小时迭代一次 Composer,这不是论文是工程日志。做 coding agent 的团队该看看他们怎么处理 reward hacking 的两个真实案例,比任何 benchmark 论文都实在。
01:00
OpenAI:Alignment 研究博客(RSS)
47
Model Spec Evals评估套件发布

OpenAI推出了一套新的评估套件Model Spec Evals,用于系统衡量模型遵循其《模型规范》的程度。该规范明确了模型行为的设计原则与约束条件,涵盖输出内容、行为边界及交互方式等方面。此次发布的评估工具旨在量化模型对齐规范的具体表现,是OpenAI推进模型行为标准化、透明化的重要步骤。

OpenAI安全/对齐评测/基准
‹ 上一页
1…2930313233…50
下一页 ›