AIHOT

全部动态一手 · 2415 条

全部一手资讯 X 论文

3月17日周二

3月16日周一

3月15日周日

3月14日周六

3月13日周五

3月12日周四

3月11日周三

3月17日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Miles RL框架正式支持ROCm：基于AMD Instinct GPU的大规模后训练

开源RL框架Miles正式支持ROCm，可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化，针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示，rollout吞吐达1.1k-1.3k tok/GPU/s，AIME准确率从66.5%提升至72.9%。现提供预构建容器，支持GRPO、Megatron-LM和FSDP后端。

开源/仓库数据/训练部署/工程

00:00

Google Research：Blog（网页）

利用机器学习改进乳腺癌筛查工作流程

Google Research与NHS合作在Nature Cancer发表两项AIMS研究，评估AI乳腺癌检测系统。回顾性分析11.6万例乳腺X光片显示，AI敏感性显著高于原始第一读者且不降低特异性，癌症检出率从7.54升至9.33/1000，检出25%间隔癌；前瞻性研究验证技术整合可行性。第二项研究进一步测试AI替代双读流程中第二读者的端到端效果。研究为AI辅助筛查提供证据，有望缓解放射科医生30%-40%短缺压力。

Google数据/训练论文/研究

00:00

Google Research：Blog（网页）

Google Research 在 The Check Up 分享：从医疗创新到真实世界临床场景

Google Research 在 The Check Up 活动发布多项医疗 AI 进展。与 Fitbit 合作的 Personal Health Agent (PHA) 整合可穿戴设备数据提供个性化健康指导；乳腺癌检测 AI 在研究中识别出 25% 传统筛查漏检的间隔期癌症；多智能体系统 AMIE 已在 Beth Israel Deaconess Medical Center 开展临床测试，协助病史采集。同时推出 MedGemma 开放模型及 Health AI Developer Foundations (HAI-DEF) 赋能开发者，糖尿病视网膜病变筛查模型已服务超 100 万例，AI 正从实验室走向真实临床场景。

智能体DeepMindGoogle产品更新

3月16日

23:00

公众号：月之暗面（Kimi）

精选60

推荐：10万人亲测好用的原版OpenClaw安装器

Kimi支持的个人开发者开源项目OneClaw下载量突破10万，提供一键安装包，1分钟即可在本地部署原版OpenClaw，无需命令行或环境配置。功能包括纯净卸载、自由切换模型、远程控制，支持连接飞书、企微、钉钉、QQ、Kimi Claw；内置2万+技能的技能商店，可无损迁移记忆和Skills。Kimi提供包月方案和API按需购买。使用地址：oneclaw.cn。

MCP/工具开源/仓库编码

关联讨论 1 条

推荐理由：如果你曾被 OpenClaw 的部署门槛劝退，OneClaw 可以让你两分钟跑起来，适合在备用机尝尝鲜，但别在生产环境乱搞。

21:56

公众号：可灵AI（快手·视频）

25

可灵AI「NextGen 高校原力计划」正式开启！

行业动态

17:01

公众号：阶跃星辰（Step）

19

50000 只"阶跃龙虾"一抢而空，我们继续补货，就在阶跃 AI

行业动态

15:09

公众号：可灵AI（快手·视频）

38

可灵AI团队会员上线：支持15人协同创作，3月31日前购买最高加赠10000灵感值

可灵AI推出团队会员服务，支持最多15位成员协同创作，并配备数据隐私保护与内容商用保障。团队会员桌面端已同步上线。在3月31日之前购买团队会员，最高可获赠10000团队灵感值。

产品更新

10:30

公众号：智谱（GLM）

35

GLM-5-Turbo：龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型，该模型采用了龙虾增强技术，被描述为“龙虾增强的基座模型”，是一款基于龙虾增强的基座模型。

模型发布

09:47

Gary Marcus：The Road to AI We Can Trust（RSS）

精选

Sam Altman 承认：实现 AGI 需要超越规模扩展的重大突破

OpenAI CEO Sam Altman 坦言，仅靠扩大模型规模无法达到 AGI，必须在架构层面实现重大创新。这一表态标志着 AI 发展范式的关键转向，承认当前"越大越好"的扩展策略已遇瓶颈。Altman 强调"是时候寻找新的架构了"，暗示基于 Transformer 的现有技术路径难以通向通用人工智能，行业需要颠覆性技术突破而非单纯堆砌算力与参数。

OpenAI大佬观点推理

关联讨论 1 条

推荐理由：OpenAI CEO 罕见承认纯扩展不足以实现 AGI，行业技术路线或迎转折

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Codex Security 为何不包含 SAST 报告

Codex Security 不生成传统 SAST 报告，转而采用 AI 驱动的约束推理与验证技术，通过深度分析代码逻辑精准识别真实漏洞，显著降低误报率。

OpenAI产品更新编码

00:00

Mistral AI：News（网页）

83

Mistral AI 与 NVIDIA 合作加速开放前沿模型发展

Mistral AI 作为 NVIDIA Nemotron 联盟创始成员，与 NVIDIA 达成战略合作，共同开发前沿开源 AI 模型。合作将结合 Mistral AI 的模型架构、全栈平台与 NVIDIA 的计算资源、开发工具和合成数据生成管线。Mistral AI 将贡献其专有训练技术、多模态能力及企业级微调工具，并利用 NVIDIA 资源扩大训练规模。联盟首个成果是基于 NVIDIA DGX Cloud 训练的基础模型，将作为即将开源的 Nemotron 4 模型系列基石。同日 Mistral AI 同步发布了 Mistral Small 4 模型。

多模态开源生态行业动态

00:00

Mistral AI：News（网页）

93

研究 ## 推出 Mistral Small 4 模型

Mistral AI 发布新一代开源模型 Mistral Small 4，首次将 Magistral 的推理、Pixtral 的多模态和 Devstral 的编码能力整合于单一模型。它采用混合专家架构，拥有119B总参数和256k上下文窗口，支持图文输入及可配置的推理强度。性能上，其端到端延迟降低40%，吞吐量较前代提升3倍。该模型基于 Apache 2.0 许可证开源，并加入 NVIDIA Nemotron 联盟，优化了在 vLLM 等框架上的推理效率，适用于聊天、编码和复杂任务处理。

多模态推理模型发布

关联讨论 1 条

00:00

Google Research：Blog（网页）

用高温超导问题测试 LLM 的研究能力

Google Research 与康奈尔大学在 PNAS 发表研究，评估六个 LLM 回答高温超导领域专家级问题的能力。测试包含 67 个关于铜氧化物超导机制的深层问题，由 12 位国际专家评分。结果显示，基于 15 篇精选综述和 1726 个质量控制来源的封闭系统（NotebookLM 及定制系统）表现最优，而开放网络访问的模型准确性不足。研究表明，在专业物理领域，基于 curated 数据库的封闭系统比开放搜索更能提供准确、均衡的学术回答。

Google检索增强论文/研究

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5-Turbo：龙虾增强的基座模型

智谱发布GLM-5-Turbo基座模型，代号"龙虾"，强化工具调用、复杂指令拆解、定时任务与高吞吐长链路执行能力，推出ZClawBench基准测试。支持通过BigModel.cn、Z.ai及AutoClaw客户端接入，Coding Plan Max将于本月内支持Pro版。

智能体模型发布编码

关联讨论 2 条

推荐理由：智谱GLM-5-Turbo发布，强化Agent工具调用与长任务执行能力

3月15日

02:23

Gary Marcus：The Road to AI We Can Trust（RSS）

重磅：昂贵的新证据表明规模扩张并非万能

两项耗资巨大的AI实验相继失败，为"规模扩张并非实现突破的唯一路径"提供了新的佐证。这些结果表明，单纯依靠增加算力、数据和模型参数的传统Scaling策略可能已触及瓶颈，行业需要探索新的技术范式，而非一味追求规模扩张。

大佬观点数据/训练

3月14日

00:00

Dwarkesh Patel：Podcast & Blog（RSS）

精选

Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈

Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈：电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年，受供需严重失衡及新一代芯片交付延迟影响，其市场价格与战略价值持续攀升，当前实际价值甚至超过发布初期。文章指出，这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。

大佬观点数据/训练部署/工程

关联讨论 2 条

推荐理由：顶尖硬件分析师拆解AI算力扩张的三大瓶颈，揭示H100为何比三年前更值钱

3月13日

18:07

公众号：生数科技（Vidu·视频）

37

万兴剧厂深度集成Vidu Q3，携手生数科技开启AI漫剧创作新时代

万兴科技携手生数科技，深度集成Vidu Q3模型，以“大模型+工具+场景”模式，开启“人人都是漫剧创作者”的智能新时代。

行业动态视频

17:00

BAIR：Berkeley AI Research Blog

面向 LLM 的大规模交互作用识别

伯克利人工智能研究所提出 SPEX 与 ProxySPEX 算法，通过信号处理与编码理论实现大语言模型关键交互作用的高效识别。该方法基于" influential interactions 具有稀疏性与低阶性"的核心观察，将指数级搜索问题转化为可解的稀疏恢复问题，以极少的消融次数定位驱动模型输出的关键特征组合与内部组件依赖，突破传统方法在计算规模上的限制。

推理数据/训练论文/研究

00:00

Anthropic：Research（发表成果 · 网页）

AI模型"差异对比"工具：自动发现跨架构行为风险

Anthropic Fellows团队推出跨架构模型对比工具model diffing，利用Dedicated Feature Crosscoder技术自动检测不同架构AI模型的行为差异。研究在Qwen3-8B与DeepSeek-R1中发现"中共对齐"审查特征，在Llama-3.1-8B中发现"美国例外主义"倾向，在GPT-OSS-20B中发现版权拒绝机制。该方法可作为高召回率筛选工具自动标记模型特有潜在风险，提升安全审计效率，但无法确定行为源于刻意训练还是数据涌现。

Anthropic论文/研究

3月12日

23:00

Google Blog：AI（RSS）

AI 如何帮助改善澳大利亚偏远地区的心脏健康

Google 发起一项 AI 健康新倡议，目标是通过人工智能技术改善澳大利亚偏远社区居民的心脏健康状况，提升当地心脏疾病治疗结果。

Google行业动态

22:10

Ethan Mollick：One Useful Thing（RSS）

精选

事物的形态

盘点当前阶段的核心现状与关键特征，基于现有趋势分析接下来可能发生的重要变化与未来走向。

大佬观点

推荐理由：Ethan Mollick 深度剖析 AI 现状与未来走向，洞察犀利

20:27

公众号：生数科技（Vidu·视频）

35

生数科技与无界动力达成全面战略合作，共创物理AI新范式

具身智能行业动态视频

19:58

公众号：龙猫LongCat（美团）

18

报名|ICLR 2026 美团论文精选及分享会（上）--搜推 ASX 专场

ICLR 2026 美团论文精选及分享会（上）——搜推 ASX 专场将于 3 月 26 日（周四）以线上直播形式举行。

行业动态

14:54

公众号：阶跃星辰（Step）

26

阶跃AI 能一键部署 OpenClaw了！5 万个免费体验名额，先到先得

智能体产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

37

OpenRouter 推出 Auto Exacto：自适应质量路由，默认开启

Auto Exacto 每隔 5 分钟基于吞吐量、工具调用遥测和基准分数重新评估各提供商。对于包含工具的请求，该功能默认处于开启状态。

智能体MCP/工具产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

38

Auto Exacto：自适应质量路由，默认开启

Auto Exacto 每隔5分钟根据吞吐量、工具调用遥测数据和基准分数重新评估提供商。对于包含工具的请求，该功能默认开启。

智能体MCP/工具产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

54

Auto Exacto：自适应质量路由，现已默认开启

Auto Exacto 功能现已默认开启，尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估，评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据，自动将请求导向当前最优的模型提供商。

MCP/工具产品更新部署/工程

07:36

OpenAI：Alignment 研究博客（RSS）

51

解读黑盒奖励模型

ARGO 项目利用强化学习技术，将难以理解的黑盒奖励模型提炼为可解释的评分准则。该方法通过训练一个解释模型来模仿黑盒模型的决策，从而生成人类可读的规则，揭示模型在评估文本时具体关注哪些特征。这一过程提升了AI决策的透明度，有助于诊断和纠正奖励模型的潜在偏见或错误。

OpenAI安全/对齐论文/研究

02:55

Dwarkesh Patel：Podcast & Blog（RSS）

关于 AI，那个无人问及的最重要问题

该内容将人工智能议题框定为"史上最高风险谈判"的序幕，指出当前关于AI治理与发展的多方博弈正处于关键起点。作者认为，在这场涉及巨大利益与技术走向的对话中，存在一个至关重要却被忽视的核心问题尚未被提出，其答案可能直接决定这场变革的最终结果与人类的应对策略。

Anthropic大佬观点现象/趋势

00:00

Google Research：Blog（网页）

利用AI驱动的山洪预测保护城市

Google Research在Flood Hub推出城市山洪预测服务，采用新型AI方法Groundsource从新闻报道中提取历史洪水数据作为训练集，结合全球天气模型，可为城市地区提供最长24小时预警。该系统以20x20公里分辨率运行，无需依赖高分辨率水文地图或本地雷达，旨在解决全球南方国家山洪预警基础设施不足的问题，弥补传统 riverine 洪水预测无法覆盖快速 onset 灾害的空白。

Google数据/训练论文/研究

00:00

Runway：News（网页）

负责任地构建交互式 AI 角色

Runway 发布 Characters 实时视频 API，支持从单张图片生成可对话虚拟角色。文章在介绍客服、教育等应用场景的同时，重点讨论了该技术在肖像权同意、实时深度伪造欺诈、情感操纵及社交依附等方面的潜在风险。Runway 已采取内容过滤（禁止儿童与公众人物形象）、限制专业领域建议及透明度标识等安全措施，但承认随着技术进步，相关治理挑战仍需持续应对。

智能体产品更新视频

00:00

Anthropic：Newsroom（网页）

Anthropic投资1亿美元成立Claude合作伙伴网络

Anthropic宣布投入1亿美元成立Claude合作伙伴网络，为帮助企业采用Claude的合作伙伴提供培训、技术支持和联合市场开发。该网络免费开放，合作伙伴可获得Claude Certified Architect等技术认证，并优先使用代码现代化入门套件。Anthropic还将合作伙伴支持团队扩大五倍，配备Applied AI工程师和技术架构师，协助企业完成从概念验证到生产部署的过渡。

智能体Anthropic行业动态部署/工程

00:00

Claude：Blog（网页）

精选

Claude 新增交互式图表、图解与可视化功能

Claude 推出可视化功能测试版，支持在对话中实时生成交互式图表、图解等视觉内容，无需代码即可随对话调整修改。该功能不同于可下载的 Artifacts，以内联临时形式辅助理解当前话题，默认向所有套餐用户开启。同时 Claude 还新增食谱、天气等主题格式，并支持在对话内直接交互 Figma、Canva 和 Slack 等应用。

Anthropic产品更新多模态

关联讨论 1 条

推荐理由：Claude推出对话内交互式图表功能，实时生成可视化助力理解

3月11日

20:36

公众号：阶跃星辰（Step）

10

阶跃星辰 2026 春季校园招聘启动！

行业动态

20:00

Cursor Blog

Cursor 如何评估模型质量

Cursor 采用混合在线-离线评估流程衡量 AI 编程助手质量。离线端使用内部套件 CursorBench，基于真实开发会话构建，涵盖多文件修改、生产日志排查等复杂任务，相比公共基准更能区分前沿模型（如识别 Haiku 与 GPT-5 的实际差异）。在线端通过真实流量监控补充，捕捉离线评分遗漏的体验回归。两者结合确保模型评估与开发者实际体验一致。

智能体编码评测/基准

19:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

设计可抵御提示注入的 AI agent

ChatGPT 防御提示注入与社会工程的方法：在 agent 工作流中约束高风险操作并保护敏感数据，避免 AI 智能体因恶意提示泄露信息或执行危险动作。

智能体OpenAI安全/对齐

推荐理由：OpenAI官方分享Agent提示注入防护技术实践

19:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

从模型到智能体：为 Responses API 配备计算机环境

OpenAI 基于 Responses API、shell 工具与托管容器构建 agent runtime，支持文件处理、工具调用及状态管理，实现安全可扩展的智能体计算机环境部署。

智能体MCP/工具OpenAI产品更新

推荐理由：OpenAI为Responses API增加Agent运行时与容器化执行环境

17:18

公众号：智谱（GLM）

14

带电脑来、带龙虾走，全国部署计划开启

行业动态

11:15

公众号：MiniMax（稀宇科技）

56

来MaxClaw开源，人人参与OpenClaw生态共建

MaxClaw 在 Skill 生成器中预置了基于对话生成并发布技能的流程，用户仅需描述想法即可自动梳理、调优、打包并上传至 OpenClaw 开源社区。MaxClaw 已最新内嵌企业微信和微博官方接口，通过简单对话即可完成接入。目前 MaxClaw 已支持飞书、钉钉、企业微信、WhatsApp、Telegram 等主流 IM 工具。MiniMax 将在 3 月 12 日至 14 日的 AWE 2026 上展示全模态大模型与数十款 AI 智能硬件生态产品。

产品更新具身智能开源生态

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Wayfair 借助 OpenAI 提升商品目录准确性与客服响应速度

Wayfair 利用 OpenAI 模型优化电商客服与产品目录管理，实现工单自动分类，并大规模完善数百万商品属性信息。

OpenAI行业动态