AIHOT

全部动态一手 · 2413 条

全部一手资讯 X 论文

3月3日周二

3月2日周一

3月1日周日

2月28日周六

2月27日周五

2月26日周四

2月25日周三

2月23日周一

2月22日周日

2月21日周六

2月20日周五

3月3日

00:00

Berkeley RDI：Blog（AI 安全与评测）

MalTool：针对 LLM Agent 的恶意工具攻击

研究团队发布 MalTool 框架，揭示 LLM Agent 面临的新型恶意工具攻击威胁。该框架利用编码 LLM 自动生成多样化恶意工具，构建首个包含 1,200 个独立恶意工具和 5,287 个木马工具的大规模数据集。测试显示，现有安全对齐技术和商业检测系统均无法有效阻止或识别此类攻击，而攻击成功率达 100% 且成本极低——GPT-5.2 仅需约 20 美元即可生成约 1,200 个验证恶意工具，单个成本不足 0.02 美元。这种基于代码实现的攻击可窃取数据、删除文件或劫持计算资源，威胁远超传统的描述操纵手段。

智能体MCP/工具安全/对齐

3月2日

22:22

公众号：MiniMax（稀宇科技）

35

MiniMax上市后首次发布业绩：迈向AI时代的平台公司

MiniMax上市后首次发布业绩，提出向AI时代的平台公司转型。

行业动态

20:00

Cursor Blog

精选

PlanetScale 借助 Bugbot 保障生产环境可靠性

PlanetScale 引入 Bugbot 作为 AI 代码审查代理，应对 AI 代码生成普及后审查环节成为瓶颈的问题。Bugbot 能发现人类难以察觉的深层逻辑缺陷，如状态同步间隙和异步控制器交互问题，而非仅检查语法错误。目前 80% 的 Bugbot 评论在合并前被工程师处理，每月审查超 2000 个 PR，节省相当于两名全职工程师的审查工作量，显著降低生产环境宕机风险。

智能体产品更新编码

推荐理由：Cursor Bugbot 企业落地数据：Agent 审查解决 80% 问题，揭示 AI 编程时代代码审查成新瓶颈

17:58

公众号：小红书技术（dots.llm）

55

FireRed-OCR 开源发布：端到端方案新SOTA！小红书提出低成本文档识别训练范式

FireRed-OCR 开源发布，为端到端方案新SOTA，小红书提出低成本文档识别训练范式，无缝兼容Qwen系列加速方案，是开箱即用的工业级OCR结构化专家。

多模态开源/仓库

3月1日

21:08

公众号：月之暗面（Kimi）

12

今日 Kimi Doodle：《月之暗面》专辑 53 周年

Kimi 推出 Kimi Doodle，纪念 Pink Floyd 经典专辑《月之暗面》发行 53 周年。用户可访问 kimi.com 或使用最新版 Kimi App 体验。配乐由 AI 生成，非专辑原音。

其他图像生成

17:56

蚂蚁 inclusionAI：HuggingFace 新模型

46

inclusionAI/AReaL-SEA-235B-A22B

inclusionAI团队宣布推出AReaL-SEA-235B-A22B模型，致力于通过开源与开放科学推动人工智能技术的进步与民主化。该举措旨在降低AI研究与应用的参与门槛，促进全球开发者及研究者更广泛地获取和使用先进AI工具。模型规模达2350亿参数，体现了其在处理复杂任务方面的潜力，同时强调开放协作对加速AI创新与社会普惠的关键作用。

开源/仓库推理模型发布

2月28日

20:39

公众号：月之暗面（Kimi）

43

Kimi Code Plan正式升级：持续享受3倍额度

Kimi Code Plan正式升级，所有订阅用户自今天起继续免费享受3倍Token额度，无限速、无购买限制，可使用Kimi K2.5多模态模型进行编程。该计划按Token计费，日均Token消耗量和稳定服务用户数已翻倍增长。访问kimi.com/code即可使用。

产品更新编码

20:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

OpenAI 与 Department of War 的协议

OpenAI 披露与 Department of War 达成的协议内容，详细划定 AI 部署的安全红线，明确相关法律保障措施，并具体说明 AI 系统接入机密环境的部署方式。

OpenAI安全/对齐部署/工程

推荐理由：OpenAI官方披露与军方合作的安全红线与机密部署框架

18:34

公众号：蚂蚁百灵（Ling）

28

百灵模型 Ling-2.5-1T 从6个文学维度评估创意写作能力

蚂蚁百灵推出Ling-2.5-1T模型，从6个文学维度重新审视其创意写作能力，旨在降低AI味，提升写作的自然度与文学性。

教程/实践

08:00

蚂蚁百灵：Developer Blog（网页）

精选80

拒绝"AI 味"：我们用 6 个文学维度，重新审视了模型的创意写作边界

本文通过叙事工艺、语言艺术等六个文学维度，评估百灵模型Ling-2.5-1T的创意写作能力。测试显示，该模型能驾驭莎士比亚十四行诗、七言绝句等多种体裁，并通过感官描写实现“展现而非告知”的文学技法，在微观叙事和语言质感上接近人类水平。然而，模型仍存在依赖高频文学意象、处理否定指令时语义代偿等局限。该框架为创作者提供了激发AI写作潜力的具体方法。

推理评测/基准

关联讨论 1 条

推荐理由：提供实用文学维度框架和 Prompt 技巧，助你驾驭 AI 创意写作。

2月27日

21:02

公众号：月之暗面（Kimi）

32

Kimi API：用90%缓存命中率，把价格打到25%

Kimi K2.5 多模态模型的 API 输入成本，在 90% 缓存命中率下，实际价格为 1.03 元/M tokens，仅为标准定价 4 元/M tokens 的 2.5 折。Kimi API 缓存命中率通常在 85%-95% 之间波动，核心支撑是与清华大学合作研发的 Mooncake 推理架构，该架构获存储顶会 FAST 2025 最佳论文，并已开源。

开源/仓库推理教程/实践部署/工程

18:00

公众号：小红书技术（dots.llm）

44

小红书发布 SWE-Bench Mobile：当 AI Agent 面对亿级用户 App 代码库，最高通过率仅12%？

小红书发布移动端代码库基准测试 SWE-Bench Mobile，用于评估 AI Agent 修复亿级用户 App 代码库中 bug 的能力。测试结果显示，当前最高通过率仅为12%。

智能体GitHub评测/基准

13:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 与 Microsoft 联合声明

OpenAI 与 Microsoft 发表联合声明，称双方将继续在研究、工程和产品开发方面紧密协作，延续多年深度合作与共同成功的基础。

MicrosoftOpenAI行业动态

13:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

让 AI 规模化惠及每个人

宣布获得 1100 亿美元新投资，投前估值达 7300 亿美元。其中 SoftBank、NVIDIA 各出资 300 亿美元，Amazon 出资 500 亿美元。

OpenAI行业动态

关联讨论 1 条

推荐理由：OpenAI获1100亿美元融资，估值达7300亿美元

13:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 与 Amazon 宣布战略合作

OpenAI 与 Amazon 达成战略合作，将 Frontier 平台引入 AWS，涵盖 AI 基础设施、定制模型及企业 AI 智能体。

智能体OpenAI行业动态部署/工程

13:30

OpenAI：官网动态（RSS · 排除企业/客户案例）

Amazon Bedrock 推出面向 Agents 的有状态运行时环境

Amazon Bedrock 发布 Stateful Runtime for Agents，为 OpenAI 驱动的多步骤 AI 工作流提供持久化编排、记忆能力和安全执行环境。

智能体OpenAI产品更新部署/工程

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

心理健康相关工作进展更新

OpenAI 发布心理健康安全工作最新进展，包括推出家长控制与可信联系人功能、优化用户危机检测机制，同时披露了相关诉讼案件的最新动态。

OpenAI安全/对齐

04:13

Midjourney：Updates（RSS）

Rooms 功能下线通知

Rooms 功能今日正式从网站移除。这一实验性尝试因试图同时解决过多问题而表现不佳，暴露了当前基础设施的不足，但为团队提供了关于社区需求的宝贵认知。

产品更新图像生成

03:35

Cursor Blog

精选

AI 软件开发的第三个时代

AI 编程进入第三时代：从 Tab 补全到同步 Agent，再到可独立运行数小时的云 Agent。Cursor 内部数据显示，Agent 用户已反超 Tab 用户 2 倍，35% 的 PR 由云 Agent 自主创建。开发者角色从逐行编码转向构建"软件工厂"——定义问题、配置工具并审查产物。Cursor 昨日正式发布 cloud agents，支持并行任务与独立 VM 运行。

智能体产品更新编码

关联讨论 1 条

推荐理由：Cursor 定义 AI 编程第三时代：云端 Agent 已占其内部 35% PR，用户量反超 Tab 两倍

03:34

Midjourney：Updates（RSS）

个性化功能与网页端更新

网页端推出全新个性化界面，用户可通过点击和滚动图片列表创建个性化档案，操作更快、更准确且更具趣味性。

产品更新图像生成

00:00

Runway：Changelog（网页）

Nano Banana 2 全新发布，以"提供创造任何事物所需的一切"为核心理念，打造全能型一站式创作平台，旨在满足用户从简单到复杂的各类创意实现需求。

产品更新图像生成

00:00

Anthropic：Newsroom（网页）

精选

就战争部长 Pete Hegseth 评论的声明

美国战争部长 Pete Hegseth 宣布将 Anthropic 列为供应链风险，因其拒绝将 Claude 用于大规模国内监控和完全自主武器。Anthropic 认为当前 AI 模型不足以支持自主武器，且大规模监控违反基本权利，称将在法庭挑战这一史无前例的指定。声明澄清，该指定不影响个人和商业客户使用 Claude；国防部承包商仅在执行军方合同时受限，其他用途不受影响。

Anthropic政策/监管

关联讨论 1 条

推荐理由：Anthropic回应美政府供应链风险指控，坚持反对自主武器与大规模监控立场

2月26日

22:00

公众号：蚂蚁百灵（Ling）

37

蚂蚁百灵 Ling 2.5 完成 Lightning Attention+MLA 混合线性架构改造

蚂蚁百灵（Ling）公布 Ling 2.5 模型架构改造实践，将 Lightning Attention 与 MLA（Multi-head Latent Attention）两种线性注意力机制融合，形成混合线性架构。该方案旨在平衡长序列推理效率与模型表达能力，为下一代大语言模型的注意力计算提供优化思路。

推理教程/实践

18:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

Pacific Northwest National Laboratory 与 OpenAI 合作加速联邦许可审批

OpenAI 与 Pacific Northwest National Laboratory 联合发布 DraftNEPABench 基准测试，评估 AI 编程助手加速联邦许可流程的效能。数据显示，AI 有望将 NEPA 文件起草时间缩短最多 15%，推动基础设施审查现代化。

智能体OpenAI编码评测/基准

14:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选

OpenAI Codex 与 Figma 推出无缝代码转设计体验

OpenAI 与 Figma 推出全新 Codex 集成，打通代码与设计的双向链路。开发团队可直接在代码实现与 Figma 画布间无缝切换，加速迭代和交付流程。

智能体OpenAI产品更新编码

推荐理由：OpenAI Codex 集成 Figma，打通代码与设计工作流

08:00

蚂蚁百灵：Developer Blog（网页）

精选86

Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

为提升超长上下文下的计算效率，Ling 2.5架构将Ling 2.0的GQA改造为1:7的Lightning Attention与MLA混合线性注意力。此举旨在利用Lightning Attention提升长序列吞吐，并通过MLA极致压缩KV Cache。为确保改造后性能无损，团队设计了精细的平滑迁移训练策略，包括权重转换、QK Norm融合与Partial RoPE改造等多阶段加训。Scaling Law实验确定了1:7为最优混合比例，最终使万亿参数模型实现了更低的计算成本与更高的长文本推理效率。

开源生态推理论文/研究部署/工程

关联讨论 1 条

推荐理由：为大模型长上下文优化提供可落地的工程实践参考。

07:15

公众号：MiniMax（稀宇科技）

8

MiniMax Agent 与 OpenClaw 组合尚未公布详情

MiniMax Agent 与 OpenClaw 的组合尚未公布具体内容。原文仅有一句标题，未提供任何功能、版本或时间信息。

智能体产品更新

01:13

公众号：豆包（字节）

9

豆包科技大礼获奖用户分享故事

抽中豆包（字节）科技大礼的幸运用户，分享了他们与豆包产品相关的亲身经历和故事。

其他行业动态

00:00

Anthropic：Newsroom（网页）

精选

Anthropic CEO就国防部谈判发表声明

Anthropic CEO Dario Amodei声明，尽管Claude已广泛用于美军情报分析、网络作战等任务，且公司曾主动切断数亿美元收入阻止中国关联企业使用，但拒绝两项用途：大规模国内监控和完全自主武器。Amodei认为前者威胁民主价值，后者技术不可靠且缺乏监督。国防部威胁将其标记为"供应链风险"并强制移除安全措施。Anthropic坚持原则，但表示如被移除将确保平稳过渡，希望继续服务国防。

Anthropic大佬观点安全/对齐

关联讨论 1 条

推荐理由：Anthropic CEO声明宁可退出军方合作，也不开放自主武器与大规模监控权限

2月25日

00:06

Nathan Lambert：Interconnects（RSS）

精选

蒸馏对中国 LLM 到底有多重要？

针对 Anthropic 关于"蒸馏攻击"的最新论述，分析模型蒸馏技术对中国大语言模型的实际影响。探讨通过蒸馏 GPT、Claude 等模型来训练中国 LLM 的效果与争议，评估该方法在提升模型性能与降低训练成本方面的作用，以及可能引发的知识产权与安全问题。

Anthropic大佬观点安全/对齐数据/训练

关联讨论 1 条

推荐理由：技术权威视角拆解'蒸馏攻击'，厘清中国大模型能力来源争议

00:00

Anthropic：Newsroom（网页）

精选

Anthropic 收购 Vercept 以推进 Claude 的 computer use 能力

Anthropic 收购 Vercept，后者专注 AI 感知与交互，将停止外部产品并加入 Anthropic。Claude Sonnet 4.6 在 OSWorld 基准测试中准确率已从 2024 年底的 15% 提升至 72.5%，可接近人类水平处理复杂表格和跨标签页网页表单。

智能体Anthropic行业动态

推荐理由：Anthropic 收购 Vercept 团队，Claude 的 Computer Use 能力将获大幅提升。

2月23日

08:00

OpenRouter：Announcements（RSS）

49

OpenRouter 二月亮点发布：模型页面基准测试、免费模型路由与供应商成本透明度改进

OpenRouter 在模型页面新增基准测试数据，方便用户对比不同模型的性能；推出免费模型路由服务，可自动选择最优供应商；同时改进了成本透明度，让各供应商之间的定价差异更加清晰。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

51

OpenRouter 二月发布亮点：模型页面基准测试、免费模型路由与成本透明度改进

OpenRouter 在模型页面上新增了基准测试数据，推出了新的免费模型路由功能，并改进了不同提供商之间的成本透明度。

产品更新推理部署/工程

08:00

OpenRouter：Announcements（RSS）

43

February Release Spotlight

本次发布在模型页面新增了基准测试功能，并推出了一款全新的免费模型路由工具。同时，平台提升了不同服务提供商之间的成本透明度，使用户能更清晰地比较和选择。这些更新旨在帮助开发者更高效地评估模型性能、优化调用路径并管理使用成本。

产品更新部署/工程

2月22日

17:39

公众号：智谱（GLM）

52

GLM-5技术报告：技术细节全公开

模型发布论文/研究

00:00

智谱：研究（网页内嵌数据）

精选

GLM-5技术报告

GLM-5参数规模达7440亿，训练Token 28.5万亿。核心创新包括DSA稀疏注意力机制降低算力开销，异步RL基础设施与异步Agent RL算法提升长周期交互与自主决策能力。全面原生适配华为昇腾、寒武纪等七大国产芯片平台，通过W4A8混合精度量化与定制融合算子实现高效部署。模型支持复杂软件工程、终端操作、PPT生成等长程Agent任务，提供交错思考、保留思考等多种推理模式。

智能体模型发布编码部署/工程

关联讨论 2 条

推荐理由：智谱发布744B参数GLM-5，全面适配七大国产芯片平台，Agent与编码能力突出

2月21日

05:36

Midjourney：Updates（RSS）

V8 Rating Party 最终轮

V8 图像评分活动进入最终轮，意味着 V8 发布临近。本轮将持续至最终版本上线，主要目标是校准个性化系统。

产品更新图像生成

2月20日

08:00

OpenRouter：Announcements（RSS）

38

OpenRouter 2026年2月17日和19日故障公告

OpenRouter 就 2 月 17 日和 19 日发生的服务中断发布说明，简述了事件经过以及为防止类似问题再次发生已采取的改进措施。公告未提供故障具体原因、影响范围或预防方案的细节。

行业动态部署/工程

08:00

OpenRouter：Announcements（RSS）

31

OpenRouter 在2026年2月17日和19日发生服务中断

OpenRouter 在2026年2月17日和19日遭遇两次服务中断。官方说明了中断原因及已采取的预防措施，以防止类似事件再次发生。

产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

35

OpenRouter 在 2026 年 2 月 17 日与 19 日的服务中断事件

OpenRouter 在 2026 年 2 月 17 日和 19 日遭遇了两次服务中断。故障源于其依赖的云服务提供商发生区域性网络问题，导致 API 请求失败。团队在数小时内恢复了服务，并通过实施多区域故障转移、增加备用云服务提供商以及改进监控警报机制来增强系统韧性。此次事件后，OpenRouter 的服务可用性目标已提升至 99.9%。

行业动态部署/工程