AIHOT

全部动态一手 · 399 条

全部一手资讯 X 论文

5月1日周五

4月30日周四

4月29日周三

4月28日周二

4月27日周一

4月26日周日

4月25日周六

4月24日周五

4月23日周四

4月21日周二

4月15日周三

4月14日周二

5月1日

00:13

GitHub Blog

精选59

GitHub Copilot CLI 入门指南：交互模式与非交互模式

GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令，适合探索性任务。非交互模式则支持直接输入完整指令快速执行，适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具，提升命令行工作效率。

GitHub教程/实践编码

推荐理由：如果你总在 Copilot CLI 的交互和非交互模式之间犯迷糊，这篇官方教程算是清晰的速查手册，初学者花五分钟就能搞清楚。

4月30日

20:00

Cursor Blog

精选55

持续优化智能体工具链：上下文演进与效果评估

Cursor团队以构建软件产品的方式迭代优化其智能体工具链，核心围绕上下文窗口的演进。早期模型能力有限，工具链依赖大量静态上下文和防护机制；随着模型能力提升，团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合：通过CursorBench等基准测试进行标准化质量评估，同时进行线上A/B测试，使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误，以应对日益复杂的工具链状态。

智能体AnthropicOpenAI教程/实践

关联讨论 1 条

推荐理由：Cursor 这篇 agent harness 复盘是今年聊 agent 基础设施最好的文章之一，从上下文管理到多 agent 调度，全是实战迭代的血泪经验，做 agent 的团队该逐字读。

15:10

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选57

Where the goblins came from：GPT-5 行为中"妖精"输出的起源

研究揭示了GPT-5等AI模型中“妖精”输出的传播路径、时间线与根本原因。这些由特定“人格”驱动的怪异行为，源于训练数据中意外混入的特定模式或“文化基因”。开发团队已识别出问题根源，并正在部署修复方案，通过调整训练数据和微调模型来消除此类非预期的个性特征，以提升模型行为的稳定性和可预测性。

OpenAI数据/训练论文/研究

推荐理由：GPT-5的“地精”现象不是偶然，OpenAI这篇复盘把它追溯到训练数据的最早期阶段，解释了模型为什么会有自己的“脾气”，做模型训练的值得细读。

10:43

智谱：研究（网页内嵌数据）

精选55

超大规模编码代理推理实践

在超大规模编码代理推理中，乱码和生僻字异常伴随低spec_accept_length，复读异常伴随高spec_accept_rate，均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失，引入显式同步约束及分层存储优化，提升了推理稳定性和效率。

编码论文/研究部署/工程

关联讨论 1 条

推荐理由：智谱公开了超大规模Coding Agent推理的工程细节，KV Cache竞态的修复和分层存储方案可以直接用，做Agent infra的值得收藏。

08:30

公众号：智谱（GLM）

Scaling Pain：智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践，聚焦Scaling Pain（扩展痛点）及其应对经验。

推理教程/实践部署/工程

06:20

Google Research：Blog（网页）

精选57

谷歌研究团队应用实证研究辅助工具的四个领域

自去年秋季推出实证研究辅助（ERA）工具以来，谷歌研究团队已将其应用于多个科学领域以解决实际问题。在流行病学中，它助力流感与新冠预测；在宇宙学里，协助分析星系数据以探究暗能量；在大气监测方面，提升了二氧化碳排放的追踪精度；在神经科学领域，则用于解析大脑活动数据。这些实践表明，ERA能帮助科学家生成专家级的实证软件，其成果超越了黑箱模型，可发现兼具可解释性与机制准确性的解决方案，从而有效加速科学发现进程。

智能体Google现象/趋势

推荐理由：Google 把自家 ERA 工具在流行病学、宇宙学、气候监测、神经科学四个方向的实战案例摊开讲，虽然不是新模型发布，但对做 AI for Science 的人来说，这是一份难得的「AI 科研助手到底能干嘛」的全景参考。

01:39

Hugging Face：Blog（RSS）

精选62

AI评估正成为新的算力瓶颈

AI评估成本已突破关键阈值，正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演，单次前沿模型测试成本可达2829美元。研究显示，相同任务成本差异可达33倍，脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减，但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果：例如在GAIA测试中，2828美元方案准确率28.5%，而1686美元方案反达57.6%。当评估包含模型训练时，成本将完全超越常规API框架。

Hugging Face现象/趋势评测/基准

推荐理由：这篇把分散的评估成本数据拉通了算总账，曾经便宜的评测现在动辄上万美元，独立评估正被价格挤出牌桌，做Agent的人必须意识到排行榜的代价。

01:34

Dwarkesh Patel：Podcast & Blog（RSS）

精选55

Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型（如GPT、Claude、LLaMA）训练与服务的核心数学框架。通过剖析关键方程，可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律，也量化了训练成本与推理效率之间的权衡，为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由：Reiner Pope 把训模型背后的数学摊开讲，听完能反推出大厂在做什么，做训练的人不可多得的一课。

01:34

Gary Marcus：The Road to AI We Can Trust（RSS）

关于马斯克诉OpenAI诉讼案的三个观点

马斯克对OpenAI提起诉讼，指控其违背创立时作为非营利组织、致力于开发开放且造福人类的人工智能的初衷。诉讼核心争议点在于OpenAI与微软的紧密合作关系及其技术闭源化的转变。尽管双方立场均存争议，但诉讼确实揭示了OpenAI从开源非营利组织向受微软重大影响的有限营利实体演变的关键矛盾。案件可能影响未来AI治理与商业发展模式。

OpenAI大佬观点行业动态

00:36

Tomer Tunguz 博客（VC 分析）

精选57

AI推理市场的专业化分化

AI推理市场正快速分化，各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后，NVIDIA数据中心收入三年内增长17倍，凸显市场爆发。分化根本原因在于工作负载差异：图像视频生成需高计算力，长上下文消耗更多内存，边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层；按模态分为文本、图像视频音频；按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型，整个AI推理市场规模预计约1000亿美元，这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由：Tomer 把推理市场跟数据库市场做类比，碎片化的逻辑讲得很透，做 AI 基础设施的朋友能直接用来梳理自己的赛道，普通人知道这么回事就行。

4月29日

23:40

Claude：Blog（网页）

精选58

智能体时代的产品开发：Claude Managed Agents 如何解放产品经理

Claude产品经理Jess Yan分享了处于测试版的Claude Managed Agents如何改变其工作流程。这套可组合的API能大规模构建和部署云端智能体，使她能在短时间内将想法转化为可运行的原型。她的日常工作由此分流：使用Claude进行开放式探索，然后利用Claude Code基于Managed Agents编写定制智能体来自动化特定任务，如采用分析和舆情监控。这些智能体接管了以往难以规模化的操作性工作，让她能将更多时间投入到与团队和用户的创造性合作中。

智能体AnthropicMCP/工具教程/实践

关联讨论 3 条

推荐理由：Anthropic PM公开用Claude Managed Agents搭建数据分析、舆情监控和演示生成agent的真实流程，对于想要用agent重构产品开发节奏的团队有实际参考价值，但不算爆炸性更新。

23:39

Hugging Face：Blog（RSS）

Granite 4.1 LLMs：构建之道

IBM Granite团队在Hugging Face上发布了Granite 4.1系列大型语言模型的构建细节。该系列模型专注于代码与自然语言任务，采用多阶段训练流程，包括大规模代码数据预训练、多样化指令微调以及强化学习对齐。模型架构基于改进的Transformer解码器，并针对长序列和工具使用进行了优化。新版本在多项基准测试中性能显著提升，特别是在代码生成与数学推理任务上，部分指标超越了同规模的开源模型。团队同时公开了部分训练数据集构建方法与评估框架。

教程/实践数据/训练

关联讨论 1 条

19:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选56

Intelligence Age 下的网络安全

OpenAI 发布了一份旨在强化 Intelligence Age 网络安全的五点行动计划。该计划的核心是推动 AI 驱动的网络防御民主化，并保护关键基础设施系统。OpenAI 强调，面对日益复杂的网络威胁，必须广泛普及 AI 安全工具，以提升整体防御能力。

OpenAI安全/对齐

推荐理由：网络安全是 AI 军备竞赛的下半场，OpenAI 这份行动框架把威胁模型和方法论都摆出来了，做安全的人可以把它当 checklist。

19:07

公众号：通义实验室（千问）

FlashQLA：让 Qwen 的注意力层跑得更快

开源/仓库推理部署/工程

09:35

Tomer Tunguz 博客（VC 分析）

精选63

AI销售中的三个核心问题

AI销售策略正从询问软件预算转向三个核心问题：软件总预算、劳动力总预算，以及客户期望三年后两者的比例。这一转变将销售对话提升至战略层面。当前数据显示，销售、支持和工程部门的人力与软件成本比分别为10:1、4:1和最高25:1，高比率意味着巨大的AI替代潜力。新的销售流程分为两步：先切入现有软件预算，再拓展至AI所释放的劳动力预算，最终目标是重新定义企业对成本结构的认知。

智能体大佬观点现象/趋势

推荐理由：Tunguz 用一张劳动力/软件支出比率表把 AI 销售的底层逻辑讲透了，做 ToB SaaS 或 Agent 产品的人看完会重新想自己的定价天花板在哪。

08:57

OpenAI：官网动态（RSS · 排除企业/客户案例）

Our commitment to community safety

OpenAI 通过多层防护机制保障 ChatGPT 的社区安全。具体措施包括内置模型安全护栏、实时监测滥用行为、严格执行使用政策，并与外部安全专家深度合作。这些系统性防护旨在主动识别并拦截有害内容生成，同时持续优化安全策略以应对新型风险。平台强调技术防护与人工审核相结合，致力于在保持 AI 对话能力的同时维护用户安全。

OpenAI安全/对齐

00:36

Claude：Blog（网页）

精选72

像培训新开发者一样引导Claude Code：来自17年开发的经验教训

华盛顿大学MacCoss实验室的Brendan MacLean将培训新开发者的方法论应用于Claude Code，以管理拥有70万行C#代码、持续开发17年的开源蛋白质分析软件Skyline。他通过创建独立的AI上下文仓库、编写CLAUDE.md引导文件以及设计“技能”模块（如调试技能），为Claude Code建立项目认知。该方法显著提升了开发效率：搁置一年的文件视图面板功能在两周内完成；CSS布局更新从依赖设计师变为不到一天实现。此外，Claude Code还自动化了2000多张教程图片的截图比对和每日测试报告生成，团队现在主要依靠它生成代码和脚本。

AnthropicMCP/工具教程/实践编码

推荐理由：这不是又一篇 Claude Code 安利文，而是一个维护了 17 年 70 万行 C# 代码库的人，把带新人的方法论原封不动搬给了 AI，结果真管用。做 legacy 项目的人应该认真看他的 context 管理和 skill 库设计。

4月28日

12:34

Tomer Tunguz 博客（VC 分析）

精选64

GPU现货价格六周内暴涨114%

根据Ornn Compute Price Index数据，NVIDIA B200 GPU的现货租赁价格在六周内飙升114%，从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关，这些模型需要Blackwell架构提供的内存支持。与此同时，B200与上一代H200的价差从0.28美元大幅扩大至1.80美元，不同云服务商之间的报价差距也扩大了一倍以上，反映出市场供应紧张。预计夏季B200价格将维持在5美元以上，云端推理成本持续上升。

现象/趋势行业动态部署/工程

推荐理由：Tomer Tunguz 用 Ornn 真实价格指数拆出 B200 六周涨 114% 的供需逻辑，做 AI infra 选型或算力采购的人该把这张图存下来，夏天 B200 破 5 刀基本板上钉钉。

12:33

Runway：News（网页）

精选58

无闲置GPU：Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器，将GPU利用率提升超过20%，同时保障团队容量。其核心机制是为关键工作预留配额，并设立共享队列借用闲置容量，当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群，支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中，团队拥有专用预留队列，而默认队列作为共享机会池，可借用闲置配额运行可中断工作负载。当预留队列需资源时，Kueue基于优先级和运行时间抢占默认队列中的任务，实现资源高效管理。

教程/实践部署/工程

推荐理由：Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记，利用率翻倍的方案和踩坑细节都有，做大规模训练集群调度的团队可以直接抄作业。