AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 399 条
全部一手资讯X论文
5月1日周五
4月30日周四
4月29日周三
4月28日周二
4月27日周一
4月26日周日
4月25日周六
4月24日周五
4月23日周四
4月21日周二
4月15日周三
4月14日周二
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月1日
00:13
GitHub Blog
精选59
GitHub Copilot CLI 入门指南:交互模式与非交互模式

GitHub Copilot CLI 提供了交互与非交互两种主要使用模式。交互模式允许用户通过对话式指令逐步构建和调整命令,适合探索性任务。非交互模式则支持直接输入完整指令快速执行,适用于自动化脚本或已知命令。理解这两种模式的区别能帮助开发者更高效地利用该工具,提升命令行工作效率。

GitHub教程/实践编码

推荐理由:如果你总在 Copilot CLI 的交互和非交互模式之间犯迷糊,这篇官方教程算是清晰的速查手册,初学者花五分钟就能搞清楚。
4月30日
20:00
Cursor Blog
精选55
持续优化智能体工具链:上下文演进与效果评估

Cursor团队以构建软件产品的方式迭代优化其智能体工具链,核心围绕上下文窗口的演进。早期模型能力有限,工具链依赖大量静态上下文和防护机制;随着模型能力提升,团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合:通过CursorBench等基准测试进行标准化质量评估,同时进行线上A/B测试,使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误,以应对日益复杂的工具链状态。

智能体AnthropicOpenAI教程/实践
关联讨论 1 条X:邵猛 (@shao__meng)
推荐理由:Cursor 这篇 agent harness 复盘是今年聊 agent 基础设施最好的文章之一,从上下文管理到多 agent 调度,全是实战迭代的血泪经验,做 agent 的团队该逐字读。
15:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选57
Where the goblins came from:GPT-5 行为中"妖精"输出的起源

研究揭示了GPT-5等AI模型中“妖精”输出的传播路径、时间线与根本原因。这些由特定“人格”驱动的怪异行为,源于训练数据中意外混入的特定模式或“文化基因”。开发团队已识别出问题根源,并正在部署修复方案,通过调整训练数据和微调模型来消除此类非预期的个性特征,以提升模型行为的稳定性和可预测性。

OpenAI数据/训练论文/研究

推荐理由:GPT-5的“地精”现象不是偶然,OpenAI这篇复盘把它追溯到训练数据的最早期阶段,解释了模型为什么会有自己的“脾气”,做模型训练的值得细读。
10:43
智谱:研究(网页内嵌数据)
精选55
超大规模编码代理推理实践

在超大规模编码代理推理中,乱码和生僻字异常伴随低spec_accept_length,复读异常伴随高spec_accept_rate,均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失,引入显式同步约束及分层存储优化,提升了推理稳定性和效率。

编码论文/研究部署/工程
关联讨论 1 条X:智谱 Z.ai (@Zai_org)
推荐理由:智谱公开了超大规模Coding Agent推理的工程细节,KV Cache竞态的修复和分层存储方案可以直接用,做Agent infra的值得收藏。
08:30
公众号:智谱(GLM)
47
Scaling Pain:智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。

推理教程/实践部署/工程
06:20
Google Research:Blog(网页)
精选57
谷歌研究团队应用实证研究辅助工具的四个领域

自去年秋季推出实证研究辅助(ERA)工具以来,谷歌研究团队已将其应用于多个科学领域以解决实际问题。在流行病学中,它助力流感与新冠预测;在宇宙学里,协助分析星系数据以探究暗能量;在大气监测方面,提升了二氧化碳排放的追踪精度;在神经科学领域,则用于解析大脑活动数据。这些实践表明,ERA能帮助科学家生成专家级的实证软件,其成果超越了黑箱模型,可发现兼具可解释性与机制准确性的解决方案,从而有效加速科学发现进程。

智能体Google现象/趋势

推荐理由:Google 把自家 ERA 工具在流行病学、宇宙学、气候监测、神经科学四个方向的实战案例摊开讲,虽然不是新模型发布,但对做 AI for Science 的人来说,这是一份难得的「AI 科研助手到底能干嘛」的全景参考。
01:39
Hugging Face:Blog(RSS)
精选62
AI评估正成为新的算力瓶颈

AI评估成本已突破关键阈值,正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演,单次前沿模型测试成本可达2829美元。研究显示,相同任务成本差异可达33倍,脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减,但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果:例如在GAIA测试中,2828美元方案准确率28.5%,而1686美元方案反达57.6%。当评估包含模型训练时,成本将完全超越常规API框架。

Hugging Face现象/趋势评测/基准

推荐理由:这篇把分散的评估成本数据拉通了算总账,曾经便宜的评测现在动辄上万美元,独立评估正被价格挤出牌桌,做Agent的人必须意识到排行榜的代价。
01:34
Dwarkesh Patel:Podcast & Blog(RSS)
精选55
Reiner Pope - 大语言模型训练与服务的数学原理

文章揭示了支撑大语言模型(如GPT、Claude、LLaMA)训练与服务的核心数学框架。通过剖析关键方程,可以逆向推导出顶尖AI实验室在模型规模扩展、计算资源分配及服务优化方面的核心策略与实践。这些数学原理不仅解释了模型性能随参数和数据量增长的规律,也量化了训练成本与推理效率之间的权衡,为理解当前大语言模型的发展路径提供了底层逻辑。

大佬观点推理数据/训练

推荐理由:Reiner Pope 把训模型背后的数学摊开讲,听完能反推出大厂在做什么,做训练的人不可多得的一课。
01:34
Gary Marcus:The Road to AI We Can Trust(RSS)
46
关于马斯克诉OpenAI诉讼案的三个观点

马斯克对OpenAI提起诉讼,指控其违背创立时作为非营利组织、致力于开发开放且造福人类的人工智能的初衷。诉讼核心争议点在于OpenAI与微软的紧密合作关系及其技术闭源化的转变。尽管双方立场均存争议,但诉讼确实揭示了OpenAI从开源非营利组织向受微软重大影响的有限营利实体演变的关键矛盾。案件可能影响未来AI治理与商业发展模式。

OpenAI大佬观点行业动态
00:36
Tomer Tunguz 博客(VC 分析)
精选57
AI推理市场的专业化分化

AI推理市场正快速分化,各模态如文本、图像、视频和音频发展出独立推理技术栈。自ChatGPT发布后,NVIDIA数据中心收入三年内增长17倍,凸显市场爆发。分化根本原因在于工作负载差异:图像视频生成需高计算力,长上下文消耗更多内存,边缘设备则受功耗限制。市场按延迟分为实时、近实时和批量三层;按模态分为文本、图像视频音频;按部署分为云端和边缘。Hugging Face上已有超9万个图像生成模型,整个AI推理市场规模预计约1000亿美元,这种专业化趋势正为各细分领域创造领导者机会。

多模态大佬观点推理端侧

推荐理由:Tomer 把推理市场跟数据库市场做类比,碎片化的逻辑讲得很透,做 AI 基础设施的朋友能直接用来梳理自己的赛道,普通人知道这么回事就行。
4月29日
23:40
Claude:Blog(网页)
精选58
智能体时代的产品开发:Claude Managed Agents 如何解放产品经理

Claude产品经理Jess Yan分享了处于测试版的Claude Managed Agents如何改变其工作流程。这套可组合的API能大规模构建和部署云端智能体,使她能在短时间内将想法转化为可运行的原型。她的日常工作由此分流:使用Claude进行开放式探索,然后利用Claude Code基于Managed Agents编写定制智能体来自动化特定任务,如采用分析和舆情监控。这些智能体接管了以往难以规模化的操作性工作,让她能将更多时间投入到与团队和用户的创造性合作中。

智能体AnthropicMCP/工具教程/实践
关联讨论 3 条X:Claude (@claudeai)Claude:Blog(网页)X:Claude Devs (@ClaudeDevs)
推荐理由:Anthropic PM公开用Claude Managed Agents搭建数据分析、舆情监控和演示生成agent的真实流程,对于想要用agent重构产品开发节奏的团队有实际参考价值,但不算爆炸性更新。
23:39
Hugging Face:Blog(RSS)
52
Granite 4.1 LLMs:构建之道

IBM Granite团队在Hugging Face上发布了Granite 4.1系列大型语言模型的构建细节。该系列模型专注于代码与自然语言任务,采用多阶段训练流程,包括大规模代码数据预训练、多样化指令微调以及强化学习对齐。模型架构基于改进的Transformer解码器,并针对长序列和工具使用进行了优化。新版本在多项基准测试中性能显著提升,特别是在代码生成与数学推理任务上,部分指标超越了同规模的开源模型。团队同时公开了部分训练数据集构建方法与评估框架。

教程/实践数据/训练
关联讨论 1 条X:Artificial Analysis (@ArtificialAnlys)
19:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
Intelligence Age 下的网络安全

OpenAI 发布了一份旨在强化 Intelligence Age 网络安全的五点行动计划。该计划的核心是推动 AI 驱动的网络防御民主化,并保护关键基础设施系统。OpenAI 强调,面对日益复杂的网络威胁,必须广泛普及 AI 安全工具,以提升整体防御能力。

OpenAI安全/对齐

推荐理由:网络安全是 AI 军备竞赛的下半场,OpenAI 这份行动框架把威胁模型和方法论都摆出来了,做安全的人可以把它当 checklist。
19:07
公众号:通义实验室(千问)
53
FlashQLA:让 Qwen 的注意力层跑得更快
开源/仓库推理部署/工程
09:35
Tomer Tunguz 博客(VC 分析)
精选63
AI销售中的三个核心问题

AI销售策略正从询问软件预算转向三个核心问题:软件总预算、劳动力总预算,以及客户期望三年后两者的比例。这一转变将销售对话提升至战略层面。当前数据显示,销售、支持和工程部门的人力与软件成本比分别为10:1、4:1和最高25:1,高比率意味着巨大的AI替代潜力。新的销售流程分为两步:先切入现有软件预算,再拓展至AI所释放的劳动力预算,最终目标是重新定义企业对成本结构的认知。

智能体大佬观点现象/趋势

推荐理由:Tunguz 用一张劳动力/软件支出比率表把 AI 销售的底层逻辑讲透了,做 ToB SaaS 或 Agent 产品的人看完会重新想自己的定价天花板在哪。
08:57
OpenAI:官网动态(RSS · 排除企业/客户案例)
43
Our commitment to community safety

OpenAI 通过多层防护机制保障 ChatGPT 的社区安全。具体措施包括内置模型安全护栏、实时监测滥用行为、严格执行使用政策,并与外部安全专家深度合作。这些系统性防护旨在主动识别并拦截有害内容生成,同时持续优化安全策略以应对新型风险。平台强调技术防护与人工审核相结合,致力于在保持 AI 对话能力的同时维护用户安全。

OpenAI安全/对齐
00:36
Claude:Blog(网页)
精选72
像培训新开发者一样引导Claude Code:来自17年开发的经验教训

华盛顿大学MacCoss实验室的Brendan MacLean将培训新开发者的方法论应用于Claude Code,以管理拥有70万行C#代码、持续开发17年的开源蛋白质分析软件Skyline。他通过创建独立的AI上下文仓库、编写CLAUDE.md引导文件以及设计“技能”模块(如调试技能),为Claude Code建立项目认知。该方法显著提升了开发效率:搁置一年的文件视图面板功能在两周内完成;CSS布局更新从依赖设计师变为不到一天实现。此外,Claude Code还自动化了2000多张教程图片的截图比对和每日测试报告生成,团队现在主要依靠它生成代码和脚本。

AnthropicMCP/工具教程/实践编码

推荐理由:这不是又一篇 Claude Code 安利文,而是一个维护了 17 年 70 万行 C# 代码库的人,把带新人的方法论原封不动搬给了 AI,结果真管用。做 legacy 项目的人应该认真看他的 context 管理和 skill 库设计。
4月28日
12:34
Tomer Tunguz 博客(VC 分析)
精选64
GPU现货价格六周内暴涨114%

根据Ornn Compute Price Index数据,NVIDIA B200 GPU的现货租赁价格在六周内飙升114%,从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关,这些模型需要Blackwell架构提供的内存支持。与此同时,B200与上一代H200的价差从0.28美元大幅扩大至1.80美元,不同云服务商之间的报价差距也扩大了一倍以上,反映出市场供应紧张。预计夏季B200价格将维持在5美元以上,云端推理成本持续上升。

现象/趋势行业动态部署/工程

推荐理由:Tomer Tunguz 用 Ornn 真实价格指数拆出 B200 六周涨 114% 的供需逻辑,做 AI infra 选型或算力采购的人该把这张图存下来,夏天 B200 破 5 刀基本板上钉钉。
12:33
Runway:News(网页)
精选58
无闲置GPU:Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器,将GPU利用率提升超过20%,同时保障团队容量。其核心机制是为关键工作预留配额,并设立共享队列借用闲置容量,当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群,支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中,团队拥有专用预留队列,而默认队列作为共享机会池,可借用闲置配额运行可中断工作负载。当预留队列需资源时,Kueue基于优先级和运行时间抢占默认队列中的任务,实现资源高效管理。

教程/实践部署/工程

推荐理由:Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记,利用率翻倍的方案和踩坑细节都有,做大规模训练集群调度的团队可以直接抄作业。
00:16
Gary Marcus:The Road to AI We Can Trust(RSS)
41
达里奥·阿莫代伊、炒作、AI安全与氛围编码AI灾难的爆发

AI领域的鼓吹者往往回避讨论关键风险。随着GPT、Claude、LLaMA等大型语言模型的快速迭代,行业在竞相追求参数规模与商业落地的同时,AI安全问题正以“氛围编码”的形式被系统性低估——即通过模糊的修辞淡化潜在危害。 Anthropic联合创始人达里奥·阿莫代伊等研究者多次警示,缺乏严格安全框架的AI发展可能引发连锁性灾难,包括恶意使用、社会分化与失控性风险。当前行业亟需将安全指标从抽象讨论转化为可量化的技术约束。

大佬观点安全/对齐现象/趋势
4月27日
22:28
Hugging Face:Blog(RSS)
53
如何利用OpenAI的Privacy Filter构建可扩展的Web应用

OpenAI正致力于通过开源与开放科学推动人工智能的进步与民主化。这一举措旨在降低AI技术的使用门槛,促进更广泛的创新与合作。其Privacy Filter工具为开发者提供了构建可扩展Web应用的关键支持,帮助在保障用户数据隐私的同时,高效集成AI能力。这一方向强调了技术开放性与负责任开发并重的理念。

OpenAI教程/实践部署/工程
22:22
Dwarkesh Patel:Podcast & Blog(RSS)
42
周末随想--更多开放性问题、智能与权力、科学验证难题、达尔文主义的并行发现

作者围绕多个开放性问题展开探讨,包括人工智能领域中智能与权力的本质区别及其对社会结构的潜在影响。科学验证机制面临的可靠性危机被提及,尤其是在复杂系统研究中。同时,文章指出达尔文进化论的核心概念曾出现多地域独立发现的现象,这引发了对知识创造与传播模式的思考。这些议题共同指向技术发展背后更深层的认知与伦理挑战。

大佬观点现象/趋势
21:22
Google Blog:AI(RSS)
50
加入 Google 与 Kaggle 的全新 AI Agents Vibe Coding 课程

Google 与 Kaggle 再度推出为期 5 天的 AI Agents 强化课程,现已开放注册。该课程旨在教授开发者如何构建和部署 AI 智能体,内容涵盖从基础概念到实际应用。课程形式为短期集中学习,参与者将通过 Kaggle 平台进行实践。

智能体Google教程/实践
17:55
公众号:通义实验室(千问)
34
搜对≠答对:EAPO用"证据奖励"让大模型不再靠猜
检索增强推理教程/实践
08:00
OpenRouter:Announcements(RSS)
50
Opus 4.7 的新分词器:实际成本是多少

Anthropic 为 Opus 4.7 更换了分词器(tokenizer)。OpenRouter 通过分析用户从 Opus 4.6 迁移至 4.7 的使用量变化,测算了新分词器对实际成本的影响。

Anthropic评测/基准
08:00
OpenRouter:Announcements(RSS)
46
Opus 4.7 的新 Tokenizer:它到底花了多少钱

Anthropic 在 Opus 4.7 中更换了 tokenizer。OpenRouter 通过对比用户从 Opus 4.6 迁移到 4.7 的实际使用数据,精确测量了 tokenizer 变更对成本的影响。

Anthropic现象/趋势部署/工程
08:00
OpenRouter:Announcements(RSS)
精选57
Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据,分析发现这一技术调整改变了文本转换为令牌的方式,直接影响API计价。相同的文本输入可能产生不同数量的令牌,从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力,但关乎运营开销,是开发者和企业用户需评估的关键因素。

Anthropic评测/基准部署/工程
关联讨论 3 条The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Anthropic:Newsroom(网页)
推荐理由:Opus 4.7 换了 tokenizer,大多数人只知道模型变强了,不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账,做成本预算的产品人值得扫一眼。
07:15
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
Our Principles

OpenAI 联合创始人 Sam Altman 阐述了指导公司工作的五项核心原则。这些原则围绕确保 AGI(通用人工智能)惠及全人类的使命展开,具体包括:致力于开发安全有益的 AGI;持续推动前沿技术研究;广泛共享研究成果与收益;积极与全球政策制定者合作应对风险;以及确保 AGI 的发展不被过度商业化垄断,最终服务于人类的整体福祉。

OpenAI大佬观点
4月26日
11:30
公众号:可灵AI(快手·视频)
42
可灵AI 4K实战评测:一杯奶茶钱做4K时尚大片

可灵AI推出4K实战评测,展示以“一杯奶茶钱”的低成本制作4K分辨率时尚大片的流程与效果,验证AI视频工具在影视级创作中的性价比与可行性。

教程/实践视频
4月25日
14:25
公众号:可灵AI(快手·视频)
33
可灵AI 4K实战评测室 | DiDi_OK:皮肤、毛发、瞳孔细节都敢给特写了

可灵AI 4K实战评测中,DiDi_OK在皮肤、毛发、瞳孔等细节上敢于给出特写,细节表现突出,展现出色影像能力。

教程/实践
4月24日
20:00
OpenRouter:Announcements(RSS)
精选67
使用Agent SDK搭建自定义编码智能体

OpenRouter Agent SDK 提供 create-agent-tui 和 create-headless-agent 两种技能,可在几分钟内脚手架搭建个性化编码智能体。前者附带终端 UI,后者为无头模式,适用于脚本与管道自动化场景。

智能体教程/实践编码
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:虽然隔了一个多月,但这个官方教程把 Agent SDK 的脚手架玩法拆得很透,想自己搭 coding agent 的开发者抄一遍就能跑起来,省得从头写 harness。
20:00
OpenRouter:Announcements(RSS)
精选55
OpenRouter Agent SDK 发布 `create-agent-tui` 与 `create-headless-agent` 技能,可快速搭建个性化编码智能体

OpenRouter Agent SDK 推出 `create-agent-tui` 和 `create-headless-agent` 两类技能(skills),用于快速搭建(scaffold)个性化编码智能体。前者提供终端 UI(terminal UI),后者为无头模式(headless),适用于脚本和流水线(scripts and pipelines)。

智能体教程/实践
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:一个用 OpenRouter Agent SDK 快速搭建编码 agent 的脚手架,适合想省时间的开发者,但内容本身是常规文档,42 天前的教程现在已经没什么新意。
15:55
公众号:可灵AI(快手·视频)
33
可灵AI原生4K直出功能上线

可灵AI昨日上线原生4K直出功能,面向创作者提供商业级4K视频生成能力,实现卡号不抖动、LOGO不歪斜的画面质量,满足真实商业应用需求。

教程/实践视频
4月23日
18:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
如何使用Codex进行日常工作

该内容探索了10个实用的ChatGPT Codex用例,旨在自动化任务、创建交付物,并将真实的输入转化为跨工具、文件和工作流的输出。

OpenAI教程/实践编码

推荐理由:虽然发布一月有余,但官方整理的十个 Codex 日常自动化用例依然是最佳上手模板,从邮件整理到数据报表,产品人和运营可以直接抄作业。
08:00
Hugging Face:Blog(RSS)
精选57
如何在 Chrome 扩展中使用 Transformers.js

本文介绍在 Chrome 扩展中集成 Transformers.js 库的具体方法,涵盖从环境配置、模型加载到前后端通信的关键步骤。通过示例代码演示了如何利用该库在扩展中实现本地机器学习推理,同时处理扩展权限限制与安全策略。文中还对比了 Web Worker 与 Service Worker 两种部署方案,并提供了性能优化建议,帮助开发者在浏览器扩展环境中高效运行 Transformer 模型。

开源生态教程/实践端侧

推荐理由:Hugging Face 官方出的 Transformers.js 浏览器插件教程,想在 Chrome 里跑端侧推理的前端开发者可以直接抄,省掉自己踩坑的时间。
00:00
Anthropic:Engineering(事故复盘 + 工程实践 · 网页)
精选72
关于近期 Claude Code 质量报告的更新说明

Anthropic 确认并解决了过去一个月影响 Claude Code、Claude Agent SDK 和 Claude Cowork 的三个问题,所有问题已于 4 月 20 日修复。具体包括:3月4日将 Claude Code 的默认推理强度从“高”改为“中”,导致用户感知智能下降,已于4月7日回滚;3月26日一项缓存优化存在缺陷,导致会话恢复后模型“健忘”和重复,4月10日修复;4月16日一项旨在减少冗余的系统提示指令意外损害了代码质量,4月20日撤销。这些问题影响了 Sonnet 4.6 和 Opus 4.6/4.7 模型,但 API 未受影响。公司已重置所有订阅用户的使用限额,并承诺改进流程以防止类似问题。

Anthropic安全/对齐编码行业动态
关联讨论 2 条X:小互 (@xiaohu)Simon Willison 博客
推荐理由:Anthropic 把 Claude Code 连续一个月质量下滑的三个 bug 全部摊开讲,这种级别的工程复盘在大模型公司里极少见。做 Agent 产品的人该认真读,因为这三个坑你迟早也会踩。
4月21日
20:00
Cursor Blog
精选55
保持 Cursor 应用稳定

Cursor 团队针对用户全天依赖应用、崩溃影响严重的问题,聚焦内存不足导致的崩溃。通过为多进程架构设计细粒度监控系统,实时追踪版本发布后的崩溃指标。采用双重调试策略:自上而下关联功能与崩溃数据,监控大消息负载;自下而上通过崩溃观察服务、堆快照等定位根本原因。自2月底以来,全版本会话OOM率下降80%,自3月1日起请求OOM率下降73%。具体措施包括处理大文件加载和修复资源泄漏,以应对突发与渐进性内存耗尽。

现象/趋势编码部署/工程

推荐理由:Cursor 把自家 OOM 问题的排查方法论完整公开了,自顶向下加自底向上的双线调试思路对做桌面端 Agent 产品的人有参考价值,但本质上是工程复盘而非行业事件。
4月15日
18:00
公众号:生数科技(Vidu·视频)
30
生数科技Vidu发布《AI漫剧视频模型行业白皮书V1.0》

生数科技Vidu正式发布《AI漫剧视频模型行业白皮书V1.0》,该白皮书已上市。

图像生成行业动态视频
11:00
公众号:小红书技术(dots.llm)
52
小红书 Relax 开源发布:面向全模态 Agentic 的异步 RL 训练引擎

小红书开源发布Relax,一个为全模态数据、Agentic工作流和大规模异步训练Co-Design的RL训练引擎。

智能体开源/仓库开源生态
4月14日
20:00
Cursor Blog
精选62
多智能体系统将GPU内核性能提升38%

我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。

智能体现象/趋势编码部署/工程

推荐理由:Cursor 把自家多 Agent 系统拉去优化 CUDA 内核,38% 的 geomean 提速不算炸裂,但真正值得看的是它证明了 Agent 可以在无人干预下跑三周啃硬骨头,这对做 Agent 产品的人是个强信号。
‹ 上一页
1…5678910
下一页 ›