Cognition公司开发了Devvin,这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示,该智能体并非旨在取代人类程序员。
Cognition公司开发了Devvin,这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示,该智能体并非旨在取代人类程序员。
该技术成果展示了在标准GPU硬件上实现大语言模型实时推理的可能性。核心性能指标为单次请求的生成速度可达到3000个tokens每秒(3k tokens/s per request)。这一结果表明,对于特定场景或模型配置,即使在非专用集群的常规计算设备上,也能实现高速的模型输出,对于降低大语言模型的使用门槛和成本具有参考意义。
文章呼吁人们使用人工智能(AI)。作者Shawn Smucker在Substack上发布该文,并在Hacker News上引发讨论,获得101个社区积分。
在人工智能需求推动下,市场接近历史高点,投资者正大举押注AI增长。哈佛大学经济学教授、国际货币基金组织(IMF)前第一副总裁吉塔·戈皮纳思(Gita Gopinath)做客Odd Lots播客,与主持人探讨了由AI驱动、没有社会动荡的“完美生产世界”是否可能实现。
本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 `torch.profiler` 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 `torch.compile` 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。
该篇文章标题涉及“Claude Code”的可配置选项,但提供的正文内容仅包含一张图片和一个外部链接,未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则,无法在摘要中提及原文不存在的细节。
Adobe正在beta测试的Firefly AI Assistant是一个对话式AI智能体,定位为设计工作流的中间人,旨在帮助用户处理繁琐任务同时保留创作控制权。然而,初步体验表明其功能表现平庸,未能令人印象深刻。
通义实验室发布教程,演示如何在 Android 手机上部署 MCP 感知服务器,使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型(约 1.3GB),摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON,再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据,仅传输语义提取结果。项目已开源,实测可识别红绿灯状态等场景。
加州大学伯克利分校的 UCCL 团队发布了 mKernel,该工具将节点内 NVLink 通信、节点间 RDMA 通信以及密集计算融合成一个持久化 CUDA 内核。
Hexo Labs 开源了 SIA,这是一个遵循 MIT 许可证的自我改进循环。其中的反馈智能体会读取每次执行的轨迹,然后重写运行框架或触发对 gpt-oss-120b 模型的 LoRA 权重更新。结合这两种调整方式,在 LawBench、TriMul GPU 内核以及 scRNA-seq 去噪任务上,效果均优于仅迭代框架。
谷歌 DeepMind 首席执行官德米斯·哈萨比斯预测,AGI 研发速度远超预期,最快可能在 2029 年至 2030 年前后出现。作为 AlphaGo、AlphaFold 的主导者,他认为当前 AI 智能体是未来更强智能的预演,随着多模态和自主决策能力成熟,三年内迎来 AGI 关键突破已非科幻。但他同时警示,全球社会对 AGI 到来的准备严重不足,必须提前建立规则与防护机制。
作家莫言强调,人工智能无法取代文学创作,因为AI是靠一代又一代作家写出来的作品“喂”出来的。他认为作家最宝贵的是原创能力,即创作前所未有的作品。假设所有创作者都停止原创,AI的水平也会停滞。AI可作为辅助工具介入翻译、影视制作等领域,但原创作品依然是根本。
英伟达CEO黄仁勋在员工大会回应AI消耗Token的担忧,称“浪费一点钱没关系,但千万不要浪费时间”。他要求同事积极拥抱AI,指出不使用AI才会被裁员,“你不会被AI取代,但会被懂得使用AI的人取代”。黄仁勋强调AI绝非裁员借口,而是避免裁员的良方,并认为这是缩小科技鸿沟的最佳时机。
Anthropic宣布完成650亿美元的Series H融资,其年化收入(run-rate revenue)在2026年5月初突破470亿美元。这一数字较2025年底的约90亿美元大幅增长,在2026年2月和4月分别达到140亿美元和300亿美元。Axios曾称其为“有机收入增长速度最快”的公司之一。有匿名咨询案例显示,单月支出可达5亿美元。对于数据来源的质疑,文章指出这些数字包含在融资公告中,对投资者撒谎将构成证券欺诈。
特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。
Anthropic发布了Claude Opus 4.8。官方将其描述为“适度但切实的改进”,核心提升在于诚实性,代码缺陷未被察觉的可能性降低为前代的四分之一。模型定价保持不变,仍为$5/百万输入 token 和$25/百万输出 token,但快速模式价格大幅降低。上下文窗口为100万 token,最大输出128k token,知识截止日期为2026年1月。新功能包括支持对话中途插入系统消息,以及将提示缓存的最低长度要求从4.7的4,096 token降至1,024 token。
Rivian 软件负责人表示,随着智能体 AI 加速落地,汽车正从“软件定义”走向“AI 定义”,传统的“屏幕镜像”车联方案(如苹果 CarPlay)将变得“过时”。该公司希望为用户打造一体化的导航、控制与 AI 助手服务,而非将中控主导权交给 iPhone。内部数据显示,要求支持 CarPlay 的用户比例已从交付初期的“超过 70%”降至最近一次调查的“不到 25%”。
文章探讨了大语言模型输出中存在的各种典型缺陷或不受欢迎的模式(即“异味”),并提供了相关示例。该内容来自 shvbsle.in,在 Hacker News 社区获得了 107 点热度。
Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。
AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。
客户正认识到,token消耗“已燃烧数百万美元,却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股(IPO)构成压力,表明市场对AI投资的实际效益产生质疑。
tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。
60秒网页游戏「Continue? Y/N」上线,主题为模拟 AI 智能体频繁请求用户授权所导致的决策疲劳。游戏可通过 llmgame.scalex.dev 访问。
Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋,而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。
新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。
Rivian首席软件官Wassym Bensaid同时担任该公司与大众集团成立的合资公司RV Tech的联席CEO。这家合资公司源于大众近60亿美元投资,旨在为大众及其旗下品牌的未来电动汽车开发操作系统和电子架构。Rivian正准备交付基于新架构的更平价车型R2,并已在R1车型中推出了AI驱动的Rivian Assistant。Bensaid将此视为打造更具“智能体”特性车载软件平台的关键一步。
Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。
Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。
小鹏集团董事长何小鹏表示,公司已进行重大战略转向,放弃原有“缝合怪”体系,全面押注“物理AI”架构。新路径有望在18到24个月内(约2027年底前)实现L4级自动驾驶。他同时透露,高等级人形机器人的商业化量产元年很可能在2027年。何小鹏预测,未来10年硬件与软件价值可能各占50%,用户为软件付费的价值占比将大幅提升。
本教程在Google Colab中构建一个完整的pgvector实验环境,展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接,并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。
Anthropic 的 Claude Code 创建者鲍里斯·切尔尼建议计算机科学毕业生,如有创业想法,现在就是创办公司的黄金时代。他认为 Claude Code 等 AI 工具正让创业者以前所未有的方式创建和扩大规模。在与 Y Combinator 最新一批创业者交流时,约一半人举手表示其公司的“100%代码”都由 Claude Code 编写,而完全不让模型写代码的仅寥寥数人。他预测,未来使用智能体写代码的人群规模将达到今天的 100 倍。
谷歌AI摘要(AI Overview)频繁出现基础拼写错误,如将“Google”字母数答错、拼错常见单词。谷歌称大语言模型在单词字母计数上存在难题。研究人员解释,因模型基于Transformer架构,将文本拆分为词元(token)处理而非逐字母识别,此属固有缺陷,难以彻底根治。这类错误提醒用户需核实AI生成内容的准确性。
英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%(增涨 594.74%)。效率上,其 prefix_merging 技术将训练步骤从 1185 次降至 218 次,速度提升约 5.39 倍,GPU 平均利用率从 20.4% 升至 87.7%。