AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态一手 · 2393 条
全部一手资讯X论文
5月30日周六
5月29日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
18:39
公众号:小米 MiMo
59
MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致

小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。

推理教程/实践部署/工程
10:42
Claude Code:GitHub Releases(RSS)
66
v2.1.158

Claude Code 发布 v2.1.158 更新,将 Auto mode 的可用范围扩展至 Bedrock、Vertex 和 Foundry 平台,支持 Claude Opus 4.7 和 Opus 4.8 模型。用户可通过设置环境变量 `CLAUDE_CODE_ENABLE_AUTO_MODE=1` 来启用该功能。

Anthropic产品更新编码部署/工程
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
07:19
OpenRouter:Announcements(RSS)
精选73
Guardrails:保护你的智能体、数据与成本

Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。

智能体产品更新安全/对齐

推荐理由:给 agent 加安全护栏这件事,OpenRouter 把它做进了控制台,预算限制、防注入、数据不落盘都能开箱即用,做生产级 agent 的可以少写一堆胶水代码。
04:42
Claude Code:GitHub Releases(RSS)
精选67
v2.1.157 更新

此版本主要改进了插件系统,现可自动加载 `.claude/skills` 目录中的插件,并通过 `claude plugin init` 创建;`/plugin` 命令增加了自动补全。`claude agents` 现在会应用 `settings.json` 中的 `agent` 字段,并支持 `--agent` 参数覆盖。更新修复了多个具体问题,包括处理不可用图片导致的崩溃、在 tmux 中的剪贴板复制失效(2.1.153 回归)、后台会话恢复后日期不正确等。此外,优化了长对话及恢复对话的性能,并改进了在 VS Code、Cursor 和 Windsurf 等 IDE 中的体验。

智能体AnthropicMCP/工具产品更新
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
推荐理由:Claude Code 这个版本把插件从市场限制中解放出来,自动加载本地 skills 目录,对喜欢自己鼓捣定制工作流的开发者是个实实在在的便利。
03:08
Google Blog:AI(RSS)
精选55
参与我们的 I/O 2026 测验:该测验由 Google AI Studio 氛围编程生成

Google 使用其开发工具 Google AI Studio,通过氛围编程(vibe coding)方式,创建了一个关于 Google I/O 2026 主要公告的在线测验。

Google教程/实践

推荐理由:Google 用 AI Studio 自己 vibe code 了个 I/O 测验,是想展示普通人也玩得转,但 quiz 本身信息量不大,想体验 vibe coding 的可以顺手玩玩。
02:52
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选64
Braintrust如何用Codex将客户请求转化为代码

Braintrust的工程师正在使用Codex结合GPT-5.5模型,以加速其实验运行与代码编写的流程。

智能体OpenAI教程/实践编码

推荐理由:真正的工程团队实操,不是 PPT 演示,如果你想了解 Codex 在生产环境中的落地效果,这篇比任何评测都实在。
02:12
Gary Marcus:The Road to AI We Can Trust(RSS)
50
Token至上时代结束之后会怎样?

文章简要指出,在“Token至上”的时代可能告一段落之后,对于人工智能(AI)的未来,存在两组截然不同的预测。

大佬观点现象/趋势
02:03
Steve Yegge:Medium(RSS)
66
技术面试的终结

作者基于超过35年的技术面试经验指出,该流程存在根本性缺陷。面试结果极不可靠,面试官意见高度不一致,且评分无法有效预测候选人实际表现。亚马逊的“Bar Raiser”和谷歌的“Hiring Committee”等补救机制并未从本质上解决问题。作者认为,当前的人才评估方式亟需一场根本性的变革。

大佬观点现象/趋势
02:00
OpenRouter:Announcements(RSS)
精选63
OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7

一组预算模型通过OpenRouter平台进行模型融合,在包含100个复杂研究任务的评估中,得分超过了GPT-5.5与Claude Opus 4.7。

产品更新推理评测/基准

推荐理由:用一组便宜模型通过OpenRouter融合就能干翻GPT-5.5和Claude Opus 4.7,如果数据真实,这对推理成本的冲击太大了。不过只有100个任务,测试范围窄,先别急着冲。
01:38
Google Blog:AI(RSS)
精选74
Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5,并同步提供了 11 个视频,集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频
关联讨论 4 条Google Blog:AI(RSS)Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)Ars Technica:AI(RSS)
推荐理由:Google 官方放出的这组视频演示,直接展示了 Gemini Omni 和 3.5 的实际表现,比参数和 benchmark 更直观,做多模态应用的可以逐帧研究。
01:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
可信第三方评估的共享操作手册

OpenAI 发布了一份关于第三方 AI 评估的指导框架,内容涵盖如何评估前沿系统的能力、安全防护措施及评估本身的有效性。

OpenAI安全/对齐教程/实践评测/基准

推荐理由:OpenAI 首次把模型评估的方法论打包共享,这份指南是给第三方评估者的操作手册,比零散的论文更落地,做评测的团队可以直接抄作业。
00:33
Tomer Tunguz 博客(VC 分析)
精选65
技能提炼

“技能提炼”是一种知识转移方法,由前沿大模型(如 Opus 4.7、GPT-5.1、Gemini 3 Pro)负责撰写并优化标准化的 SKILL.md 流程文件。然后,本地运行的小模型(如 Qwen 35B、Gemma 26B)直接执行这些文件。此过程不同于压缩模型权重的知识蒸馏、训练权重的指令微调或检索事实的 RAG,其核心是提取并转移操作流程,让小模型按步骤执行,从而形成前沿模型作教师、小模型作执行者的循环。

智能体MCP/工具大佬观点

推荐理由:Tomer 把个人代理的完整工作流摆了出来,用大模型写 skill 小模型执行,这条蒸馏思路比调 prompt 高级,想认真跑本地代理的人该盯一下。
00:07
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
波士顿儿童医院利用AI解锁新诊断

波士顿儿童医院通过部署OpenAI技术,用于改善患者护理并减轻运营负担,成功帮助诊断了超过40种罕见病病例。

OpenAI行业动态

推荐理由:波士顿儿童医院用 OpenAI 揪出了 40 多个罕见病,这种 AI 辅助诊断的案例正在从概念验证转向真实落地,医疗 AI 的进度条往前拖了一小格。
5月29日
23:13
Qwen:Blog Retrieval(API)
精选65
Qwen-VLA:从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由:一条模型同时搞定机械臂操控、视觉导航、跨形态控制,在LIBERO上97.9%,比专用模型还高,虽然离AGI尚远,但“从看懂世界到动手干活”这一步迈得比想象中大。
22:53
公众号:通义实验室(千问)
精选61
Qwen-VLA:迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA,以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示,将操作、导航与轨迹预测统一在同一框架下,支持11种机器人平台。在5个仿真基准中,单一通用模型在3个上超越最佳专用模型;ALOHA真机in-domain成功率83.6%,OOD泛化76.9%,分别超越π₀.₅超35和40个百分点;DOMINO动态操作零样本达26.6%;VLN-CE导航R2R和RxR分别达57.5%和59.6%,均超越专用模型。

具身智能模型发布

推荐理由:通义把操作、导航和轨迹预测塞进一个脑子,在11种机器人上通用,这是具身智能从'专家'走向'通才'的关键一步,做机器人的值得翻翻论文。
21:41
公众号:可灵AI(快手·视频)
36
可灵AI联动多所高校开启AI创作实践,诚征作品共赴创意之约

可灵AI启动高校AI创作实践活动,面向多所高校征集作品,诚征创作者共赴创意之约。

行业动态视频
20:08
Google Blog:AI(RSS)
32
滑铁卢大学未来实验室展示AI原型

滑铁卢大学未来实验室的学生开发了用于重塑教育和工作未来的AI原型,其中包括手语辅导工具。

Google行业动态
20:00
OpenRouter:Announcements(RSS)
精选63
OpenRouter 推出 Guardrails:保护你的 AI 智能体、数据与成本

OpenRouter 发布 Guardrails 可配置安全与治理工具,支持预算执行、零数据保留、模型和提供商限制、提示词注入防御以及数据丢失防护,帮助用户保护 AI 智能体、数据与成本。

智能体产品更新安全/对齐

推荐理由:OpenRouter 这一套护栏对经常拼 agent 的开发者很实用,预算封顶、防注入、零留存都直接解决生产环境的痛点,接入门槛也低。
20:00
OpenRouter:Announcements(RSS)
精选56
OpenRouter Guardrails 发布:可配置安全与治理工具,保护 AI 智能体、数据与成本

OpenRouter 推出 Guardrails,一套可配置的安全与治理工具,支持预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失防护等策略,用于保护 AI 智能体、数据和成本。

智能体产品更新安全/对齐

推荐理由:这波更新给Agent加了安全带,预算控制和数据保留策略是刚需,如果你的产品依赖OpenRouter,别等收到天价账单才去配。
19:30
Hugging Face:Blog(RSS)
精选71
PyTorch 性能分析系列(一):torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 `torch.profiler` 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 `torch.compile` 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face教程/实践部署/工程

推荐理由:PyTorch profiling 的陡峭学习曲线劝退了很多人,这篇用从零开始的方式把 trace 拆解得明明白白,想做性能优化的同学该收藏。
18:50
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
用 Rosalind Biodefense 增强社会韧性

OpenAI 推出 Rosalind Biodefense,为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问,以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

OpenAI产品更新
关联讨论 3 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:Sam Altman (@sama)X:OpenAI (@OpenAI)
推荐理由:又一个OpenAI限定合作伙伴的产品发布,GPT-Rosalind聚焦生物防御,普通开发者暂时用不上,但给前沿AI在公共健康领域的落地开了扇窗。
17:44
公众号:通义实验室(千问)
精选64
通义实验室发布教程:在 Android 手机部署 MCP 感知服务器

通义实验室发布教程,演示如何在 Android 手机上部署 MCP 感知服务器,使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型(约 1.3GB),摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON,再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据,仅传输语义提取结果。项目已开源,实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由:如果你做Agent总觉得AI对物理世界是瞎子,这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛,不传原始视频只给结构化文字,隐私友好又能被Claude直接调用。
16:46
公众号:京东JoyAI
43
JoyInside上新:小龙AI魔法益智打印机开启预售

京东JoyInside与ZORICAM联合推出小龙AI魔法益智打印机,集故事机、聊天机器人、打印机、学习机于一身。产品搭载京东自研JoyAI大模型,首创面向儿童的“情景式对话+打印”交互:唤醒“小龙”后通过语音指令即可生成画作并打印成专属贴纸,还能在对话中理解语境主动提出打印建议。硬件支持WiFi连接,续航超48小时。

产品更新图像生成语音
16:46
公众号:京东JoyAI
18
京东618赛博联欢会六一上线:AI数字人整活、百万红包、1分钱秒杀

京东618「赛博联欢会」于6月1日20:00-21:30在京东App直播。AI数字人全程互动,带来创意节目、童年经典元素重现和赛博朋克视觉舞美。福利包括百万无门槛红包、万份童年好物1分钱秒杀、金条/折叠手机/大疆Pocket 4免费抽奖。用户打开京东App搜索“赛博联欢会”即可预约。

行业动态
15:43
公众号:腾讯元宝
41
元宝助手正式入驻QQ浏览器,底层模型升级至Hy3 preview

元宝助手正式入驻QQ浏览器,搜索栏、划词等AI入口全面升级为元宝助手,底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频,以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用,Mac版本已更新,其他版本逐步放量。

产品更新多模态搜索
13:35
OpenAI:官网动态(RSS · 排除企业/客户案例)
42
MUFG 旨在借助 OpenAI 成为 AI 原生企业

三菱日联金融集团(MUFG)正在使用 ChatGPT Enterprise 构建 AI 原生组织,以改进工作流程,并大规模提供新的 AI 驱动金融服务。

OpenAI行业动态
11:35
公众号:面壁智能(MiniCPM)
精选61
面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。

Hugging Face开源/仓库数据/训练端侧
关联讨论 1 条公众号:面壁智能(MiniCPM)
推荐理由:填补了中文大规模合成数据空白,三年前还在用英文数据做中文模型的日子可以翻篇了,做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。
10:42
Claude Code:GitHub Releases(RSS)
56
v2.1.156

v2.1.156 版本修复了一个问题,该问题在使用 Claude Opus 4.8 模型时,会导致 thinking blocks(思考过程块)被意外修改,从而引发 API 调用错误。

Anthropic产品更新编码
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
09:39
公众号:蚂蚁百灵(Ling)
52
蚂蚁百灵团队提出 PowLU 激活函数,解决低精度训练中 SwiGLU 的异常值问题

SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大,引发 Loss Spike。蚂蚁百灵(Ling)团队提出的 PowLU,在正半轴用幂函数替代指数衰减因子,使增长曲线更平缓。Scaling Law 实验(26M–368M 参数)显示 PowLU 与 SwiGLU 拟合曲线几乎重合;7.9B(600B token)和 124B(800B token)模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32,有效压缩数值动态范围,减少极端异常值。

数据/训练论文/研究
08:02
公众号:阶跃星辰(Step)
精选61
阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash,采用稀疏 MoE 架构(总参数 196B+1.8B,激活 11B),最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%,ClawEval-1.1 达 67.1%,GDPval 达 45.8%,τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议,支持云端与本地部署,已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态

推荐理由:Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了,兼容主流框架还开源,对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。
07:46
OpenAI:官网动态(RSS · 排除企业/客户案例)
50
Endava如何借助Codex构建智能体驱动的组织

Endava通过应用AI工具Codex,成功构建了智能体驱动的组织模式,显著加速了软件交付流程。其核心成果体现在需求分析环节,耗时由数周大幅缩短至数小时。

智能体OpenAI编码行业动态
05:12
Google Research:Blog(网页)
精选79
创新时代:Google Research 在 I/O 2026

Google Research 在 I/O 2026 大会上展示了其在多个前沿领域的技术进展,包括应用AI、基础机器学习算法以及量子AI等。本次大会的核心主题是展示其在将科学发现与研究成果转化为现实世界影响方面的持续努力。

智能体Google推理论文/研究
关联讨论 4 条Google Blog:AI(RSS)Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)Ars Technica:AI(RSS)
推荐理由:Google 把研究成果直接发 Nature,ERA 和 Co-Scientist 这套工具让 AI 从写诗进化到做实验,健康 AI 的临床验证数据也很扎实,搞科研的可以蹲一下访问资格。
04:11
Gary Marcus:The Road to AI We Can Trust(RSS)
38
突发:史上三大IPO面临坏消息

客户正认识到,token消耗“已燃烧数百万美元,却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股(IPO)构成压力,表明市场对AI投资的实际效益产生质疑。

大佬观点现象/趋势
02:42
xAI:News(网页)
精选82
Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练,支持网页开发、调试和 MCP,同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒,定价为输入 $1/m tokens,输出 $2/m tokens。除编码外,它也适用于通用智能体及工具调用场景,并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI模型发布编码
关联讨论 5 条xAI:News(网页)X:cb_doge (@cb_doge)X:xAI (@xai)X:阿易 AI Notes (@AYi_AInotes)X:Testing Catalog (@testingcatalog)
推荐理由:xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出,专攻 agentic coding,这是直接在叫板 Claude Code 和 Cursor,做开发工具的同行该重新算账了。
02:41
Google Developers Blog(RSS)
精选73
使用 Google Pay & Wallet Developer MCP server 加速你的集成工作流

Google 推出 Google Pay & Wallet Developer MCP server,这是一款开放标准工具,旨在将 AI 开发助手和 IDE 安全连接到实时的 API 与账户上下文。开发者无需离开开发环境,即可搜索官方文档、验证 Wallet pass 定义、检查集成状态以及管理商户账户。该集成旨在通过减少上下文切换并提供实时、可靠的 AI 支持来减少开发摩擦,从而加速开发工作流。

GoogleMCP/工具产品更新

推荐理由:这是 Google 为支付场景做的 MCP 服务器,把文档和账户操作直接塞进 IDE,减少上下文切换,做 Google Pay 集成的开发者可以试试看。
02:39
Claude Code:GitHub Releases(RSS)
精选73
Claude Code v2.1.154 发布:新增 Opus 4.8 与动态工作流

Claude Code 更新至 v2.1.154 版本,正式引入 Opus 4.8 模型。新功能包括“动态工作流”,可通过 `/workflows` 指令让 Claude 在后台编排数十到数百个 AI 智能体协同处理复杂任务。Opus 4.8 的快速模式现已可用,成本降低为 2 倍标准费率可实现 2.5 倍速度提升。其他更新有:精简系统提示词成为默认设置(除 Haiku、Sonnet 及 Opus 4.7 及更早版本外),优化多选题决策逻辑,简化 `/simplify` 命令。此次更新修复了包括后台会话管理、终端渲染在内的多个 bug,并增强了自动模式对数据外泄的检测能力。

智能体AnthropicMCP/工具产品更新
关联讨论 2 条Claude Code:GitHub Releases(RSS)X:Claude Devs (@ClaudeDevs)
推荐理由:Claude Code 这版把多 agent 编排做成了产品功能,动态工作流让一个 prompt 能调度上百个 agent,再加上 Opus 4.8 快速模式只要 2 倍价格,做复杂任务的开发者可以试一下。
02:35
Anthropic:Newsroom(网页)
精选81
Anthropic 完成 650 亿美元 H 轮融资,估值达 9650 亿美元

Anthropic 宣布完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,投后估值达 9650 亿美元。公司表示其旗舰模型 Claude 的企业部署持续增长,年化收入已突破 470 亿美元。此轮融资将用于推进 AI 安全与可解释性研究、扩展算力以满足 Claude 的需求,并规模化产品与合作伙伴关系。Anthropic 近期已显著扩大计算容量,并宣布 Claude 已登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台。

Anthropic行业动态
关联讨论 12 条X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:小互 (@xiaohu)X:Anthropic (@AnthropicAI)TechCrunch:AI(RSS)X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)Bloomberg:Technology(RSS)X:洪明 (@hongming731)X:阿易 AI Notes (@AYi_AInotes)
推荐理由:65B的融资规模基本封死了其他玩家追赶的门槛,Claude的算力和研发投入将远超同行,做应用的可以放心上船了。
01:21
Claude:Blog(网页)
精选78
在Claude Code中引入动态工作流

Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。

智能体Anthropic产品更新编码
关联讨论 5 条Claude:Blog(网页)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)X:邵猛 (@shao__meng)Claude Code:GitHub Releases(RSS)
推荐理由:动态工作流第一次让 Claude Code 能独立搞定需要并行协调的大规模工程任务,Bun 从 Zig 到 Rust 只用了十一天,这对复杂代码库的维护和迁移是降维打击。
01:05
Anthropic:Newsroom(网页)
精选85
Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用,价格与前代相同。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增“动态工作流”特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。

智能体Anthropic推理模型发布
关联讨论 17 条X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Artificial Analysis (@ArtificialAnlys)X:洪明 (@hongming731)X:opencode (@opencode)X:Rohan Paul (@rohanpaul_ai)X:Boris Cherny (@bcherny)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:Claude (@claudeai)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:宝玉 (@dotey)
推荐理由:Opus 4.8看着是常规升级,但动态工作流让Claude Code能啃下跨十万行代码迁移这种硬骨头,快速模式降价三倍更是直接拉低了实时场景的入场券。
00:34
LMSYS:Blog(Chatbot Arena 团队)
精选69
SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作,通过一系列全栈优化,使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下,其成本为每百万 token $0.169,比 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,比 B200(SGLang)方案低 40%。吞吐量方面,24 块 AMD GPU 达到 2,436 tok/s/GPU,比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括:MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 上的 Specv2 MTP 以及 CPU 流式处理优化。

推理论文/研究部署/工程

推荐理由:AMD MI355X跑DeepSeek-R1的TCO比NVIDIA B200低5%,吞吐还高出1.25倍,这是开源框架SGLang对闭源生态的一次真实挑战,做推理部署的应该点开看看完整的全栈优化。
‹ 上一页
1…678910…50
下一页 ›