AIHOT

全部动态一手 · 2413 条

全部一手资讯 X 论文

5月13日周三

5月12日周二

5月11日周一

5月10日周日

5月9日周六

5月13日

05:53

Claude Code：GitHub Releases（RSS）

精选70

v2.1.140 版本更新

本次更新包含多项错误修复与体验优化。核心改进包括：增强了Agent工具的`subagent_type`匹配逻辑，现对大小写和分隔符不敏感；修复了`/goal`命令在特定钩子设置下无响应的问题，现会显示明确提示；解决了Windows系统上因缺失可执行文件导致的周期性事件循环停滞。此外，还修正了后台服务启动、远程设置认证重试、托管市场更新策略持久化、`/loop`命令调度冗余以及`Read`工具参数验证等多个问题。插件系统现会对因配置冲突而被静默忽略的默认组件文件夹发出警告。

AnthropicGitHub产品更新部署/工程

关联讨论 7 条

推荐理由：Claude Code 这次修了一批烦人小 bug，尤其是 /goal 不再装死、/loop 不再空转，用着难受的开发者可以立刻更新试试。

03:08

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选64

Parameter Golf 揭示了关于 AI 辅助研究的哪些经验

Parameter Golf 项目汇聚了超过 1000 名参与者和 2000 多份提交作品，在严格限制条件下探索了 AI 辅助的机器学习研究、编码智能体、模型量化及新颖模型设计。活动展示了 AI 工具如何帮助研究人员在受限参数规模下优化模型性能，推动了高效模型架构与自动化代码生成技术的实践进展。核心发现包括智能体协作能显著提升研究效率，而量化技术可在微小精度损失下大幅压缩模型体积。

智能体OpenAI现象/趋势

推荐理由：OpenAI让1000多人一起玩AI辅助研究，这篇复盘给出了几个很实在的教训，尤其关于代码Agent和量化，搞研究的人值得花五分钟读一下。

02:54

Claude：Blog（网页）

精选58

Anthropic 网络安全团队如何利用 Claude Code 构建威胁检测平台

Anthropic 检测平台工程团队技术负责人 Jackie Bow 运用 Claude Code 开发了 CLUE 威胁检测与响应平台。该平台通过自然语言界面连接内部系统，包含 CLUE Triage 自动初筛警报，整合上下文信息分配处置建议；以及 CLUE Investigate 支持分析师用自然语言查询日志，由 Claude 自动生成并执行查询，将数小时的人工分析缩短至几分钟。团队在一天内完成概念验证，一周内交付实现，显著提升了安全运营效率。

智能体Anthropic安全/对齐教程/实践

推荐理由：我一直好奇大模型公司自己怎么用 AI 做安全，这篇挖出了 Anthropic 内部 CLUE 平台的构建细节——从一天出原型到每周省下 234 人天，数据比很多 PR 稿扎实。

01:54

Claude：Blog（网页）

精选73

Claude进军法律行业

Anthropic公司为法律行业发布20多个新的MCP连接器及12个专用插件，将Claude深度集成至合同管理、文档处理等法律核心软件栈。Claude现可直接在Microsoft Word、Outlook等办公应用中无缝工作，具备起草、修订、条款比对等可复用技能，并能自动化处理日常法律事务。公司同时宣布与多个司法公益组织合作，以扩大法律服务的可及性。

智能体AnthropicMCP/工具产品更新

推荐理由：Claude 这次在法律行业的布局很大，20+ 连接器和 12 个插件意味着它不是做表面集成，而是把律师的整套工具链都拉了进来——对律所是效率革命，对做垂直 AI 产品的团队则是教科书级的行业解决方案示范。

01:53

GitHub Blog

精选61

GitHub Copilot 个人计划：在 Pro 和 Pro+ 中引入弹性配额，以及新的 Max 计划

GitHub 宣布从6月1日起更新 Copilot 个人计划阵容，基于用户反馈进行调整。主要变化包括在现有 Pro 和 Pro+ 计划中引入弹性配额机制，允许用户更灵活地分配使用量；同时新增 Max 计划，扩展高级选项。此次更新旨在提升计划的可定制性，为开发者提供更个性化的编程辅助服务，优化整体使用体验。

GitHub产品更新编码

推荐理由：GitHub Copilot 个人版引入弹性配额和更贵的 Max 计划，对你这样每天靠它写代码的人，要么多花钱要么被限流，算清楚自己的用量比看功能列表更重要。

01:05

Google Developers Blog（RSS）

精选73

使用ADK构建可暂停、恢复且永不丢失上下文的长时运行AI智能体

本文探讨了如何从无状态聊天机器人升级为生产级AI智能体，以管理长达数天或数周的企业工作流程（如HR入职）。通过引入Agent Development Kit（ADK），其架构核心采用持久状态机和持久化会话存储，确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制，实现在暂停期间“休眠”，并在唤醒后以高推理准确性恢复复杂任务，从而构建出具备韧性和可靠性的长时运行智能体系统。

智能体Google教程/实践部署/工程

关联讨论 1 条

推荐理由：Google 官方手把手教你把无状态 chatbot 升级成能跨天跨周的持久化 agent，状态机和持久会话是两个关键切入点，做过生产环境 agent 的都懂这东西有多刚需。

00:26

Nathan Lambert：Interconnects（RSS）

精选64

开放模型生态的复合增长

中国AI生态呈现高参与度与开放优先特征，开源模型社区形成自我强化循环。开发者基于主流架构二次创新，国产开源模型下载量季度环比激增超200%。开放协作降低了技术门槛，推动应用层涌现大量行业解决方案，模型微调工具使用量同比大幅增长。生态参与者通过贡献代码、数据及优化方案，持续反哺核心模型迭代，构建了技术红利共享的复合增长网络。

大佬观点开源生态现象/趋势

推荐理由：Nathan Lambert这篇对中国开放模型生态的剖析，点出了‘参与人数×开源速度’的飞轮，做开源的人该认真看看。

00:24

Claude：Blog（网页）

精选58

Code w/ Claude SF 2026开发者大会：基于AI指数级增长的构建

在Code w/ Claude SF 2026开发者大会上，Anthropic宣布提升开发者工具能力。Claude Code的速率限制翻倍，Claude Opus的API限制提高，以支持大规模可靠开发。同时，Claude平台上的托管智能体新增四项功能：“梦想”功能通过回顾会话优化记忆；多智能体编排支持主智能体并行委派子任务；“成果”功能通过定义输出标准提升任务成功率，内部测试显示最难问题成功率最多提升10%；Webhooks提供任务完成通知。大会主题演讲和分组会议录像已上线，并计划在伦敦和东京举办后续活动。

智能体AnthropicMCP/工具产品更新

推荐理由：虽然已是旧闻，但Dreaming和Outcomes这两个功能让agent能自我改进，是构建生产级AI团队的真信号，做Claude开发的值得补课。

5月12日

23:53

GitHub Blog

精选58

Dungeons & Desktops：使用 GitHub Copilot CLI 构建一款程序化生成的 Roguelike 游戏

一位 GitHub 员工利用 GitHub Copilot CLI 开发了一款扩展程序，能够将任何代码库转换成一个独特的 Roguelike 风格地下城。该工具通过 AI 辅助的代码生成，实现了程序化关卡创建，展示了 Copilot CLI 在创意编码和游戏原型开发中的实际应用潜力。项目核心是自动解析代码结构并生成对应的可探索地下城布局。

GitHub教程/实践编码

推荐理由：用 GitHub Copilot CLI 把代码库变成 roguelike 地牢，玩法挺有脑洞，做 Copilot 扩展的开发者可以看一眼思路。

22:40

Google DeepMind：Blog（RSS）

精选57

Co-Scientist：一个加速研究的多智能体AI伙伴

Co-Scientist 是一款由 Gemini 构建的协作式 AI 助手，旨在帮助科研人员加速科学突破。它通过多智能体（multi-agent）的架构设计，作为研究人员的智能伙伴参与工作流程，以提升研究效率并推动创新发现。

智能体DeepMindGoogle产品更新

推荐理由：Google DeepMind 推出的科研助手，用多智能体框架帮科学家加速实验设计，如果做生物/材料领域研究，值得跟踪一下，但对其他领域暂时可能还是个概念。

19:49

公众号：智谱（GLM）

精选63

GLM-5.1获AA全新Coding Agent基准开源第一

全球权威评测机构Artificial Analysis发布全新Coding Agent Index，包含SWE-Bench-Pro-Hard-AA、Terminal-Bench v2和SWE-Atlas-QnA三项基准，用于衡量模型与Agent harness组合的真实编程能力。闭源模型Opus 4.7（在Cursor CLI中运行）全球第一，智谱GLM-5.1（在Claude Code中运行）获开源第一，代表国产大模型在实际编程Agent场景达到SOTA水平。

开源生态编码评测/基准

关联讨论 1 条

推荐理由：GLM-5.1 在 AA 的新 Coding Agent 基准上拿了开源第一，时隔一个月回头看，这个成绩对国产开源模型在编程 Agent 赛道的位置是个重要注脚，做工具链选型的还是值得扫一眼。