AIHOT

14:14

IT之家（RSS）

21

理想汽车产品线负责人汤靖：自 L9 Livis 发布后几乎看不到说"理想没技术"这种观点

理想汽车产品线负责人汤靖表示，自L9 Livis发布后，“几乎看不到说‘理想没技术’的观点了”。该车搭载三大技术：首个“完全体”线控底盘（含EMB线控机械制动）、行业首款5nm车规级AI芯片马赫100（算力2560TOPS，号称是英伟达Thor-U的3倍）及800V全独立主动悬架。新车售价50.98万元。

端侧行业动态

14:02

Hacker News 热门（buzzing.cc 中文翻译）

54

下个词预测技术将带给我们什么？

文章围绕“下个词预测”技术，探讨了其在当前与未来的可能影响及面临的局限性。它提出了一个核心问题：这一技术将把我们带向何处。

推理现象/趋势

13:31

向阳乔木@vista8

70

AI编程实战：开源一个全能Chrome新标签页插件

一名开发者分享了利用AI编程，快速开发的一个Chrome新窗口（或新标签页）插件。该插件整合了番茄钟、音乐播放、Todo、便签、天气、换背景等多款独立开发者常用工具。功能上支持直接进行谷歌搜索，并能跳转至ChatGPT官网发送预设提示词；同时支持通过Command + K快捷键唤起，实现快速设置与搜索。该项目已开源。

开源/仓库

13:27

Berryxia.AI@berryxia

9

Wow，这个机器人好啊，想要拥有它！

其他具身智能

12:29

宝玉@dotey

55

前Gemini核心科学家透露，Google在技术上曾领先，其MoE模型GLaM（2021年）已超越GPT-3，PaLM 2（2023年初）早已训练完成。然而，因组织问题，为等待Google I/O大会，PaLM 2的发布被推迟，而OpenAI抢先发布GPT-4，从而改写了市场叙事。

硅谷101: Google其实比OpenAI更早做MoE。我们专访到了Gemini前核心科学家Andrew Dai。Andrew回忆,Google Brain在 2021 年就已经做出了比GPT-3更强的MoE大模型GLaM,PaLM 2甚至在2023...

GoogleOpenAI大佬观点现象/趋势

12:13

IT之家（RSS）

精选75

AI 制造 AI：面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练，其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。

智能体Hugging Face开源/仓库开源生态

关联讨论 1 条

推荐理由：全球首个AI独立编写的训练框架，零人类代码，并且真的在国产芯片上训出了领先模型。'AI造AI'的闭环第一次被完整打通，做模型训练的团队都该去fork一下，复现过程本身就是一堂课。

11:31

向阳乔木@vista8

70

通过对话记录实现Codex技能自动进化

一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录，由AI提炼用户的开发经验与审美偏好等信息，并将其写入Skill（技能）中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示，有开发者借此实现了其Skill waza的每周无痛更新，从而使工具“越来越聪明，越来越懂你”。

OpenAI教程/实践编码

11:31

向阳乔木@vista8

71

推文分享了一种提升 Codex 能力的方法：通过让 Codex 扫描本周的对话记录，让 AI 自动提炼其中的开发经验与个人审美偏好，并将这些洞察写入技能（Skill）中。此过程可实现技能的每周无痛更新，从而使 Codex 越来越"懂你"。最终会生成一份贴合个人风格的复盘经验文档。

向阳乔木: 如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入...

智能体教程/实践编码

11:31

Deedy@deedydas

23

我确信，在公司名里加上"Open-"能立刻让你的成功概率提升十倍。 OpenAI OpenEvidence OpenTable OpenRouter OpenCode OpenDoor OpenGov OpenWeb OpenText OpenView OpenSea OpenStore OpenFX OpenSpace OpenArt OpenHands OpenPipe OpenNote

OpenAI大佬观点现象/趋势

11:07

SemiAnalysis@SemiAnalysis_

48

下一代Cerebras CS4将继续采用5nm工艺。原因何在？因为转向3nm并不能神奇地解决SRAM扩展已完全停滞的事实。

现象/趋势部署/工程

10:52

swyx@swyx

44

AI基础设施正在走向垂直整合

swyx: everyone in ai infrastructure* is finally getting filthy rich and it is so nice to see them succeed *not the sexy ai res...

现象/趋势部署/工程

10:27

Berryxia.AI@berryxia

62

PrismML推出官方iOS应用"Bonsai Studio"，允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein，通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备，生成一张512×512图片约占1.5GB内存，1024×1024约占2GB，全程离线推理，无需联网或支付token费用。应用免费，支持多种风格，可用于教学素材等轻量场景，但生成中文文字存在乱码。此外，M芯片的Mac电脑也可下载该iOS客户端使用，不过需要重启并降低设备安全策略。Android端暂无官方App，可通过网页版体验。

Berryxia.AI: iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。不需要额外的TO...

图像生成教程/实践端侧

10:09

Peter Steinberger 🦞@steipete

72

autoreview是我添加到技术栈中最具影响力的技能（仅次于http：//crabbox.sh）。它能在PR合并前自动审查你的代码。发现许多边缘情况。有时运行数小时。

智能体GitHub教程/实践编码

09:58

公众号：数字生命卡兹克

精选65

从0到1速通OpenAI Codex：安装、设置与实操教程

近日OpenAI的AI智能体Codex热度飙升。教程涵盖完整使用流程：从官网下载安装，支持从Claude Code和Cowork一键导入配置；界面分对话区和项目区，权限可选默认、自动审查或完全访问；模型推荐GPT-5.5，推理等级用高或超高，速度可选快速（1.5倍速度、2倍token消耗）或标准；建议开启引导模式、记忆功能，并设置全局AGENTS.md规则（卡帕西模板）；通过Skills和插件管理扩展能力；演示了开发网页（使用计划模式、批注功能圈选修改）和开发用药提醒App（需安装Xcode编译到手机）。

智能体OpenAI教程/实践编码

推荐理由：如果你还在观望要不要入坑Codex，这篇保姆级教程把安装、设置、开发网页到打包APP全流程踩了一遍，那个@Computer Use帮你装Xcode的操作一看就懂，想动手的现在就能跟做。

09:30

meng shao@shao__meng

72

基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结

Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践，系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进，并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构（环境层、模型层、外部内容层）及三款产品的隔离模式：Claude AI 使用短暂容器，Claude Code 采用人机协同沙盒，Claude Cowork 则部署密封虚拟机。关键数字包括：Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%，100 次尝试后约 5-6%；Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例，强调了环境层防御（如出站阻断）的关键性。

Anthropic: New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our ow...

智能体Anthropic安全/对齐部署/工程

09:29

宝玉@dotey

57

针对 Agent 框架中的技能管理，@dotey 的建议是无需依赖专门的 skill 管理工具。核心观点是，实际常用的 Skills 数量很少，只需将少量高频技能置于全局，其余技能跟从各自项目存放和管理即可。这为处理多个 Agent 或项目的技能配置提供了一种轻量化的思路。

Raymond Zhu: @dotey 宝玉老师,有没有比较好的skill管理工具推荐

教程/实践编码

09:27

Berryxia.AI@berryxia

72

Bonsai Studio：iPhone端侧离线图像生成应用上线

PrismML发布官方iOS应用Bonsai Studio，用户可免费下载，在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein，其1-bit压缩版仅0.93GB，比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒，内存占用约1.5GB。应用支持多种风格，但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。

Berryxia.AI: 兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...

图像生成端侧评测/基准

08:59

宝玉@dotey

61

Skill自我进化需明确标准，SkillOpt框架实现迭代优化

文章指出，只有具备明确、可程序自动验收标准的Skill才能有效自我进化，例如优化代码性能。微软等机构提出的SkillOpt框架，通过让AI评估并迭代优化Skills，使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并，并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”，这标志着提示词工程与模型训练界限的融合。

karminski-牙医: 什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...

智能体大佬观点论文/研究

08:33

Simon Willison 博客

63

AI辅助安全报告引发`curl`项目压力

`curl`项目正面临前所未有的压力，原因是大量AI辅助生成的安全漏洞报告涌入。当前报告接收速度是2024年的4-5倍，是2025年的两倍，平均每天超过一份。报告的质量和详细程度远超以往，导致维护者工作时间显著增加。好消息是`curl`软件本身非常稳固，近年来发现的漏洞严重程度多为LOW或MEDIUM，最近一次severity HIGH的CVE发布于2023年10月。

大佬观点安全/对齐现象/趋势

08:32

Ethan Mollick@emollick

58

律师专家分享在Codex中搭建50州法律研究工作流的实例。此类工作过去需要律师助理团队耗时一周完成，成本约15万至30万美元。现在，通过Codex API，类似质量的研究仅需2小时，成本极低。主推文指出，与过去外行评论AI不同，如今是领域专家们开始感叹当前AI系统在实际应用中被严重低估的能力。

prinz: I recently put together a 50-state legal research workflow in Codex. This is the kind of work that a team of associates ...

OpenAI大佬观点推理

08:29

meng shao@shao__meng

63

开发者 AlexFinn 在长期并行对比后，为何选择转向 Codex？

开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后，决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能：每次代码改动后，它会在内置浏览器中自动验证，形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%，可靠性大幅提升，更利于开发者保持心流。他建议开发者不要对任何公司忠诚，应始终使用当下最好的工具。

Alex Finn: I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...

智能体编码评测/基准

08:27

Berryxia.AI@berryxia

71

Gemma 4新玩法：开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目，这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词，AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动，负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏，是面向开发者的实操大师课，从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体Google开源生态教程/实践

08:27

Berryxia.AI@berryxia

25

最近也在使用YOLO 模型做一些人体形体动作识别的项目，发现传统的这种模型参数很小，结合LLM一起来做一些东西还是不错的选择。

多模态教程/实践

08:09

Peter Steinberger 🦞@steipete

69

Opus周围的所有依赖都过时或糟糕，所以我凭感觉自己重写了，并替换了octoscript和opus-native。现代WASM在Node/V8上的性能与原生代码大致相当。现在你的Claw可以自动做会议笔记，并且你可以在会议中与它对话。 https：//github.com/openclaw/libopus-wasm

开源/仓库开源生态编码

07:37

MarkTechPost（RSS）

67

使用 ZeroEntropy Zerank-2 Reranker 设计高精度检索-重排流水线

介绍如何使用基于 Qwen3、参数规模为 4B 的交叉编码器重排器 Zerank-2 Reranker 构建检索-重排流水线。该流水线先通过快速双编码器检索候选文档，再由 Zerank-2 进行重排以提升检索精度。

检索增强教程/实践部署/工程

07:33

ginobefun@hongming731

58

Agent系统工程三要：隔离、容错与上下文管理

Anthropic披露三种Claude隔离架构，发现93%权限弹窗被无脑通过，因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级，涵盖模型重试容错、三级权限判断系统和结构化上下文管理，其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案，配合Mermaid图谱，将超长Session的Token消耗降低61%，任务通过率提升52%。三者共同指向智能体工程落地的关键：可靠的隔离边界、稳定的容错机制以及高效的状态管理。

智能体Anthropic教程/实践部署/工程

07:33

ginobefun@hongming731

50

AI Agent系统工程实践聚焦稳定性

早报聚焦Agent系统工程，介绍三篇实践。Anthropic披露Claude的三种隔离架构，并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱，将超长Session的Token消耗降低60%，任务通过率提升52%。三者共同强调，Agent时代的核心在于支撑稳定运行的工程基础。

智能体教程/实践部署/工程

07:07

SemiAnalysis@SemiAnalysis_

58

PDOOM警报🚨：约48%的端到端LLM延迟是预填充，约52%是解码。预填充本身分为两个操作： 🟠 预填充扩展（缓存写入）--摄入新上下文/文件，写入新的KV token 🟠 缓存读取--重用先前轮次的现有KV缓存

推理现象/趋势部署/工程

06:29

宝玉@dotey

60

Stack Overflow 帖子量因 AI 助手断崖下跌，但公司收入反而翻倍

Stack Overflow 上月新提问量降至 6866 个，与 2008 年上线时持平，受 ChatGPT、Cursor、Claude 等 AI 编程助手冲击。然而公司年收入翻倍至 1.15 亿美元，亏损收窄。增长源于两方面：将社区数据转化为企业知识库产品，已有 2.5 万家公司使用；并将数据授权给 AI 公司用于模型训练。CEO 指出，消失的多是简单问题，复杂问题仍会流向平台，而这正是大模型训练所需的高质量数据。一个隐忧是，这可能导致一个循环：用户流向 AI，AI 依赖旧数据，但新的高质量问答数据却不再产生。

Elon Musk: @madiator Death by LLM

现象/趋势

06:08

Greg Brockman@gdb

31

GPT-5.5 是一个非常出色的编程模型

Theo - t3.gg: It took me like 2 months, but I've grown to love gpt-5.5. You have to prompt entirely different and put some time into y...

OpenAI大佬观点编码

06:03

Chubby♨️@kimmonismus

62

近期开发者社区对Codex的评价显著转好，许多观点认为搭配GPT-5.5的Codex表现优异，其部分使用体验甚至常被优先选择。与此同时，新发布的智能体编码基准测试DeepSWE显示，GPT-5.5在此评测中位列第一。该基准测试旨在打破顶尖模型在公开排行榜上能力相近的表象，更真实地反映模型在开发者日常任务中的实际差异。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

OpenAI大佬观点编码

05:58

Nathan Lambert@natolambert

32

释放100B Gemma 4 MoE！Gemini Flash 3.5已发布，现在可以发布它了！

Google大佬观点开源生态

05:32

Hacker News 热门（buzzing.cc 中文翻译）

58

Stack Overflow 的论坛已死，但公司依然生机勃勃

搜索现象/趋势

05:28

Google AI@GoogleAI

精选75

Gemini Omni 视频提示词使用指南

Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧：利用模型已有的现实世界知识进行简洁描述；精确控制文本在视频中的渲染与排版；使用专业镜头指令（如推拉摇移）像电影摄影师一样调度画面；通过迭代编辑高效修改视频；以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。

Google教程/实践视频

关联讨论 11 条

推荐理由：Google 官方放出的视频提示技巧，没有废话全是可复制的 prompt，想玩 Gemini Omni 的创作者可以直接抄作业。

04:50

Epoch AI@EpochAIResearch

69

推理数据/训练现象/趋势

04:31

elvis@omarsar0

60

针对长期运行的AI智能体因注意力机制随上下文增长而导致推理开销呈二次增长的问题，该论文提出一种"睡眠"式的离线整合方案。模型定期在离线状态下对近期上下文进行多次循环处理，将整合结果写入其状态空间模块的持久化快速权重中，随后清除KV缓存。此方法将额外计算转移至"睡眠"阶段，使"清醒"时的预测保持低延迟。在普通Transformer和SSM-注意力混合模型失效的特定任务中，更长的睡眠时间能提升性能，为需要长期运行的智能体提供了一种替代方案。

DAIR.AI: // Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getti...

智能体大佬观点推理

04:27

Ethan Mollick：One Useful Thing（RSS）

精选78

选择保持人性

社交媒体平台上的帖子内容正变得越来越相似。这种趋同现象可能意味着大量内容正在被AI生成或同质化处理，引发了人们对于内容原创性与人类独特视角的讨论。

大佬观点

推荐理由：Ethan Mollick 这篇把 AI 时代‘保留人性’的抉择讲透了，不是技术问题而是身份问题，做产品的人尤其该读，它会改变你设计功能的默认前提。

04:04

Rohan Paul@rohanpaul_ai

66

AI智能体时代的安全挑战：运行时行为是关键

推文对比了AI智能体在安全领域的应用。Anthropic的Mythos智能体在真实curl代码库中发现了1个漏洞。而来自中国的360安全团队的漏洞挖掘智能体，在更广泛的OpenClaw生态中独立发现了23个漏洞，包括严重的远程代码执行漏洞和大规模的提示词注入绕过。推文指出，真正的安全问题并非模型能否找漏洞，而在于智能体的运行时行为——代码、提示词、工具、本地服务与权限在系统执行文件操作、网络连接或命令运行前发生的复杂交互。

智能体Anthropic安全/对齐

04:02

Ethan Mollick@emollick

62

推文指出，尽管有报道称Uber和微软因AI代理成本过高而缩减AI订阅，但这不代表AI价值下降。核心论据是：当前GPU租赁价格仍比四个月前高出2倍，显示需求持续超越供给。作者以"纽约酒店价格翻倍"类比，认为算力价格高涨恰恰证明AI市场未出现泡沫破裂迹象，需求仍在显著增长。

Derek Thompson: We're getting another round of THE AI BUBBLE IS POPPING stories, with the news about Uber/Microsoft pulling back on AI s...

大佬观点现象/趋势

04:02

Ethan Mollick@emollick

精选75

我写了一篇新文章，探讨我们需要保留哪些人类特质，以及哪些可以交给AI，其中涉及教育、咨询领域的实验，以及最近关于文学奖的争议。

大佬观点现象/趋势

推荐理由：Ethan Mollick 把教育、咨询、文学奖三个领域的真实实验揉在一起，不是喊“AI 抢工作”，而是给出 keep human / hand over 的具体边界，每个带团队的人都该看看。