AIHOT

09:29

宝玉@dotey

针对 Agent 框架中的技能管理，@dotey 的建议是无需依赖专门的 skill 管理工具。核心观点是，实际常用的 Skills 数量很少，只需将少量高频技能置于全局，其余技能跟从各自项目存放和管理即可。这为处理多个 Agent 或项目的技能配置提供了一种轻量化的思路。

Raymond Zhu: @dotey 宝玉老师,有没有比较好的skill管理工具推荐

教程/实践编码

09:27

Berryxia.AI@berryxia

Bonsai Studio：iPhone端侧离线图像生成应用上线

PrismML发布官方iOS应用Bonsai Studio，用户可免费下载，在iPhone上本地离线运行其Bonsai Image 4B扩散模型。该模型基于FLUX.2 Klein，其1-bit压缩版仅0.93GB，比全精度版小8.3倍。在iPhone 15 Pro及以上机型生成512×512图像耗时约几十秒，内存占用约1.5GB。应用支持多种风格，但中文文字生成目前为乱码。Android用户可通过WebGPU网页版体验。

Berryxia.AI: 兄弟们,端侧生图模型又有新东西了! 之前有客户端Drawthing 客户端也是支持iPad 手机进行文生图~ 今天PrismML也来了一个好玩的... 他们发布了1-bit和Ternary版本的Bonsai Image 4B扩散模型。 1-...

图像生成端侧评测/基准

08:59

宝玉@dotey

Skill自我进化需明确标准，SkillOpt框架实现迭代优化

文章指出，只有具备明确、可程序自动验收标准的Skill才能有效自我进化，例如优化代码性能。微软等机构提出的SkillOpt框架，通过让AI评估并迭代优化Skills，使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并，并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”，这标志着提示词工程与模型训练界限的融合。

karminski-牙医: 什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...

智能体大佬观点论文/研究

08:32

Ethan Mollick@emollick

律师专家分享在Codex中搭建50州法律研究工作流的实例。此类工作过去需要律师助理团队耗时一周完成，成本约15万至30万美元。现在，通过Codex API，类似质量的研究仅需2小时，成本极低。主推文指出，与过去外行评论AI不同，如今是领域专家们开始感叹当前AI系统在实际应用中被严重低估的能力。

prinz: I recently put together a 50-state legal research workflow in Codex. This is the kind of work that a team of associates ...

OpenAI大佬观点推理

08:29

meng shao@shao__meng

开发者 AlexFinn 在长期并行对比后，为何选择转向 Codex？

开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后，决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能：每次代码改动后，它会在内置浏览器中自动验证，形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%，可靠性大幅提升，更利于开发者保持心流。他建议开发者不要对任何公司忠诚，应始终使用当下最好的工具。

Alex Finn: I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...

智能体编码评测/基准

08:27

Berryxia.AI@berryxia

Gemma 4新玩法：开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目，这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词，AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动，负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏，是面向开发者的实操大师课，从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体Google开源生态教程/实践

08:27

Berryxia.AI@berryxia

最近也在使用YOLO 模型做一些人体形体动作识别的项目，发现传统的这种模型参数很小，结合LLM一起来做一些东西还是不错的选择。

多模态教程/实践

08:09

Peter Steinberger 🦞@steipete

Opus周围的所有依赖都过时或糟糕，所以我凭感觉自己重写了，并替换了octoscript和opus-native。现代WASM在Node/V8上的性能与原生代码大致相当。现在你的Claw可以自动做会议笔记，并且你可以在会议中与它对话。 https：//github.com/openclaw/libopus-wasm

开源/仓库开源生态编码

07:33

ginobefun@hongming731

Agent系统工程三要：隔离、容错与上下文管理

Anthropic披露三种Claude隔离架构，发现93%权限弹窗被无脑通过，因此转向容器化隔离以限制智能体能力边界。阿里通义AgentScope 2.0升级至生产级，涵盖模型重试容错、三级权限判断系统和结构化上下文管理，其Workspace抽象支持多执行环境无缝切换。腾讯云提出上下文卸载方案，配合Mermaid图谱，将超长Session的Token消耗降低61%，任务通过率提升52%。三者共同指向智能体工程落地的关键：可靠的隔离边界、稳定的容错机制以及高效的状态管理。

智能体Anthropic教程/实践部署/工程

07:33

ginobefun@hongming731

AI Agent系统工程实践聚焦稳定性

早报聚焦Agent系统工程，介绍三篇实践。Anthropic披露Claude的三种隔离架构，并指出93%权限弹窗被无感通过。阿里AgentScope 2.0将调试升级为涵盖权限边界、容错机制的生产级系统工程。腾讯云通过上下文卸载与Mermaid结构化图谱，将超长Session的Token消耗降低60%，任务通过率提升52%。三者共同强调，Agent时代的核心在于支撑稳定运行的工程基础。

智能体教程/实践部署/工程

07:07

SemiAnalysis@SemiAnalysis_

PDOOM警报🚨：约48%的端到端LLM延迟是预填充，约52%是解码。预填充本身分为两个操作： 🟠 预填充扩展（缓存写入）--摄入新上下文/文件，写入新的KV token 🟠 缓存读取--重用先前轮次的现有KV缓存

推理现象/趋势部署/工程

06:29

宝玉@dotey

Stack Overflow 帖子量因 AI 助手断崖下跌，但公司收入反而翻倍

Stack Overflow 上月新提问量降至 6866 个，与 2008 年上线时持平，受 ChatGPT、Cursor、Claude 等 AI 编程助手冲击。然而公司年收入翻倍至 1.15 亿美元，亏损收窄。增长源于两方面：将社区数据转化为企业知识库产品，已有 2.5 万家公司使用；并将数据授权给 AI 公司用于模型训练。CEO 指出，消失的多是简单问题，复杂问题仍会流向平台，而这正是大模型训练所需的高质量数据。一个隐忧是，这可能导致一个循环：用户流向 AI，AI 依赖旧数据，但新的高质量问答数据却不再产生。

Elon Musk: @madiator Death by LLM

现象/趋势

06:08

Greg Brockman@gdb

GPT-5.5 是一个非常出色的编程模型

Theo - t3.gg: It took me like 2 months, but I've grown to love gpt-5.5. You have to prompt entirely different and put some time into y...

OpenAI大佬观点编码

06:03

Chubby♨️@kimmonismus

近期开发者社区对Codex的评价显著转好，许多观点认为搭配GPT-5.5的Codex表现优异，其部分使用体验甚至常被优先选择。与此同时，新发布的智能体编码基准测试DeepSWE显示，GPT-5.5在此评测中位列第一。该基准测试旨在打破顶尖模型在公开排行榜上能力相近的表象，更真实地反映模型在开发者日常任务中的实际差异。

Serena Ge (Datacurve): Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...

OpenAI大佬观点编码

05:58

Nathan Lambert@natolambert

释放100B Gemma 4 MoE！Gemini Flash 3.5已发布，现在可以发布它了！

Google大佬观点开源生态

05:28

Google AI@GoogleAI

精选75

Gemini Omni 视频提示词使用指南

Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧：利用模型已有的现实世界知识进行简洁描述；精确控制文本在视频中的渲染与排版；使用专业镜头指令（如推拉摇移）像电影摄影师一样调度画面；通过迭代编辑高效修改视频；以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。

Google教程/实践视频

关联讨论 11 条

推荐理由：Google 官方放出的视频提示技巧，没有废话全是可复制的 prompt，想玩 Gemini Omni 的创作者可以直接抄作业。

04:50

Epoch AI@EpochAIResearch

推理数据/训练现象/趋势