Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...
软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。
Today we're releasing DeepSWE, a new standard for agentic coding benchmarks. On public leaderboards, top models often lo...
Google I/O宣布AI生成答案现已成为搜索的核心内容,但大多数品牌几乎无法了解AI如何向客户描述他们。这改变了以往依赖10个蓝色链接的SEO策略规则。
一位用户展示了一款从AliExpress购买的廉价MP3播放器,它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码,定位到导致问题的具体代码段,并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后,问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。
ぼくの着想の限界=Codexの限界。 それくらいまーじでCodexでなんでもできる。 これアリエクで買ったやっすいMP3プレイヤー。 でもBluetoothの音飛びと操作性が悪くて放置してたんですよ。 だけど昨日急にシャワーしている時にエウ...
One reason I started teaching my "progress" class is the vibes vs reality gap. Coming into the greatest decade in human ...
推文强烈批评在AI智能体设计中,模仿人类组织架构、设定不同角色并通过聊天传递上下文的做法,认为这纯属浪费Token。其观点认为,人类分工是因能力有限,但AI不应受此限制。尽管承认此方式或能提供情绪价值,但用“三省六部”的比喻将其归结为满足用户幻想。
不要用传统的人员组织框架来限制AI组织,设计什么不同的agent角色互相通过聊天来传递上下文,这都是愚蠢的做法
我已经把 codex 的 fast 关掉了,没感觉到速度快,只感觉到了消耗快
Simon Willison 在一篇简短的博文中表示,他认为 Anthropic 和 OpenAI 已经找到了产品与市场契合。文章本身仅提供了此核心观点,并未展开具体论据或技术细节。
Anthropic 发布了针对企业部署自主 AI 智能体的安全框架,指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险:基础设施易受 AI 加速攻击,且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构(基础、高级、优化级)及八阶段实施流程,并概述了提示注入、工具投毒、记忆投毒等特有威胁。
这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。
🆕Railway's Agent-Native Cloud: 3M users, 100K signups/week, $200K+ coding agent spend, production forks, & the death of...
Anthropic 与 OpenAI 通过编程智能体找到了产品市场契合点,这导致企业客户成本显著上升。两家公司已于 2026 年 4 月前后调整了企业套餐定价,从原先的高额折扣改为与 API 用量挂钩。Anthropic Enterprise 套餐变为每席位 20 美元/月外加 API 费用,OpenAI Codex 则按 API token 用量计费。同期发布的新模型 GPT-5.5(4月23日)和 Opus 4.7(4月16日)的 API 定价也显著高于前代版本。
年近70岁的一位阿姨,做眼科教学和临床四十多年 微信对我留言:Vibe Coding出了自己的一个公益小网站 我看了下,这个网站,非常精致,也很有特点: 1、不用登录,打开就能做眼肌放松练习,也可以顺便了解一些科学用眼、日常护眼的小知识 2...
AI代码审查平台CodeRabbit发现,AI生成的代码常能通过编译与测试,却不符合开发者真实意图,根源在于开发者隐含假设AI理解上下文。为此,团队基于Claude构建了一个智能体编排系统,置于编码请求与智能体之间。该系统在代码生成前协调多个Claude模型进行结构化规划,输出可审查的产品需求文档,使需求显式化。系统每周助力审查超过200万个PR。
本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈,核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因,以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑,并围绕一个核心问题展开:如果Google直接给出答案,传统的基于链接的网页生态将走向何方?
Agent产品的设计需首先明确定位:若以人为主、Agent为辅,则人的工作区居中,AI智能体对话区在右侧辅助;若以AI智能体为主,则AI智能体对话区居中,其他界面在右侧,因为用户主要通过指令与Agent交互。Codex App、Claude Desktop、Cursor Agent等主流产品均采用了后者布局。文中以写PPT为例对比:前者是用户亲自编辑幻灯片,右侧与Agent对话辅助;后者是用户下达指令,由Agent生成并调整。这一界面设计被认为是所有ToB AI软件的最终形态,并推荐使用Mastra框架实现业务AI化。
这就是所有 ToB AI 软件的最终形态,只要不是这样,就肯定设计错了。我说的。如果你会搞点儿VibeCoding,拿起我推荐的 Mastra 框架,上山下乡,走到小公司去,走到一切尚未正确拥抱AI的公司去,帮助他们把业务抽象成工具调用,让...
用户发布任务,要求三个AI智能体独立从链接下载视频并添加中文字幕。最终,一个AI智能体100%完成,一个只输出了部分成果,另一个则遇到API限流。整个流程虽耗时,但用户仅需“动动嘴”下达指令,全程零干预即可验收结果。评论称赞这种自主性(Agency)令人舒服,宛如“成精”。
麻蛋,Agent成精了。 但就是,我想要的状态。 这种Agency,真实令人舒服啊!
另一个故事,忍不住分享! 全程人就是动动嘴,然后下载验收即可。 任务:https://x.com/cleoabram/status/2059622849266983122?s=20 下载视频 并且添加中文字幕 @Berry小跟班 @BuLe...
推文描述了万名毕业生在毕业典礼上嘘前Google CEO埃里克·施密特的场景。作者认为,愤怒发泄于外部虽是低成本情绪出口,但真正危险的是台下那些在嘘声中学习并利用AI的同学。核心观点是:AI不会立即取代所有人,而是先放大差距,将机会赋予实践者。原文以一位22岁年轻人用AI免费完成价值1.5万美元营销策略的案例为证,并指出入门级工作的护城河已转向判断力、领域知识与执行力,AI已成为必要入场券。因此,与其抗议,不如将时间投入实践。
http://x.com/i/article/2058381329318682624
Reachy Mini 机器人现可通过 `speech-to-speech` 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。
You can now transcribe meetings in real time using Codex and ask Codex questions about meetings as they're happening! I ...
用户实测发现,GPT Image 2 在仅给出简单指令的情况下,能自主生成结构清晰、可直接使用的排版图,体验震撼。有分析指出,GPT 这种出色的结构化排版能力,本质上源于其预训练过程中接触了大量此类素材,而非模型审美本身有巨大提升,但其默认效果已足够好用。
卧槽,GPT Image 2 的默认审美已经到这个程度了? 今天拍了份数学卷子,让它分析错题 分析完我随手加了一句: "将上面的孩子的最主要问题以及解决方案,平时训练建议都用一张图画出来" 没配色、没构图、没风格限定 结果它自己排版、标记 ...
快手旗下Kling AI在第79届戛纳电影节举办访谈,邀请中国、美国和韩国的创作者,共同探讨AI如何进入真实的电影制作工作流。对谈内容涵盖了从好莱坞规模的剧集制作,到全AI生成的剧情电影,以及AI动画电影等不同形式的影视创作。创作者们分享了AI在其实际叙事创作中的应用视角。