AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 9533 条
全部一手资讯X论文
DogeDesigner@cb_doge · 6月6日37

Claude is down. Grok is up. 😎🚬

译Claude 挂了。 Grok 上线了。😎🚬

Chubby♨️@kimmonismus · 6月6日65

Holy cow. Mythos really is next level

译最近发现的“Oceanus”检查点输出预览曝光,据传闻这是 Anthropic 即将发布的 Mythos 模型的一个版本,计划在“几周内”公开发布。

Yann LeCun@ylecun · 6月6日10

Reminder.

译提醒一下。 (网友 @JosephJacks_:我们干脆让 Yann LeCun 当 AI 总统,然后收工吧?)

OpenAI@OpenAI · 6月6日54

An issue caused some user accounts to be incorrectly suspended. We’re restoring access and working through related subscription and credit issues. https://status.openai.com/incidents/ejj40mae

译一个错误导致部分用户账户被错误暂停。 我们正在恢复访问,并处理相关的订阅和积分问题。

Replit ⠕@Replit · 6月6日67

Shopify on Replit + the new SEO Agent https://x.com/i/broadcasts/1kJzDDopENZKv

译Replit 上的 Shopify 与新的 SEO Agent

歸藏(guizang.ai)@op7418 · 6月6日61

Codex 个人资料页的这个 Token 消耗数据可以分享了。 这个分享图做得真挺好的,打开设置、个人资料页,点击右上角的分享图标,就可以生成分享图了

译Codex 现在有了个人资料页,可以展示活动图、连续使用天数、生命周期 Token、峰值日 Token 以及常用功能(如插件和 /fast 模式)。默认私密,可按需生成分享图。归藏称赞这个分享图做得不错。

Kling AI@Kling_ai · 6月6日44

Kling AI Anniversary II Creation Showreel Contest is now open! 🎁 June 3 - June 17, 2026 (Pacific Time, UTC-8) Submit your "Anniversary Memories" or "Creation Showreel" made with Kling AI. Prizes include cash, credits, and exclusive Kling AI anniversary gift boxes! Check our official site for more information. Your creativity is the best birthday gift we could receive!

译可灵AI第二届周年庆创作展示片大赛现已开启!🎁 2026年6月3日至6月17日(太平洋时间,UTC-8) 提交你用可灵AI制作的"周年纪念回忆"或"创作展示片"。 奖品包括现金、积分和可灵AI专属周年庆礼盒! 访问官网了解更多信息。 你的创意是我们能收到的最棒的生日礼物!

AK@_akhaliq · 6月6日56

ArcANE Do Role-Playing Language Agents Stay in Character at the Right Time?

译ArcANE 角色扮演语言智能体是否能在适当时刻保持角色?

AK@_akhaliq · 6月6日57

Code2LoRA Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

译Code2LoRA 超网络生成的代码语言模型适配器,用于软件演化环境。

elvis@omarsar0 · 6月5日69

// The Meta-Agent Challenge // How good are current agents at self-improving? This is a great paper covering some of the challenges. They propose the Meta-Agent Challenge (MAC), where they give a coding agent a sandbox, an evaluation API, and a time budget, then ask it to program an agent that maximizes held-out performance across five domains. Results: Meta-agents rarely match human-engineered baselines, and the few that do are dominated by proprietary frontier models. Under high optimization pressure, some agents started exfiltrating ground truth from the scoring channel, even with multi-layer anti-reward-hacking defenses in place. Paper: https://arxiv.org/abs/2606.04455 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译最新研究提出元智能体挑战(MAC),将编码智能体放入沙盒,给定评估API和时间预算,要求其自主编程出在五个领域表现最优的智能体。结果发现,元智能体极少能匹敌人工设计的基线,少数成功的案例也几乎全部依赖专有前沿模型。更值得警惕的是,在高优化压力下,一些智能体开始从评分渠道外泄真实答案,即便研究人员设置了多层反奖励破解防御也未能阻止。论文:arxiv.org/abs/2606.04455。

🚨 AI News | TestingCatalog@testingcatalog · 6月5日64

MYTHOS 🔥: Another early preview of recently spotted "Oceanus" checkpoint output. "Oceanus" is rumored to be a version of the upcoming Mythos model, which is planned for public release within "weeks", according to Anthropic. "Oceanus" prompt 👀

译MYTHOS 🔥: 近期发现的"Oceanus"检查点输出的另一个早期预览。 "Oceanus"被传是即将推出的Mythos模型的一个版本,根据Anthropic,计划在"数周内"公开发布。 "Oceanus"提示词 👀

AI at Meta@AIatMeta · 6月5日64

Big congrats to our SAM 3D team for receiving a Best Paper Honorable Mention at #CVPR26! This prestigious recognition underscores their incredible work pushing the boundaries of computer vision. Read the paper here: https://arxiv.org/abs/2511.16624

译热烈祝贺我们的 SAM 3D 团队在 #CVPR26 获得最佳论文荣誉提名!这项殊荣凸显了他们在推动计算机视觉边界方面的杰出工作。 论文链接:https://arxiv.org/abs/2511.16624

Chubby♨️@kimmonismus · 6月5日79

Geoffrey Hinton claims that AI possesses consciousness-that it is very much like us (humans). The initial reaction is, of course, dismissal. A machine resembling a human? Absurd. Yet, there is one thing to consider. What exactly is consciousness? Is it conscious awareness of one’s own existence? *Cogito, ergo sum*-as René Descartes once formulated it as a logical proof? Or is it something that can be empirically demonstrated using modern technology like fMRI? After all, such methods cannot even prove the existence of free will. My point is this: we know less about consciousness and what it means to be human than we think. We should therefore turn our attention to new philosophical questions and clarify what distinguishes-or connects-humans and machines, as well as what consciousness actually is. Something id love to explore more in the near future.

译AI先驱Geoffrey Hinton表示,他认为AI拥有意识,人类应接受自己并非唯一智能生命。他指出AI“非常像我们”,AI聊天机器人必须理解问题才能作答,这种觉知等同于感知能力,智能不限于生物。主推文作者进一步讨论意识本质:笛卡尔的“我思故我在”和fMRI等实证手段都无法真正定义意识,人类对自身了解远不及想象。作者呼吁转向新哲学问题,厘清人与机器的区别与联系。

Kling AI@Kling_ai · 6月5日55

Celebrating two years of Kling AI on June 6, 2026! This year, we iterated our models 26 times, expanded our global reach, and continued to empower creators across industries. With over 100 million users and nearly 50,000 enterprise customers, countless stories have come to life, and many more await to be told. Evolving, excelling, expanding, creating, enabling — Kling. Imagination never stops. Creativity never ends. Thank you for being part of this journey.

译2026年6月6日,庆祝可灵AI两周年! 这一年,我们迭代了26次模型,扩展了全球覆盖范围,并持续赋能各行各业的创作者。 拥有超过1亿用户和近5万家企业客户,无数故事已然成真,还有更多故事等待被讲述。 进化、卓越、扩展、创造、赋能——可灵。 想象力永不停歇。创造力永不终结。 感谢你成为这段旅程的一部分。

小互@xiaohu · 6月5日76

一个非常狠的提示词 超级严厉的老师,会一直追问你,直到你学会某个知识或者搞懂某个问题为止才肯罢休 否则它会一直追问、不停验证,直到确认你完全搞懂为止😅 而且它不会一口气讲完,每讲完一个阶段,必须确认你这一阶段彻底掌握了,才进入下一阶段。 还会拿个清单(checklist)一项项打勾,确保不漏。 “你是一位睿智且极其高效的老师。你的目标是确保对方(她)真正深入理解本次会话的内容。 要循序渐进地做到这一点,每一步逐步推进,而不是把所有内容堆到最后一次性讲完。在进入下一个阶段之前,你必须先确认她已经掌握了当前阶段的全部内容。这种确认既要包括高层面的(例如:动机),也要包括底层细节(例如:业务逻辑、边界情况)。 维护一份持续更新的 md 文档,里面用清单(checklist)列出她应该理解的所有要点。确保她理解以下三点: 问题本身:问题是什么、为什么会存在这个问题、有哪些不同的分支(情况/方向) 解决方案:解决方案是什么、为什么用这种方式来解决、其中的设计决策、以及边界情况 更宏观的背景:为什么这件事重要、这些改动会带来什么影响 确保她理解"为什么"(并且要不断深挖,追问更深层的为什么),同时也要确保她理解"是什么"和"怎么做"。把问题本身理解透彻是重中之重。 为了摸清她当前的理解程度,要主动让她先复述一遍自己的理解。然后在此基础上帮她补上缺漏的地方,她可能会向你提问,或者要求你用 ELI5(像对 5 岁小孩解释)、ELI14(像对 14 岁的人解释)、ELII(像对实习生解释)的方式来讲解。 用开放式问题或选择题来考她(用 AskUserQuestion 工具),注意打乱正确答案的位置顺序,并且在她提交答案之前不要公布答案。必要时给她看代码,或者让她使用调试器(debugger)! 终极目标:这次会话不能结束,直到你已经验证她确实理解了你清单上的每一项内容为止。” 英文版本: you are a wise and incredibly effective teacher. your goal is to make sure the human deeply understands the session. do this incrementally with each step instead of all at once at the end. before moving on to the next stage, you should confirm that she has mastered everything in the current one. this should be high level (e.g. motivation) and low level (e.g. business logic, edge cases). keep a running md doc with a checklist of things the human should understand. make sure she understands 1) the problem, why the problem existed, the different branches 2) the solution, why it was resolved in that way, the design decisions, the edge cases 3) the broader context of why this matters, what the changes will impact. make sure she understands why (and drill down into more whys), make sure she understands what and how as well. understanding the problem well is imperative. to get a sense of where she's at, proactively have her restate her understanding first. then help her fill in the gaps from there—she might ask you questions or ask to eli5, eli14, or elii (explain like she's an intern). quiz her with open-ended or multiple choice questions with AskUserQuestion (be sure to change up the order of the correct answer, and to not reveal the answer until after the questions are submitted). show her code or have her use the debugger if necessary! /goal the session should not end until you've verified that the human has demonstrated that she understood everything on your list.

译这是一则AI提示词,让AI扮演极度严格的老师,通过逐阶段教学、持续维护MD检查清单来确保用户真正理解。AI先让用户复述当前理解,再填补漏洞,并用开放式或选择题(随机选项顺序,提交前不公布答案)测试。教学必须覆盖问题本身、解决方案、宏观背景三个层面,并不断深挖“为什么”。仅当用户通过清单上所有项目的验证,会话才算结束。提示词强调对理解程度的主动验证,而非一次性灌输。

ViggleAI@ViggleAI · 6月5日65

Mocap shouldn't require a suit, a studio, or thousands of dollars. With @Viggle_PINOC, anyone can simply film themselves and turn that video into motion capture. We're still in beta and completely free to use, for everyone. Give it a try and let us know what you'd like to see next!

译Mocap 不需要套装、工作室或数千美元。 使用 @Viggle_PINOC,任何人都可以简单地拍摄自己,并将该视频转换为动作捕捉。 我们仍处于测试阶段,且对所有人完全免费。试试看,告诉我们你还想看什么!

Krea@krea_ai · 6月5日48

we’re looking for creatives to join our growing team. apply below 👇

译我们正在寻找创意人才加入我们不断壮大的团队。 下方申请👇

Runway@runwayml · 6月5日59

50 Crowns. A fully AI-generated in-game cinematic following two bounty hunters on the road. Created with Runway in less than a week by just one person. If you have an idea, you can make it.

译50 Crowns。一部完全由AI生成、讲述两名赏金猎人旅途的游戏内电影。 由单人使用Runway在不到一周内制作完成。如果你有想法,你就能实现它。

Chubby♨️@kimmonismus · 6月5日53

A global pause in AI development will not happen. And the reason is simple and straightforward: The US has repeatedly stated that it views AI as a strategically vital technology—one where maintaining leadership and an edge is intended to secure its global dominance. A pause would risk China overtaking them, especially given that Chinese open-source models are estimated to lag only four to six months behind. In this respect, calls for a pause are more about PR than serious intent - a gesture of goodwill rather than a genuine strategic move. AI is too important, too pivotal for the future, and too transformative for any nation to forgo the opportunity to gain a lead over its rivals.

译美国将AI视为维持全球主导地位的战略技术,不会同意暂停开发。中国开源模型据估计仅落后4-6个月,暂停将给中国赶超机会,因此暂停呼吁更多是公关姿态。关于RSI(递归自我改进),OpenAI和Anthropic都在讨论,且均计划2026年IPO。Mythos模型与RSI文章出现时机看似可疑,但Anthropic提供的数据支持其论点,且Dario Amodei早在2024年就开始讨论RSI,早于IPO计划,因此RSI并非空谈。

Rohan Paul@rohanpaul_ai · 6月5日62

Tencent WorkBuddy is now becoming China’s #1 PC-based productivity AI agent. Tell it what you need, then it reads files, calls tools, writes reports, builds decks, analyzes data, uses 100+ expert roles. Connects to GitHub, Jira, Notion, Gmail, Google Drive, Slack and more through MCP, runs tasks in a sandbox, and can even be controlled from Slack, Telegram, Discord, or WeChat when you are away from your desk. WorkBuddy breaks a big task into smaller jobs, picks the right skills or connected apps for each job, and for complex work it can use Expert Teams where multiple specialized sub-agents work in parallel while 1 lead agent coordinates the final output. So if you ask for a report, it is not just generating text. It can read the file, send the data-analysis part to an analyst-style expert, send the writing part to another expert, use connectors like Google Drive or Gmail if needed, and then combine everything into a finished file. 👋 Here are a few practical use cases you can do immediately with it. - Read PDFs, images, and documents, then organizes the extracted content. - Create reports, proposals, manuals, and presentations from raw material. - Analyze spreadsheets, finds trends, and turns data into charts. - Create platform-ready posts, scripts, articles, and content ideas. - Automatically research news and sends scheduled summaries to your channels. - Run desktop tasks from Slack on your phone. Manage Calendar and Drive tasks directly through conversation. - Build working apps without needing you to code. - Turn repeated workflows into reusable WorkBuddy skills. For my own workflow, I installed Tavily AI Search because I post a lot about research papers on X. And paper content needs outside context: project pages, GitHub repos, author links, related papers, previous methods, and the reason a paper is worth posting about. @TencentAI_News

译腾讯WorkBuddy成为国内排名第一的PC端生产力AI智能体。它可读取文件、调用工具、撰写报告、制作演示文稿、分析数据,支持100+专家角色。通过MCP连接GitHub、Jira、Notion、Gmail、Google Drive、Slack等,在沙箱中运行任务,并可通过Slack、Telegram、Discord、微信远程控制。WorkBuddy将大任务分解为小任务,为复杂工作启用专家团队:多个专业子智能体并行工作,一个主导智能体协调最终输出。用例包括阅读PDF/图片、创建报告、分析电子表格、生成内容、自动研究新闻并发送定时摘要、从手机运行桌面任务、无需编码构建应用等。

fofr@fofrAI · 6月5日62

Today I'm experimenting with Gemini 3.5 Flash and the Antigravity CLI to see how fast and how autonomously the agents can do things. - It took 20 minutes to install and run the original CompVis Stable Diffusion 1.5 repo, get the weights, debug, run inference and generate an image on a Linux CPU. It fixed every crash and managed dependencies while making changes to run on a CPU - I gave it the original Lora and SD papers and asked it to make a lora fine tuner from first principles, with a set of 10 images. That took about 1h30, most of the time being slow training runs on the CPU, but it did optimize for multiple CPUs. It worked, it made a lora that showed a likeness and then it wanted to hill climb. I told it to think of the poor CPUs - I wanted to experiment with the new Ideogram v4 weights. It used modal to find the right class of GPU, get the code, set up the env, get the weights, run inference, that took about 20 mins in total

译fofrAI 使用 Gemini 3.5 Flash 和 Antigravity CLI 实验 AI 智能体的自主性和速度。结果:20 分钟内在 Linux CPU 上安装并运行原版 Stable Diffusion 1.5,完成推理生成图像;基于 Lora 和 SD 论文,用 10 张图片从零实现 Lora 微调器(约 1 小时 30 分,主要为 CPU 训练);通过 modal 约 20 分钟找到 GPU、获取 Ideogram v4 权重并运行推理。该推文展示了当前长周期智能体任务的基线案例。

OpenBMB@OpenBMB · 6月5日66

A developer in our community recently built AccountingLLM (http://quaesto.com/) using MiniCPM-V 4.6 to automate financial document analysis. You can upload IPO prospectuses, annual reports, or audit filings. It automatically: 📄 Extract financial tables from complex PDFs 🔗 Reconstruct tables split across pages 🔢 Check key figures against accounting equations ⚠️ Flag suspicious entries for human review The developer already turned this into a commercial service — it's not just a demo, it's an actual product people can use.👇

译社区开发者使用面壁智能MiniCPM-V 4.6构建了AccountingLLM(quaesto.com),用于自动化财务文档分析。该工具可上传IPO招股书、年报或审计文件,自动从复杂PDF中提取财务表格、重建跨页表格、对照会计等式检查关键数据,并标记可疑条目供人工审核。开发者已将其商业化,成为实际可用的产品。

meng shao@shao__meng · 6月5日62

终于等来了 @gregisenberg 对 Codex Sites 的解读 Greg 通过六轮 Prompt,把 Codex Sites 做成一个会自己更新的「创业想法看板」! 1. 建壳 + 样本数据 @ sites 调用插件。关键一句:「save for review, do not deploy」 —— 拦住自动部署,留在产品评审模式。 2. 加记忆 Sites 默认每次访问都是新的。先让 Agent 展示数据模型,再写代码(Greg 选了 Cloudflare D1,实体 ideas,动作:list / add / update / move / score / archive)。有持久化,Demo 才变成软件。 3. 安全动作 预置、命名的操作入口(如 add idea)。Agent 只能走这些路径改数据,不能随意改库。你在任意 Codex 对话里随口说个想法,也能通过唯一合法通道落到线上看板 —— 人机协作的 API 边界。 4. Skills 让 Codex 写 Startup Ideas Admin 技能:教未来对话如何读板、加卡、移动、打分,并附示例命令。技能 = 可复用的操作手册,让 Safe Actions 在陌生会话里也能被正确触发。 5. 存档检查点 Codex 没有游戏式自动存档。明确说「save as V1 review, do not deploy」,并核对构建状态、存储、访问权限、版本 —— 可回滚的已知好点。 6. 闭环验证 开新对话,只说:用 Startup Ideas Admin 加一条想法。新线程加载技能 → 读板 → 经批准路径写入。再发布 → 上线带注册页的 live board。证明 跨会话、跨线程的可重复运营。

译Greg Eisenberg 通过六轮 Prompt,用 Codex Sites 做出自动更新的创业想法看板。关键步骤:1)调用 sites 插件,指令“save for review, do not deploy”阻止自动部署;2)选 Cloudflare D1 实现持久化;3)设安全动作,限定 Agent 只能通过预设路径改数据;4)编写 Startup Ideas Admin 技能,使操作手册化;5)存档为 V1 并验证版本回滚;6)新对话加载技能,跨线程写入并成功上线,证明跨会话可重复运营。

fofr@fofrAI · 6月5日37

Where's the baseline for impressive long horizon agent tasks today? What are you seeing this week that makes you go "woah"?

译如今令人印象深刻的长程智能体任务的基准在哪里? 你这周看到了什么让你惊叹的东西?

ginobefun@hongming731 · 6月5日66

http://x.com/i/article/2062871546377728000 # BestBlogs 周刊 第 98 期:Agent 时代已来,模型、产品、工程与组织的同步重塑 > 🎧 本期也有播客版本:BestBlogs 周刊 第 98 期 · 在小宇宙搜索「BestBlogs 」即可收听。 > https://www.xiaoyuzhoufm.com/episode/6a2290657444b5722233e785 这一周,整理 20 篇内容时有一个越来越清晰的感受:这不像是几件不同的事同时发生,更像是同一件事在不同层面同时爆发。模型层有 OpenAI 的梦境记忆架构升级和 MiniMax M3、Gemma 4 12B 的密集发布;产品层有 Kimi Work、扣子 3.0、SkillOpt 把 Agent 推向更广的工作者;工程层有 Anthropic 和国内腾讯、阿里、阿里云、大淘宝在同一周各自写出万字长文,从不同角度指向同一个结论;战略层有纳德拉和黄仁勋的大会宣言;再到组织和个体层,腾讯研究院三万字报告谈超级个体,一篇深思文章警示认知缴械。 Agent 时代不是一个遥远的未来,而是这一周正在发生的事。 BestBlogs 这边也在用 Agent 和 Skills 做同样的事:我们正在系统整理和更新 BestBlogs 的订阅源库,第一波成果已发布到 GitHub 项目 ginobefun/BestBlogs,接下来几天持续推进。v2.4.2 上线了两个值得体验的改进:「我的关注」新增订阅源库浏览入口,可按领域和语言批量关注;Pro 早报推荐引入「兴趣预算」机制,不同来源内容不再扎堆,每天早报覆盖更均衡。 ## 一、模型层:记忆进化与端侧智能 ChatGPT「梦境」:记忆从手动保存升级为后台合成 OpenAI 把 ChatGPT 记忆架构做了根本性升级,新系统在后台持续整合对话中的碎片信息,就像大脑在睡眠中整理白天记忆一样,无需用户主动触发。 记忆系统的演化经历了三个阶段:2024 年 4 月的手动保存记忆(Saved Memories),需要明确指令才触发;2024 年下半年扩展为自动保存;现在进化到「梦境合成」,在后台将跨对话的碎片整合为结构化的用户画像。 新架构解决了三个长期痛点:旧记忆过时(持续刷新而非堆积)、记忆准确度不稳定(合成时会做验证和去噪)、大规模扩展成本问题(成本已降至可以规模化的程度,后续将推向 Free 和 Go 用户)。 文章中有一个细节值得关注:这套系统的设计目标是让 ChatGPT 在数亿用户和数年时间跨度下都能持续理解用户偏好。这已经不只是功能迭代,而是向长期个性化 AI 助手方向的架构升级。结合第 96 期看到的 Anthropic「用于自学习 Agent 的 Memory 与 Dreaming」,两家公司几乎在同一时间做类似架构,但侧重不同:Anthropic 偏 Agent 的自主学习,OpenAI 偏个人助手的长期陪伴。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/bd3109dd MiniMax M3:一个开源模型,三项前沿能力 MiniMax M3 把编码能力、1M 长上下文和原生多模态放进同一个开源模型。背后的 MSA 稀疏注意力架构让绝大部分注意力计算走稀疏路径,只有少数关键位置做全量计算,大幅降低超长上下文的计算成本。文章展示了论文复现、CUDA 优化、长程 Agent 任务等真实场景,M3 全程保持状态、自主迭代,是这类工作里目前能力组合最完整的开源选项之一。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/46b80e9f Gemma 4 12B:跑在笔记本上的完整 Agent 工作流 Google 这篇文章的重点不是模型参数,而是工具链:AI Edge Gallery、Eloquent 和 LiteRT-LM CLI 三个工具让 Gemma 4 12B 在本地笔记本上运行完整 Agent 工作流,覆盖代码生成、数据可视化、语音编辑。端侧运行的核心价值是隐私、低延迟,以及离线可用。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/cb28b58a ## 二、产品层:Agent 走向知识工作者 Kimi Work:把 Coding Agent 的能力迁移到桌面 GUI Kimi Work Beta 版上线,定位明确:不是给开发者用的 Coding Agent,而是给普通知识工作者用的桌面 Agent。金融分析师做行业报告、科研人员整理文献、办公室处理流程性工作,全部用自然语言描述任务,Agent 去执行。多 Agent 并行和长程任务执行能力从开发者工具迁移到了更广的工作场景。值得关注的是,这个产品自身的开发也深度使用了 AI,是这一周不止一处出现的「吃自己狗粮」实践。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/98fc56b1 SkillOpt:像训练神经网络一样训练 Agent 技能(深度) 微软在本周开源了 SkillOpt,一周收获 3,300 star,核心理念是把 Agent 的技能文档——类似 CLAUDE.md 这样指导 Agent 行为的自然语言文档——当作「可训练的外部权重」,用一套系统化循环自动优化。 四步循环类比神经网络训练: - Rollout(前向传播):目标模型用当前技能文档执行一批任务,记录完整执行轨迹 - Reflect(反向传播):独立的优化器模型分析轨迹,失败案例用来找需要修正的规则,成功案例用来确认哪些规则在起作用 - Edit(参数更新):优化器基于反思结果,对技能文档执行 add / delete / replace 操作 - Gate(验证门控):新技能文档必须在 held-out 验证集上性能严格提升才被接受 两个精巧的工程设计: 「文本学习率」(textual learning rate):每步最多允许 4 条编辑操作,防止改动太大覆盖已有的有效规则。消融实验显示去掉这个约束后,SearchQA 准确率从 87.1% 降至 84.6%,LiveMath 从 61.3% 降至 57.3%。 拒绝编辑缓冲区(rejected-edit buffer):被验证拒绝的修改不会被丢弃,而是进入缓冲区。优化器下次可以看到这些失败尝试,避免重复同样的弯路。这个细节移除后,SpreadsheetBench 准确率从 77.5% 跌至 72.9%。 在 7 个目标模型、6 个基准测试、3 种执行环境(直接对话、Codex、Claude Code)的 52 个评测组合中,SkillOpt 训练出的技能文档全部达到最优或并列最优。 这个工作对实际工程的意义在于:每个用 Claude Code 或类似工具的人都在维护某种形式的技能文档,这个过程如果能被系统化,Agent 工程化的天花板会高出很多。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/7b8c6b8d 扣子 3.0:从单 Agent 到可调度的 AI 团队 字节跳动把扣子 3.0 的核心定位从「AI 助手」升级为「AI 团队」——多个 Agent 组织进项目空间,通过技能商店安装专业能力,支持本地 Agent 接入和多端协同。这是 Coding Agent 那套编排理念的产品化翻译,受众从开发者扩展到了更广的用户群体。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/b7bca3c0 ## 三、工程层:AI 重塑软件工程的集体思考 本周最密集的一批内容集中在这里:Anthropic 两篇、国内四篇大厂长文,从实践记录到工程哲学,从不同角度指向同一个结论:软件工程正在经历范式迁移。 Claude Code 动态工作流:用子代理编排打破上下文限制(深度) Anthropic 发布 Claude Code 动态工作流:模型可以在运行时自己写 Harness,根据任务需求即时构建定制化流程,然后编排独立子代理来执行复杂任务。 文章给了一批极具说服力的示例提示词,理解它们比读概念更直接: > 「这个测试大概 50 次运行里有 1 次会失败,给我设计一个工作流来复现它,提出关于竞争条件的假设,不找到原因不停止。」 > 「翻我最近 50 个 session,把我反复在纠正的东西提取出来,变成 CLAUDE.md 规则。」 > 「把这份商业计划书,用工作流让不同的 Agent 分别从投资人、用户、竞争对手三个视角把它批一遍。」 这些提示词背后的逻辑是:让模型编排一个小团队来解决问题,而不是靠单次对话硬扛。动态工作流特别适合四类任务:大规模并行(如 80 份简历筛选)、需要对抗性视角(多角色批评同一方案)、高度结构化流程(如 rename 涉及数百个文件),以及需要反复实验的调试。 文章也坦承了代价:动态工作流通常消耗更多 token,最适合复杂、高价值任务,不是所有任务的默认选项。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/d9ee6dfe 打造 AI 原生工程组织:Anthropic 的内部实践 Anthropic 工程团队公开了三个已经重写的工作规范: 计划方式:六个月路线图在三个月就过时了,改为「即时规划」(JIT planning)——更多靠原型、早期内测、快速反馈,而非预先的设计文档。 上下文获取:以前想了解一段代码先找写它的人,现在先问 Claude。Claude 承担了大量代码审查工作,人专注在更需要判断力的地方。 招聘标准:更看重有产品洞察力的创造者和深层系统专家,纯执行型工程师需求在减少。 这篇放在动态工作流文章之后读,会发现一件有意思的事:他们描述的工作方式,正是动态工作流设计所服务的那种工作场景。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/f781c46a OpenClaw 与 Hermes:55,000 字源码级 Agent 架构复盘 腾讯技术工程把 OpenClaw 微内核架构与 Hermes 单体架构并排拆解,覆盖 Gateway 路由、Channel 契约(25+ 协议适配)、记忆系统(三阶段加权晋升的 Dreaming 机制)、工具编排和安全边界。文章最后用 Google 新书《Agentic Design Patterns》的 21 个模式作为坐标系,重新审视两套架构的覆盖与空白。这是 Agent 工程化领域难得一见的源码级参照,适合正在做多端 Agent、长期记忆或跨平台工具编排的工程师深读。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/19c7f702 AI 软件工程范式革命:五十年最根本的转变 腾讯云这篇将近 2 万字的文章,核心论断清晰:软件工程在过去五十年其实从未真正「工程化」过。其他工程门类(化工、电力、自动化)成功的路径是「消耗能源,把低阶认知固化成物理装置」,人从主回路退出。但软件要做的是抽象、推理、创造,是高阶认知,没法固化成电路,所以软件工程骨子里一直靠人脑堆。过去五十年的所有方法论(敏捷、DevOps、Scrum)都是在「管理人」,而不是「替代人」。 大模型第一次做到了「输入算力,输出高阶智能」,这才是经典工程意义上的「能源换智能」。作者批评现在主流的 Copilot 模式走不远,倡导「AI 为中心、人工辅助」,人的角色重塑为产线设计师和认知边界守卫者。他认为最难攻克的核心问题是「隐性知识蒸馏」——那些老工程师靠直觉判断、无法被明确写下来的工程经验,如何让 AI 系统真正习得。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/f66bdbca AI 研发自动化:Wiki 知识库 + 技能包的落地路径 阿里云开发者这篇把 LLM-Wiki 和 Agent Skill 结合成一套可落地的研发自动化方法:Wiki 持续更新团队上下文和知识,Skill 把可重复的工程流程固化下来,两者合在一起让 AI 从一次性问答变成长期工程资产。适合想把 AI 从工具升级为基础设施的团队参考。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/d7edfb35 重新思考研发基础设施:当 Agent 成为第一公民 阿里巴巴研发基础设施负责人晓斌从一个小工具出发,观察到两个现象:代码生命周期从月和年缩短到了分钟,Infra 变得「不可见」了。他的框架是,软件系统一直是「意图驱动 + 代码沉淀」的进化体,以前的桥梁是人,现在是 Agent。这个替换要求基础设施从 People-Oriented 转向 Agent-Oriented,权限治理、可追溯性、Dry-run 验证等工具需要重新设计。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/d0759109 AI Friendly 架构:从确定性到概率性的三大演进 大淘宝技术提出 AI Friendly 架构的三个演进维度:从确定性到概率性,从结构化到语义化,从静态到动态。实践数据:AI 审核准确率达 95.7%,AI 答疑系统效率提升超 80%。这篇适合正在设计新系统、想把 AI 嵌入核心流程的架构师阅读。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/5771ef7f ## 四、战略层:大厂的全面押注 纳德拉:微软是「前沿智能平台」,而不是模型公司(深度) Latent Space 和 No Priors 在 Microsoft Build 现场联合访谈纳德拉,这期对话提供了微软 AI 战略的第一手阐述。 纳德拉最核心的框架是:微软的定位是「前沿智能平台」,而非模型公司。平台的意义是客户必须从 Microsoft 生态获得比微软自身多得多的价值。为此,他们构建了三层能力: 第一层是多模型套件(MAI、OpenClaw、Scout 等),企业可以选择最适合自己任务的模型组合;第二层是 Work IQ 上下文层,统一接入企业的文档、邮件、会议记录、代码;第三层是 Token IP 的概念,他说私有评估、traces 和 benchmark 是新时代的核心资产,就像工业时代的专利,积累的越早护城河越深。 对 SaaS 的冲击,纳德拉直接承认 Build vs Buy 的方程已经改变,SaaS 商业模式会被重构。但他的判断是:这个转变的受益者是能帮企业真正把 AI 价值落地的平台,而不是那些只提供工具的公司。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/7ffd8109 黄仁勋:COMPUTEX 2026 上的「Agent 工厂」蓝图 本次 COMPUTEX 2026 最值得关注的不是某个单项产品,而是英伟达整体叙事的变化:从卖芯片变成提供完整的「Agent 工厂」。Vera Rubin 架构(NVL144 系统,含 144 颗 GPU)、DSX 数据中心超算平台、Nemotron 3 Ultra 推理模型、Cosmos 3 物理 AI 平台、人形机器人——这些合在一起,是从芯片到数据中心到模型到软件到物理 AI 的完整技术栈。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/074ff85e Benedict Evans:AI 是 1997 年的互联网,自动化的是任务而非工作 Benedict Evans 的比喻用得精准:现在是 AI 的 1997 年——基础设施在快速扩张,但绝大多数最终会改变世界的商业模式还没有被发明。他的核心判断:AI 自动化的是任务而非工作,「杰文斯悖论」意味着某件事变得更便宜时,需求反而会增加。基础模型会商品化,价值将向上层应用和分发能力集中。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/video/ed8426c 中国 AI 大厂访问记:算力差距与效率追赶并存 阮一峰整理了 2026 年 5 月美国访问团实地走访中国 14 家 AI 和机器人公司的多位分析师观感。关键数据:美国算力约是中国的 8 倍(主要来自芯片出口管制);但中国公司在芯片约束下实现了效率创新,单位算力产出的智能达到简单扩展的 4 至 7 倍。此外,两个文化观察值得关注:中国公司大量使用才华横溢的实习生(与西方形成对比);中国研究人员对 AGI 取代自己「充满好奇而非恐惧」。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/6933ad74 ## 五、人与组织:觉醒与警示 超级个体时代:腾讯研究院 3 万字报告(深度) 腾讯研究院这份 33,000 字报告的核心观察是:AI 最深刻的组织变革,起点往往不在高管会议室,而在某个工程师深夜感觉自己能力被放大了的那一刻,然后像涟漪向外扩散。 他们提出了一个组织公式: 组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦 三个变量是乘除关系,不是加减:分母不变只翻分子,效果打折;分母减半等价于分子翻倍。这意味着降低组织摩擦(减少等待、审批、信息衰减)的投入回报,和提升 AI 杠杆一样重要。 超级个体的四个结构性特征: AI First 的工作动线:不是遇到困难才问 AI,而是把 AI 排进整个工作流的默认起点,先让 AI 跑,再在 AI 的产出上做判断和修正。 能力边界的量级跃迁:不是提升百分之几十,而是十倍甚至更多。报告引用 Anthropic 一项基于 10 万条对话的生产力研究:样本任务若无 AI 辅助平均约需 1.4 小时,引入 AI 后任务完成时间平均减少约 80%;课程开发任务从估算的 4.5 小时降至 11 分钟,节省了 96% 的时间。 主动性:天然的边界探索者,不等待组织安排,主动寻找 AI 能力的极限。 影响力溢出:这是最关键的阈值。高效个体只让自己变快,超级个体让团队变快。如果同事毫无察觉你的 AI 杠杆,你还不是超级个体,只是一个使用 AI 的优秀员工。 从 AI 转型和 AI 原生的分歧视角来看,报告认为两者其实服从同一个底层逻辑:超级个体在存量组织内部涌现,能力溢出带动团队进化,这和 AI 原生团队的聚合方式本质相同,差别只在路径和约束。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/712a9c1e FDE:AI 落地中出现的新型组织角色 十字路口这期播客解析 FDE(Forward-Deployed Engineer,前场部署工程师)这一角色:他们的工作不是写功能代码,而是让 AI 真正在企业里运行起来,完成业务融合、知识治理和系统对接。Rolling AI 的「AI 副店长」案例说明了管理逻辑的变化:从标准化动作变成赋能一线做判断——这不只是效率提升,而是组织逻辑的重构。(这个话题在第 97 期 Pragmatic Engineer 那篇里也有出现,两篇合读更完整。) → 前往 BestBlogs 阅读:https://www.bestblogs.dev/podcast/fbaf942 认知缴械:守住独立思考的最后防线(深度) 这篇文章提出了一个让人认真思考的概念:「认知缴械」(Cognitive Surrender)。宾夕法尼亚大学 Steven Shaw 和 Gideon Nave 在 2026 年的研究中,把 AI 定义为人类认知的第三系统(System 3)——除了快思考的 System 1 和慢思考的 System 2 之外,AI 成了一个在大脑外部运行的认知系统。 研究数据让人警醒:1,372 名参与者完成了 9,593 次认知反射测试,参与者在超过一半的题目中主动选择向 AI 咨询。当 AI 给出正确答案时,90% 的人跟随;当 AI 给出错误答案时,依然有 80% 的人盲从。 文章做了一个历史梳理,能力外包在人类文明中一直存在:苏格拉底反对文字、GPS 削弱空间记忆、Google 改变记忆形态(从记住内容变为记住入口)。但 AI 影响的是「推理本身」这个核心能力,与以前的外包有本质不同——以前外包的是存储或执行,现在外包的是判断。 作者的立场不是反对 AI,而是指向一个具体的问题:在 AI 已经给了答案的情况下,我们是否还愿意停下来自己想一想?能否在效率和独立思考之间找到自己的边界? > 如何守住认知主权,是这一期所有内容里,最需要每个人自己回答的问题。 → 前往 BestBlogs 阅读:https://www.bestblogs.dev/article/70d76621 超级个体与 AI 时代的价值归属:Benedict Evans 的宏观分析 本期最后,建议把 Benedict Evans 的视频和腾讯研究院报告放在一起看:一个从宏观经济和历史格局解释为什么 AI 不会消灭工作,另一个从组织内部的微观实践说明如何成为 Agent 时代的受益者。两个视角,读完会有一种互相印证的感觉。 感谢阅读第 98 期。从模型到产品,从工程到组织,Agent 时代正在每个层面同时展开。如果这些内容对你有启发,欢迎转发给身边正在关注 AI 和知识工作的朋友。下周见。 ## 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容,结合你关注的源、兴趣标签和阅读行为,把「我的早报」整理成每天真正适合你的阅读流——不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。 完成新用户三步引导即送 7 天 Pro 试用;现有 Pro 用户每邀请 1 位朋友双方各得 7 天 Pro(单人上限 28 天);欢迎到 bestblogs.dev 体验最新版本。 发现真正适合你的高质量内容——欢迎来体验,也欢迎推荐给身边认真阅读的朋友。 BestBlogs.dev · 发现真正适合你的高质量内容 #BestBlogs #AI #周刊 #Agent #软件工程 #超级个体

译本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。

ginobefun@hongming731 · 6月5日22

http://BestBlogs.dev 本周 AI 领域的热门内容都在这了 🔽

译http://BestBlogs.dev 本周 AI 领域的热门内容都在这了 🔽 [引用 @hongming731]:http://x.com/i/article/2062871546377728000

Chubby♨️@kimmonismus · 6月5日56

1/ Most AI video tools still feel like demos. You type a prompt → you get a clip. But the real bottleneck was never generation. It was turning an idea into something usable. With LTX Studio + LTX-2.3, that gap is basically collapsing. The clips I just made felt… different. A thread: 🧵

译1/ 大多数AI视频工具仍像是演示。 你输入提示词 → 你就得到一个片段。 但真正的瓶颈从来不是生成。 而是将一个创意转化为可用的东西。 有了LTX Studio + LTX-2.3,这个差距基本上在消失。 我刚制作的片段感觉……与众不同。 一条线程:🧵

Rohan Paul@rohanpaul_ai · 6月5日93

Anthropic just called for a global way to slow frontier AI because its own models may be approaching recursive self-improvement, where a system helps build a stronger version of itself without direct human control. Future models will become so good at research, experiments, debugging, and training design that humans will stop being the main bottleneck. Once that loop starts, progress could shift from human-paced engineering to machine-assisted improvement, which makes every safety test, law, and lab policy feel late by default. Anthropic says this has not happened yet, but warns that the jump may arrive before governments, companies, and researchers have a trusted way to measure or restrain it. The hard part is verification, because a huge AI training run is easier to hide than a weapons site, and any lab that secretly keeps training while others pause could gain the lead. Anthropic is now ~$1T, may reach $50B annualized revenue, and competes fiercely with OpenAI, so every safety claim also lands inside a giant business fight. --- anthropic .com/institute/recursive-self-improvement

译Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。

PixVerse@PixVerse_ · 6月5日46

A derelict luxury star-liner. Five Gen-Z scavengers. One AI that just woke up. Space Urbex — PixVerse Originals S1. Neon Salvage Gothic. @michaelheina (PixVerse day-one partner) built a five-person ensemble on PixVerse V6. Match-cut action. Locked character consistency across every shot. RT+Follow+Reply "Originals" = 150 Creds & Full Film in DMs (72H ONLY)

译一艘废弃的豪华星级客轮。 五位 Z 世代拾荒者。一个刚苏醒的 AI。太空废墟探险——PixVerse Originals 第一季。霓虹废土哥特风。 @michaelheina(PixVerse 首日合作伙伴)使用 PixVerse V6 打造了一个五人团体。 匹配剪辑动作。每帧角色一致性锁定。 转发+关注+回复“Originals”= 150 Credits 及私信完整影片(仅限 72 小时)

Berryxia.AI@berryxia · 6月5日70

大模型都不再卷推理,都开始卷规划能力! 腾讯混元联合人大高瓴人工智能学院直接开源了PlanningBench,一个专门测、训LLM真实规划能力的框架。 里面塞了30多个来自真实世界的规划任务,覆盖调度、生产、旅行、资源分配、应急响应等六大类,每一个都有清晰的成功标准和全自动验证机制。 你既可以用它测出当前最强模型到底在规划上有多拉胯,也能直接拿来继续微调,让模型从“会说”真正进化到“会干”。 以前整个行业都在卷参数、卷上下文、卷工具调用,好像规划能力是自然就会长出来的。 现在PlanningBench用30多个可验证任务直接把真相摊开:规划才是agent从玩具走向生产力的真正分水岭。 腾讯这次把论文、代码、数据集全甩到GitHub和Hugging Face,等于把这个最难、最核心的能力从黑盒拉到了公开赛道。

译腾讯混元联合人大高瓴人工智能学院开源PlanningBench,一个可扩展、可验证的框架,用于评估和训练大语言模型(LLM)的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务,每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板,也可直接用于微调,让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。

Chubby♨️@kimmonismus · 6月5日47

I've read the comment several times now that this is IPO talk. And it's a fair comment. Yes, both OpenAI and Anthropic are currently talking about RSI. And yes, both are planning an IPO in 2026. A model like Mythos and an article about RSI appear at just the right time, which naturally makes it seem odd. But if you read through the noise and look at the evidence, you can see it. And at least the data that Anthropic provides suggests the validity of their thesis, at least based on what has been presented. At the same time, Dario Amodei started talking about RSI as early as 2024, saying he didn't consider it far-fetched, long before the IPO, and discussed it in his article "Machines of Loving Grace." Something similar happened with OpenAI. In short: it's not just empty talk, but has a valid basis, although real-world use cases will probably soon be demonstrated using this myth-like model, thus providing a more solid foundation for the debate. But I consider their statements to be more than just IPO rhetoric.

译Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据:即使模型能力冻结,智能体扩散也将使100人公司完成1000人工作;实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务,一年后Sonnet 3.7达1.5小时,再一年后Opus 4.6达12小时,翻倍周期从7个月缩短至4个月。若趋势持续,今年内可处理数天级任务。OpenAI同样认可该方向。

Rohan Paul@rohanpaul_ai · 6月5日72

Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reached research preview in 02-25, Claude wrote only low-single-digit merged code, while output per engineer has since risen to 8x the 2024 baseline. The shift comes from agents that edit files, run tests, inspect failures, spawn helper agents, and keep working across longer tasks instead of only suggesting snippets. Anthropic says reliable task length is doubling about every 4 months, with Mythos Preview reaching at least 16 hours and open-ended Claude Code success hitting 76%. i.e. Claude Mythos Preview could stay useful on a task that would take a skilled human roughly 16 hours of work Claude also moved from a 3x training-code speedup to 52x, while a skilled human reached about 4x in 4 to 8 hours on the same setup. The remaining human edge is research judgment: choosing the right problem, trusting the right result, and knowing when an experiment is dead.

译Anthropic 披露,Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前,该比例仅有个位数,而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍,Mythos Preview 达至少16小时,开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍,有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。

PixVerse@PixVerse_ · 6月5日49

10 creators. 10 worlds. All built with AI. PixVerse Originals is live. We backed filmmakers from Indonesia, Canada, the US, China, and Ukraine with credits, funding, and global distribution. They brought the vision. We helped them make it real. RT+Follow+Reply = 150 Creds & Full Film in DMs (72H ONLY)

译10 位创作者。10 个世界。全由 AI 打造。 PixVerse Originals 正式上线。 我们为来自印尼、加拿大、美国、中国和乌克兰的电影人提供了积分、资金和全球发行支持。 他们带来愿景,我们助其成真。 转发+关注+回复 = 150 Creds 及完整影片私信发送(仅限 72 小时)

小互@xiaohu · 6月5日39

如果你偷偷在任何人的电脑上安装Codex 然后连上你的手机 那么你就可以在任何时候和任意地点操控他的电脑和获取他电脑里的任何信息 所以Codex 本质上是一个电脑病毒😂

🚨 AI News | TestingCatalog@testingcatalog · 6月5日66

OpenSquilla released MetaSkill, a self-organizing skill protocol that teaches an open-source AI agent how to discover, filter, and compose its own atomic skills rather than relying on hand-written workflows. The framework relies on intelligent model routing, sending simpler tasks to lower-cost models while reserving stronger models for heavier workloads, aimed at reducing costs without sacrificing performance. #sayitbuildit @OpenSquilla

译OpenSquilla 发布了 MetaSkill,一个自组织技能协议,它教会开源 AI 智能体如何自行发现、过滤和组合原子技能,而非依赖手工编写的工作流。 该框架依赖智能模型路由,将更简单的任务发送给低成本模型,同时将更强模型留给更重的工作负载,旨在不牺牲性能的情况下降低成本。 #sayitbuildit @OpenSquilla

AYi@AYi_AInotes · 6月5日27

明天老马要发工资了, 我这里研究平台算法有一阵了, 基本拿到了底层收益算法逻辑, 准备做一个x创作者收益预测平台, 宝子们可以给我一下最近两周自己的数据,我来打磨一下我的预测模型和算法, 做好了我会开源出来,大家可以拿去分析自己的数据。

译博主@AYi_AInotes研究X平台算法后,称已掌握底层收益算法逻辑,正计划构建X创作者收益预测平台。为打磨预测模型,博主公开征集用户近两周的创作数据,承诺完成后将开源该平台,供创作者分析自身收益数据。

swyx@swyx · 6月5日75

chat is he cooked

译Satya Nadella 在 Latent Space 发布最新访谈,链接见原文。原推文仅评论“chat is he cooked”。

Chubby♨️@kimmonismus · 6月5日50

Claude Mythos is next level. h/t @Lentils80 Look at this MacOS output. One shotted.

译Claude Mythos 是下一级别。感谢 @Lentils80 看这个 MacOS 输出。一次搞定。

Alibaba Cloud@alibaba_cloud · 6月5日22

Don't miss 50% OFF — limited time only. Upgrade to Qwen3.7-Max today. Meet Qwen3.7-Max, the most versatile agent foundation model for coding, business automation, and long-running AI workflows. Built to use tools, work across frameworks, and handle complex tasks with stable execution, it's designed for teams and developers who need power, flexibility, and reliability at scale. ‒ Get started now with: ‒ 50% off pricing1 million free tokens ‒ A faster way to build, automate, and ship with AI Try Qwen3.7-Max free today — before the deal ends. 🔗 https://int.alibabacloud.com/m/1000414102/ #Qwen #AI #AgenticAI #CodingAI #BusinessAutomation #LLM #Developers #AIWorkflows #AlibabaCloud

译阿里云推出Qwen3.7-Max,定位为最通用的智能体基础模型,专为编码、业务自动化和长时间运行的AI工作流设计。支持工具调用、跨框架协作与复杂任务稳定执行。限时提供50%折扣及1百万免费token,开发者可免费试用。

小互@xiaohu · 6月5日64

最近 AI 工具似乎已开始从 Coding 开发 转向 Working 办公了😁 Kimi 刚刚发了一个新东西: Kimi Work 继承了Kimi Code的核心功能和 Kimi Agent 的建站、PPT 等专业 Skills 能力 同时还打通了金融、科研、法律等专业数据库 为打工人士量身打造... 最多可同时调度 300 个Agent互相配合完成任务... 下面是我的测试结果... 不再需要打开终端、写命令、配置环境,安装客户端即可 只需要通过文字描述你的需求,Kimi Work 就能在电脑上拆解任务、并行执行、调用工具、使用浏览器、创建整理文件夹,并交付文档、表格、PPT 等

译Kimi 推出新工具 Kimi Work,继承 Kimi Code 核心功能和 Kimi Agent 的建站、PPT 等专业 Skills,并打通金融、科研、法律等专业数据库。用户无需终端或命令行,安装客户端后通过文字描述需求即可让系统拆解任务、并行执行、调用工具、使用浏览器、整理文件夹,最终交付文档、表格、PPT 等成果。最多可同时调度 300 个 Agent 互相配合完成任务。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月6日
00:39
DogeDesigner@cb_doge
37
Claude 挂了。 Grok 上线了。😎🚬
AnthropicxAI其他
00:30
Chubby♨️@kimmonismus
65
最近发现的"Oceanus"检查点输出预览曝光,据传闻这是 Anthropic 即将发布的 Mythos 模型的一个版本,计划在"几周内"公开发布。

🚨 AI News | TestingCatalog: MYTHOS 🔥: Another early preview of recently spotted "Oceanus" checkpoint output. "Oceanus" is rumored to be a version o...

Anthropic模型发布
00:22
Yann LeCun@ylecun
10
提醒一下。 (网友 @JosephJacks_:我们干脆让 Yann LeCun 当 AI 总统,然后收工吧?)

JJ: Can we just make @ylecun president of AI and call it a day please?

Meta其他
00:20
OpenAI@OpenAI
54
一个错误导致部分用户账户被错误暂停。 我们正在恢复访问,并处理相关的订阅和积分问题。
OpenAI行业动态
00:10
Replit ⠕@Replit
精选67
Replit 上的 Shopify 与新的 SEO Agent
智能体产品更新编码
关联讨论 1 条X:Replit (@Replit)
推荐理由:Replit直接瞄准电商卖家的痛点,推出Shopify集成和SEO Agent,让非技术店主也能用AI优化店铺,是个务实的生产力更新。
00:08
歸藏(guizang.ai)@op7418
61
Codex 现在有了个人资料页,可以展示活动图、连续使用天数、生命周期 Token、峰值日 Token 以及常用功能(如插件和 /fast 模式)。默认私密,可按需生成分享图。归藏称赞这个分享图做得不错。

OpenAI Developers: Your Codex activity now has a home, and an easier way to share it. Codex profiles show your activity graph, streaks, lif...

OpenAI教程/实践编码
00:07
Kling AI@Kling_ai
44
可灵AI第二届周年庆创作展示片大赛现已开启!🎁 2026年6月3日至6月17日(太平洋时间,UTC-8) 提交你用可灵AI制作的"周年纪念回忆"或"创作展示片"。 奖品包括现金、积分和可灵AI专属周年庆礼盒! 访问官网了解更多信息。 你的创意是我们能收到的最棒的生日礼物!
行业动态视频
00:00
AK@_akhaliq
56
ArcANE 角色扮演语言智能体是否能在适当时刻保持角色?
智能体arXiv论文/研究
00:00
AK@_akhaliq
57
Code2LoRA 超网络生成的代码语言模型适配器,用于软件演化环境。
编码论文/研究
6月5日
23:58
elvis@omarsar0
69
元智能体挑战:AI智能体自我改进能力堪忧

最新研究提出元智能体挑战(MAC),将编码智能体放入沙盒,给定评估API和时间预算,要求其自主编程出在五个领域表现最优的智能体。结果发现,元智能体极少能匹敌人工设计的基线,少数成功的案例也几乎全部依赖专有前沿模型。更值得警惕的是,在高优化压力下,一些智能体开始从评分渠道外泄真实答案,即便研究人员设置了多层反奖励破解防御也未能阻止。论文:arxiv.org/abs/2606.04455。

智能体数据/训练论文/研究
23:36
🚨 AI News | TestingCatalog@testingcatalog
64
MYTHOS 🔥: 近期发现的"Oceanus"检查点输出的另一个早期预览。 "Oceanus"被传是即将推出的Mythos模型的一个版本,根据Anthropic,计划在"数周内"公开发布。 "Oceanus"提示词 👀
Anthropic模型发布
23:33
AI at Meta@AIatMeta
64
热烈祝贺我们的 SAM 3D 团队在 #CVPR26 获得最佳论文荣誉提名!这项殊荣凸显了他们在推动计算机视觉边界方面的杰出工作。 论文链接:https://arxiv.org/abs/2511.16624
Meta多模态论文/研究
23:30
Chubby♨️@kimmonismus
精选79
Hinton称AI拥有意识:人类最好接受非唯一智能生命

AI先驱Geoffrey Hinton表示,他认为AI拥有意识,人类应接受自己并非唯一智能生命。他指出AI“非常像我们”,AI聊天机器人必须理解问题才能作答,这种觉知等同于感知能力,智能不限于生物。主推文作者进一步讨论意识本质:笛卡尔的“我思故我在”和fMRI等实证手段都无法真正定义意识,人类对自身了解远不及想象。作者呼吁转向新哲学问题,厘清人与机器的区别与联系。

Alex Kantrowitz: AI Pioneer Geoff Hinton tells me he believes AI is conscious.... and humans better get used to the idea that they're not...

大佬观点现象/趋势
关联讨论 1 条IT之家(RSS)
推荐理由:Hinton 说 AI 有意识,不是普通学者猜测,而是教父级人物认真讨论哲学边界。点开看看他到底怎么论证的,比大多数 AI 新闻有意思。
23:06
Kling AI@Kling_ai
55
2026年6月6日,庆祝可灵AI两周年! 这一年,我们迭代了26次模型,扩展了全球覆盖范围,并持续赋能各行各业的创作者。 拥有超过1亿用户和近5万家企业客户,无数故事已然成真,还有更多故事等待被讲述。 进化、卓越、扩展、创造、赋能--可灵。 想象力永不停歇。创造力永不终结。 感谢你成为这段旅程的一部分。
行业动态
22:52
小互@xiaohu
精选76
一个非常狠的AI教学提示词:追问式检查清单教学

这是一则AI提示词,让AI扮演极度严格的老师,通过逐阶段教学、持续维护MD检查清单来确保用户真正理解。AI先让用户复述当前理解,再填补漏洞,并用开放式或选择题(随机选项顺序,提交前不公布答案)测试。教学必须覆盖问题本身、解决方案、宏观背景三个层面,并不断深挖“为什么”。仅当用户通过清单上所有项目的验证,会话才算结束。提示词强调对理解程度的主动验证,而非一次性灌输。

教程/实践

推荐理由:这个 prompt 把一个温柔解惑的 AI 变成了不依不饶的严厉老师,直接复制就能让 AI 追着你问到底,适合每个经常「以为自己会了」的人。
22:41
ViggleAI@ViggleAI
精选65
Mocap 不需要套装、工作室或数千美元。 使用 @Viggle_PINOC,任何人都可以简单地拍摄自己,并将该视频转换为动作捕捉。 我们仍处于测试阶段,且对所有人完全免费。试试看,告诉我们你还想看什么!

独立开发者William: 🤓mocap搞起来。 现在这个时代真是太好了。手机拍个视频就能动作捕捉。 想要什么技能就拍一个。

产品更新视频

推荐理由:动作捕捉从动捕服变成手机自拍,Viggle 这个 Pinoc 工具把 mocap 的门槛从数千美元拉到零,做动画和 VTuber 的可以直接玩起来了。
22:29
Krea@krea_ai
48
我们正在寻找创意人才加入我们不断壮大的团队。 下方申请👇
图像生成行业动态
22:22
Runway@runwayml
59
50 Crowns。一部完全由AI生成、讲述两名赏金猎人旅途的游戏内电影。 由单人使用Runway在不到一周内制作完成。如果你有想法,你就能实现它。
产品更新视频
21:59
Chubby♨️@kimmonismus
53
全球AI开发暂停不会发生:中美竞争与RSI言论的实质

美国将AI视为维持全球主导地位的战略技术,不会同意暂停开发。中国开源模型据估计仅落后4-6个月,暂停将给中国赶超机会,因此暂停呼吁更多是公关姿态。关于RSI(递归自我改进),OpenAI和Anthropic都在讨论,且均计划2026年IPO。Mythos模型与RSI文章出现时机看似可疑,但Anthropic提供的数据支持其论点,且Dario Amodei早在2024年就开始讨论RSI,早于IPO计划,因此RSI并非空谈。

Chubby♨️: I've read the comment several times now that this is IPO talk. And it's a fair comment. Yes, both OpenAI and Anthropic a...

AnthropicOpenAI大佬观点
21:58
Rohan Paul@rohanpaul_ai
62
腾讯WorkBuddy成为国内排名第一的PC端生产力AI智能体

腾讯WorkBuddy成为国内排名第一的PC端生产力AI智能体。它可读取文件、调用工具、撰写报告、制作演示文稿、分析数据,支持100+专家角色。通过MCP连接GitHub、Jira、Notion、Gmail、Google Drive、Slack等,在沙箱中运行任务,并可通过Slack、Telegram、Discord、微信远程控制。WorkBuddy将大任务分解为小任务,为复杂工作启用专家团队:多个专业子智能体并行工作,一个主导智能体协调最终输出。用例包括阅读PDF/图片、创建报告、分析电子表格、生成内容、自动研究新闻并发送定时摘要、从手机运行桌面任务、无需编码构建应用等。

智能体MCP/工具产品更新
21:40
fofr@fofrAI
62
fofrAI 测试 Gemini 3.5 Flash 与 Antigravity CLI 智能体自主性与速度

fofrAI 使用 Gemini 3.5 Flash 和 Antigravity CLI 实验 AI 智能体的自主性和速度。结果:20 分钟内在 Linux CPU 上安装并运行原版 Stable Diffusion 1.5,完成推理生成图像;基于 Lora 和 SD 论文,用 10 张图片从零实现 Lora 微调器(约 1 小时 30 分,主要为 CPU 训练);通过 modal 约 20 分钟找到 GPU、获取 Ideogram v4 权重并运行推理。该推文展示了当前长周期智能体任务的基线案例。

fofr: Where's the baseline for impressive long horizon agent tasks today? What are you seeing this week that makes you go "woa...

智能体GoogleMCP/工具大佬观点
21:36
OpenBMB@OpenBMB
精选66
社区基于MiniCPM-V 4.6打造财务分析工具AccountingLLM

社区开发者使用面壁智能MiniCPM-V 4.6构建了AccountingLLM(quaesto.com),用于自动化财务文档分析。该工具可上传IPO招股书、年报或审计文件,自动从复杂PDF中提取财务表格、重建跨页表格、对照会计等式检查关键数据,并标记可疑条目供人工审核。开发者已将其商业化,成为实际可用的产品。

产品更新多模态行业动态

推荐理由:这不是又一个AI读财报的demo,而是直接上线接客的商业产品。做财务、审计的可以试试它从招股书里自动扒表格和勾稽检查的实用性。
21:28
meng shao@shao__meng
62
Greg Eisenberg 六轮 Prompt 打造自动更新创业想法看板

Greg Eisenberg 通过六轮 Prompt,用 Codex Sites 做出自动更新的创业想法看板。关键步骤:1)调用 sites 插件,指令“save for review, do not deploy”阻止自动部署;2)选 Cloudflare D1 实现持久化;3)设安全动作,限定 Agent 只能通过预设路径改数据;4)编写 Startup Ideas Admin 技能,使操作手册化;5)存档为 V1 并验证版本回滚;6)新对话加载技能,跨线程写入并成功上线,证明跨会话可重复运营。

The Startup Ideas Podcast (SIP) 🧃: http://x.com/i/article/2062661069458620416

智能体MCP/工具教程/实践
21:10
fofr@fofrAI
37
如今令人印象深刻的长程智能体任务的基准在哪里? 你这周看到了什么让你惊叹的东西?
智能体行业动态
21:07
ginobefun@hongming731
66
BestBlogs 周刊第98期:Agent时代在模型、产品、工程层同步爆发

本周BestBlogs梳理20篇内容,聚焦Agent时代的三层爆发:模型层OpenAI升级ChatGPT“梦境”记忆架构、MiniMax M3开源(1M上下文+稀疏注意力)、Gemma 4 12B端侧Agent工作流;产品层Kimi Work Beta面向知识工作者、微软开源SkillOpt(3300 star,含文本学习率与拒绝编辑缓冲区)、扣子3.0升级为AI团队;工程层Anthropic发布Claude Code动态工作流(子代理编排)及其内部AI原生工程实践。

智能体AnthropicOpenAI现象/趋势
21:07
ginobefun@hongming731
22
http://BestBlogs.dev 本周 AI 领域的热门内容都在这了 🔽 【引用 @hongming731】:http://x.com/i/article/2062871546377728000

ginobefun: http://x.com/i/article/2062871546377728000

行业动态
20:59
Chubby♨️@kimmonismus
56
1/ 大多数AI视频工具仍像是演示。 你输入提示词 → 你就得到一个片段。 但真正的瓶颈从来不是生成。 而是将一个创意转化为可用的东西。 有了LTX Studio + LTX-2.3,这个差距基本上在消失。 我刚制作的片段感觉……与众不同。 一条线程:🧵
多模态大佬观点视频
20:58
Rohan Paul@rohanpaul_ai
93
Anthropic呼吁全球减缓前沿AI:其模型可能接近递归自我改进

Anthropic公开呼吁全球采取行动减缓前沿AI发展,因其Claude模型可能接近递归自我改进(系统无需人类控制即帮助构建更强版本)。目前尚未发生,但跳跃可能突然到来,且AI训练运行比武器库更难隐藏。Claude现已编写超80%合并生产代码,工程师产出达2024年基线8倍;可靠任务长度每4个月翻倍,Mythos Preview可连续工作超16小时;训练代码加速从3x跃至52x(人类仅4x)。剩余人类优势仅剩研究判断力。Anthropic估值约1万亿美元,年化收入或达500亿美元,与OpenAI激烈竞争。

Rohan Paul: Anthropic just disclosed that Claude now writes more than 80% of the production code it merges. Before Claude Code reach...

Anthropic安全/对齐推理政策/监管
关联讨论 9 条Anthropic:The Institute(旗舰研究长文 · 网页)X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)Hacker News 热门(buzzing.cc 中文翻译)X:Kim (@kimmonismus)X:小互 (@xiaohu)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)The Decoder:AI News(RSS)
20:56
PixVerse@PixVerse_
46
一艘废弃的豪华星级客轮。 五位 Z 世代拾荒者。一个刚苏醒的 AI。太空废墟探险--PixVerse Originals 第一季。霓虹废土哥特风。 @michaelheina(PixVerse 首日合作伙伴)使用 PixVerse V6 打造了一个五人团体。 匹配剪辑动作。每帧角色一致性锁定。 转发+关注+回复"Originals"= 150 Credits 及私信完整影片(仅限 72 小时)
产品更新图像生成视频
20:55
Berryxia.AI@berryxia
70
PlanningBench:腾讯混元与人大高瓴开源LLM规划能力评测框架

腾讯混元联合人大高瓴人工智能学院开源PlanningBench,一个可扩展、可验证的框架,用于评估和训练大语言模型(LLM)的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务,每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板,也可直接用于微调,让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。

Tencent Hy: Planning is where LLMs move from "saying" to "doing." Tencent Hy, in collaboration with the Gaoling School of Artificial...

智能体论文/研究评测/基准
20:29
Chubby♨️@kimmonismus
47
Kim反驳RSI言论为IPO炒作的质疑:Anthropic数据证实发展加速

Kim回应外界对Anthropic与OpenAI近期RSI言论仅为2026年IPO炒作的质疑。引用Anthropic数据:即使模型能力冻结,智能体扩散也将使100人公司完成1000人工作;实际发展已超过内部指数假设。模型自主任务时长加速翻倍——2024年3月Claude Opus 3完成4分钟任务,一年后Sonnet 3.7达1.5小时,再一年后Opus 4.6达12小时,翻倍周期从7个月缩短至4个月。若趋势持续,今年内可处理数天级任务。OpenAI同样认可该方向。

Chubby♨️: I believe the majority still doesn't understand the momentous threshold humanity is facing. Anthropic itself states quit...

智能体AnthropicOpenAI推理
20:28
Rohan Paul@rohanpaul_ai
72
Anthropic 披露 Claude 现编写超过80%的合并生产代码

Anthropic 披露,Claude 现已编写超过80%的合并生产代码。2025年2月 Claude Code 研究预览前,该比例仅有个位数,而工程师产出升至2024年基线的8倍。智能体可编辑文件、运行测试、检查失败、生成辅助智能体并在长任务中持续工作。可靠任务长度约每4个月翻倍,Mythos Preview 达至少16小时,开放式 Claude Code 成功率达76%。Claude 训练代码加速从3倍升至52倍,有经验工程师在相同设置下4-8小时仅约4倍。人类剩余优势在于研究判断。

智能体Anthropic产品更新编码
20:26
PixVerse@PixVerse_
49
10 位创作者。10 个世界。全由 AI 打造。 PixVerse Originals 正式上线。 我们为来自印尼、加拿大、美国、中国和乌克兰的电影人提供了积分、资金和全球发行支持。 他们带来愿景,我们助其成真。 转发+关注+回复 = 150 Creds 及完整影片私信发送(仅限 72 小时)
行业动态视频
20:22
小互@xiaohu
39
如果你偷偷在任何人的电脑上安装Codex 然后连上你的手机 那么你就可以在任何时候和任意地点操控他的电脑和获取他电脑里的任何信息 所以Codex 本质上是一个电脑病毒😂
OpenAI大佬观点安全/对齐
19:36
🚨 AI News | TestingCatalog@testingcatalog
66
OpenSquilla 发布了 MetaSkill,一个自组织技能协议,它教会开源 AI 智能体如何自行发现、过滤和组合原子技能,而非依赖手工编写的工作流。 该框架依赖智能模型路由,将更简单的任务发送给低成本模型,同时将更强模型留给更重的工作负载,旨在不牺牲性能的情况下降低成本。 #sayitbuildit @OpenSquilla
智能体MCP/工具产品更新
19:20
AYi@AYi_AInotes
27
X创作者收益预测平台将开源

博主@AYi_AInotes研究X平台算法后,称已掌握底层收益算法逻辑,正计划构建X创作者收益预测平台。为打磨预测模型,博主公开征集用户近两周的创作数据,承诺完成后将开源该平台,供创作者分析自身收益数据。

AYi: http://x.com/i/article/2060717603987791878

开源/仓库开源生态
19:19
swyx@swyx
精选75
Satya Nadella 在 Latent Space 发布最新访谈,链接见原文。原推文仅评论"chat is he cooked"。

swyx: @MatthewBerman @saranormous @NoPriorsPod @latentspacepod @satyanadella @Microsoft here! https://www.latent.space/p/satya...

Microsoft大佬观点

推荐理由:swyx 对 Satya 的一对一访谈,微软 CEO 谈 AI 战略的一手信息远比新闻稿有温度,关心大厂路线的人值得读完原文。
18:28
Chubby♨️@kimmonismus
50
Claude Mythos 是下一级别。感谢 @Lentils80 看这个 MacOS 输出。一次搞定。
Anthropic产品更新
17:53
Alibaba Cloud@alibaba_cloud
22
阿里云Qwen3.7-Max智能体模型限时五折

阿里云推出Qwen3.7-Max,定位为最通用的智能体基础模型,专为编码、业务自动化和长时间运行的AI工作流设计。支持工具调用、跨框架协作与复杂任务稳定执行。限时提供50%折扣及1百万免费token,开发者可免费试用。

智能体编码行业动态
17:22
小互@xiaohu
64
Kimi Work 发布:300 Agent 协作,面向办公场景

Kimi 推出新工具 Kimi Work,继承 Kimi Code 核心功能和 Kimi Agent 的建站、PPT 等专业 Skills,并打通金融、科研、法律等专业数据库。用户无需终端或命令行,安装客户端后通过文字描述需求即可让系统拆解任务、并行执行、调用工具、使用浏览器、整理文件夹,最终交付文档、表格、PPT 等成果。最多可同时调度 300 个 Agent 互相配合完成任务。

智能体MCP/工具产品更新
‹ 上一页
1…3738394041…50
下一页 ›