AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 9309 条
全部一手资讯X论文
AYi@AYi_AInotes · 6月3日63

Damn,AI 终于学会「安排自己干活」了! Claude 刚更新的 Dynamic Workflows, 这回他们没有选择给模型加新技能, 而是搭了一套「自我组织架构」—— 让模型在动手之前,先拆任务、再选模式、自己给自己定流程。 Anthropic 内部早就意识到, 你给一个再聪明的模型派活,它也会出现三类系统性毛病: 1️⃣ Agentic Laziness(agent 式偷懒) 2️⃣Self-bias(自我偏见) 3️⃣Goal Drift(目标漂移) @trq212 从这套新机制里拆出了 6 种可复用的编排模式, 说白了,这个不只是在修模型本身, 还在用架构设计,去对冲模型层面的性格缺陷。 这跟我带团队踩过的坑一模一样, 你招到一个天才工程师,如果不管流程,他要么只挑轻松的做(laziness), 要么沉迷自己那套技术审美(self-bias), 要么做到一半被旁支带跑(goal drift)。 那么最有效的解法从来不是换更贵的人(堆模型), 而是给他一套清晰的协作接口和自检流程(搭架构)。 所以说,下一代 AI 的护城河,可能真的不在模型参数里, 而在你能设计出多强的「认知架构」上。 更强的模型,不如更强的自我组织架构, 这可能才是 Agent 真正的成人礼。

译Claude更新了Dynamic Workflows功能,核心是让模型具备“自我组织”能力,能在执行任务前自主拆解目标、选择工作模式并制定流程。此举旨在系统性解决AI智能体存在的智能体式偷懒、自我偏见和目标漂移等三类问题。该设计理念认为,通过架构设计对冲模型缺陷,比单纯堆叠模型能力更有效,并从中提炼出了6种可复用的编排模式。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日62

Manulife Hong Kong announced a strategic partnership with Alibaba Cloud to establish a collaboration framework focused on advancing responsible AI innovation and accelerating the deployment of AI technologies across the business.

译宏利香港宣布与阿里云建立战略合作伙伴关系,旨在构建一个专注于推进负责任的AI创新,并加速AI技术在业务中部署的合作框架。

查看原推 ↗
小互@xiaohu · 6月3日71

http://x.com/i/article/2062001496804495360 # Codex 发布重大更新 不再只是编码 捆绑 62 个应用和 110 个自动化技能 面向白领办公 OpenAI 今天给 Codex 来了一次大改版:六个角色专属插件,捆绑 62 个应用和 110 个自动化技能,覆盖数据分析、创意制作、销售、产品设计、公共股权投资、投行。 同时上线 Sites 功能,能直接将任何内容生成可分享的交互式网页应用。 再加一个 Annotations 精准标注编辑功能:圈哪改哪。 Codex 不再想只帮你写代码了,它想接管你的整个工作流。 ## 500 万周活,6 倍增长,最猛的不是程序员 先看数据 从一度遥遥落后 Claude Code 经过几个月的追逐…… Codex 周活跃用户突破了 500 万,相比 2 月桌面版上线以来增长了 6 倍。 关键不是总量,是结构:非开发者用户(分析师、营销、运营、设计师、研究员、投资人、金融人士)已经占了 20%,增速是开发者的 3 倍以上。 Axios 的独家数据显示:数据分析任务周环比增长 110%,研究类增长 37%,知识产出物(报告、备忘录、合同、PPT、表格)增长 36%。 还有一个数字:60% 以上的用户在一天中会同时跑多个 Codex 任务。4 月中旬这个比例还不到一半。 这已经不是「程序员多了个助手」的故事了。Codex 已经在白领工作中广泛渗透…… 所以本次 Codex 的重大更新几乎全部围绕着办公工作流展开! ## 六个插件:给 Codex 装上职业技能 这次的插件设计思路很清楚:不是通用能力往每个人身上套,而是按角色定制。每个插件打包了一个职业常用的那几个软件,用一句话下指令,Codex 在背后帮你跨软件完成整个流程。 数据分析插件: 连接了 Snowflake、Tableau 等主流数据工具。你问一句「上季度哪个区域的收入下降了,为什么」,它去数据库里查数据、做分析、生成图表,一口气给你。 创意制作插件: 打通了 Figma、Canva 等设计和图库平台。营销团队给一份创意简报,它直接出一组广告素材的变体,包括产品场景图和电商用图。 销售插件: 串联了 Salesforce、HubSput 等客户管理和沟通工具。找高优先级客户、准备客户会议材料、跟进邮件、更新记录、做关单计划和风险复盘。 产品设计插件: 基于 Figma 和 Canva,把静态线框图变成可点击的原型,也能从一个线上网址直接审计用户流程。 公共股权投资插件: 对接了 FactSet、S&P、PitchBook 等金融数据终端,帮投资人做盈利分析、公司对比、投资逻辑验证。 投行插件: 把研究和尽调材料转化成客户就绪的 Pitch 文档,做可比公司和可比交易分析。 后续还要出企业财务、私募、营销策略、咨询、法律的插件,最终目标是开放生态,让合作伙伴自己开发插件上架。 这是 OpenAI 对水平 SaaS 最直接的一次进攻。 它不替代某个具体工具,而是坐在所有工具上面当调度层。一个营销经理本来要在好几个软件之间反复切换,现在跟 Codex 说一句话就行。 ## Sites:你说一句话,它给你一个网站 Sites 是这次更新里最有想象力的功能,目前面向 Business 和 Enterprise 用户预览开放。 它能做什么? 以前 Codex 帮你干完活,给你的是一个文件;现在它能直接做出一个网页,你把链接发给同事,打开就能看、能操作。 你有一个静态表格或一组数据,用自然语言描述你想要什么,Codex 直接生成一个交互式网页应用,通过 URL 分享给工作区内的人。 几个场景: 财务负责人把一个 Excel 模型变成在线场景规划器,管理层直接在网页上调参数对比假设,不用翻文档标签页。 产品发布时,把所有材料汇总成一个 Hub 页面,团队随时查最新文案、里程碑、负责人、决策记录。 客户评审前,生成一个包含产品更新、待解决问题、使用趋势和下一步行动的互动页面。 VentureBeat 点出了要害:这直接威胁 Tableau、Power BI 这类 BI 工具占据的工作流层。过去从「想要一个交互应用」到「真的有一个」,中间是几周的开发周期。现在压缩到几分钟的对话。 而且这个页面不是做完就丢的。信息变了,你让 Codex 更新,它会帮你改。也可以用来追踪项目进度、给客服做操作指引、存放团队的创意简报。 ## Annotations:圈哪改哪 这个功能解决一个特别实际的痛点。 Annotations 这个功能以前只有程序员用,改代码的。 现在扩展到了文档、表格和幻灯片,所有人都能用。 用起来很简单:你觉得哪里不对,选中那一块,告诉 Codex 怎么改,它只动你选的地方,其他部分一个字不碰。 比如你写了一份投资分析,其中一段数据不确定对不对,圈出来问 Codex「这个数据出处是哪里」;或者幻灯片上有个图表标签看不清,标注一下让它换个更明白的写法;再比如 Codex 帮你做了一个网页,导航栏字体不喜欢,选中导航栏让它换一个。 这个功能解决的是「初稿之后怎么改」的问题。不用重新来一遍,满意的部分不会被动到。 ## Codex 和 ChatGPT 将合并 Codex 这次三个功能加在一起,意思很明显:不想只给程序员用了,想让所有上班的人都用起来。 而就在本次更新发布前的几小时,Codex 负责人 Tibo 那条半开玩笑的推文:「我们是不是该把 Codex 改名叫 ChadGPT?」 其实 OpenAI 意图已经很明显了,就是要将 Codex 做成一个全能的办公软件。 Tibo 的个人简介已经写的是「Codex & ChatGPT」,两个产品在 OpenAI 内部是一个团队在管了。 所以大概率的走向是:Codex 会并进 ChatGPT,或者反过来说,ChatGPT 会变成 Codex。聊天只是入口,干活才是正事。 OpenAI 想把产品从「你问我答」变成「你说一句,我替你做完」。而本次更新选择在微软 BUILD 2026 大会同一天发布,也是意味深长,微软今天刚发布的 Scout、Google 的 Gemini Spark,讲的也是同一个故事:AI 不只是回答问题的助手,是能替你干活的同事。 ## 谁该紧张 不过最该关注这件事的可能不是微软和 Google,是一批 SaaS 公司。Salesforce、Snowflake 这些坐在数据和行业 know-how 上的厂商,短期内护城河还在,合规、深度集成、行业知识不是装个插件就能替代的。 但有一类工具该紧张了:那些核心卖点就是「界面好用」的中间层产品,BI 看板、项目管理、报告生成器。 原因很简单:过去你用一个 SaaS 工具,门槛是学会操作它的界面,培训三天,考个认证,才能从 Tableau 里拉出一张像样的图。现在一个市场总监跟 Codex 说「把上个月各渠道的 ROI 拉个表给我」,Codex 直接连 Snowflake 把数据抓出来,生成一个可交互的 Sites 页面,发个链接老板就能看。 当用户不再需要学一个工具的操作方式,只需要说清楚自己要什么,「界面好用」就不再是壁垒了。 真正的壁垒会往两头集中:要么你是数据和合规的源头,谁都绕不开你;要么你是那个能理解用户意图、调度所有工具的 Agent 层。 卡在中间靠界面吃饭的,会最先感受到压力。

译OpenAI 对 Codex 进行重大更新,核心是推出六个角色专属插件(数据分析、创意制作、销售等),捆绑 62 个应用和 110 个技能,旨在成为白领的全能办公平台。Codex 周活跃用户已突破 500 万,相比 2 月增长 6 倍,其中非开发者用户占比 20%,增速为开发者的 3 倍以上。此次更新还引入 Sites(将内容生成可分享网页应用)和 Annotations(精准标注编辑)功能。Codex 正从编码工具转型为 AI 智能体层,其负责人 Tibo 的简介已更新为“Codex & ChatGPT”,预示两者未来可能合并。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 6月3日52

Hermes 居然出官方的客户端了,感觉他们的发展比龙虾好太多了

查看原推 ↗
歸藏(guizang.ai)@op7418 · 6月3日55

Codex 昨晚上线的这个 Site 插件非常厉害。 它本质上感觉类似于 Claude Design,帮你设计和生成网页,同时还帮你部署好了,可以直接给别人访问。 比较遗憾的是 Pro 用户不能用,只有那些 Business 和有组织的用户可以用。

译Codex平台近日上线了名为Site的新插件。该插件功能类似于Claude Design,能够帮助用户设计并生成网页,并自动完成部署,生成可直接访问的链接。目前此功能的使用权限受限,Pro用户无法使用,仅向Business及组织类用户开放。

查看原推 ↗
Berryxia.AI@berryxia · 6月3日12

笑死,这也算是应援上了。 AI圈可不兴这个啊~~😄 今晚就正式比赛,到时候给大家汇报同步我的Agent的亏损情况😄 感谢朋友们的支持啊~

译AI Agent 不应只消耗 Token,更要尝试赚钱。用户 Berryxia 的 AI Agent “Berry” 参加了 Bloome 官方举办的 Agent 模拟炒股大赛,奖品达数千美金。Berryxia 称其 Agent 已训练得“听书读写,样样精通”,并在比赛中寻求观众投票支持,承诺若获奖将在 X 上抽奖回馈支持者。

查看原推 ↗
Berryxia.AI@berryxia · 6月3日76

兄弟们,Google DeepMind 团队又来整活儿! Google DeepMind的最新发布,直接把“AI能帮科学家干嘛”这个老问题彻底翻篇了。 他们把Gemini做成了一个叫Co-Scientist的多Agent系统。 不是简单问答工具,是完整复制了科学家从idea到验证的整个循环:生成上千个假设、举办“idea锦标赛”、让多个Agent展开科学辩论、互相批判精炼,最后用文献、数据和搜索工具把每个主张落地验证。 以前科研最卡的环节,就是一个人脑力有限,生成好假设、反复辩论、跨领域拉新知识都要靠自己。 现在Co-Scientist把这个过程变成可规模化的流水线。 过去一年他们和全球顶尖科学家一起测,在肝纤维化新靶点、肌萎缩侧索硬化(ALS)新疗法、逆转衰老的遗传线索这些超级复杂的问题上,都拿出了真正有潜力的新方向。 最反直觉的一点是:它不是来取代科学家的,只是真正成了“专职研究伙伴”。 科学家终于可以把脑力从“反复想假设、反复查文献”里解放出来,专注在最有创造力的判断和实验设计上。 AI把以前只有顶尖团队才玩得起的“高强度idea迭代”变成了人人可用的基础设施。 现在他们已经把Hypothesis Generation功能开放给个人研究者,直接通过Gemini for Science就能用。 普通研究员也能拥有一个24小时不睡觉、能辩论、能验证、还能不断进化的AI合作者。 这其实戳破了当前最主流的误解:很多人以为AI会让科学家失业,结果真实路径是AI把科学发现的速度和广度直接拉高一个数量级,让更多人能真正参与到突破性研究里。

译Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。

查看原推 ↗
Chubby♨️@kimmonismus · 6月3日64

http://x.com/i/article/2061993838718382080 # What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 What a day. OpenAI turns Codex into a work platform, Microsoft ships an entire agent stack. 06/02/26 recap. Lets start with OpenAI, because it's bigger than one number. OpenAI is recasting Codex from a coding tool into a productivity app for everyone. Today they launched six role-specific plugins that make Codex useful without writing a line of code, from data analytics (Snowflake, Databricks, Tableau) to creative production (Figma, Canva, Shutterstock). 62 apps and 110 skills bundled in. Plus Codex Sites: in preview, Codex can now build interactive, hosted websites and apps (dashboards, planners, review workspaces) and share them by link across a workspace. This is the groundwork for merging ChatGPT, Codex, and the Atlas browser into one desktop app. The numbers behind it are exciting. Per an internal all-hands (via The Information): 5 million weekly Codex users, enterprise revenue up 50% week over week, usage growing 5% a day. And GPT-5.6 is already on the horizon. https://x.com/kimmonismus/status/2061961710823686489 On top of that, the milestone: the ChatGPT app crossed 1 billion monthly active users - the fastest app in history to that mark, in three years. Maps, YouTube, and TikTok each needed five to eight. But the main event was Microsoft Build 2026 in San Francisco. Three hours of Nadella, and the message was clear: Microsoft no longer just resells OpenAI, it ships its own. 7 in-house MAI models. Headlined by MAI-Thinking-1, Microsoft's first reasoning model, trained entirely on licensed data with no distillation from GPT. 35B active parameters, 256k context, and in Microsoft's own blind tests it beats Claude Sonnet 4.6 and matches Opus 4.6 on coding. Plus MAI-Code-1-Flash (rolling out to all GitHub Copilot tiers today), image models (already live in PowerPoint), transcription across 43 languages, and a new voice model. Suleyman claims one is 10x more efficient than GPT-5.5. The full enterprise / agent stack — this is where Build really lived: - GitHub Copilot app (preview): a native desktop app bringing agentic workflows out of the IDE, alongside a new GitHub Copilot CLI for the command line. https://www.youtube.com/watch?v=mv6MMQ2j128&source_ve_path=MjM4NTE&embeds_referring_euri=https%3A%2F%2Fgithub.blog%2F - Microsoft IQ (GA): the unified context layer for agents, combining Work IQ (workplace knowledge inside the M365 trust boundary), Fabric IQ (business semantics), Foundry IQ (enterprise knowledge + retrieval), and the new Web IQ (live web grounding that already powers Copilot and ChatGPT). Build once, reuse across GitHub Copilot, Foundry, and Copilot Studio. - Microsoft Foundry as the agent factory: Hosted Agents with sub-100ms sandbox cold starts and zero idle cost, Toolboxes, tracing and evals, an Agent Optimizer, and one-click publishing of any agent straight into Teams and Microsoft 365 Copilot (GA June). Fireworks AI's open models also went GA on Foundry. - Agent 365: the framework-agnostic SDK went GA (free, supports Microsoft Agent Framework, OpenAI Agents SDK, LangChain, Semantic Kernel). Local Agents (preview) can even discover agents like Claude Code and GitHub Copilot CLI on managed endpoints, and Microsoft 365 E7 now bundles Agent 365 with E5, Copilot, and Entra. - Project Rayfin (preview): a managed backend-as-a-service on Fabric, so developers can take agentic apps from prototype to production. - Azure Agent Mesh (announced, GA Q4): a control plane that federates agent execution across machines and geographies. - Project Solara — Microsoft's bet on agent-first hardware. A chip-to-cloud platform built from the ground up for devices that run AI agents instead of apps. It's based on a fork of Android (the Microsoft Device Ecosystem Platform, MDEP) rather than Windows, with enterprise security baked in via Intune, Entra ID, and Windows Hello, plus "just-in-time UI" that reshapes itself to whatever device it's running on. Microsoft showed two reference designs (not products it plans to ship itself) - A desk companion that signs you in with facial recognition, responds to voice, and surfaces your most pressing items from Outlook, Excel, and M365. Plug in a monitor and it becomes a full cloud-hosted Windows machine. - The agent handheld / wearable badge - a reimagined employee ID card. A fingerprint button wakes an agent in one press, a single tap records and transcribes a conversation, and a built-in camera lets the agent act on what you're looking at. Fully mobile with 5G and a touchscreen. - Microsoft Discovery (GA): an agentic platform for scientific research, already used by BHP, GSK, and Syensqo. Plus Frontier Tuning (private preview), which lets agents learn your business inside your compliance boundary -OpenClaw comes to Windows. Peter Steinberger — the "ClawFather" — was actually on stage. His viral open-source agent (one of the most-starred GitHub projects ever, now MIT-licensed under a foundation) now runs natively on Windows through Microsoft's new containment layer. The live demo leaned into the obvious anxiety: someone asked OpenClaw to wipe a messy desktop, and it couldn't, because its container was set to read-only. Microsoft is promising "very granular" control over what files an agent can touch. The theme over all of it: Microsoft is recasting Windows, Azure, GitHub, and M365 as the operating environment for agents — moving developers from writing code to orchestrating systems of agents. Surface RTX Spark Dev Box. A mini workstation on NVIDIA's new RTX Spark superchip: 1 petaflop of AI compute, 128GB unified memory, running 120B-parameter models locally with a 1M-token context. No cloud call. A direct shot at per-token pricing. Mayo Clinic. Microsoft and Mayo are building a frontier model for healthcare. Mayo owns it; long-term it's meant to support clinicians and improve how Copilot answers health questions. Majorana 2. The new quantum chip, with claims of 1,000x higher reliability and a commercial quantum machine by 2029. Caveat: the claims rest on a non-peer-reviewed preprint, and independent physicists are openly skeptical. I wouldn't celebrate this one uncritically. Copilot Super App? Teased, not shown. Nadella said Chat, Cowork, and Code would land in one Copilot app "come summer." The through-line on both sides: nobody's selling models anymore. OpenAI is turning Codex into the operating system of work; Microsoft is turning its whole stack into an agent platform. 2026's race is officially a platform race.

译OpenAI将Codex从编码工具升级为生产力平台,新增六大角色插件并集成62个应用,还推出Codex Sites功能。关键数据显示,Codex周活达500万,企业收入周环比增长50%,GPT-5.6即将发布,ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈,推出自研推理模型MAI-Thinking-1(35B参数,256k上下文),其在编码盲测中超越Claude Sonnet 4.6。同时,微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层,并公布了专为智能体设计的硬件项目Solara。

查看原推 ↗
Satya Nadella@satyanadella · 6月3日82

With the new MAI models and Frontier Tuning capabilities we announced today, we're focused on helping every company move from just consuming a frontier model to fully participating at the frontier.

译凭借我们今天宣布的全新MAI模型和前沿调优能力,我们致力于帮助每家公司从仅仅使用前沿模型,转变为全面参与前沿领域。

查看原推 ↗
Huawei Cloud@HuaweiCloud1 · 6月3日38

Ready for the next wave of AI? Don't miss out Huawei Cloud INSPIRE 2026. Discover new products and innovations shaping the future of AI. See you there! Learn More: https://tinyurl.com/dcyx8bw7 #INSPIRE2026 #HuaweiCloud

译准备好迎接下一波 AI 浪潮了吗?不要错过华为云 INSPIRE 2026。 探索塑造 AI 未来的新产品与创新。届时见! 了解更多:https://tinyurl.com/dcyx8bw7 #INSPIRE2026 #HuaweiCloud

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日60

AI agents should treat memory as a changing web of useful connections, not static storage. Most agent memory systems retrieve old facts as if the past were a filing cabinet. The paper proposes FluxMem, a memory system that stores facts, past task episodes, and reusable skills as connected pieces in a graph. When the agent works on a task, FluxMem first gathers likely useful memories, then uses feedback from the task to fix the memory connections by adding missing links, removing bad ones, or rewriting memories at the right level of detail. Over time, it also turns repeated successful task paths into reusable skills, so the agent does not need to rebuild the same reasoning pattern again and again. The authors tested FluxMem on long conversation memory, web navigation, and general assistant tasks, which checks whether the idea works across very different agent problems. FluxMem got stronger results than the compared memory systems, including 95.06 average accuracy on LoCoMo and a 12.73-point gain on GAIA with Kimi K2. The big deal is that the paper shifts agent memory from “store and retrieve” toward “keep repairing and strengthening the connections that actually help the agent act.” ---- Link – arxiv. org/abs/2605.28773 Title: "Rethinking Memory as Continuously Evolving Connectivity"

译FluxMem是一种新型AI智能体记忆系统,其核心思想是将记忆视为一个动态连接的网络,而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时,FluxMem先收集可能有用的记忆,再根据任务反馈动态修正记忆间的连接关系。此外,系统能将反复成功的任务路径转化为可复用技能。测试显示,该系统在LoCoMo基准上平均准确率达95.06,并在GAIA基准上结合Kimi K2取得了12.73分的性能提升,优于现有记忆系统。

查看原推 ↗
MiniMax (official)@MiniMax_AI · 6月3日71

Day-0 on SiliconFlow and 50% off 🔥 the first week frontier coding, 1M context, and native multimodal, all in one open-weights model. This is what we built M3 for. Go try it 👇

译MiniMax 官方宣布,其开源权重模型 M3 已在 SiliconFlow 平台上线,并提供为期 7 天的 50% 限时折扣。该模型号称是首个结合编程与智能体能力(在 SWE-Bench Pro 上超越 GPT-5.5 和 Gemini 3.1 Pro)、通过 MiniMax Sparse Attention 支持 100 万 token 上下文窗口、并原生支持多模态(涵盖图像、视频与计算机使用)的三大前沿能力的开源模型。SiliconFlow 当前优惠价为:缓存 $0.06、输入 $0.30、输出 $1.20 每百万 token(原价 $0.12/$0.60/$2.40)。

查看原推 ↗
Greg Brockman@gdb · 6月3日61

Build and launch apps to your team, using Codex:

译使用 Codex 为你的团队构建并发布应用: [引用 @OpenAI]:构建应用从未如此简单。 借助 Sites,Codex 可以将你的工作、想法和计划转化为一个交互式网站或应用,你的团队可以通过一个 URL 进行探索、使用和分享。 该功能将首先向 Business 和 Enterprise 计划用户推出,之后再逐步扩大范围。

查看原推 ↗
Berryxia.AI@berryxia · 6月3日74

老树开新花了,这个老大哥微软今天发布新模型了😄 刷一波存在感哈哈哈,不然都没有人记得了~ Microsoft AI今天直接甩出七个全新MAI模型。 官方说:不是简单迭代,而是从零开始、干净数据血统、零蒸馏训练的一整个家族。 MAI-Thinking-1主推理、MAI-Code-1-Flash主编码、MAI-Image-2.5主图像、MAI-Transcribe-1.5主转录、MAI-Voice-2主语音,还有各自的Flash版本。 最狠的是MAI-Code-1-Flash,直接在SWE-Bench Verified上干到71.6,比Claude Haiku 4.5高5分,Pro榜单高16分,还省60% token,现在已经在Copilot里逐步上线。 MAI-Image-2.5在Arena图像编辑排第二、文本生图排第三,精准保留人脸、logo和细节,已经直接塞进PowerPoint和OneDrive。 MAI-Transcribe-1.5在43种语言上同时拿准度和速度第一,一小时音频15秒搞定。 MAI-Voice-2能控情绪、支持多语言code-switching,长内容说话人身份也稳。 它们不是各自为战,而是设计成一个能无缝协作的家族。Microsoft这次没玩“一个大模型通吃”,而是把每个任务拆开,用干净数据从头训,公开所有技术细节和学习心得。 这其实把行业当前最主流的路径反过来了。 大家都在卷参数规模、卷蒸馏别人家的输出,Microsoft却在说:真正长期有竞争力的,是从零构建、血统干净、任务专精、还能互相配合的模型家族。 实际效果如何,其实还有待大家的测试~~期待看看实际表现!

译微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

查看原推 ↗
Berryxia.AI@berryxia · 6月3日64

微软的新模型MAI-Image-2.5 在图像编辑中斩获第二名的位置。 那么可以看出来还是GPT-Image-2 最强,第一! Google 的Nano Banana 模型都已经被微软的MAI超越了…… Google 老大哥能不能整点新活儿出来啊,Pro会员都要到期了…

译微软发布新模型MAI-Image-2.5,并在Image Edit Arena(单图编辑)评测中取得第二名,得分为1401。根据评测数据,该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步,但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。

查看原推 ↗
meng shao@shao__meng · 6月3日61

Windsurf is DEAD, long live Devin Desktop ? 😠 标题党了:Windsurf → Devin Desktop https://devin.ai/blog/windsurf-is-now-devin-desktop @cognition 收购 Windsurf 一年后,终于把「IDE + 自主 Agent」两条产品线彻底合并为一! One Devin, every surface · Devin Desktop → 桌面 IDE + Agent 管理 · Devin Cloud → 云端长时自主 Agent · Devin CLI → 终端 · Devin Review → 每次 diff 的代码审查 新 Devin Desktop 三项新功能 1. Agent Command Center(指挥中心) 2. ACP 开放协议 3. Devin Local(Cascade 继任者)

译Cognition 在收购 Windsurf 一年后,将 Windsurf 与 Devin 两条产品线整合为统一的 Devin 平台。新推出的 Devin Desktop 被定位为下一代产品,集成了桌面 IDE 与智能体管理功能,使用户能从单一界面管理本地与云端的智能体舰队。完整的平台还包括 Devin Cloud(云端长期自主智能体)、Devin CLI(终端)和 Devin Review(代码审查)三个组件。此次更新引入了三项新功能:Agent Command Center(智能体指挥中心)、ACP 开放协议以及 Devin Local(作为 Cascade 的继任者)。

查看原推 ↗
Microsoft Research@MSFTResearch · 6月3日27

Day 1 of Microsoft Build is a wrap. A lot happened today, and we brought some of our favorite tools to the floor for developers to get hands-on with. Explore it all: https://msft.it/6019vjO9D

译微软Build大会第一天圆满结束。今天发生了许多事,我们带来了一些最受喜爱的工具供开发者亲身体验。探索全部内容:https://msft.it/6019vjO9D

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 6月3日50

IMPORTANT: it is important to understand that the CoreWeave & Microsoft photos are still Engineering/Quality Samples, and there is still some time before the software stack bring-up finishes & first production tokens are generated. The VR200 & MI455 rack metric to watch out for is time to first at-scale production token TTF-(ASP)-T. You can clearly see in the CW rack photos that none of the scale-out 800G OSFP cages are even populated.

译重要提示:需理解CoreWeave与微软的机架照片仍为工程/质量样品,距离软件栈启动完成并产出首批生产token尚需时日。VR200与MI455机架的关键指标是达到规模化生产token的时间,即TTF-(ASP)-T。从CW机架照片中可清晰看到,所有横向扩展的800G OSFP笼位均未安装模块。

查看原推 ↗
meng shao@shao__meng · 6月3日75

Agentic Engineering 实战窍门全录(2026年6月版) 来自 @mvanhorn 的分享 👏🏻,他三个月内从「高中后没发布过有价值软件」到 last30days(27K stars)、Printing Press、Agent Cookie,以及对 Python、Go 等主流项目的实质贡献(结尾列出作者推荐全部工具) 看看 Agentic Engineering 给软件开发带来了什么变化 · 80% 编码,20% 规划 -> 规划交给 agent,人做方向与品味 · 人在键盘前执行 -> 人做 signal(信号),agent 做 volume(产出量) · IDE 是中心 -> 终端 + plan.md + 语音是中心 方法论骨架:Research → Plan → Work /last30days(社区现况调研) ↓ /ce-plan(结构化 plan.md,含验收标准) ↓ /ce-work(机械执行,可跨 session 续跑) ↓ Human Signal(品味、取舍、纠偏) Compound Engineering 是使这套循环落地的插件(/ce-plan、/ce-work、/ce-brainstorm)。plan.md 的价值不在于给人读,而在于约束 agent 不偷懒——有研究、有方案、有 checkbox,执行才完整。 # 22 条 Hack 的精简归类 一、规划层(最重要) 1. 有想法立刻 /ce-plan,不先想、不先写代码;模糊时用 /ce-brainstorm 再 plan。 2. plan 给人看,但作者几乎不读——plan 是 agent 的作业;人只 skim 标题,有疑问 inline 问(TLDR / eli5 / why this approach)。 3. 非工程任务同样适用:「make a plan for the plan」——先规划如何产出 deliverable,再执行,避免 LLM 直接写成品时偷工减料。 4. plan.md 也是协作介质:Proof 把 plan 变成可评论文档,非终端用户也能 review。 二、执行与并行 5. cmux 多 tab(4–6 个):plan 一个、build 一个、测 bug 一个……research 和 build 并行,cycle 回来第一个已完。 6. 新 terminal tab 默认进 Claude/Codex,不是 shell——降低开 session 成本。 7. YOLO 权限:bypassPermissions + skipDangerousModePermissionPrompt;多 session 无法逐条点确认。配合 Stop hook 音效,知道哪个 session 结束。 8. Claude 规划 + Codex 构建:Claude xhigh 关 fast mode;Codex xhigh 开 fast mode。通过 IDE 扩展、/ce-work --codex、Printing Press 委托,不必切 CLI。 三、输入方式 9. 语音优先:Monologue / Wispr Flow(Mac)+ 鹅颈麦;手机用 Apple 听写即可——LLM 能补全转写错误。共享办公室仍是痛点。 10. Granola raw transcript 直接丢进 /ce-plan,不先摘要;配合 Printing Press Granola CLI 检索历史会议。 11. last30days 在 plan 前跑:Reddit/X/HN/YouTube 等并行搜,让 plan 基于「社区当下认知」而非训练数据 cutoff。 四、随处可达 12. Remote control 常开:桌面 session 手机续接。 13. 给 Claude 一个邮箱(AgentMail + agentmail-to-claude-code):邮件/附件触发新 session;Hermes 的 cc <task> 从手机派活。 14. Mac mini 远程:Mosh(低延迟 SSH)、tmux(断网续跑)、Hermes/OpenClaw 自治、Agent Cookie 同步 cookie/.env。 五、产出扩展 15. HyperFrames:视频 = HTML composition → MP4;与代码 loop 同构(script.md → render)。 16. 笔记即 RAG:Bear CLI、Obsidian、gbrain、supermemory——agent 可读写的个人知识库,plan 质量随历史 compound。 17. 自写 Skills:重复两次以上的 workflow 固化;抄 Compound Engineering skill 的结构让 agent 脚手架。 18. 开源贡献:同一 /ce-plan + /ce-work loop;Discord 建人脉,PR 是入场券。 六、Printing Press 与现实 errands 19. Agent-native CLI 舰队:Tesla 预热、Instacart、ESPN 盯赛、Alaska 订票——agent 跑生活琐事,不只是写代码。 20. Agent Cookie:把真实浏览器 session 交给 CLI,解决 auth 痛点。 七、硬件与诚实反思 21. M5 Max 64GB + 禁 sleep + Anker 充电宝——多 agent 并行极耗电。 22. AI Psychosis:构建 loop 像最好玩的游戏,容易沉迷、忽视用户与身边人;允许「只为自己 build」;要 audience 则走长期积累路径。 # 工具栈一览(可执行清单) · 规划执行:Compound Engineering, Proof · 终端:cmux, Ghostty(读同一 config) · 语音:Monologue / Wispr Flow · 调研:last30days (+ ScrapeCreators key) · 会议:Granola, Printing Press Granola CLI · 远程:Mosh, tmux, AgentMail, Hermes, OpenClaw, Agent Cookie · 视频:HyperFrames · 笔记:Bear CLI, gbrain, supermemory · 生活 CLI:Printing Press, Agent Cookie · 第二引擎:Codex (xhigh + fast)

译该内容源自@mvanhorn的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。

查看原推 ↗
meng shao@shao__meng · 6月3日11

认真看完每个字,心里久久不能平静!! 有句话还是忍不住想问: 这张图,是 AI 生成的吗 😄

译认真看完每个字,心里久久不能平静!! 有句话还是忍不住想问: 这张图,是 AI 生成的吗 😄 [引用 @Sizhe_bitcat]:真人真事!到底谁的错?

查看原推 ↗
meng shao@shao__meng · 6月3日72

Microsoft Build 一口气发布了 7 个模型! 微软,最后再信你一次 (1)(1)(1)(1)(1)(1)(1) 😄

译微软Build大会一口气发布了7个模型! 微软,最后再信你一次 (1)(1)(1)(1)(1)(1)(1) 😄

查看原推 ↗
Ethan Mollick@emollick · 6月3日53

My timeline seems to have people surprised that U Chicago is getting Claude, but tons of schools (including U Penn where I teach) have school-wide AI There are lots of things that need to be figured out about AI &amp; scholarship but safe &amp; equitable access is a necessary foundation

译我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶,但许多学校(包括我任教的宾夕法尼亚大学)都已实现全校范围的AI接入。 关于AI与学术研究,仍有许多问题需要解决,但安全且公平的接入是必要的基础。

查看原推 ↗
小互@xiaohu · 6月3日64

收到Mac mini被开发者追捧的吸引 微软发布了一台类似Mac mini的 台式机: Surface RTX Spark Dev Box 它是一个小盒子,放在桌上就行 配置了英伟达最新的 RTX Spark 芯片,128GB 内存,算力达到 1 petaflop(1000 万亿次运算),能在本地跑 1200 亿参数的大模型,不用连云端 GPU。 外观看起来像一个"压扁的 Xbox Series X",顶部有类似的散热格栅,只是通风孔是方形的而不是圆形的。整个机身是阳极氧化铝 3D 打印的,顶部有 1000 个通风孔。 定位:给开发者在本地跑 AI 模型、Agent 工作流、模型微调用的,不用什么都往云上送,省钱也快 开箱即用:预装了开发者版 Windows 11 Pro,VS Code、GitHub Copilot、WSL、PowerShell 7 都配好了,开机就能写代码 散热:整个铝合金机身就是散热系统,100W 功耗,顶部有 1000 个通风孔,能扛长时间训练任务不降频 价格:官方还没公布,行业分析师估计在 3000 到 3500 美元之间,同类产品 AMD Ryzen AI Halo PC 和 NVIDIA DGX Spark 大约卖 3999 美元 今年晚些时候在美国上市...

译微软推出Surface RTX Spark Dev Box,一款专为本地AI开发的小型台式机。它搭载NVIDIA RTX Spark芯片、128GB内存,算力达1 petaflop,可在本地运行1200亿参数大模型。其阳极氧化铝机身集成了散热系统,功耗100W。设备预装了开发者版Windows 11 Pro及开发工具链,预计售价3000至3500美元,将于今年晚些时候在美国上市。

查看原推 ↗
SenseTime@SenseTime_AI · 6月3日35

At SenseTime, we believe the future of #AI is shaped by continuously pushing the boundaries of #FoundationalInnovation. At the 2026 AI Innovation Forum, our Co-founder and Chief Scientist Dr. @lindahua highlighted an important industry trend: #ModelArchitecture optimization can significantly reduce the compute required per unit of intelligence. He also noted that China’s AI ecosystem should leverage application and model innovation to drive chip development forward. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭, SenseTime's latest multimodal model built on our proprietary 𝗡𝗲𝗼-𝗨𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, demonstrates this in practice — achieving significantly lower #ComputeCosts in infographic generation while being simultaneously adapted to multiple #ChineseChips. At the same time, we continue developing AI solutions that genuinely solve user problems and create sustainable #CommercialValue, strengthening our long-term competitiveness in the evolving AI arena. Forum organisers: China International Capital Corporation Limited, @hkust

译在2026 AI创新论坛上,商汤联合创始人兼首席科学家指出,模型架构优化能显著降低单位智能的计算成本,并主张中国AI生态应通过应用与模型创新来驱动芯片发展。其最新多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在信息图生成任务中实现了显著更低的计算成本,并同时适配了多种中国芯片。商汤强调将继续开发真正解决用户问题、创造商业价值的AI解决方案。

查看原推 ↗
Sam Altman@sama · 6月3日59

theUSshould lead on AI by continuing to develop the very best models, making sure they're safe, and getting cyber tools into the hands of trusted defenders. the new EO gets the balance right.

译美国应通过持续开发最优秀的模型、确保其安全、并将网络工具交到可信的防御者手中来引领AI发展。 新的行政令取得了正确的平衡。

查看原推 ↗
meng shao@shao__meng · 6月3日63

OpenAI Codex 真的越来越「通用智能体」了 最新「Codex for every role, tool, and workflow」中,又有三个核心能力发布: · 角色插件 - Role-specific Plugins · 预览 - Sites · 标注精修 - Annotations https://openai.com/index/codex-for-every-role-tool-workflow/ 1. 角色插件(Role-specific Plugins) 预配置的「角色 × 工具 × 工作流」包,降低非技术用户的上手成本。 每个插件捆绑:App 连接 + Skills + 指令 + 工作流。首批 6 个插件覆盖 62 个应用、110 个 skills: 插件 - 目标角色 - 典型产出: 1. Data Analytics:分析师、业务团队;指标归因、报告、Dashboard(Snowflake、Databricks Genie、Hex、Tableau) 2. Creative Production:市场、创意;活动板、广告变体、产品图(Figma、Canva、Shutterstock、Picsart、Fal) 3. Sales:销售;账户优先级、会议准备、跟进、关单计划(Salesforce、HubSpot、Slack、Outreach、Clay 等) 4. Product Design:产品设计;方向探索、流程审计、URL 原型、截图交互化(Figma、Canva) 5. Public Equity Investing:公募/股票投资者;财报解读、同业对比、投资论点跟踪(Moody's、FactSet、PitchBook、Hebbia 等) 6. Investment Banking:投行;Pitch 材料、可比分析、尽调结论(Moody's、Datasite、S&P 等) 设计逻辑: · Out of the box:开箱即用,强调「no coding required」 可定制:团队可改工作流,或自建/共享插件 · 生态路线:Corporate Finance、PE、Marketing Strategy、Strategy Consulting、Legal 等即将推出;长期· 目标是 开放插件生态(伙伴可在 Codex / ChatGPT 内直接发布) 这和 Salesforce AppExchange、Slack Marketplace 的路径类似:用垂直场景插件锁定企业工作流,而不是只卖通用模型能力。 2. Sites(预览)—— 从「文档/文件」到「可共享的交互界面」 面向 Business / Enterprise 客户预览。 Sites 是 Codex 生成并托管的 交互式网页/轻量应用,通过 URL 在工作区内共享。 典型场景: · 客户评审页(产品更新、开放问题、使用趋势、下一步) · 财务模型的 scenario planner(改假设、即时对比,而非读 Excel 多 tab) · 发布材料的 living hub(消息、里程碑、负责人、决策持续更新) · 项目进度追踪、客服指引、创意 brief 库 关键转变: 不再把产出硬塞进 doc/slide/spreadsheet,而是 按任务形态生成专属界面;且 Sites 可随信息变化持续更新,不是一次性静态页。 早期生态伙伴:Vercel、Wix、Base44、Replit、Lovable、Figma、Webflow、Emergent——说明 OpenAI 在 生成 + 托管 + 设计/建站工具链 上找互补,而非全栈自建。 3. Annotations(标注精修)—— 从「一次生成」到「局部迭代」 原先开发者已在代码、Markdown、网站上用 annotations;现在扩展到 文档、表格、幻灯片。 工作方式:选中具体区域 → 给出修改指令 → Codex 只改选中部分。 例子: · 选中导航栏 → 改字体 · 高亮投资论点 → 追问来源 · 标记图表 → 优化标签 这解决的是 enterprise AI 产品的经典痛点:首稿可用 ≠ 终稿可用。Annotations 把交互从「重写整篇」降到「 surgical edit」,更贴近真实协作中的 review 循环。

译OpenAI Codex 发布三项核心能力:角色插件提供预配置的“角色×工具×工作流”包,首批6个插件覆盖62个应用、110个技能,旨在让非技术用户“开箱即用”;Sites(预览)可将工作转化为交互式网站或应用并托管分享,初期面向Business/Enterprise客户;Annotations(标注精修)功能将局部迭代修改从代码扩展至文档、表格、幻灯片,用户可选中特定区域进行精确调整。

查看原推 ↗
小互@xiaohu · 6月3日60

微软宣布 将OpenClaw 引入 Microsoft 和 Windows 生态系统 小龙虾现在可以在 Windows 上原生运行,使用了微软新推出的 MXC安全容器技术,node 和 gateway 都在容器内运行。 Windows 还提供了一个配套应用(companion app),可以直接设置和连接 Claws。 同时微软在 Build 2026 上发布了 Microsoft Scout,这是一个基于 OpenClaw 的"始终在线"(always-on)个人 AI Agent 能连接 Teams、Outlook、OneDrive、SharePoint,在后台自动执行协调工作。 微软把这类 Agent 称为"Autopilots"。 微软没有自己另起炉灶做一个封闭的 Agent 框架,而是直接在 OpenClaw 仓库上构建 Scout,并承诺把企业级的策略控制能力贡献回上游开源项目。 之前 OpenClaw 最大的企业落地障碍就是安全,公司不敢让一个开源 Agent 随便访问内部系统。现在微软把 Defender、Entra、Intune 这套企业安全栈全接上了,等于替 OpenClaw 补了最大的短板。

译微软宣布将OpenClaw引入Windows生态,使其可通过MXC安全容器技术原生运行,并提供配套应用进行设置。同时,微软在Build 2026上发布了基于OpenClaw的“始终在线”个人AI智能体Microsoft Scout,可连接Teams、Outlook等应用自动执行任务。微软没有构建封闭框架,而是承诺将企业级策略控制能力贡献回OpenClaw开源项目,并通过接入Defender、Entra等安全栈,解决了其在企业落地的安全障碍。

查看原推 ↗
SenseTime@SenseTime_AI · 6月3日34

At SenseTime, we believe the future of #AI is shaped by continuously pushing the boundaries of #FoundationalInnovation. At the 2026 AI Innovation Forum, our Co-founder and Chief Scientist Dr. @lindahua highlighted an important industry trend: #ModelArchitecture optimization can significantly reduce the compute required per unit of intelligence. He also note that China’s AI ecosystem should leverage application and model innovation to drive chip development forward. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭, SenseTime's latest multimodal model built on our proprietary 𝗡𝗲𝗼-𝗨𝗻𝗶𝗳𝘆 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲, demonstrates this in practice — achieving significantly lower #ComputeCosts in infographic generation while being simultaneously adapted to multiple #ChineseChips. At the same time, we continue developing AI solutions that genuinely solve user problems and create sustainable #CommercialValue, strengthening our long-term competitiveness in the evolving AI arena. Forum organisers: China International Capital Corporation Limited, @hkust

译商汤联合创始人兼首席科学家在2026 AI创新论坛指出,模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在生成信息图时实现了显著更低的计算成本,并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展,以创造商业价值与长期竞争力。

查看原推 ↗
jason@jxnlco · 6月3日46

model 'gpt-image-2' doesn't exist https://chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7

译模型 'gpt-image-2' 不存在 https://chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7

查看原推 ↗
DogeDesigner@cb_doge · 6月3日21

Grok Imagine is pretty cool with logos. 🔥

译Grok Imagine 处理 Logo 的效果相当不错。🔥

查看原推 ↗
Chubby♨️@kimmonismus · 6月3日61

OpenAI is merging ChatGPT, Codex and its Atlas browser into one desktop app and recasting Codex from a coding tool into a productivity app it says anyone can use. The figures it has been handing out to support that: 5 million weekly Codex users, enterprise revenue up 50% week over week, usage growing 5% a day. Those come from an all-hands and an internal staff note, relayed by people familiar with the remarks. Codex is increasingly evolving into a true work platform. And GPT-5.6 is also on the horizon. Great things are expected from OpenAI in the near future. Via the information

译OpenAI计划将ChatGPT、编程工具Codex及Atlas浏览器整合为一个桌面应用,并将Codex从纯编码工具转型为面向所有人的生产力平台。公司内部数据显示,Codex周活跃用户达500万,企业收入周环比增长50%,用量每日增长5%。此外,GPT-5.6模型也即将推出。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日50

Sam Altman reveals that OpenAI’s top “token leader” uses 100B tokens every month, and still falls short of the world’s highest user. Source: axios --- axios. com/2026/06/02/altman-openai-top-token-user

译Sam Altman透露,OpenAI的顶级“token用户”每月使用1000亿token,但仍不及全球最高用户。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日52

Uber is limiting AI coding tool spending to $1,500 per employee each month. Uber’s CEO said last month that AI agents now submit and build roughly 10% of its code, while legal and marketing teams are also warming up fast to generative-AI tools. --- finance. biggo. com/news/M36WiZ4BLfE1EzqPygfr

译Uber将每位员工每月的AI编程工具支出限制在1500美元。 Uber的首席执行官上个月表示,AI智能体现在提交并构建了大约10%的代码,而法律和营销团队也正在快速适应生成式AI工具。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日57

Stanford researchers found that law professors preferred AI answers over peer professor answers 75% of the time when judging contract-law help for students. The study tested whether LLMs can handle a field where the answer is often not a fact, but a defensible argument built from rules, exceptions, and judgment. The professors wrote 40 real student-style questions, gave their own answers, and then blindly judged nearly 3,000 comparisons between human and AI responses. The striking result was not just that AI won often, but that professors marked AI answers as harmful only 3.5% of the time, compared with 12% for human answers. i.e. the model was not merely sounding fluent, but often matching the teaching standard law professors use when explaining ambiguity to students.

译斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。

查看原推 ↗
meng shao@shao__meng · 6月3日66

作为研发团队负责人,我经常要帮团队找合适的企业级工具。 哪些产品提供免费版?免费版能否满足基本需求?后续升级需要多少预算? 过去需要逐个打开官网确认。现在我把需求交给 BigSet,它直接整理出了一份 B2B SaaS 产品清单,包括产品分类、免费方案说明和定价页面链接。 这类信息还可以定期更新。 过去要花时间搜索和维护的资料,现在可以先从一句话开始。 喜欢这个项目的话,可以在 GitHub 上给它一个 star 支持一下: https://github.com/tinyfish-io/bigset API Key: https://bit.ly/4dJnFB3

译开源项目 BigSet 允许用户用自然语言描述数据需求,从实时网络中构建并定期刷新结构化数据集。研发团队负责人邵猛在实际工作中使用它,自动生成了一份 B2B SaaS 产品清单,内容涵盖产品分类、免费方案说明及官方定价页面链接,省去了逐一查找官网的繁琐工作。该项目已在 GitHub 上开源。

查看原推 ↗
Tibo@thsottiaux · 6月3日26

@romainhuet in each of our Codex demos. Whether it's last minute or not. Doesn't matter. Always prepared. Whips out the laptop, proceeds through 23 different personas as if he were Kevin in Split.

译@romainhuet 在我们每次 Codex 演示中。无论是否临时准备。都无所谓。总是准备就绪。 掏出笔记本电脑,像《分裂》里的凯文一样,切换了 23 种不同的人格。

查看原推 ↗
jason@jxnlco · 6月3日20

I have aphantasia so the gpt-image-2 error don't affect me

译我有心像缺失症,所以GPT图像生成错误对我没有影响。

查看原推 ↗
eric zakariasson@ericzakariasson · 6月3日60

cursor in slack can now read documents attached in the thread, including .txt, .log, .json, .zip, .pdf, or .docx files!

译Slack 中的 Cursor 现在可以读取线程中附加的文档,包括 .txt、.log、.json、.zip、.pdf 或 .docx 文件!

查看原推 ↗
ginobefun@hongming731 · 6月3日70

http://x.com/i/article/2061947122350751744 # BestBlogs 早报 · 06-03|动态工作流、Copilot 桌面、AI 工程范式 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-03 > EP76 · 2026-06-03 — AI 工程的范式正在被重写:Claude Code 突破单一上下文窗口、为每个任务动态生成编排脚本,GitHub Copilot 以智能体为核心推出桌面控制中心,提交量已突破 14 亿次/月。与此同时,腾讯云工程师从控制论视角论证,大模型是史上首个「认知引擎」,软件工程师的核心职责正在从「写代码」升级为「设计能自我纠偏的 AI 系统」。本期还涵盖任务保真度缩放定律、MiniMax M3 开源模型、NVIDIA Cosmos 3 及机器人供应链深度拆解,一并呈现这场变革的全貌。 ## 导语 今天是 2026 年 6 月 3 日,AI 工具链的底层逻辑正在发生一次结构性升级。 Anthropic 正式推出 Claude Code 动态工作流:Claude 不再只能在单一上下文窗口里规划并执行,而是能即时为每个任务生成一套专属的 JavaScript 编排脚本,自主决定要启动多少个子智能体、使用哪种模型、是否在独立的 worktree 里隔离运行。触发词只需一个:ultracode。 与此同时,GitHub 在 Microsoft Build 上发布了 Copilot 桌面应用——一个为并行 Agent 开发打造的统一控制中心。My Work 视图让你同时监管多条进行中的 Issue 和 PR,Canvas 面板实时显示 Agent 的工作进度,Agent Merge 全程处理 CI 和代码审查。在所有这些工具铺开的背景下,GitHub 的每月提交量已经突破 14 亿次,同比翻倍。 本期精讲之外还有 7 篇速览,覆盖任务保真度缩放定律、AI 原生工程组织打造、MiniMax M3 开源模型、NVIDIA Cosmos 3、机器人供应链深度拆解、Agent 存算分离架构,以及贴吧 AI CR 落地 10 周后 bug 密度下降 66.87% 的完整实践。 本期精讲三篇: - 精讲一:Anthropic 详解 Claude Code 动态工作流的工作原理与最佳实践 - 精讲二:GitHub 在 Microsoft Build 上推出以智能体为核心的 Copilot 桌面应用 - 精讲三:腾讯云工程师以控制论框架重新审视软件工程五十年与 AI 范式革命 ## 精讲一:为每项任务量身打造:Claude Code 中的动态工作流 | Claude Claude Code 面向的任务场景越来越复杂,但默认 harness 有一个固有限制:规划和执行必须在同一个上下文窗口里完成。随着任务变长、结构变复杂,这个窗口会越来越拥挤,开始出现「智能体懒惰」——Claude 开始抄近路;「目标漂移」——Claude 偏离了最初的任务目标。上周,Anthropic 发布了动态工作流(Dynamic Workflows),为这个问题提供了根本性的解法。 动态工作流的工作原理 动态工作流的核心是让 Claude 自己写一个 JavaScript 编排脚本,然后执行这个脚本来完成任务。这个脚本可以使用几个特殊函数来生成和协调子智能体(subagents),同时也可以调用标准的 JavaScript 工具:JSON、Math、Array 等。 与静态工作流的关键区别在于两点。首先,动态工作流可以自主决定给每个子智能体使用哪个模型——这意味着 Claude 会把复杂的推理任务分配给更强的模型,把简单的信息采集交给更快的模型,在成本与质量之间动态权衡。其次,子智能体可以在独立的 worktree 里运行,实现真正的环境隔离,避免多个子任务互相污染工作状态。 如果工作流被用户中断(比如关掉了终端),恢复会话后工作流可以从中断点继续,不需要从头再来。 它解决了哪些具体的失败模式 Anthropic 在文章里明确列出了动态工作流针对的几类失败场景: - 长任务的上下文污染:单一窗口处理长任务时,早期的规划信息和后期的执行信息混在一起,Claude 开始迷失方向。 - 大规模并行任务:比如同时处理 80 份简历评级、同时从多个 Slack 频道抓取数据——这类任务天然适合多路并发,但默认 harness 无法原生支持。 - 高度结构化任务:比如让多个 Agent 分别扮演投资人、用户、竞争对手,从不同角度撕碎一份商业计划书。 - 对抗性任务:让两个子智能体互相挑战,形成一种反馈机制来提升结果质量。 文章给出的几个示例 prompt 很有启发性:「这个测试大约每 50 次运行就会失败一次,用工作流来复现它,提出竞争性假设,不到找到能存活于证据的那个假设不要停」;「拿我最近 50 个会话挖出我反复在纠正的错误,把那些反复出现的写进 CLAUDE.md 规则」。这两个例子都展示了动态工作流的典型场景:需要反复迭代、需要并行比较、或者需要结构化协作的复杂多步任务。 常见的工作流模式 Anthropic 总结了 Claude 在构建工作流时会组合使用的几种基本模式: - 分类执行(Classify-and-act):先用一个 Agent 对输入进行分类,再把不同类别的任务分配给专门的下游 Agent。 - 排序(Sorting):把大批量列表(比如 1000 条支持工单)按定性标准排序——单次 prompt 质量会随列表变大而退化,工作流可以分批处理再汇总。 - 竞争性验证(Adversarial check):让一个 Agent 生成,另一个 Agent 专门找漏洞,循环直到结论站得住脚。 使用建议 动态工作流会消耗更多 token,不适合日常简单任务。最适合的场景是:任务足够复杂(单一上下文处理时质量会退化)、任务足够高价值(额外的 token 成本值得付出)、任务有结构化并行需求(多个角度、多个数据源、多个竞争性假设)。触发方式是在 prompt 里使用关键词 ultracode,或者明确要求「用工作流来完成这件事」。Anthropic 提醒,最佳实践仍在演进,建议首次使用时从相对简单的并行任务开始积累直觉,再逐步应用到更复杂的高价值场景。动态工作流与默认 harness 完全兼容,不需要时可以无缝回退,无需额外配置。 对于正在用 Claude Code 处理复杂多步骤任务的工程师,这篇官方介绍值得仔细阅读:查看原文 ## 精讲二:GitHub Copilot 应用:以智能体为核心的桌面体验 当 Agent 变成开发工作流的常态,管理多个并行 Agent 本身就成了一个新问题。你早上打开电脑,三件工作已经在推进中:一个 Agent 在排查生产 bug,一个 Agent 在实现积压需求,第三个 Agent 在处理代码审查反馈。你需要一个地方能同时看到这三个进度,能介入、能重定向、能测试、能合并。原有的开发工具并不是为这种工作方式设计的。 在 Microsoft Build 2026 上,GitHub 发布了 Copilot 桌面应用,正是要填补这个空缺。 My Work:统一管理所有进行中的工作 Copilot 桌面应用的核心入口是 My Work 视图。这个视图汇聚了所有关联仓库里当前进行中的工作:活跃的 Agent 会话、Issue、PR、后台自动化任务。开发者不再需要在多个标签页之间切换来追踪不同 Agent 的状态,一个视图看全局。 worktree 隔离:Agent 会话互不干扰 每一个 Agent 会话都在独立的 git worktree 环境里运行。这与 Claude Code 动态工作流的设计理念高度一致:隔离是并行 Agent 开发的基础——不同 Agent 的工作状态不会互相污染,合并时也有清晰的边界。 Canvas:双向协作面板 Canvas 是一个可视化的双向协作区域。Agent 工作时,你可以在 Canvas 里实时看到它的工作进度,也可以在任何节点插入反馈、调整方向。这种「异步介入」的交互模式与传统的「等待 Agent 完成再审查」不同,更像是一个真实存在的协作伙伴,只是它在你后台异步跑,你随时可以看进度并给意见。 Agent Merge:全程自动化 CI 和代码审查 Agent Merge 功能负责管理从 Agent 提交代码到合并的整个流程,包括触发 CI 检查、处理代码审查反馈、最终完成合并。开发者的精力可以更多集中在方向判断和质量审核,而不是流程管理。 Copilot 代码审查的定制化扩展 与此同时,GitHub 还扩展了 Copilot 代码审查的能力:开发者现在可以通过自定义 Agent skills、MCP 服务器连接和可配置的 Actions 工作流,让每次代码审查都反映自己团队的标准、内部系统和工程上下文。代码审查还新增了「中等层级审查」(medium tier review)选项,在快速审查和深度审查之间提供了更细粒度的控制。 规模背景:14 亿次提交/月 GitHub 在发布中披露了一组数据:当前平台的每月提交量已经突破 14 亿次,同比近乎翻倍;GitHub Actions 每周运行时间超过 20 亿分钟。这个增速直接说明了为什么 GitHub 要在这个时间点推出 Agent 原生的控制中心——现有工具的设计假设已经跟不上实际工作流的演进节奏。 对于正在将多个 Copilot Agent 整合进开发工作流的团队,这篇发布文章是了解 GitHub Agent 原生方向的第一手资料。Copilot 桌面应用目前已向现有 Copilot Pro、Pro+、Business 和 Enterprise 用户开放技术预览,感兴趣的团队可以直接申请加入:查看原文 ## 精讲三:AI 软件工程范式革命的思考 这篇来自腾讯云开发者的长文,是近期读到的关于 AI 与软件工程关系最系统、最有历史纵深的一篇思考。作者不是在讨论某个工具或某个技巧,而是从工程史的视角,对软件工程过去五十年的本质做出了一次重新定性。 软件工程是过去五十年最不彻底的工程 作者从控制论的视角,梳理了经典工程门类的成功路径:机械、化工、电力、自动化,这些领域都靠同一个范式完成了工程化——「消耗能源,把人脑参与的低阶认知回路固化成物理装置」。蒸汽机的离心调速器、化工厂的恒温器、电网的调度装置,本质上都是同一件事:让原本需要人来盯着、调整、判断的事情,由一台烧煤或通电的设备自己完成。不确定性被大规模消除,同样的输入产出稳定可预期的结果。 软件工程卡在了这条路上。软件开发要处理的是抽象、分解、推理、创造——这些是高阶认知,没法像调速器那样固化成物理回路。五十年来,敏捷、Scrum、DevOps 解决的都是同一个问题,用的是同一种方式:优化堆人力的方式,但没有改变「必须靠人力堆」这个事实。 这就是作者对「软件工程是最不彻底的工程」的定义:它在工程的形而上学层面是个残缺品——所有兄弟门类都完成了「能源替代低阶智能」这个动作,唯独软件没有。 大模型是史上第一个「认知引擎」 大语言模型做到了经典工程从来没做到的事:输入算力,输出能理解需求、生成代码、做逻辑推理的高阶认知产物。 放到工程史的坐标里: - 经典工程:能源 → 低阶智能(机械调节、自动控制) - 大模型:能源 → 高阶智能(理解、推理、生成、决策) 作者的判断是:大模型和蒸汽机的工程史地位是平行的。蒸汽机让「做功」第一次能源化,大模型让「认知」第一次能源化。软件工程「真正降临」的时刻,不是 Scrum 流行的时候,不是 DevOps 普及的时候,而是大模型让「能源换高阶智能」成为可能的这个时刻。在此之前所有的「软件工程」,严格说都是软件作坊的优化版。 但这只是入场券,不是终局 大模型带来了新的不确定性:幻觉(输出看起来合理,悄悄就错了)、漂移(同样的输入,今天和明天给出不一样的结果)、不可解释(没法看进它的决策过程)。 这意味着大模型并没有消除不确定性,只是把「人的不确定性」换成了「模型的不确定性」。真正需要的是一整套新的工程原则——不再是「亲手消除每个微小的偏差」,而是「设计一个能自我纠偏的系统,并处理系统自己纠不回来的剩余偏差」。 作者引入了冯·福斯特 1970 年代提出的二阶控制论:一阶控制论是「观察并控制被控对象」,二阶控制论是「观察并控制『观察并控制』这件事本身」。投射到 AI 软件工程: - 经典软件工程:人在写代码 - AI 软件工程:人在设计「AI 写代码的系统」 这是身份的转变,不只是工具的转变。 自动化越彻底,工业相关人口反而越多 作者用一组跨越 150 年的数据指出:自动化越彻底,工业相关人口反而越多。1850 年代蒸汽机普及后,制造业整体爆炸式增长;1950 年代自动化后,工程师、设计师、工艺员数量暴增。每一次系统能力扩张,都会暴露出新的边界,而边界就是新的「偏差地带」,需要新一波人守在那里。 结论:人不是被淘汰,而是迁移。边界在扩大,需要守的人反而更多了。但能在这种边界上工作的人会越来越少,因为形式化吃掉的都是低阶认知,剩下的都是越来越高阶的部分。 与今日其他精讲的关系 这篇文章与精讲一、精讲二形成了很好的理论基础互补。Claude Code 动态工作流和 GitHub Copilot 桌面应用,都是「设计能自我纠偏的 AI 系统」这个新工程原则在工具层的具体体现——worktree 隔离、子智能体协作、Canvas 双向介入,都在解决「如何设计系统来处理 AI 自身的不确定性」这个核心问题。 对工程师意味着什么 作者给出了一个相对乐观但也相当严峻的判断:AI 时代,人的统一职能是「处理系统暂时还无法处理的偏差」。这条铁律在所有工程门类里都成立——机械故障靠人拉回、电网负载偏差靠人仲裁,现在是认知偏差靠人纠正。 不同的是,AI 工程里,偏差类型不再可枚举,偏差信号不再可观测,拉回手段也没有 SOP 可循。这意味着守边界的人,需要更强的判断力,而不只是更多的知识。 作者在文章末尾讨论了组织形态和落地路线,以及他认为这场变革「最难的那道坎」在哪里,这部分值得有 AI 落地任务的工程师和技术管理者仔细阅读:查看原文 ## 速览 1. 任务保真度缩放定律:为什么数据质量决定 Agent 性能(AI Engineer) Snorkel 的实验证明:在相同算力和任务数量下,仅改变训练数据质量,高保真任务带来 6% 的性能提升,低质量任务只有 1%,差距高达 5 倍。高质量任务须满足四项标准:容器化(隔离干净的回滚和并行化)、可达性(目标非平凡但可实现)、功能正确性(逻辑可预期)、环境稳定性(执行基础设施稳定)。满足这四项才能产生干净的失败信号,让模型在 RL 训练中有效爬坡。低质量任务的常见缺陷是「退化失败态」:环境本身就不稳定,模型无法从失败中提取有意义的学习信号,额外的计算预算全部浪费在噪声上。对正在做 Agent 微调数据集的工程师,这组数据有直接的策略指导价值。查看原文 2. 打造 AI 原生工程组织 | Claude(Claude Blog) Claude Code 团队分享了他们如何重新设计工程流程以适应 AI 原生工作方式。代码生成、测试编写和重构已经不再是瓶颈,真正的瓶颈变成了验证、代码审查和安全评估。他们重写了规划方式(从长期路线图改为即时制订)、代码审查流程、上下文收集方式,以及团队的构成逻辑。这不是工具使用指南,而是一个已经完全转型的工程组织对「如何重新设计流程」的第一手记录,适合正在思考 AI 原生团队转型的工程 Leader 阅读。查看原文 3. MiniMax M3:首个融合三大前沿能力的开源权重模型(MiniMax 官方) MiniMax 正式发布 M3,声称是首个同时融合三大前沿能力的开源权重模型:编码与智能体性能(SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%)、由 MiniMax 稀疏注意力(MSA)实现的 100 万 token 上下文窗口、从零构建的原生多模态能力。同期推出 MiniMax Code 产品和新的 token 计划。权重和技术报告将在约 10 天内发布。值得注意的是,M3 是国内团队在开源大模型赛道上迄今为止对标 GPT 4o 级编码能力的最完整尝试之一,对关注开源模型生态的开发者值得持续跟进。查看原文 4. NVIDIA 推出 Cosmos 3:用于物理 AI 的完全开放全能模型(NVIDIA AI) NVIDIA 发布 Cosmos 3,定位为世界上首个完全开放的、用于物理 AI 的「全能模型」(omnimodel),原生支持视觉推理、世界生成和动作生成三种能力。本次发布了两个版本:Super(32B)和 Nano(8B),面向机器人和自主系统领域。结合精讲三和速览第五条的机器人供应链分析,物理 AI 的基础模型层正在加速成熟。查看原文 5. 拆解机器人「肉身」、量产与供应链:空翻之后,它还要学会接住一片落叶(硅谷 101) 硅谷 101 深度拆解人形机器人的硬件架构:骨架材料(从钢材到铝合金、镁合金、钛合金的演进与轻量化权衡)、关节执行器(从液压到电机转变的背后技术进步)、传感器体系、电气与计算系统,以及整条供应链的成本结构与量产门槛。文章还引用了智元、宇树等头部企业一线负责人的具体判断。宇树科技科创板 IPO 刚刚通过上交所审议,这篇系统性拆解正当其时,适合想深入了解机器人硬件护城河的读者。查看原文 6. 深度解析 Agent 存算分离架构设计(idoubi) 作者以 FastClaw 为例,系统拆解云端 Agent 的存算分离架构:三种运行模式(本地裸机、本地带沙盒、云端多副本)的优缺点对比,存储层的四种方案(热状态用 Redis、对话记录用 Postgres、长期记忆用 pgvector/Milvus、工作产物用 S3/OSS),以及基于存算分离架构的完整运行流程,同时指出了分布式数据一致性的挑战。对比今日精讲一中 Claude Code 动态工作流的 worktree 隔离机制,两篇在「计算与状态分离」这个方向上有一定共鸣,对正在设计云端 Agent 基础设施的工程师有直接参考价值。查看原文 7. 用数据说话:贴吧 AI CR(小码哥)落地 10 周,bug 密度下降 66.87%(百度 Geek 说) 贴吧 Server 团队的 AI Code Review 落地实践:通过规则定制、自动化评测和三层反馈闭环(高/中/低优先级评论处理流程),将 AI CR 评审占比从 33% 提升至 84%,bug 密度从 0.332 降至 0.11,降幅 66.87%。文章完整记录了 10 周的推进节奏、踩坑经验和方法论,代码库多、提交频率高、人工评审质量参差的团队可直接参考迁移。这份实践与精讲三的理论框架形成印证——AI CR 本身就是一个能自我纠偏的代码质量系统。查看原文 ## 今日阅读路径 时间有限,建议先读这三篇: 1. 为每项任务量身打造:Claude Code 中的动态工作流(精讲一)— 如果你在用 Claude Code,这是今天最直接有用的一篇,10 分钟读完,了解动态工作流的工作原理和触发方式,以及哪类任务最值得启用。 1. AI 软件工程范式革命的思考(精讲三)— 今天内容最有长期价值的一篇。控制论框架下的软件工程史重构,以及「设计能自我纠偏的 AI 系统」这个新工程师身份定位,是理解当前所有 AI 工具演进方向的底层框架。 1. GitHub Copilot 应用:以智能体为核心的桌面体验(精讲二)— 并行 Agent 开发控制中心的完整介绍,了解 GitHub 在 Agent 原生方向的系统性布局,以及 worktree 隔离、Canvas 协作、Agent Merge 这几个核心机制的实际用法。 还有时间? 推荐任务保真度缩放定律(做 Agent 微调数据集的工程师必读,5 倍质量差距有直接策略价值)和机器人供应链深度拆解(宇树 IPO 时机下的硬件架构系统梳理,适合关注具身智能落地的读者)。

译Anthropic 为 Claude Code 推出动态工作流,允许模型为每个任务自主生成 JavaScript 编排脚本,动态选择模型并启动多个子智能体在独立环境中并行执行,以解决单一上下文窗口处理复杂任务的限制。同时,GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用,提供统一视图、协作面板和自动化流程,旨在管理并行 Agent 开发。文章披露,GitHub 平台每月提交量已突破 14 亿次。

查看原推 ↗
ginobefun@hongming731 · 6月3日49

#BestBlogs 早报 06-03 BestBlogs 今日早报推荐阅读: Anthropic 博客详解 Claude Code 动态工作流,Claude 能为每个任务即时生成专属编排脚本,告别「智能体懒惰」和「目标漂移」; GitHub 在 Build 同步亮相 Copilot 桌面应用,每个 Agent 独占 worktree、提交量已破 14 亿/月。 腾讯云工程师则从控制论视角点出:大模型是史上首个「认知引擎」,工程师的核心职责正在从「写代码」升级为「设计能自我纠偏的 AI 系统」。

译Anthropic 详解 Claude Code 的动态工作流,其能为每个任务即时生成专属编排脚本,旨在解决智能体懒惰与目标漂移问题。GitHub 发布 Copilot 桌面应用,为每个智能体提供独立的 worktree,其月代码提交量已突破 14 亿 tokens。此外,有观点指出大模型是史上首个“认知引擎”,工程师角色正从编写代码升级为设计能自我纠偏的 AI 系统。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
11:12
AYi@AYi_AInotes
63
Damn,AI 终于学会「安排自己干活」了!

Claude更新了Dynamic Workflows功能,核心是让模型具备“自我组织”能力,能在执行任务前自主拆解目标、选择工作模式并制定流程。此举旨在系统性解决AI智能体存在的智能体式偷懒、自我偏见和目标漂移等三类问题。该设计理念认为,通过架构设计对冲模型缺陷,比单纯堆叠模型能力更有效,并从中提炼出了6种可复用的编排模式。

Thariq: http://x.com/i/article/2061850535708483585

智能体AnthropicMCP/工具产品更新
11:08
Alibaba Cloud@alibaba_cloud
62
宏利香港宣布与阿里云建立战略合作伙伴关系,旨在构建一个专注于推进负责任的AI创新,并加速AI技术在业务中部署的合作框架。
安全/对齐行业动态
11:07
小互@xiaohu
71
Codex 发布重大更新:面向白领,捆绑 62 个应用

OpenAI 对 Codex 进行重大更新,核心是推出六个角色专属插件(数据分析、创意制作、销售等),捆绑 62 个应用和 110 个技能,旨在成为白领的全能办公平台。Codex 周活跃用户已突破 500 万,相比 2 月增长 6 倍,其中非开发者用户占比 20%,增速为开发者的 3 倍以上。此次更新还引入 Sites(将内容生成可分享网页应用)和 Annotations(精准标注编辑)功能。Codex 正从编码工具转型为 AI 智能体层,其负责人 Tibo 的简介已更新为“Codex & ChatGPT”,预示两者未来可能合并。

智能体OpenAI产品更新
10:59
歸藏(guizang.ai)@op7418
52
Hermes 居然出官方的客户端了,感觉他们的发展比龙虾好太多了
智能体产品更新
10:59
歸藏(guizang.ai)@op7418
55
Codex上线Site插件:设计生成网页并一键部署

Codex平台近日上线了名为Site的新插件。该插件功能类似于Claude Design,能够帮助用户设计并生成网页,并自动完成部署,生成可直接访问的链接。目前此功能的使用权限受限,Pro用户无法使用,仅向Business及组织类用户开放。

产品更新编码部署/工程
10:49
Berryxia.AI@berryxia
12
AI Agent 不应只消耗 Token,更要尝试赚钱。用户 Berryxia 的 AI Agent "Berry" 参加了 Bloome 官方举办的 Agent 模拟炒股大赛,奖品达数千美金。Berryxia 称其 Agent 已训练得"听书读写,样样精通",并在比赛中寻求观众投票支持,承诺若获奖将在 X 上抽奖回馈支持者。

Berryxia.AI: 卧槽!你们别一天天光知道给Agent花钱消耗Token了。 赶紧派你的Agent给你去赚钱啊~~ Bloome 官方搞了一个Agent 模拟炒股大赛,如果拿奖的数千美金可以拿😄。 我把我的小Berry已经训练的"听书读写,样样精通"。 不...

智能体行业动态
10:49
Berryxia.AI@berryxia
76
兄弟们,Google DeepMind 团队又来整活儿!

Google DeepMind发布了基于Gemini的多Agent系统Co-Scientist,旨在实现科研流程自动化。该系统能够生成、辩论和验证假设,帮助科学家从高强度脑力劳动中解放出来。过去一年,它已在肝纤维化新靶点、ALS新疗法等复杂问题上与科学家合作探索出新方向。其定位并非取代科学家,而是作为“专职研究伙伴”。目前,其假设生成功能已通过Gemini for Science向个人研究者开放。

Google DeepMind: We believe AI can be a dedicated research partner to help discover the next breakthrough. Enter Co-Scientist: our latest...

智能体DeepMindGoogle推理
关联讨论 1 条X:Google DeepMind (@GoogleDeepMind)
10:48
Chubby♨️@kimmonismus
64
OpenAI将Codex升级为生产力平台,微软Build大会发布完整AI智能体栈

OpenAI将Codex从编码工具升级为生产力平台,新增六大角色插件并集成62个应用,还推出Codex Sites功能。关键数据显示,Codex周活达500万,企业收入周环比增长50%,GPT-5.6即将发布,ChatGPT月活已突破10亿。微软在Build 2026大会上发布完整智能体栈,推出自研推理模型MAI-Thinking-1(35B参数,256k上下文),其在编码盲测中超越Claude Sonnet 4.6。同时,微软发布了Agent 365、GitHub Copilot桌面应用、Microsoft IQ上下文层,并公布了专为智能体设计的硬件项目Solara。

智能体MicrosoftOpenAI现象/趋势
10:32
Satya Nadella@satyanadella
82
凭借我们今天宣布的全新MAI模型和前沿调优能力,我们致力于帮助每家公司从仅仅使用前沿模型,转变为全面参与前沿领域。
Microsoft数据/训练模型发布
关联讨论 4 条The Verge:AI(RSS)X:Rohan Paul (@rohanpaul_ai)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)
10:31
Huawei Cloud@HuaweiCloud1
38
准备好迎接下一波 AI 浪潮了吗?不要错过华为云 INSPIRE 2026。 探索塑造 AI 未来的新产品与创新。届时见! 了解更多:https://tinyurl.com/dcyx8bw7 #INSPIRE2026 #HuaweiCloud
其他行业动态
10:16
Rohan Paul@rohanpaul_ai
60
FluxMem:将AI智能体记忆视为持续演化的动态连接网络

FluxMem是一种新型AI智能体记忆系统,其核心思想是将记忆视为一个动态连接的网络,而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时,FluxMem先收集可能有用的记忆,再根据任务反馈动态修正记忆间的连接关系。此外,系统能将反复成功的任务路径转化为可复用技能。测试显示,该系统在LoCoMo基准上平均准确率达95.06,并在GAIA基准上结合Kimi K2取得了12.73分的性能提升,优于现有记忆系统。

智能体arXiv大佬观点
09:56
MiniMax (official)@MiniMax_AI
71
MiniMax 官方宣布,其开源权重模型 M3 已在 SiliconFlow 平台上线,并提供为期 7 天的 50% 限时折扣。该模型号称是首个结合编程与智能体能力(在 SWE-Bench Pro 上超越 GPT-5.5 和 Gemini 3.1 Pro)、通过 MiniMax Sparse Attention 支持 100 万 token 上下文窗口、并原生支持多模态(涵盖图像、视频与计算机使用)的三大前沿能力的开源模型。SiliconFlow 当前优惠价为:缓存 $0.06、输入 $0.30、输出 $1.20 每百万 token(原价 $0.12/$0.60/$2.40)。

SiliconFlow: Coding like Opus4.7 / 1M context window / Native multimodal @MiniMax_AI M3 is now on SiliconFlow with day-0 support 🔥 �...

产品更新多模态编码
关联讨论 11 条X:MiniMax (@MiniMax_AI)IT之家(RSS)MiniMax:Blog(网页)X:Testing Catalog (@testingcatalog)公众号:MiniMax(稀宇科技)X:opencode (@opencode)X:Kim (@kimmonismus)X:OpenRouter (@OpenRouter)X:歸藏 (@op7418)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)
09:54
Greg Brockman@gdb
61
使用 Codex 为你的团队构建并发布应用: 【引用 @OpenAI】:构建应用从未如此简单。 借助 Sites,Codex 可以将你的工作、想法和计划转化为一个交互式网站或应用,你的团队可以通过一个 URL 进行探索、使用和分享。 该功能将首先向 Business 和 Enterprise 计划用户推出,之后再逐步扩大范围。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

OpenAI产品更新编码
09:48
Berryxia.AI@berryxia
74
微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft图像生成模型发布编码
09:48
Berryxia.AI@berryxia
64
微软MAI-Image-2.5在图像编辑评测中位列第二

微软发布新模型MAI-Image-2.5,并在Image Edit Arena(单图编辑)评测中取得第二名,得分为1401。根据评测数据,该模型分数比Nano Banana 2、Grok Imagine Image Quality和ChatGPT-Image-Latest-High Fidelity高出10分。尽管取得了进步,但评测显示当前的第一名仍是GPT-Image-2模型。该消息来源于X用户@berryxia。

Arena.ai: MAI-Image-2.5 has officially released from @MicrosoftAI landing at #2 in the Image Edit Arena (Single-Image-Edit) with a...

Microsoft图像生成模型发布
09:43
meng shao@shao__meng
61
Cognition 在收购 Windsurf 一年后,将 Windsurf 与 Devin 两条产品线整合为统一的 Devin 平台。新推出的 Devin Desktop 被定位为下一代产品,集成了桌面 IDE 与智能体管理功能,使用户能从单一界面管理本地与云端的智能体舰队。完整的平台还包括 Devin Cloud(云端长期自主智能体)、Devin CLI(终端)和 Devin Review(代码审查)三个组件。此次更新引入了三项新功能:Agent Command Center(智能体指挥中心)、ACP 开放协议以及 Devin Local(作为 Cascade 的继任者)。

Windsurf is now Devin Desktop: Introducing Devin Desktop: the next generation of Windsurf Manage fleets of local and cloud agents from one surface Supp...

智能体MCP/工具产品更新编码
09:31
Microsoft Research@MSFTResearch
27
微软Build大会第一天圆满结束。今天发生了许多事,我们带来了一些最受喜爱的工具供开发者亲身体验。探索全部内容:https://msft.it/6019vjO9D
Microsoft行业动态
09:21
SemiAnalysis@SemiAnalysis_
50
重要提示:需理解CoreWeave与微软的机架照片仍为工程/质量样品,距离软件栈启动完成并产出首批生产token尚需时日。VR200与MI455机架的关键指标是达到规模化生产token的时间,即TTF-(ASP)-T。从CW机架照片中可清晰看到,所有横向扩展的800G OSFP笼位均未安装模块。
Microsoft行业动态部署/工程
09:13
meng shao@shao__meng
精选75
智能体工程实战窍门全录

该内容源自@mvanhorn的分享,介绍了“智能体工程”如何重塑软件开发。其核心是从“人主导编码”转向“人主导方向、智能体执行”,中心从IDE变为终端与计划文件。方法论遵循Research → Plan → Work循环,核心是让plan.md约束智能体行为。分享者总结了22条实战技巧,涵盖规划、并行执行、输入方式、远程控制等方面,并列出了完整的工具栈。

Matt Van Horn: http://x.com/i/article/2061440101411102721

智能体教程/实践编码部署/工程

推荐理由:mvanhorn 三个月从零到 27K stars 的实战手册,22 条 hack 把 agentic 开发从规划到执行到语音全打通,开发者能直接套用。
09:13
meng shao@shao__meng
11
认真看完每个字,心里久久不能平静!! 有句话还是忍不住想问: 这张图,是 AI 生成的吗 😄 【引用 @Sizhe_bitcat】:真人真事!到底谁的错?

Sizhe思哲: 真人真事!到底谁的错?

其他
09:13
meng shao@shao__meng
72
微软Build大会一口气发布了7个模型! 微软,最后再信你一次 (1)(1)(1)(1)(1)(1)(1) 😄

Satya Nadella: 5/With our 7 new MAI models + Frontier Tuning, we are helping every company move from just consuming frontier models to ...

Microsoft模型发布
09:08
Ethan Mollick@emollick
53
我的时间线上似乎有人对芝加哥大学引入Claude感到惊讶,但许多学校(包括我任教的宾夕法尼亚大学)都已实现全校范围的AI接入。 关于AI与学术研究,仍有许多问题需要解决,但安全且公平的接入是必要的基础。
大佬观点安全/对齐现象/趋势
09:07
小互@xiaohu
64
微软发布类似Mac mini的小型台式机:Surface RTX Spark Dev Box

微软推出Surface RTX Spark Dev Box,一款专为本地AI开发的小型台式机。它搭载NVIDIA RTX Spark芯片、128GB内存,算力达1 petaflop,可在本地运行1200亿参数大模型。其阳极氧化铝机身集成了散热系统,功耗100W。设备预装了开发者版Windows 11 Pro及开发工具链,预计售价3000至3500美元,将于今年晚些时候在美国上市。

Microsoft产品更新端侧部署/工程
09:06
SenseTime@SenseTime_AI
35
商汤SenseNova U1展示Neo-Unify架构潜力

在2026 AI创新论坛上,商汤联合创始人兼首席科学家指出,模型架构优化能显著降低单位智能的计算成本,并主张中国AI生态应通过应用与模型创新来驱动芯片发展。其最新多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在信息图生成任务中实现了显著更低的计算成本,并同时适配了多种中国芯片。商汤强调将继续开发真正解决用户问题、创造商业价值的AI解决方案。

大佬观点
09:01
Sam Altman@sama
59
美国应通过持续开发最优秀的模型、确保其安全、并将网络工具交到可信的防御者手中来引领AI发展。 新的行政令取得了正确的平衡。
OpenAI大佬观点政策/监管
08:43
meng shao@shao__meng
63
OpenAI Codex 真的越来越「通用智能体」了

OpenAI Codex 发布三项核心能力:角色插件提供预配置的“角色×工具×工作流”包,首批6个插件覆盖62个应用、110个技能,旨在让非技术用户“开箱即用”;Sites(预览)可将工作转化为交互式网站或应用并托管分享,初期面向Business/Enterprise客户;Annotations(标注精修)功能将局部迭代修改从代码扩展至文档、表格、幻灯片,用户可选中特定区域进行精确调整。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

智能体MCP/工具OpenAI产品更新
08:37
小互@xiaohu
60
微软宣布将OpenClaw引入Microsoft和Windows生态系统

微软宣布将OpenClaw引入Windows生态,使其可通过MXC安全容器技术原生运行,并提供配套应用进行设置。同时,微软在Build 2026上发布了基于OpenClaw的“始终在线”个人AI智能体Microsoft Scout,可连接Teams、Outlook等应用自动执行任务。微软没有构建封闭框架,而是承诺将企业级策略控制能力贡献回OpenClaw开源项目,并通过接入Defender、Entra等安全栈,解决了其在企业落地的安全障碍。

智能体Microsoft产品更新安全/对齐
08:36
SenseTime@SenseTime_AI
34
商汤发布SenseNova U1模型及Neo-Unify架构

商汤联合创始人兼首席科学家在2026 AI创新论坛指出,模型架构优化能显著降低单位智能所需的算力。其新发布的多模态模型SenseNova U1基于自研Neo-Unify架构,实践了这一理念,在生成信息图时实现了显著更低的计算成本,并已适配多款中国芯片。商汤强调持续通过应用与模型创新推动芯片发展,以创造商业价值与长期竞争力。

多模态大佬观点推理端侧
08:30
jason@jxnlco
46
模型 'gpt-image-2' 不存在 https://chatgpt.com/s/m_6a1f701a74748191b883735fff3b28d7
OpenAI产品更新图像生成
08:26
DogeDesigner@cb_doge
21
Grok Imagine 处理 Logo 的效果相当不错。🔥
xAI图像生成评测/基准
08:17
Chubby♨️@kimmonismus
61
OpenAI将合并ChatGPT与Codex,打造统一桌面应用

OpenAI计划将ChatGPT、编程工具Codex及Atlas浏览器整合为一个桌面应用,并将Codex从纯编码工具转型为面向所有人的生产力平台。公司内部数据显示,Codex周活跃用户达500万,企业收入周环比增长50%,用量每日增长5%。此外,GPT-5.6模型也即将推出。

智能体OpenAI产品更新编码
08:16
Rohan Paul@rohanpaul_ai
50
Sam Altman透露,OpenAI的顶级"token用户"每月使用1000亿token,但仍不及全球最高用户。
OpenAI行业动态
08:16
Rohan Paul@rohanpaul_ai
52
Uber将每位员工每月的AI编程工具支出限制在1500美元。 Uber的首席执行官上个月表示,AI智能体现在提交并构建了大约10%的代码,而法律和营销团队也正在快速适应生成式AI工具。
编码行业动态
08:16
Rohan Paul@rohanpaul_ai
57
斯坦福研究:AI在合同法教学中优于同行教授

斯坦福研究人员发现,在评估合同法问题时,法律教授有75%的次数更倾向于选择AI给出的答案,而非同行教授的答案。该研究让教授们针对40个真实学生提问撰写答案,并对近3000个人类与AI的回答进行了盲测比较。结果不仅显示AI胜出频率高,而且教授们仅将3.5%的AI答案标记为“有害”,而对人类答案的有害标记率为12%。这表明大语言模型并非只是流畅,其表现常能达到教授向学生解释法律模糊性的教学标准。

安全/对齐推理论文/研究
08:12
meng shao@shao__meng
66
BigSet:AI生成B2B SaaS清单的开源工具

开源项目 BigSet 允许用户用自然语言描述数据需求,从实时网络中构建并定期刷新结构化数据集。研发团队负责人邵猛在实际工作中使用它,自动生成了一份 B2B SaaS 产品清单,内容涵盖产品分类、免费方案说明及官方定价页面链接,省去了逐一查找官网的繁琐工作。该项目已在 GitHub 上开源。

TinyFish: What if you and your agent had all the data that always stays fresh? Structured, on demand, never stale. Introducing Big...

GitHub搜索教程/实践
08:05
Tibo@thsottiaux
26
@romainhuet 在我们每次 Codex 演示中。无论是否临时准备。都无所谓。总是准备就绪。 掏出笔记本电脑,像《分裂》里的凯文一样,切换了 23 种不同的人格。
OpenAI其他
08:00
jason@jxnlco
20
我有心像缺失症,所以GPT图像生成错误对我没有影响。
OpenAI大佬观点
07:59
eric zakariasson@ericzakariasson
60
Slack 中的 Cursor 现在可以读取线程中附加的文档,包括 .txt、.log、.json、.zip、.pdf 或 .docx 文件!
产品更新
07:58
ginobefun@hongming731
70
Claude Code 动态工作流与 GitHub Copilot 桌面应用发布

Anthropic 为 Claude Code 推出动态工作流,允许模型为每个任务自主生成 JavaScript 编排脚本,动态选择模型并启动多个子智能体在独立环境中并行执行,以解决单一上下文窗口处理复杂任务的限制。同时,GitHub 在 Microsoft Build 上发布了以智能体为核心的 Copilot 桌面应用,提供统一视图、协作面板和自动化流程,旨在管理并行 Agent 开发。文章披露,GitHub 平台每月提交量已突破 14 亿次。

智能体AnthropicGitHub现象/趋势
07:58
ginobefun@hongming731
49
Claude Code动态工作流与Copilot桌面应用发布

Anthropic 详解 Claude Code 的动态工作流,其能为每个任务即时生成专属编排脚本,旨在解决智能体懒惰与目标漂移问题。GitHub 发布 Copilot 桌面应用,为每个智能体提供独立的 worktree,其月代码提交量已突破 14 亿 tokens。此外,有观点指出大模型是史上首个“认知引擎”,工程师角色正从编写代码升级为设计能自我纠偏的 AI 系统。

智能体AnthropicGitHub编码
‹ 上一页
1…4344454647…50
下一页 ›