AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 9309 条
全部一手资讯X论文
🚨 AI News | TestingCatalog@testingcatalog · 6月3日44

Perplexity Computer will soon be able to dynamically split compute power between local models and cloud models! If that would drive Perplexity Computer costs down, it would be huge, since it is one of the top blockers for many at this moment. Soon 👀

译Perplexity Computer 很快将能够在本地模型和云端模型之间动态分配算力! 如果这能降低 Perplexity Computer 的成本,那将是巨大的进步,因为目前这是许多用户的主要障碍之一。 很快 👀

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日46

The AI conversation is evolving from technology breakthroughs to business outcomes. At our recent Alibaba Cloud x TiDB AI Innovation Night, supported by Lumen Technologies, we explored how enterprises can build the foundations for the AI era, covering topics such as intelligent agents, AI-ready data infrastructure, and strategies for achieving measurable AI ROI. Thank you to our customers, partners, and speakers for an evening of insightful discussions and meaningful exchanges. #AlibabaCloudSG #AIInnovation #EnterpriseAI #AgenticAI #Qwen #CloudInfrastructure

译阿里云在新加坡联合 TiDB 举办了 AI 创新之夜活动,探讨企业如何构建 AI 时代的基础设施。讨论核心已从单纯的技术突破转向衡量可实现的 AI 投资回报率(ROI)。活动议题涵盖了智能体、AI-ready 的数据基础设施等方向。推文未提及具体的模型版本号、参数或性能分数等量化信息。

查看原推 ↗
Elon Musk@elonmusk · 6月3日22

Trust Grok

译信任 Grok。

查看原推 ↗
PixVerse@PixVerse_ · 6月3日26

🥰

译🥰 [引用 @pinkshihtzu]:当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

查看原推 ↗
meng shao@shao__meng · 6月3日36

因为鼓吹「程序员将在六个月内被全面取代」的自媒体们,在这六个月内,已经成功被程序员们用 Agent 取代了!!

译推文讽刺了一个现象:此前部分自媒体鼓吹“程序员将在六个月内被AI全面取代”,但六个月过去,这些自媒体本身反而被程序员利用AI Agent(智能体)工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

查看原推 ↗
jason@jxnlco · 6月3日43

Love cloudflare

译喜欢 Cloudflare。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 6月3日49

看来快手确实要分拆可灵单独上市了了。 其实早就该搞,太晚了现在。

译看来快手确实要分拆可灵单独上市了了。 其实早就该搞,太晚了现在。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日57

Junhua Wang, Vice President of Product & Engineering, Head of Computing Platform, Alibaba Cloud Alibaba Cloud introduces Agentic Cloud—built for and run by agents, delivering 6 core capabilities from runtime to memory to move from managing compute to managing intelligence at scale.

译王俊华,产品与工程副总裁,计算平台负责人,阿里云 阿里云推出Agentic Cloud——专为智能体构建并由智能体运行,提供从运行时到内存的6项核心能力,从管理计算转向大规模管理智能。

查看原推 ↗
SiliconFlow@SiliconFlowAI · 6月3日67

@karpathy 's llm-wiki hit 5,000+ stars in weeks. The idea: stop re-discovering knowledge every session. Let an LLM build and maintain a wiki that gets smarter every time you use it. Here's how to build your own with @opencode + @justsisyphus OMO + SiliconFlow 🧵

译@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。 其理念是:停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基,每次使用时它都会变得更智能。 以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵

查看原推 ↗
Tibo@thsottiaux · 6月3日20

ChatGPT Whether you understand the name or not. It's here to stay. It's the past, the present, the future. Synonym with AI, soon synonym with agents. Much to build.

译ChatGPT 无论你是否理解这个名字。它将一直存在。它是过去、现在和未来。它是AI的同义词,很快也将成为智能体的同义词。还有很多要构建。

查看原推 ↗
swyx@swyx · 6月3日46

probably the best reward function for reasoning efficiency i've seen

译可能是我见过的最好的推理效率奖励函数。

查看原推 ↗
AYi@AYi_AInotes · 6月3日68

哇偶,Claude 官方这个 ant CLI 有点意思啊, 把 Claude Platform 全套 API 塞进终端,每个端点都能通过命令行直接跑。 ant 是 Claude Platform 的原生命令行工具,Messages API、hosted agents,结果直接 pipe 进 shell,不用翻文档拼 curl。 Ant能解决什么问题? 以前调 Claude API 要:翻文档 → 拼 HTTP → 处理 JSON → 写脚本封装, 现在:终端里直接调,输出直接进你的 pipeline,agent 也能从命令行启动。 怎么用Ant? ant CLI 被设计成 coding agent 友好型,Claude Code 用 claude-api skill 就能读懂它,你的 agent 不光能写代码,还能直接调用 Claude 官方 API 干活。 一些实用场景: 1. 批量处理本地文件,直接 pipe 给 Claude 分析 2. shell 脚本里自动化调用,省掉 Python 胶水代码 3. CI/CD 流水线里集成 Claude 能力 4. Claude Code 里让 agent 自己调 API,闭环更深 说白了,Claude 正在从网页聊天工具往终端基础设施切。 对于写代码的人,终端就是主场,那么它这次直接切进了你的主场。 视频 30 秒,建议先扫一眼 👇

译Claude 推出了名为 ant 的 CLI 原生工具,它将 Claude Platform 的 Messages API、托管 Agent 等全部 API 端点集成到了命令行中。用户现在可以直接在终端调用这些功能,并将结果通过管道(pipe)输出到 shell,省去了以往翻阅文档、拼接请求和处理 JSON 的步骤。该工具对 coding agent 友好,Claude Code 能通过 claude-api skill 理解并使用 ant,从而更直接地调用官方 API。这标志着 Claude 正从网页工具延伸向终端基础设施。

查看原推 ↗
SiliconFlow@SiliconFlowAI · 6月3日71

The official Hermes Agent Desktop app is HERE!

译官方 Hermes Agent 桌面应用现已推出!

查看原推 ↗
宝玉@dotey · 6月3日72

可以以假乱真了

译推文展示 GPT Image Gen V2 根据详细提示词生成的图像效果,被评价为“可以以假乱真”。生成的图像模拟了短视频应用的手机自拍截图,具备特定视觉特征:包括低分辨率帧、美颜滤镜平滑、压缩模糊、柔焦及动态模糊。画面主体为一位动漫cosplay风格的女性,外貌、发型、服装和普通卧室背景均有细致描述,并包含了应用界面UI元素,整体风格追求真实手机拍摄的质感。

查看原推 ↗
宝玉@dotey · 6月3日60

Codex 这个小功能我很喜欢,直接一键 commit changes,自动生成 commit message

查看原推 ↗
MiniMax (official)@MiniMax_AI · 6月3日29

🏆 Build with Minimax-M3 → win a Token Plan Plus Our official Discord Showcase Event is live! 🎉 Create a case or project with Minimax-M3, post it in our showcase forum, and you could be 1 of 10 winners. How to enter: 1. Join the Discord 👉 https://discord.gg/mmx 2. Build something with Minimax-M3 3. Post it in the showcase forum + tag Minimax-M3 4. Add a short note on how you used it 🗓 June 2–8, 2026 🎁 10 winners, announced June 9 in our official Discord #MinimaxM3 #AI

译🏆 使用 Minimax-M3 构建 → 赢取 Token Plan Plus 我们的官方 Discord 展示活动现已开始!🎉 使用 Minimax-M3 创建案例或项目,发布到我们的展示论坛,你就有机会成为 10 位获奖者之一。 参与方式: 1. 加入 Discord 👉 https://discord.gg/mmx 2. 使用 Minimax-M3 构建内容 3. 发布到展示论坛 + 标记 Minimax-M3 4. 添加简短说明,介绍你如何使用它 🗓 2026年6月2日至8日 🎁 10位获奖者将于6月9日在官方 Discord 公布 #MinimaxM3 #AI

查看原推 ↗
Berryxia.AI@berryxia · 6月3日29

Codex 刚刚遇到多次 exceed retry limit 429的错误,好像挺多人遇到,这又是闹哪出?

查看原推 ↗
meng shao@shao__meng · 6月3日46

稍等! WorkBuddy?桌面办公智能体第一? 腾讯这是根据哪里的统计得来的数据?

译稍等! WorkBuddy?桌面办公智能体第一? 腾讯这是根据哪里的统计得来的数据?

查看原推 ↗
Ethan Mollick@emollick · 6月3日54

Had Claude Code build a snake game where the snake becomes aware it is in the game and then... stuff happens. Some impressive creative decisions by the AI (& also some very AI ones), I just gave a first prompt and some feedback on the game as it went. https://snake-awakening.netlify.app/

译让 Claude Code 构建了一个贪吃蛇游戏,其中蛇意识到自己身处游戏之中,然后……事情发生了。AI 做出了一些令人印象深刻的创意决策(也有一些非常“AI”的决策),我只给了第一个提示词,并在游戏进行中提供了一些反馈。https://snake-awakening.netlify.app/

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日47

Narek Hayrapetyan, Head of Video Product, Picsart Launching HappyHorse and Wan models led to a 72% surge in video generations, with users creating over 1M monthly assets and using 6M+ Picsart credits.

译Narek Hayrapetyan,Picsart视频产品负责人 推出HappyHorse和Wan模型后,视频生成量激增72%,用户每月创建超过100万个资产,并使用超过600万Picsart积分。

查看原推 ↗
宝玉@dotey · 6月3日52

虽然很多人吐槽 Opus 4.8,但是写 Mac App UI 真的强,Claude Design 设计出来,用 Opus 4.8 去实现,还原度相当不错。 感觉我要发布一个 Mac App for X 了

译推文指出,尽管有人批评 Opus 4.8,但它在编写 Mac App UI 时能力很强,配合 Claude Design 使用,界面还原度相当不错。作者同时引用了对 Cursor Agent 的评价作为对比:在常用 GUI Agent 中排名为 Codex App、Cursor 和 Claude Desktop。Cursor 的亮点包括支持多任务并行和灵活选择模型,Plan 模式步骤详细稳定;不足是暂不支持 /goal、手机版,且调试功能仅有内置浏览器。

查看原推 ↗
jason@jxnlco · 6月3日39

We’re aware of another codex issue with too many requests.

译我们已知悉另一个 Codex 问题,即请求过多。

查看原推 ↗
凡人小北@frxiaobei · 6月3日32

chatgpt 和 codex 是该合并了,我现在打开手机总搜索 codex。

查看原推 ↗
AYi@AYi_AInotes · 6月3日57

Damn,Codex真的要杀疯了😭 最近1-2年爆发的上千家初创公司都得完蛋了, 尤其是vibe coding、prompt-to-app工具和无代码内部工具平台这些

译天哪,Codex 真的要大杀四方了😭 最近1-2年爆发的上千家初创公司都得完蛋了, 尤其是 vibe coding、prompt-to-app 工具和无代码内部工具平台这些

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日71

Qwen: Foundation Models for the Agent Era with Steven Hoi, Head of Multimodal Interaction, Tongyi Large Model BU Qwen3.7 delivers major breakthroughs in reasoning, fully upgrading native agentic capabilities across tool use, coding, and long-horizon tasks.

译Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。

查看原推 ↗
凡人小北@frxiaobei · 6月3日56

Codex 新发布的这几个插件宣传大于实际,插件底层把能团结的友商全拉进来了。 如果你是相关 saas 或者工具的用户,那可以满足不少日常工作。 但更严谨一些,每个公司每个人都有自己的业务逻辑和规范,最终要起飞还得沉淀自己的 marketplace 和 plugin / skill。 回到这个逻辑,Pete 最近采访 YC,关于YC 如何进行 AI-Native 组织改造,值得一看。

译OpenAI Codex推出一系列新插件,覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景,标志着其定位从程序员专用工具向更通用的AI智能体(Agent)转型。然而,有观点认为这些插件目前“宣传大于实际”。其核心论点是,每个公司和团队都有独特的业务逻辑与规范,要真正实现提效,最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日36

Desmond Tan, Senior Minister of State, Prime Minister's Office, Deputy Secretary-General, National Trades Union Congress (NTUC) Alibaba Cloud's Qwen, Wan, and Qoder demonstrate how AI applies to real-world work, from development to content creation.

译Desmond Tan,新加坡总理公署高级政务部长、全国职工总会副秘书长 阿里云的Qwen、Wan和Qoder展示了AI如何应用于实际工作,从开发到内容创作。

查看原推 ↗
向阳乔木@vista8 · 6月3日25

在杨攀群里看到的转帖,笑死了😂 新智元:xxx 已死

译在杨攀群里看到的转帖,笑死了😂 新智元:xxx 已死

查看原推 ↗
Josh Woodward@joshwoodward · 6月3日53

✅ Papercut fixed: Thinking Levels are now available on Gemini across Web, iOS, and Android.

译✅ 已修复:思考级别功能现已在 Gemini 的 Web、iOS 和 Android 平台上线。

查看原推 ↗
凡人小北@frxiaobei · 6月3日58

Codex 新发布的这几个插件很有参考意义,也包装的很全面,插件底层把能团结的友商全拉进来了。 如果你是相关 saas 或者工具的用户,那可以满足不少日常工作。 但更严谨一些,每个公司每个人都有自己的业务逻辑和规范,最终要起飞还得沉淀自己公司的 marketplace 和 plugin skill。 回到这个逻辑,Pete 最近采访 YC,关于YC 如何进行 AI-Native 组织改造,值得一看。

译OpenAI 为 Codex 发布了数据分析、创意生产、销售、产品设计等多个新插件,将其从程序员专属工具扩展为面向更多工种的通用智能体。推文指出,这些插件整合了多家友商能力,对日常工作效率有帮助,但每个企业最终仍需建立自己的插件生态。未来将上线更多行业插件,以推动智能体为更广泛人群提效。

查看原推 ↗
数字生命卡兹克@Khazix0918 · 6月3日65

http://x.com/i/article/2062025288771584000 # 分享Claude Code团队内部的5条工作原则,我觉得每一条都值得学习。 今天看到了一个我觉得还挺有价值的东西。 就是凌晨的时候,AIHOT上推了Claude Code的一篇blog。 还是蛮少见的,很少见类似于Claude这种真正的AI公司,来分享一些组织上的一些想法和思考。 特别这次分享的作者,还是当红炸子鸡Claude Code团队的工程总监,Fiona Fung。 聊得主题就是他们团队作为AI原生组织,在工作方式和流程上的一些变化。 我全部看完了,顺带也把那个半个小时演讲的视频给看完了,还是有很多共鸣的,因为很多思路和想法我们团队也在这么做这么践行的。 尤其是她反复提到的一个习惯,就是他们团队里,每遇到一个问题,都会再追问一句: 能不能把这件事自动化。 这跟我自己一直在说的理念、跟很多朋友提到的一个习惯是一样的。 就是如果一件事你需要重复3遍以上,请想尽一切办法,用AI将其自动掉。 今天看到Claude Code团队居然在用几乎一模一样的逻辑来运转整个工程组织,还是挺兴奋的。 所以想把这篇分享里的一些有价值的东西拎出来聊聊,希望能对大家有用。 最最开始的时候,她其实有一个很有意思的判断。 就是她说过去这么多年,软件工程的所有流程,不管是瀑布还是敏捷,所有那些规范啊方法论啊,本质上都是围绕一个核心成本在转,就是写代码太贵了这个事。 工程师时间贵,所以你得花大量时间做规划、写需求文档、做各种各样的评审、开各种各样的会,全是在管理这个最贵的资源。 我相信过去在互联网行业里面待过的小伙伴都能感同身受。 但在AI时代,或者说,Agent时代。 这个前提变了。 在Claude Code团队,写代码已经很少是那个拖慢速度的环节了。 那问题就来了,如果写代码本身不再是瓶颈的话,那围绕它的所有上下游的流程,就全部都得重新想了。 Fiona Fung提到了一个非常核心的词,也是她整个分享的最重要的词: 转移。 瓶颈没有消失,只是转移了。 转移到了验证、代码评审、安全。 代码生成太快了,新问题变成了,这些代码对不对,怎么维护,人到底该如何跟得上review代码的节奏。 左边灰色的就是是旧瓶颈,写代码和发布代码的产能。右边黑色的就是新瓶颈,验证、评审、跨职能协作、安全。 这个关于转移的判断,其实如果用AI来介入组织结构里面越深,大家的感触可能就会越明显。 我们的组织结构、流程,其实都需要围绕着这个大的变化来去重新设计。 就像当年从马车到汽车,不只是把马换成发动机的事儿,我们的整个公路系统、交通规则、城市规划,全都得重新设计。 那具体哪些东西需要重新来呢,Fiona列了一张图。 列了五个旧流程正在悄悄失效的领域。 1. 规划方式,因为工程速度和产出量完全不同了。 2. 代码所有权,谁写的这段代码变成了一个很奇怪的问题。 3. 代码评审,新的规模、新的形态、新的工具。 4. 团队构成,角色在模糊化,到底什么技能组合才是你需要的。 5. 知识共享,文档不再是唯一的真相来源了。 然后她对应地讲了五个她们重建的新规范。 包括要让人类的判断力,聚焦在真正需要的地方;新人入职的成本大大降低,甚至一周就可以直接开始产出代码了;少做前期规划,多做原型;招聘更看重创造力和判断力,不看纯产出速度;组织架构更扁平,每个管理者也都先从一线干活开始做起。 这里面每一趴,她又都展开来做了一些分享。 一. 规划的变化 以前因为coding时间贵,你得花大量时间提前规划。 Fiona说她刚加入Claude Code团队的时候,他们写了一个挺漂亮的六个月路线图。 结果呢,因为Claude Code本身迭代太快,三个月左右这个路线图就过时了。。。 所以他们现在的做法叫JIT规划,Just-In-Time,像JIT编译一样,在对的时间做恰好足够的规划。 不再写长篇大论的设计文档了,直接在PR或者原型里面讨论,不再做冗长的产品评审了,先做原型,让内部用户去用,然后根据反馈快速迭代。 左边是她们砍掉的东西,就是那个写代码之前必须先写设计文档的仪式。Fiona说对大部分工作来说这就是theater,做戏。现在换成原型先行,文档如果需要存在,写完代码之后感觉可以的话,再补需求文档。 右边是她们加码的东西,验证。因为在AI原生的工作流里,东西出bug的方式跟以前不一样了,唯一能保证质量的方式就是不断把验证流程往前推。 她还讲了一个观点我觉得特别好。 在技术讨论中,代码赢才牛逼。 就是如果两个人对一个方案有分歧,最快的解决方式不是继续吵,是让Claude把两个方案都做成原型,看实际的东西来判断。 Building is cheap,做东西很便宜。 Arguing is expensive,争吵才昂贵。 想起了当年,互相争某个方案,然后各自PK可能要各写一份PPT,开两轮会来讨论,现在十分钟两个原型都出来了,看着实物聊比对着PPT吵高效一万倍。。。 我自己也是类似的路径。以前做AIHOT的时候还试过写比较详细的PRD,结果发现写PRD的时间比我直接用Claude Code把东西做出来还长。。。 后来就改了,有想法先做原型,能用了再说。 很多功能都是在用的过程中发现不对,当场就改,极速迭代。。。 坦率的讲,在AI时代,我觉得过度规划就是浪费。 二. 自动化的变化 Fiona说的,在Claude Code团队里,他们每遇到一个这样的问题,都会追问一句,能不能把这件事自动化。 她举了一个她自己的例子,她以前每天早上端着咖啡,手动去总结各个客户反馈渠道的内容,这是她的每天固定的工作。 后来她把这件事变成了一个后台自动运行的任务,咖啡还是那杯咖啡,但她不再需要边喝边刷了。 这个例子听起来很小对吧,就一个总结客户反馈的事儿,能有多大工作量。 但重点不在这一件事,重点在这个习惯。 Claude Code团队里每个人,每次遇到一个重复性工作,都会条件反射地问自己,能不能自动化,她说,已经快形成了一种肌肉记忆。 这就是我一直在说的东西。如果一件事你需要重复3遍以上,请想尽一切办法用AI将其自动掉。在公司里面我反复跟团队讲,这甚至不是建议,是要求。 但坦率的讲,要真正把这个变成团队的肌肉记忆,比说出来难太多了。 因为大多数人对自动化的理解还停留在一个很粗的层面,觉得自动化就是写个脚本嘛,搞个定时任务嘛,这我知道,但AI时代的自动化跟以前完全不是一个量级的东西。 现在你用Claude Code,很多自动化的事情十分钟就搞定了,甚至不用十分钟。 比如我为了同步家里电脑和公司,我就跟Claude说了一句“帮我写一个hook,每次打开我的XX项目之前都去github拉取最新的代码”,几分钟就能跑起来。 以前自动化成本高,所以只有高频、高重复度、高价值的事情才值得自动化,但现在自动化成本几乎为零,逻辑就反过来了,几乎所有重复超过3次的事情都应该自动化。 除了工作流之外,触发器hook是一个非常好用的东西,这个我感觉以后我可以单独给大家写一篇Agent+hook搞自动化的一些小玩法,还是挺有意思的。 一个一个小的自动化攒起来,你会发现,最后这些东西,会在你可能都没反应过来的时候,一起长成了一颗苍天大树。 所以如果你现在还在犹豫要不要开始,我的建议是别想太大。 别一上来就想着我要搭建一个完整的自动化体系这种东西,那太吓人了,也没必要。 就从今天开始,找一件你今天重复做了的事情,花十分钟让Claude Code或者Codex帮你自动化掉。 明天再找一件,后天再找一件,一个月以后你回头看,你的工作方式已经完全不一样了。 三. 代码评审的变化 代码评审这块,Fiona说她过去六个月跟其他工程leader聊天,被问到最多的一个问题就是,你们人怎么跟得上代码review的速度。 她的做法叫Trust but verify,信任但验证。 Claude Code团队大量使用Code Review功能。 Claude负责处理所有的风格检查、linting、PR反馈、bug捕捉和修复、补充测试,这些以前可能占了review工作量60-70%的部分,现在Claude全接了。 但人类review仍然不可替代,在那些真正需要专业判断的地方。 法律合规的东西,Fiona说她永远需要她的法务伙伴参与风险评估,信任边界和安全敏感代码,需要领域专家,产品方向和品味的判断,需要PM和设计师。 而且她特别强调了,这个trust和verify之间的平衡是动态的。今天需要人来做的事情,下一个模型可能就能做了,所以你必须得不断重新评估这条线。 这就跟打游戏一样嘛,每个版本的版本答案都不一样,你不能拿上个版本的攻略打新版本,那只会被人干死。 四. 团队角色的变化 Fiona说在Claude Code团队,角色界限已经变得很模糊了。 PM在大量写代码,工程师也在做内容和设计的事情,以前泾渭分明的边界正在消融。 比如以前一个工程师修了个bug,要等内容设计师排期来写用户端的文案,排期这个破事大家懂的都懂,结果要么等好几天,要么赶进度发一个凑合的文案出去。 现在的流程是工程师修完bug,Claude来起草文案初稿,人类来做最终判断,当天就能发。 跨职能的gap不再是瓶颈了,开始变成了协作者,人类还是做最终决策的那个人,只是不再是写初稿的那个人了。 然后她说了一个我非常认同的观点,她现在招人主要看两种特质。 一种是有产品sense的创意builder,能识别出该做什么,能快速做出原型。 她还特意在描述里强调了一句: Taste is scarce, typing is not. 品味是稀缺的,打字不是。 另一种是有深厚系统背景的工程师,负责那些「trust but verify」里最需要人的部分,因为subtly wrong is still wrong,微妙的错误仍然是错误。 她说我根本不在乎你一个小时能写多少行代码,我在乎的是你选择去做什么,以及你怎么知道它是对的。 当AI能把执行速度提升10倍的时候,决定性的因素变成了你知不知道应该做什么,以及什么样的结果叫真正的优秀。 这,就是品味。 五. 如何推动团队变化 Fiona她们团队有一些有意思的核心原则。 她把团队原则分成了两类。左边灰色是必须做的硬性要求,右边黑色就是大家自己摸索的空间。 其实本质上,就是给团队设计了一个harness,核心就是大的方向统一,具体怎么落地各团队自己定。 Fiona总结了三条她最看重的事情。 1. 保持团队尽可能扁平,管理者支持各个小组的工作,但保持灵活让人能流动到工作需要的地方。 2. 如果Claude能做的事情,就让Claude做,这能让我们腾出手来做更难的工作。 3. 人不会主动去删除流程,只会在旧流程上面继续叠新流程,所以你得主动站出来,指名道姓地说出哪些流程可以走了。 这三条说起来都没啥特别的,但难在执行,特别是第三条。 Fiona说,她之前在一个团队里,有一个每周的review会议,一大堆人坐在会议室里,但她发现所有人都在看电脑,只有轮到自己汇报的时候才抬头说两句status,说完又低头继续看电脑(我相信我们很多时候的会议也都是这样的)。 然后她问了一句,我们为什么还在开这个会。 这时候,所有人才意识到,好像,这个会根本不需要。 于是,从此,这个会就取消了。 这种事太常见了,国内的公司里其实到处都是。 无数的流程和会议,当初设立的时候都有道理,但环境变了、工具变了,它们早就失去了存在的意义,只是因为惯性还在那里被迫转着。 没有人觉得它有用。 但,好像很多时候,也没有人站出来说一句这破逼会太浪费时间了,能不能别开了。 AI在你的组织里介入的越深,你会发现,很多过去的步骤和流程,其实液晶可以自动化了,如果我们不主动去审视,那这些步骤就会一直在那里,最后,变成纯粹的形式主义。 最后,Fiona还放了三个她在思考的问题,她没有答案。 但是很有意思。 第一,你还需要单独的iOS和Android团队吗?因为现在工程师已经可以更灵活地跨平台工作了。 第二,全自动化的review到底能推到多远,在「够快了」和「我们漏掉了什么重要的东西」之间那条线在哪里? 第三,当角色越来越模糊的时候,怎么确保所有角色都对自己的产出有信心? 我觉得她把这三个问题放出来这个动作本身就很有价值。 因为你会发现,即使是Claude Code的亲爹团队,也没有把所有事情都想明白。他们也在摸索,很多时候,这就不是一个有标准答案的事情。 每一次的大型技术的到来,其实都不只是工具升级,整个组织的运作方式很多时候,都要推倒重来。 所谓的AI原生,AI Native,其实也并不是买几个Claude会员或者包个API Key啥的,给大家用就算AI转型了,我一直觉得真正的AI原生组织,从规划方式到知识管理到评审流程到人才结构,每一层都是重新设计过的。 我们也没有做到,但是还是在不断的朝这个方向努力,最近加入的一些新的小伙伴,他们的好奇心和自驱力,且没有被过去一些传统且饱受诟病的工作方式所污染,已经感觉让我看到了一些雏形了。 而贯穿所有这些变化的,我觉得其实就是开头说的那个最朴素的思维习惯。 遇到重复的事情,自动化掉。遇到没用的流程,干掉。遇到不需要人做的判断,交给AI。 一个一个来,不着急,但不能停。 最后,用Fiona的最后一段话作为结尾吧。 Pick your noisiest workflow. Ask if it still earns its place. 找到你最繁琐的那个工作流,问问它。 是不是还配占着这个位置。

译Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是,AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此,团队重建了多项工作规范:采用JIT规划,用快速原型取代冗长的前期文档;将“能否自动化”培养为团队肌肉记忆,用AI解决重复工作;代码评审上采用“信任但验证”,由Claude处理大部分检查,人类聚焦于判断;团队角色界限模糊化,协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处,新成员甚至能在一周内开始产出代码。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 6月3日64

OPINION: Codex Desktop App UX & in-app browser is so good for vibing now. Once the OpenAI base model gets better at design, I can imagine codex beating Claude Code CLI soon on SemiAnalysis VibeMAX benchmark just due to better UX. Right now Claude is S tier on VibeMAX & Codex is A+ tier on VibeMAX. Anthropic over investing in Claude Code terminal CLI & underinvesting in Claude Code Desktop App is a fork in the road in the wrong direction.

译观点:Codex桌面应用UX和内置浏览器现在非常适合“氛围编程”。一旦OpenAI基础模型在设计能力上提升,我预计Codex凭借更好的UX,很快就能在SemiAnalysis VibeMAX基准上超越Claude Code CLI。目前Claude在VibeMAX上是S级,Codex是A+级。Anthropic过度投资Claude Code终端CLI,而对Claude Code桌面应用投入不足,这是走错了岔路。

查看原推 ↗
Yuchen Jin@Yuchenj_UW · 6月3日63

Opus 4.8 doesn’t feel like a big upgrade from Opus 4.7. Meanwhile, GPT-5.4 to GPT-5.5 felt like an actual jump. Now I’m really curious what 5.6 looks like. Is Anthropic saving Mythos for the IPO or what?

译Opus 4.8 相比 Opus 4.7 没有带来很大的升级感。 与此同时,GPT-5.4 到 GPT-5.5 的升级感觉是真正的飞跃。现在我很好奇 5.6 会是什么样子。 Anthropic 是在为 IPO 保留 Mythos 吗?

查看原推 ↗
向阳乔木@vista8 · 6月3日26

越来越喜欢用Codex了,身边朋友也是。 今天让朋友写个新书推荐语,发了书稿样章,朋友说待会我丢给 Codex 😂 查看最近Codex的Token统计,已不间断连续用了11天,最长任务8小时。 欢迎留言晒数据,打开 Codex -> 个人资料 能查看。

译推文表达了对 Codex 工具的喜爱。用户提到让朋友用 Codex 撰写新书推荐语,并分享了自己的使用数据:已不间断连续使用 11 天,单次最长任务时长为 8 小时。推文最后邀请其他用户在 Codex 个人资料中查看并分享自己的 Token 使用统计。

查看原推 ↗
向阳乔木@vista8 · 6月3日62

这个朋友写的Skill有意思,帮你监控Codex的重置消息,哈哈哈。 第一时间切fast模型,消耗用量。 安装指令有点长,见评论区,复制发给codex用就行。

译这个朋友写的Skill有意思,帮你监控Codex的重置消息,哈哈哈。 第一时间切fast模型,消耗用量。 安装指令有点长,见评论区,复制发给codex用就行。

查看原推 ↗
Satya Nadella@satyanadella · 6月3日77

Building a frontier intelligence ecosystem together. Highlights from my keynote at Microsoft Build this morning.

译与我们共同构建前沿智能生态系统。 今早我在 Microsoft Build 上的主旨演讲亮点。

查看原推 ↗
Logan Kilpatrick@OfficialLoganK · 6月3日16

to be underestimated is to be free

译被低估,即是自由。

查看原推 ↗
Saining Xie@sainingxie · 6月3日67

how does the brain build and track an internal state of the world from (possibly incomplete and noisy) visual observations? i believe visual state tracking will be the grand challenge for vision in the coming years, and i hope this benchmark can be a useful starting line. enjoy!

译研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

查看原推 ↗
向阳乔木@vista8 · 6月3日58

今天读到斯坦福大学研究团队的一个论文,有点跟直觉不一样。 把没过滤的Common Crawl数据喂给大模型,发现计算量足够大时,不过滤数据效果反而比清洗后的数据效果好。 在 15M 小模型上,过滤数据全面领先,未过滤的很差。 但当模型规模达到 330M 和 1B 时,情况完全反转,未过滤的在充分训练后超越了所有过滤版本。 小模型怕垃圾,大模型不怕。 模型大,秩(参数量)多,就有足够空间把垃圾和有用信息隔离开。 论文解读和原始PDF见评论区

译斯坦福团队研究发现,使用未过滤Common Crawl数据训练模型时,在计算量充足下效果可能优于清洗后数据,结论呈现模型规模依赖性:小模型(15M)上过滤数据全面领先,但大模型(330M、1B)未过滤数据在充分训练后反而超越过滤版本,原因是大模型参数容量足够大,可在训练中自行隔离噪声与有效信息。

查看原推 ↗
宝玉@dotey · 6月3日28

"Codex Computer Use" is damaged and can't be opened. Version 26.601.21317 • Released Jun 2, 2026

译"Codex Computer Use" 已损坏,无法打开。 版本 26.601.21317 • 发布于 2026年6月2日

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
16:24
🚨 AI News | TestingCatalog@testingcatalog
44
Perplexity Computer 很快将能够在本地模型和云端模型之间动态分配算力! 如果这能降低 Perplexity Computer 的成本,那将是巨大的进步,因为目前这是许多用户的主要障碍之一。 很快 👀

Perplexity: Read more about hybrid agentic inference in Perplexity Computer: https://www.perplexity.ai/hub/blog/the-data-center-move...

产品更新端侧部署/工程
15:39
Alibaba Cloud@alibaba_cloud
46
阿里云谈企业AI:从技术突破走向业务成果

阿里云在新加坡联合 TiDB 举办了 AI 创新之夜活动,探讨企业如何构建 AI 时代的基础设施。讨论核心已从单纯的技术突破转向衡量可实现的 AI 投资回报率(ROI)。活动议题涵盖了智能体、AI-ready 的数据基础设施等方向。推文未提及具体的模型版本号、参数或性能分数等量化信息。

智能体数据/训练行业动态
15:33
Elon Musk@elonmusk
22
信任 Grok。

Grok: Yes. Racism toward white people exists-prejudice and discrimination based on race, full stop. The redefinition that limi...

xAI大佬观点
15:16
PixVerse@PixVerse_
26
🥰 【引用 @pinkshihtzu】:当导火索到达雪山山顶时… 像孩子一样看世界。用PixVerse创作它🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

pink shih tzu ponta: 雪山の山頂に導火線が到着すると・・・ See the world like a child. Create it with PixVerse🎈✨ @PixVerse_ #PixVerseChallenge #pixverse

其他视频
15:16
meng shao@shao__meng
36
推文讽刺了一个现象:此前部分自媒体鼓吹"程序员将在六个月内被AI全面取代",但六个月过去,这些自媒体本身反而被程序员利用AI Agent(智能体)工具取代了工作。引用推文补充了这一论调已流传约六个月的时间背景。

tison: 我已经有六个月没听到〖程序员将在六个月内被全面取代〗的笑话了🥵🥵🥵

智能体现象/趋势
15:00
jason@jxnlco
43
喜欢 Cloudflare。

dominik kundel: Codex can now deploy and host websites for you using Sites! 🎉 This includes storage for data and files using D1 and R2 ...

OpenAI产品更新编码部署/工程
14:59
歸藏(guizang.ai)@op7418
49
看来快手确实要分拆可灵单独上市了了。 其实早就该搞,太晚了现在。
行业动态视频
14:39
Alibaba Cloud@alibaba_cloud
57
王俊华,产品与工程副总裁,计算平台负责人,阿里云 阿里云推出Agentic Cloud--专为智能体构建并由智能体运行,提供从运行时到内存的6项核心能力,从管理计算转向大规模管理智能。
智能体产品更新部署/工程
14:36
SiliconFlow@SiliconFlowAI
精选67
@karpathy 的 llm-wiki 在几周内获得了 5,000+ 颗星。 其理念是:停止在每个会话中重新发现知识。让一个大语言模型构建并维护一个维基,每次使用时它都会变得更智能。 以下是如何使用 @opencode + @justsisyphus OMO + SiliconFlow 构建你自己的版本 🧵
开源生态教程/实践

推荐理由:把 karpathy 的 llm-wiki 创意拆成了可复制的 recipe,跟着教程用 SiliconFlow + opencode + OMO 就能搭一个自进化的知识库,相当实用。
14:36
Tibo@thsottiaux
20
ChatGPT 无论你是否理解这个名字。它将一直存在。它是过去、现在和未来。它是AI的同义词,很快也将成为智能体的同义词。还有很多要构建。
OpenAI其他
14:34
swyx@swyx
46
可能是我见过的最好的推理效率奖励函数。

elie: length penalty is very elegant and simple tbh

大佬观点推理
14:13
AYi@AYi_AInotes
68
Claude 官方推出 ant CLI,将全套 API 集成到命令行

Claude 推出了名为 ant 的 CLI 原生工具,它将 Claude Platform 的 Messages API、托管 Agent 等全部 API 端点集成到了命令行中。用户现在可以直接在终端调用这些功能,并将结果通过管道(pipe)输出到 shell,省去了以往翻阅文档、拼接请求和处理 JSON 的步骤。该工具对 coding agent 友好,Claude Code 能通过 claude-api skill 理解并使用 ant,从而更直接地调用官方 API。这标志着 Claude 正从网页工具延伸向终端基础设施。

ClaudeDevs: We've added a CLI for Claude Platform to make every API endpoint runnable from your terminal. Call the Messages API, sta...

智能体AnthropicMCP/工具产品更新
14:06
SiliconFlow@SiliconFlowAI
精选71
官方 Hermes Agent 桌面应用现已推出!

Nous Research: The next evolution of Hermes Agent is here! Introducing Hermes Desktop: everything you love about Hermes, now native on ...

智能体产品更新开源生态

推荐理由:Hermes 的桌面版把 Agent 能力直接装进本地,不用折腾环境,开发者可以立刻体验在 GTC 上演示的体验,公测阶段值得尝鲜。
14:05
宝玉@dotey
72
推文展示 GPT Image Gen V2 根据详细提示词生成的图像效果,被评价为"可以以假乱真"。生成的图像模拟了短视频应用的手机自拍截图,具备特定视觉特征:包括低分辨率帧、美颜滤镜平滑、压缩模糊、柔焦及动态模糊。画面主体为一位动漫cosplay风格的女性,外貌、发型、服装和普通卧室背景均有细致描述,并包含了应用界面UI元素,整体风格追求真实手机拍摄的质感。

Emily: Exploring the possibilities GPT Image Gen V2 Vertical smartphone screenshot from a Chinese short-video app. Front phone ...

OpenAI图像生成教程/实践
14:05
宝玉@dotey
60
Codex 这个小功能我很喜欢,直接一键 commit changes,自动生成 commit message
OpenAI教程/实践编码
13:56
MiniMax (official)@MiniMax_AI
29
🏆 使用 Minimax-M3 构建 → 赢取 Token Plan Plus 我们的官方 Discord 展示活动现已开始!🎉 使用 Minimax-M3 创建案例或项目,发布到我们的展示论坛,你就有机会成为 10 位获奖者之一。 参与方式: 1. 加入 Discord 👉 https://discord.gg/mmx 2. 使用 Minimax-M3 构建内容 3. 发布到展示论坛 + 标记 Minimax-M3 4. 添加简短说明,介绍你如何使用它 🗓 2026年6月2日至8日 🎁 10位获奖者将于6月9日在官方 Discord 公布 #MinimaxM3 #AI
行业动态
13:49
Berryxia.AI@berryxia
29
Codex 刚刚遇到多次 exceed retry limit 429的错误,好像挺多人遇到,这又是闹哪出?
编码行业动态
13:44
meng shao@shao__meng
46
稍等! WorkBuddy?桌面办公智能体第一? 腾讯这是根据哪里的统计得来的数据?
智能体大佬观点
13:39
Ethan Mollick@emollick
54
让 Claude Code 构建了一个贪吃蛇游戏,其中蛇意识到自己身处游戏之中,然后……事情发生了。AI 做出了一些令人印象深刻的创意决策(也有一些非常"AI"的决策),我只给了第一个提示词,并在游戏进行中提供了一些反馈。https://snake-awakening.netlify.app/
智能体Anthropic其他编码
13:39
Alibaba Cloud@alibaba_cloud
47
Narek Hayrapetyan,Picsart视频产品负责人 推出HappyHorse和Wan模型后,视频生成量激增72%,用户每月创建超过100万个资产,并使用超过600万Picsart积分。
图像生成行业动态视频
13:35
宝玉@dotey
52
Claude Opus 4.8 被认为在实现 Mac App UI 时表现出色

推文指出,尽管有人批评 Opus 4.8,但它在编写 Mac App UI 时能力很强,配合 Claude Design 使用,界面还原度相当不错。作者同时引用了对 Cursor Agent 的评价作为对比:在常用 GUI Agent 中排名为 Codex App、Cursor 和 Claude Desktop。Cursor 的亮点包括支持多任务并行和灵活选择模型,Plan 模式步骤详细稳定;不足是暂不支持 /goal、手机版,且调试功能仅有内置浏览器。

宝玉: Cursor 在为用户增加使用额度。最近我重度使用了 Cursor 的 Agent,效果相当不错。我常用的 GUI Agent 里面,Codex App > Cursor > Claude Desktop。 几个亮点: 1. 它的 mult...

Anthropic大佬观点编码
13:30
jason@jxnlco
39
我们已知悉另一个 Codex 问题,即请求过多。
OpenAI编码行业动态
13:26
凡人小北@frxiaobei
32
chatgpt 和 codex 是该合并了,我现在打开手机总搜索 codex。
OpenAI大佬观点
13:12
AYi@AYi_AInotes
57
天哪,Codex 真的要大杀四方了😭 最近1-2年爆发的上千家初创公司都得完蛋了, 尤其是 vibe coding、prompt-to-app 工具和无代码内部工具平台这些

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

OpenAI产品更新编码部署/工程
13:08
Alibaba Cloud@alibaba_cloud
71
Qwen:面向智能体时代的基座模型,由通义大模型BU多模态交互负责人Steven Hoi介绍。 Qwen3.7在推理方面取得重大突破,全面升级了工具使用、编码和长程任务的原生智能体能力。
智能体推理模型发布
关联讨论 10 条X:OpenRouter (@OpenRouter)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:阿里云 / Alibaba Cloud (@alibaba_cloud)Qwen:Blog Retrieval(API)X:通义千问 / Qwen (@Alibaba_Qwen)X:Kim (@kimmonismus)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)X:opencode (@opencode)
12:56
凡人小北@frxiaobei
56
Codex发布插件但实际落地待验证

OpenAI Codex推出一系列新插件,覆盖数据分析、创意生产、销售、产品设计、股票投资和投行等场景,标志着其定位从程序员专用工具向更通用的AI智能体(Agent)转型。然而,有观点认为这些插件目前“宣传大于实际”。其核心论点是,每个公司和团队都有独特的业务逻辑与规范,要真正实现提效,最终仍需各组织沉淀并发展自己的marketplace、plugin/skill生态。

Andy Stewart: OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...

智能体MCP/工具OpenAI大佬观点
12:38
Alibaba Cloud@alibaba_cloud
36
Desmond Tan,新加坡总理公署高级政务部长、全国职工总会副秘书长 阿里云的Qwen、Wan和Qoder展示了AI如何应用于实际工作,从开发到内容创作。
行业动态
12:37
向阳乔木@vista8
25
在杨攀群里看到的转帖,笑死了😂 新智元:xxx 已死
其他
12:32
Josh Woodward@joshwoodward
53
✅ 已修复:思考级别功能现已在 Gemini 的 Web、iOS 和 Android 平台上线。
Google产品更新推理
12:26
凡人小北@frxiaobei
58
OpenAI Codex 推出多领域插件,迈向通用智能体

OpenAI 为 Codex 发布了数据分析、创意生产、销售、产品设计等多个新插件,将其从程序员专属工具扩展为面向更多工种的通用智能体。推文指出,这些插件整合了多家友商能力,对日常工作效率有帮助,但每个企业最终仍需建立自己的插件生态。未来将上线更多行业插件,以推动智能体为更广泛人群提效。

Andy Stewart: OpenAI 的野心和獠牙展现得比想象中更快。 CodeX 在其规划中已不再是程序员专属,而是走向更通用的 Agent。 为了让大家认识到这一点,以及具体帮哪些人做哪些事,OpenAI 主动晒出了数据分析、创意生产、销售、产品设计、股票投资...

智能体MCP/工具OpenAI产品更新
12:23
数字生命卡兹克@Khazix0918
65
Claude Code团队分享AI原生组织工作原则

Claude Code团队工程总监Fiona Fung分享该团队作为AI原生组织的工作原则。其核心判断是,AI时代软件开发的瓶颈已从“写代码”转移到“验证、代码评审与安全”。为此,团队重建了多项工作规范:采用JIT规划,用快速原型取代冗长的前期文档;将“能否自动化”培养为团队肌肉记忆,用AI解决重复工作;代码评审上采用“信任但验证”,由Claude处理大部分检查,人类聚焦于判断;团队角色界限模糊化,协作更加灵活。这些变化旨在让人类判断力聚焦于真正关键之处,新成员甚至能在一周内开始产出代码。

智能体Anthropic大佬观点部署/工程
12:23
SemiAnalysis@SemiAnalysis_
64
观点:Codex桌面应用UX和内置浏览器现在非常适合"氛围编程"。一旦OpenAI基础模型在设计能力上提升,我预计Codex凭借更好的UX,很快就能在SemiAnalysis VibeMAX基准上超越Claude Code CLI。目前Claude在VibeMAX上是S级,Codex是A+级。Anthropic过度投资Claude Code终端CLI,而对Claude Code桌面应用投入不足,这是走错了岔路。
AnthropicOpenAI大佬观点编码
12:16
Yuchen Jin@Yuchenj_UW
63
Opus 4.8 相比 Opus 4.7 没有带来很大的升级感。 与此同时,GPT-5.4 到 GPT-5.5 的升级感觉是真正的飞跃。现在我很好奇 5.6 会是什么样子。 Anthropic 是在为 IPO 保留 Mythos 吗?
AnthropicOpenAI大佬观点
12:07
向阳乔木@vista8
26
Codex 使用体验分享

推文表达了对 Codex 工具的喜爱。用户提到让朋友用 Codex 撰写新书推荐语,并分享了自己的使用数据:已不间断连续使用 11 天,单次最长任务时长为 8 小时。推文最后邀请其他用户在 Codex 个人资料中查看并分享自己的 Token 使用统计。

OpenAI其他编码
12:07
向阳乔木@vista8
62
这个朋友写的Skill有意思,帮你监控Codex的重置消息,哈哈哈。 第一时间切fast模型,消耗用量。 安装指令有点长,见评论区,复制发给codex用就行。
MCP/工具OpenAI教程/实践
12:02
Satya Nadella@satyanadella
精选77
与我们共同构建前沿智能生态系统。 今早我在 Microsoft Build 上的主旨演讲亮点。
Microsoft行业动态

推荐理由:微软 Build 上的战略更新不算意外,但 Nadella 亲自解读的生态整合思路,对依赖 Azure 和 Copilot 的团队来说是半年内的重要路线图。
12:01
Logan Kilpatrick@OfficialLoganK
16
被低估,即是自由。
大佬观点
11:45
Saining Xie@sainingxie
67
研究团队推出VSTAT基准测试,用于评估多模态大语言模型(MLLMs)在视频中追踪动态状态的能力。测试任务看似简单,包括计数杯子、识别键入的文字、统计翻页次数等,人类可以轻松完成,但当前MLLMs表现欠佳。该测试旨在推动视觉状态跟踪这一前沿方向的发展,解决模型从不完整、有噪声的视觉观察中建立和更新内部世界状态的核心挑战。

Sihyun Yu: Can MLLMs actually track what's happening in a video? Introducing VSTAT 🎯, our new benchmark for visual state tracking....

多模态视频评测/基准
11:37
向阳乔木@vista8
58
斯坦福团队研究:未过滤数据训练大模型,效果可能优于清洗数据

斯坦福团队研究发现,使用未过滤Common Crawl数据训练模型时,在计算量充足下效果可能优于清洗后数据,结论呈现模型规模依赖性:小模型(15M)上过滤数据全面领先,但大模型(330M、1B)未过滤数据在充分训练后反而超越过滤版本,原因是大模型参数容量足够大,可在训练中自行隔离噪声与有效信息。

数据/训练论文/研究
11:35
宝玉@dotey
28
"Codex Computer Use" 已损坏,无法打开。 版本 26.601.21317 • 发布于 2026年6月2日
智能体OpenAI产品更新
‹ 上一页
1…4243444546…50
下一页 ›