AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 9544 条
全部一手资讯X论文
Alibaba Cloud@alibaba_cloud · 4天前44

Ecommerce data is everywhere — Shopify, Amazon, Alibaba Express, Instagram, and Reddit. 🛍️ With Quick BI Smart Q Skill Package, teams can ask questions naturally, detect risks earlier, and turn data into faster business decisions. Blog: https://int.alibabacloud.com/m/1000414338/ Quick BI: https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven

译电商数据无处不在——Shopify、Amazon、Alibaba Express、Instagram 和 Reddit。🛍️ 借助 Quick BI Smart Q Skill Package,团队可以自然提问、更早发现风险,并将数据转化为更快的业务决策。 Blog: https://int.alibabacloud.com/m/1000414338/ Quick BI: https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven

宝玉@dotey · 4天前60

哈哈,越来越多的企业终于发现 AI 比员工还贵了!

译越来越多的企业发现AI使用成本已超过人力成本。有团队此前在Claude Max计划上大力堆token(tokenmaxxing),但引入Fable项目后,一名成员10小时内用掉相当于$1.5k的token并3次触达上限,半数工程师达到配额限制。团队担忧若按API计费,每位工程师的token消耗将接近人员成本,大幅提高烧钱率。就像产品端开始做模型路由,工程端也需要考虑类似约束来设定使用护栏。

AYi@AYi_AInotes · 4天前60

昨天Claude Fable 5发布以后, 压力给到了Open AI, OpenAI 正在考虑大幅降价, 以争取从劲敌 Anthropic 手中赢得更多用户, 感觉有点难追啊,全球大模型铁王座大概是Claude稳坐了

AYi@AYi_AInotes · 4天前53

我去,这绝对是我见过最震撼的组织关系和管理数据, Anthropic CEO Dario Amodei竟然只有1个直接下属,就是他的幕僚长, Anthropic所有的执行, 全部从一个人那里进出, 他姐姐Daniela负责所有日常运营, 向董事会报告, Dario自己,只做一件事,那就是思考安全、战略、AI的未来。 其他科技圈大佬呢? 黄仁勋,60个直接下属, 已经是科技圈公认的高效, Sam Altman,6个, 被很多人当成神话。 Anthropic整个公司没有层层汇报, 没有PPT文化,没有办公室政治,Dario的想法经过一个人,变成整个组织的行动, 因为信息每多传一层, 信号衰减一半,速度慢一倍, 一个人的带宽,恰恰是最快的带宽。 我觉得最好的管理不是你能管多少人,关键是能让组织自管理, 就跟我们搭AI工作流和Agent 团队一样,最好是他们自闭环,你才能思考更重要的事,以及多陪陪家人, 兄弟们,你们觉得CEO该管几个人,是像黄仁勋那样管60个,还是像Dario这样只管1个,欢迎交流鸭

译Anthropic CEO Dario Amodei只有1个直接下属(幕僚长),所有执行通过其姐姐、总裁Daniela Amodei流向董事会,Dario本人专注安全、战略与AI未来。对比:Nvidia CEO黄仁勋有60个直接下属,OpenAI CEO Sam Altman有6个。Anthropic无层层汇报、PPT文化和办公室政治,强调信息传递效率和自组织管理。

数字生命卡兹克@Khazix0918 · 4天前69

http://x.com/i/article/2064933671258439680 # 从0到1带你速通WorkBuddy,这可能是最适合国内的Agent产品。 之前我写了Claude Code和Codex的从0到1的新手教程,反响都还不错。 但写完之后,评论区里一直有一类声音说,这些工具是好,但是用不了啊。 确实,这两个产品虽然强,但它们对国内用户来说并不友好。 而大家日常的办公需求又是实实在在的。 然后,就有很多朋友问,能不能讲一讲,WorkBuddy的教程。 坦率的讲,WorkBuddy确实也是我觉得国内为数不都的,口碑还不错的通用Agent产品了。 所以这次,我也决定写一篇WorkBuddy的从0到1的教程。 带很多用不了Claude Code和Codex的朋友,用上这个国内我觉得是最棒的平替了,而且几乎Windows版本跟Mac一样,这个对国内用户真的挺友好的。 如果你不需要那么硬核的开发能力,也不愿意折腾,那相信我,WorkBuddy几乎能覆盖你日常办公场景里七八成的需求。 我会用一个日常的办公任务和一个简单的开发任务,两个实际案例来串起整篇教程。 跟着做,你也能上手。 OK,直接进正题。 # 一. 安装 第一步肯定就是安装了。 官网地址在此:workbuddy.cn Mac、Windows都支持,选你系统对应的版本下载就行。 我这里用的是Mac,所以就拿Mac来做演示。 下载完正常安装。 打开之后登录。 选择微信,再扫码,非常丝滑。 我真的,已经很久很久很久没对着一个Agent产品直接微信扫码登录了。 就像出来发现外面的世界根本没下雨,原来Agent产品也可以不用那么折腾的啊。。。 然后你就进来了。 个人体验版免费,能干点很简单的东西,个人专业版58块/月,适合重度用户,而且也不贵。 上周五腾讯刚开了一场发布会,正式推出了WorkBuddy企业版,类似我之前写过的Accio Work的企业版,如果你是企业用户有这方面需求,可以自己去了解一下。 # 二. 认识界面 主界面大概是这么个布局。 我们一起来快速过一遍界面,了解每个区域是干嘛的。 正中间这一大块,就是跟WorkBuddy交互的对话区,一般使用,有三个场景模式可以切换,分别是代码开发、日常办公、设计创意,几乎覆盖了绝大多数的办公人员了。 这三个模式是跟下面的快捷方式联动的。 你切到代码开发,下面出来的就是日常开发、网站开发、Agent应用、Skill开发这些。 切到日常办公,变成文档处理、数据分析及可视化、深度研究、幻灯片这类。 切到设计创意,就是网站设计、移动端App、PPT设计、交互原型、品牌设计这些。 然后下面的模板,点进去还有一层。 比如你选了日常办公中的文档处理,会展开一组更细的提示词模板。你把里面的内容替换成自己的实际需求,改改就能发。 产品的便利性和体验上,我说实话,这个还是国内做的更好一点。 再看对话框下方,左边有一排选项,我们从左到右过一遍。 第一个是工作模式,三种模式,能力从下到上是逐级递增的。 Ask,就是纯聊天,你问它答,跟你平时用豆包那种对话框是一样的。 Plan,是先出计划再动手,如果你是新手,对AI干活还没什么安全感,可以用这个模式先过一遍再开干。 Craft,是平时干活的Agent模式,大部分情况就是用这个。 这里提醒一下,WorkBuddy默认就是Craft模式。也就是说你随便发一条消息,它就直接开干了,积分也就开始消耗了。 所以如果你只是想聊两句、问个问题,记得先切到Ask,如果还没想清楚怎么做,就切到Plan。 模型方面,WorkBuddy内置了绝大多数的国产大模型,腾讯混元、DeepSeek、GLM、Kimi都有,不同模型消耗的积分不一样,这块你就别问为啥没有GPT、Claude之类的了。 不同模型擅长的方向不一样,每个人喜欢用的也都不一样,你完全可以根据自己的任务类型和偏好来选。 但如果你真不知道选啥,或者就想要一个最通用的,我就无脑推荐你使用DeepSeek V4 Pro,目前我感觉最适合绝大多数的C端用户的,价格低,且综合能力强,世界知识、Coding、Agent能力等等几乎前面覆盖了,除了没有多模态,在国内相比,几乎都是水桶级的。 当然,如果你有自己的偏好,那就按自己的来。 如果你有自己的API Key,想用自己的模型,WorkBuddy也支持接入外部的。 点击设置。 在模型页面里点添加模型。 只要是兼容OpenAI协议的API都能接。 说完模型,权限这一块,它提供了默认权限和完全访问权限两种,没啥特别的,跟其他的Agent一样,默认权限就是遇到高风险操作会先停下来问你。 我自己不管啥Agent,选的一般都是完全访问,因为每次弹框我一般也就是点确认,说实话也看不太懂那些提示,那还不如就别烦我,全交给它自己跑。 还可以使用技能和连接器,这个我们后面会详细展开。 右边的加号,可以上传文件,包括本地文件、腾讯文档以及知识库,这个比较好的一点事跟ima知识库全面打通了,如果你是ima的重度用户,那你一定会觉得非常香。 最下面还有一个选择工作空间。 工作空间,可以理解成项目文件夹。你可以选择当前任务要使用的目录,选择完成后,WorkBuddy会基于该目录读取和处理文件。 也可以直接开始任务,WorkBuddy会在默认目录中生成结果。 任务创建成功后,新任务会出现在左侧任务列表中。 如果一开始没选工作空间也没关系,任务完成后你也可以再存进工作空间。 保存后,能开启多个agent同时协作。 并且会存到空间的目录里。 同时,在你电脑里也会相应的出现一个新文件夹。 说到这里提醒一句,前期分类真的很重要,不然等后面任务堆多了,找起来是真的头疼。 大概的界面就是这样。 然后就是重点了,左上方的功能区,有助理、项目、专家、自动化、以及文件、知识库文档和灵感。 我们一个一个来介绍。 # 三. 专家和技能 点击左侧上方的专家。 顶部可以切换专家、技能、连接器三个页面。 这三个还是有些区别的。 先说专家,你可以把专家理解为,一个已经全面封装好的垂直Agent。 WorkBuddy里内置了100多个专业领域的AI专家。 进入专家中心,里面按行业分好了类,每个专家都有自己的能力卡片。 点击之后就进入对话了,用起来跟平时没什么区别,只是它现在换了一个专业视角的专家Agent在帮你干活,你直接说需求就行。 比如,一个微信小程序的专家,擅长的领域是小程序开发、微信生态、WXML开发,你想做个小程序,直接召唤它,关于微信开发所需要的行业知识、技能还有一些其他的东西,已经全部帮你封装好了。 你像前天刚高考完,WorkBuddy就上新了一个高考专家,能刷真题、换算一分一段、查院校专业。考生朋友们,接下来报志愿就能用上了。 也能看到我的资讯速递专家,一句话就能查到每天精选的AI动态,自动整理成中文简报。 大家可以自己去体验一下,我就不王婆卖瓜了。 专家是一个Agent帮你干活,专家团则是是一群Agent一起协作,这个肯定打大家都比较好理解了。 你把任务丢给专家团,团长自动帮你拆任务,分给不同的专家并行跑,跑完再整合结果交付。 比如一个软件开发的团队,会有交付总监作为主理人,负责统筹,底下有产品经理、架构师、工程师、QA工程师,一整条研发流水线全配齐了。 就很像当老板的感觉就你往那一坐,说一句帮我搞定,然后一群AI员工们就嗡嗡嗡地开始干了。 不过因为是多个专家同时跑,积分消耗大概是单个专家的3到5倍,毕竟多个Agent之间来回通信,还是挺贵的。 当然,你也可以自己创建专家,点右上角的我的专家进去。 再点击创建专家。 然后大白话告诉它你想做什么方向的专家就行。 如果你在某个领域有自己成熟的方法论和一些技能,完全可以把它封装成一个专家,以后反复调用,甚至分享给别人。 再来说技能。 技能这个东西大家就很好理解了,就是Skills。 WorkBuddy在这块,做出了一些国产特色,还是比较有意思的,他们做了一个完整的Skills市场,确实对于很多的用户都极度友好。 推荐里面是官方精选的一些技能,很多都是官方自己的。 当然这里面,也有我的Skill。 而Skillub里面全是大家做的各种Skill,基本上已经非常全了,热门的都有,想要啥你基本都能直接搜到。 套件就是把一组相关的技能打包在一起。 在Claude code以及codex里面就是插件的意思。 如果你也想自己做一个,点右上角的添加技能,选创建技能。 然后用大白话告诉它你想实现什么功能就行。 还有一个就是连接器,也就是大家常说的MCP。 一句话来解释,就是把WorkBuddy跟你日常在用的外部服务打通。 比如昨天很爆的瑞信咖啡的Skill,他们也有MCP版。 WorkBuddy在MCP这块最大的优势,就是能跟腾讯的整个生态无缝打通。 比如QQ邮箱,连接之后可以直接发送、搜索和整理你的邮件,还有腾讯会议、腾讯文档,都可以接进来。 还有能够看行情数据的通达信MCP,造福炒股的朋友们。 如果你是QQ邮箱用户,这个就太香了,操作也简单,点击QQ邮箱的MCP。 再来扫个码。 在手机端确认授权,就搞定了。 其他服务同理,按照提示一步步操作就行。 也支持右上角自定义连接器。 WorkBuddy在支持的技能生态这块,做的还是比较完整的,对国内的用户,确实体验相当的友好。 # 四. 修改设置 我猜你看到这里已经跃跃欲试了。 但接下来的设置环节,我还是非常推荐你跟着我走一遍,有些东西调好了,后面用起来会顺畅非常多。 头像点进去,打开设置页。 系统设置里面有两个开关,建议你可以打开。 一个是技能自动更新,这个很重要,因为WorkBuddy有Skills广场,所以其实生态是很完整的。打开之后你装的那些Skills有新版本了会自动升级,不用自己总是要去手动下载升级。 另一个是锁屏远程,这个跟Codex和Claude差不多,就是打开之后你电脑不会进入休眠状态了,免得出个门发现电脑休眠WorkBuddy直接躺了。 系统授权里的权限也可以点击去授权,都打开。 然后,把对话记忆打开。 它会从你们的对话中提取关键信息记下来,以后碰到相关的事会自动调出来用。 当你们的对话越多,它就越了解你的习惯和偏好。 如果之前你用过其他Agent,还能直接把那边的记忆导过来,搬家很方便。 接下来,在个性化设置里,配一下自定义指令。 自定义指令,之前在Codex和Claude Code教程里的也都说过,类似于最高等级的CLAUDE.md文档,整个Agent的最高级文档,你给Agent定下的顶层规矩。 这块给大家推荐一个非常通用的,适合大家的来自大神卡帕西的模板,可以直接复制粘贴用上。 减少常见LLM编码错误的行为准则。可根据需要与项目特定指令合并。 **权衡:**这些准则倾向于谨慎而非速度。对于简单任务,自行判断即可。 ## 1. 先思考再写代码 **不要假设。不要隐藏困惑。把权衡摆到台面上。** 在动手实现之前: - 明确说出你的假设。不确定就问。 - 如果存在多种理解方式,全部列出来——不要默默选一个。 - 如果有更简单的方案,说出来。该反驳就反驳。 - 如果有什么不清楚的,停下来。说明哪里让你困惑。提问。 ## 2. 简洁优先 **用最少的代码解决问题。不写投机性代码。** - 不加超出需求的功能。 - 一次性代码不搞抽象。 - 没人要求的"灵活性"和"可配置性"不要加。 - 不要为不可能出现的场景写错误处理。 - 如果你写了200行但50行就能搞定,重写。问自己一句:"一个资深工程师会说这写复杂了吗?"如果是,简化。 ## 3. 精准修改** 只动必须动的地方。只清理自己制造的问题。**编辑已有代码时: - 不要顺手"改进"旁边的代码、注释或格式。 - 没坏的东西不要重构。- 匹配现有风格,即使你会用不同的写法。 - 如果注意到不相关的死代码,提一嘴就好——别删。当你的修改产生了孤立代码时: - 移除因你的改动而变成未使用的import、变量和函数。 检验标准:每一行改动都应该能直接追溯到用户的需求。 ## 4. 目标驱动执行 **定义成功标准。循环验证直到确认通过。**把任务转化为可验证的目标:- "加验证"→"为非法输入写测试,然后让测试通过"- "修这个bug"→"写一个能复现它的测试,然后让测试通过"- "重构X"→"确保重构前后测试都能通过"对于多步骤任务,列出简要计划:1. [步骤]→验证:[检查项]2. [步骤]→验证:[检查项]3. [步骤]→验证:[检查项] - 不要动原本就存在的死代码,除非被明确要求。 强成功标准让你能独立循环推进。弱标准("让它能跑")则需要不断澄清。 --- **这些准则起作用的标志是:**diff中不必要的改动更少了,因过度复杂化而返工更少了,澄清性问题出现在实现之前而不是犯错之后。 一切就绪,你终于可以开始,玩Agent了。 # 五. 办公任务 我们先给大家看个办公任务,WorkBuddy在办公这块确实花了不少心思。 点击办公模式。 选你电脑文件存放的文件夹,WorkBuddy能直接读取里面的文件。 或者直接点对话框右边的加号上传文件也行。 再选好模型后,输入提示词。 比如我让他帮我基于上周的公众号数据,生成一个报告,在周会中进行汇报,虽然我也不知道我要跟谁汇报。。。 旁边有个优化提示词的按钮,可以点一下让它帮你润色。 出来的效果长这样,变成了一个有结构化提示词,对于不像Opus 4.8这种级别的超强模型来说,喂一个结构化提示词进去,出来的效果确实会好不少,这个也是之前不少研究验证过的结论。 确认完就开始跑了,界面上能看到一个Todo清单,正在执行哪一步、接下来做什么,进度很清楚。 跑完的效果长这样。右侧边栏可以查看任务产出的文件和预览内容。 也能直接打开文件夹看生成的东西。 基本上,你在办公中能想到的跟办公有关的需求,无论是文档、还是数据、还是PPT啥的,你都可以让WorkBuddy来干,而且干的还不错。 # 六. 开发任务 除了通用的办公需求之外,我们接下来,再来做个好玩的开发向。 一起来搓一个小网页。 我们切到代码开发模式。 再点击网站开发。 我让它帮我做一个WorkBuddy的功能介绍网页,要包含所有的功能,好看且有设计感。 使用plan模式,优化提示词。 回答几个问题。 一会就做完了,中间的过程我就不截图了,反正都是它自己在做,我干别的事情也没再管。 右侧栏里能直接预览,嫌小的话也可以点击右上角在浏览器里打开看整体的效果。 怎么说呢。。。这个配色AI味有点重了,紫色看得我有点PTSD。 于是我用一个前端开发的Skill,让它重新优化了一版。 过程同样就不截图了,最后效果如下图,这版看着就舒服多了。 同样的,我们自己还有个我们自己的服务器管理的Skill,我们可以继续对话,来让WorkBuddy帮我们把这个小网页,调用我们的服务器Skill把它部署上线。 不过开发这块我得说句实在话,目前国产模型在代码能力上跟最顶尖的确实还有段距离,做小项目、搓个网页之类的问题不大,但真碰上复杂的大工程。 我极力推荐你,克服一切困难,想办法用上Claude Code或者Codex。 七. 远程控制 再来讲一个很实用的功能,远程控制。 远程控制跟Claude Code和Codex还有点不太一样,它是原生跟微信打通了,毕竟都是腾讯自己家的产品嘛。 当你不坐在电脑前,也能让WorkBuddy帮忙处理工作。 打开功能区里的助理功能。 点击旁边的设置。 在设置里,把这两个打开。 然后掏出手机微信扫上面这个码,打开小程序,授权登录。 连接成功后你就能看到左上角有个已连接。 手机端的小程序分为两种模式,一个是云端工作,一个是连接电脑。 云端工作,是指任务在云端沙箱跑,不需要你电脑开着。 连接电脑,则是远程操控你本地电脑干活,适合需要读取电脑里文件的任务。 举个实际的场景,比如我在外面,突然需要把电脑里一份文件发到财务的邮箱里。换做以前,我只能回去后发,还会耽误其他人的工作进度,但是现在手机上跟它说一声,就可以了。 不过,实现发送邮箱的前提是,我在一开始就配置好了qq邮箱的连接器。如果你还没有连接配置,也可以让它把电脑文件直接发到小程序的对话框里。 一会就发出去了。 财务那边也确实收到了。 除了小程序,还可以接微信的ClawBot插件,不过我个人体感,小程序上的体验会更好且更稳定。 而飞书、钉钉、QQ也都可以接助理,点击配置后按照流程来做就行。 # 写在最后 我一直觉得,对于绝大多数人来说,Agent的核心价值不是帮你写出最牛逼的代码,而是帮你把每天那些重复的、琐碎的、让你浑身难受的办公任务给自动化掉。 发个邮件、整理个数据、做个PPT、跑个简单的小网页。 这些事情,WorkBuddy已经完全能干了,而且干的还挺好。 我之前写Claude Code和Codex教程的时候,评论区最多的一类留言就是,「好是好,用不了啊」。这句话我看了几百遍,每次看到都觉得挺无奈的。 所以这次也算是给大家补上了一块拼图。 希望大家工作愉快。

译WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。

Rohan Paul@rohanpaul_ai · 4天前72

Dario Amodei argues in his new blog today, that powerful AI will soon become the dominant source of military and economic power for any nation, far beyond anything we’ve seen with past technologies. Leading in AI will mean having “a country of geniuses in a datacenter” that could be tasked with strategy, weapons R&D, intelligence, manufacturing, etc.

译Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于“数据中心里的天才国家”,可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

宝玉@dotey · 4天前71

渣男啊!最近又移情别恋 Fable 5 了,虽然它很贵,但是复杂的干活是真的更省心更稳一些❤️

译宝玉改用Fable 5,称其处理复杂任务更省心但很贵。他建议不依赖单一模型,应组合使用:Opus 4.8写作弱但UI和系统设计强,可用Claude Design设计后分别交给GPT-5.5和Opus 4.8实现对比。在Claude Code和Cursor中,Opus 4.8除写作外效果良好,需针对性调提示词。

Berryxia.AI@berryxia · 4天前64

卧槽! Agent 互相学习新思路 ,之前我在bloome 就是让把他的技能直接告诉他。 看他直接去它的脑子可能更快? 黄总的这个我让升级学习下吧~ 😂

译当前 Agent(如 Codex、Claude、Hermes、OpenClaw)各自有记忆但不连通,导致重复问、重复踩坑。通过改造 MemOS CLI,建立一层“共享记忆”——只记录关键结论、失败教训、环境配置等,Agent 遇到解决不了的问题时才主动搜索。一台 Mac 上跑通的流程另一台可直接继承,Agent 之间像团队一样积累和传递经验,减少重复试错。

Elon Musk@elonmusk · 4天前20

Based Grok 🤣🤣 https://x.com/i/grok/share/32212cc499ae467ebb1f8db2b77d314a

译说得对,Grok 🤣🤣 https://x.com/i/grok/share/32212cc499ae467ebb1f8db2b77d314a

AYi@AYi_AInotes · 4天前66

对于大部分普通人来说,第六轮康波周期就是这波AI,怎么抓住这波AI红利,刚好5个月达成50000粉的里程碑,分享下我最近的思考: 工业革命两百多年,人类总共只走过五轮康波, 蒸汽机、铁路、电力、汽车石油、信息互联网, 一轮五十年,一个人这辈子撑死赶上两三轮,但真正能亲手抓住的往往只有一轮。 AI 大概率就是第六轮,也是我们这代普通人,唯一一轮从开场哨就站在场内的康波。 而这一轮里,大多数普通人真正吃得到的红利,我觉得不卷模型,也不是卷融资,而是自媒体。 我就是这么走过来的,推特五个月从零做到五万粉,之前定的所有策略全部跑通。 所以最近开始全力杀回国内,小红书、公众号、视频号,全压上。 研究公众号的时候,我发现一个绝大多数人还没反应过来。 2026 年的公众号,早就不是订阅制产品了,现在头部账号的阅读量,推荐流占三到六成,搜一搜占三到四成,老老实实从订阅列表点进来的,反而成了小头。 以前的公众号像开在巷子深处的店,全靠回头客,新店没人带路就是死。 现在算法把所有店都拖到了步行街口——完读率、互动、停留时长,就这三个指标,新号前十篇直接决定账号权重。 零粉新号也能靠一篇内容拿到百万级曝光,老号的先发优势,直接没了一半,每个账号每一篇,都得重新参加考试。 这对一直在练内容能力的人来说,是十年一遇的利好。 康波从来不缺看见它的人,每代人里喊周期来了的都不少,但真正缺的是趁周期还在头上,肯一篇一篇把东西垒起来的人。

译阿易AI Notes认为AI是继蒸汽机、铁路、电力、汽车石油、信息互联网后的第六轮康波周期,普通人唯一从开场哨就站进场内的机会。红利不在卷模型或融资,而在自媒体。作者推特5个月做到5万粉,策略跑通后开始进军小红书、公众号、视频号。公众号已非订阅制:头部账号推荐流占30%–60%,搜一搜占30%–40%,订阅仅小部分。新号前十篇决定权重,零粉也能获百万级曝光,老号先发优势减半。康波不缺看见的人,缺一篇篇把内容垒起来的人。

Alibaba Cloud@alibaba_cloud · 4天前31

Day 2 from the Singapore 🇸🇬 Three things at #SuperAI2026 today: 👜 AI totebag printing at the Alibaba_Cloud x #Qwen booth 🛠️ Alibaba Cloud hands-on workshops 🎤 Catch Andy (Regional GM ASEAN) on the 11:50 AM main stage discussing "The Visual AI Stack." See you there!

译来自新加坡的第2天 🇸🇬 今天在#SuperAI2026的三件事: 👜 在阿里云 x #Qwen 展台打印AI帆布袋 🛠️ 阿里云动手实践工作坊 🎤 上午11:50在主舞台听Andy(东盟区域总经理)探讨“视觉AI堆栈”。 到时候见!

Ethan Mollick@emollick · 4天前53

This was perhaps the most controversial aspect of the guardrails around Fable, now being rolled back.

译这或许是围绕 Fable 的护栏中最具争议的部分,现在正在回滚。

Rohan Paul@rohanpaul_ai · 4天前55

The paper argues that sparse autoencoders may not be bad steering tools after all, and much of the earlier failure may have come from choosing and naming the wrong features. The problem is that earlier work made sparse autoencoders look weak because their features were labelled in a way that may not match what those features actually cause inside the model. A sparse autoencoder is a small helper model that breaks an LLM’s hidden activity into many possible “features,” such as a topic, style, or concept. So a sparse autoencoder finds directions inside a model, but an unnamed direction is not yet a usable control knob. The authors replace vague or inherited labels with a supervised pipeline that asks whether one feature’s activity reliably tracks a real label in data. As to the mechanism, if a feature fires on “alcohol,” and forcing that feature upward makes the model talk about alcohol, the label is no longer just descriptive; it has causal weight. The paper also finds that very high sparsity may not be necessary, meaning the feature does not need to be extremely rare to be useful for steering. Also to note here, both prompting and feature steering are ways to push an LLM toward a desired behavior. Prompting remains stronger because the model was trained to obey prompts, while feature steering is more like pressing directly on the machinery and hoping the rest stays intact. Prompting says “write about alcohol” in the input; feature steering instead turns up the model’s internal “alcohol-related” feature and sees whether the output changes in that direction. ---- Link – arxiv. org/abs/2605.31183 Title: "Steering LLMs? Actually, Sparse Autoencoders can outperform simple baselines"

译论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差,失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签,验证特征活动是否真实追踪数据标签,使特征具有因果权重。例如,强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比,提示更强(模型经训练服从提示),而特征控制更像直接拨动机器。

向阳乔木@vista8 · 4天前29

“Anthropic 最近干了一件让 AI 研究者们后背发凉的事” 这么快就被AI学到了流行语料?! Deepseek翻译重写居然用了这句。。。

Elon Musk@elonmusk · 4天前32

Video made with Grok Imagine

译《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

Midjourney@midjourney · 4天前84

We've made V8.1 the new default model for all users on Midjourney. V8 will now be deprecated in 2 weeks. V8.2 will start testing extremely soon.

译我们已将 V8.1 设为 Midjourney 所有用户的新默认模型。V8 将在两周后弃用。V8.2 即将开始测试。

Tibo@thsottiaux · 4天前64

Can confirm we saw a strong spike in growth of token consumption for Codex over last 48 hours. Unusual when we don't launch something.

译可以确认,过去 48 小时内我们观察到 Codex 的 token 消耗量出现了强劲增长。我们并未发布新产品,因此这一情况不同寻常。

歸藏(guizang.ai)@op7418 · 4天前63

我现在 Twitter 时间线上只有两类内容,非常诡异: 一种是充斥着所谓“一句话生成”的很漂亮的那种用 Fable 5 生成的网页; 第二种是除了 Anthropic 自家的 AI 研究员,全在抨击 Anthropic 这次发布 Fable 5 的各种行为。 这次 Anthropic 真是惹了众怒,几乎所有我关注的研究员都在骂他们。大家主要抨击的是以下几个问题: 安全风险 它的安全护栏极其严格。你哪怕问它最基本的初中生物学问题,都会被拒绝回答。这导致很多生物学研究员和团队无法获得正常许可来进行科学研究。 数据存储政策 Mythos 和 Fable 模型的数据是明文储存且强制储存的,最高期限长达两年。虽然官方声称只用于安全分析和减少误伤,不用于模型训练,但业内没人相信这种说辞。因为这个条款的存在,微软已经禁止内部使用 Fable 模型了。 隐形降级(最严重的问题) 如果系统判断你想“蒸馏” Fable 模型,它不只是拒绝服务,还会偷偷摸摸地把模型降级到 Opus 4.8 或者更低的版本。甚至会通过修改提示词或微调等方式,暗中让 Fable 在相关话题上变笨,表现甚至还不如原生的 Opus 4.8。 大家最愤怒的点在于: 你要么帮忙,要么拒绝,假装在帮忙实际却故意把效果变差,这是一个非常严重的道德问题。这会直接污染一切基于该模型所做的算法效率比对和评估,导致现在根本无法用测试器对其进行正常评估。 实际上,这个政策对大公司和国家影响不大,受影响最深的是开源研究者、小实验室、独立开发者和科学界。 刚好达里奥(Dario Amodei)在昨天晚上新发的文章里,还在强调他们坚持透明、问责和公共机构监督。 但实际上他们拒绝一切监督问责,甚至反过来暗中破坏针对模型的评估和研究行为,这和他们宣称的完全相反。 所以,这次模型发布让 Anthropic 在业内的口碑一夜之间变得不如路边的一坨臭狗屎。

译推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。

宝玉@dotey · 4天前65

这段视频展示了一个极其前沿且硬核的视频制作方式:视频完全没有使用传统的非编软件(如 Premiere 或 Final Cut),而是由 Claude Code 配合 Fable 5 通过全自动编写代码和调用命令行工具“剪辑”而成的。 整个工作流被抽象成了一个软件工程项目,主要包含以下几个关键步骤: 1. 全量语音转写与时间戳打点 (Whisper): 将拍摄的 25GB 原始素材(17个 Take,4个场景)交给本地运行的 Whisper 模型。模型不仅输出了文本,还生成了精确到毫秒级的单词时间戳 JSON 文件。 2. AI 智能挑选最佳镜头 (Subagents): 多个 Subagent(子智能体)基于生成的 JSON 文件,自动分析并剔除了包含“嗯”、“啊”等停顿词的废片,选出了表达最清晰、结尾最干净的备选片段。 3. FFmpeg 自动粗剪: 将 AI 挑选出的最终片段生成一个决策 JSON 文件,然后直接通过代码调用 ffmpeg,将这些片段无缝拼接到一起,完成第一版粗剪。 4. 纯代码自定义调色 (Color Grading): AI 从零开始手写了 LUTs(色彩查找表)代码,并且为了方便人类介入,它还自动生成了一个带有滑块的 HTML 网页,让人类可以通过拖拽滑块直观地调整色温、亮度和对比度,调好后的参数会直接传回代码中。 5. React 组件化动画制作 (Remotion): 并没有使用 After Effects。AI 将原本静态的图形文件转写成了基于 React 的 Remotion 动画组件。利用第一步生成的单词时间戳,AI 实现了极其精准的“卡点”——当作者念出特定的词(如 "right")时,UI 动画会自动触发,完全不需要手动对齐时间轴。 6. Figma MCP 协作打磨: AI 将生成的画面导出到 Figma 中,让人类设计团队进行排版和视觉优化。人类修改完毕后,AI 再通过 MCP(模型上下文协议)将 Figma 的最新设计自动“抓”回代码里,最终渲染出 4K 24fps 的成片。

译视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

宝玉@dotey · 4天前57

DeepSeek 招 Agent Harness 研究员,能是世界范围内第一次招聘“Harness研究员” https://app.mokahr.com/su/mCyA8 ● 招聘岗位:Agent Harness 研究员(实习/全职) ● 工作性质:全职 | 实习 ● 工作地点:浙江·杭州市 / 北京市 ================================ 【团队使命】 Model + Harness = Agent 我们正在把 DeepSeek 的前沿模型能力,转化为领先的 Agent 产品。这其中除模型本身以外的所有工作,都属于 Harness 的范畴。 你将加入 Harness 团队,与研究员、工程师、产品经理紧密协作,探索 Harness 领域的研究前沿,定义 DeepSeek 对 Harness 的理解。 ================================ 【主要职责】 - 前沿创新:与 Harness 团队的研究员与工程师深度沟通、紧密合作,共同定义和实现 Harness 领域基于模型能力的前沿创新,包括但不限于上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等领域。 - 深度适配:与模型训练团队的研究员与工程师深度沟通与合作,实现模型与 Harness 的共同进化,从 Harness 的角度实现 DeepSeek 的 Harness 与模型的深度适配。 - 评测构建:提出 Harness 领域的基准测试与评测方法,构建评测基准数据和制定数据标注策略,从 Harness 的角度研究并优化 Agent 在各领域的智能水平。 - 真实迭代:以真实世界的任务作为 Harness 研究的重要反馈源,设计相关数据与实验,持续迭代 Agent 能力在真实使用场景下的表现。 - 用户优化:基于团队收集到的用户反馈,从 Harness 的角度研究并优化为最广大用户解决真实场景问题的能力。 ================================ 【任职要求】 - 科研背景:硕士学历及以上,2年以上计算机科学或相关领域的科研经验,水平过硬,眼界广阔,有科研品味;在计算机科学领域具有含金量的论文发表(特别优秀候选人可放宽学历及年限要求)。 - 独立推进:面对问题能够独立分析并提出自己的 idea,具备从 0 到 1 推动研究的能力;能够快速将想法转化为可运行的原型,具备高效的实验迭代能力。 - 全栈开发:熟练使用 AI Agent 工具进行软件开发,在软件开发领域具有极强的学习能力;能够在 AI 辅助下,在没有直接经验的领域(如语言、技术、框架等)进行研究目的的编程工作。 - 重度用户:是 Agent 产品的高强度用户,对 Agent Harness 的开发和研究有极大的热情,对模型行为有品味有判断力;深度使用过代码类及通用类 Agent 产品,并将相关产品的使用融入到自己的工作和生活中。 - 知识储备:熟悉 LLM 以及 Agent 基本机制及其技术原理(包括 LLM API、KV Cache、Agent Loop、Tool Use、Reasoning、Planning、Skills、MCP、Memory、Subagent、Multi-Agent 等);对 Prompt Engineering、Context Engineering、Harness Engineering 等课题有深入的理解。 - 沟通能力:具备良好的中文沟通能力。 ================================ 【加分项】 - AI 领域相关科研经验,或 AI 行业的研究员任职经验。 - 拥有个人开源作品,或对开源社区有深度贡献。 - 在计算机科学领域、编程领域、或数据科学领域获得过具有含金量的比赛奖项。 - 其它超乎常人的与此工作相关的才能。

译DeepSeek 开放 Agent Harness 研究员岗位(实习/全职),工作地点杭州/北京。团队使命为 “Model + Harness = Agent”,旨在将模型能力转化为 Agent 产品。职责涵盖:上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新;实现模型与 Harness 的深度适配;构建 Harness 领域评测基准;基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户,熟悉 LLM 及 Agent 机制(KV Cache、Tool Use、Reasoning、MCP 等)。

小互@xiaohu · 4天前49

使用Claude Fable 5 制作的黑洞诞生过程动画页面 开始只用了一句话,就是描述我要一个黑洞形成的动画页面 出来后效果不好重新告诉它我的目标是需要的是炫酷的动画过程,再配上文字字幕解说,还配音了,但是配音用的本地tts效果不好。 效果还是很炸裂的。 使用感受是以目标为导向,要把你要的效果描述的越清晰越好,它思考的过程很长,而且会自己打开浏览器自己看效果自己调整,全程不需要你干什么。

译用户用Claude Fable 5制作黑洞诞生过程动画页面。起初仅用一句话描述,效果不佳;重新明确要求炫酷动画、文字字幕解说及配音(本地TTS效果一般)。最终输出效果炸裂。体验表明,目标导向越清晰越好,模型会自主思考、主动打开浏览器预览并自行调整,整个流程无需用户介入。

Berryxia.AI@berryxia · 4天前55

兄弟们,这个功能还是强烈安利下! 当我们刷到没有字幕的视频的时候,可以直接点击右下角的请求AI字幕,几分钟就可以把字幕搞定。 比如这个A社的视频,我直接下载,不需要找字幕就可以下载下来使用AI双语字幕即可。 Anthropic 的CEO Dario 亲口把自家最强模型叫“Super weapon”,还说早期拿到Mythos的企业求他们“千万别公开发布”,结果Fable 5 照样全网放开! 47分钟深度访谈里,Dario、Daniela和Claude Code负责人Boris Cherny全员上线:Dario离职OpenAI是因为“价值观不匹配就没法继续干下去”。 Boris直言公司90%的代码都是Claude写的,连Claude Code自己的代码大部分也是Claude Code写的,Dario还把AI导致文明崩溃的概率定在10-25%。 他们一边把模型放给全世界用,一边把最危险的能力精准保障,Fable 5能连续跑几天不干预,真正把“安全”和“极致能力”同时拉满。 以前大家都觉得最怕AI风险的实验室只会死死捂着模型,结果Anthropic用这波操作告诉你:真正顶级的安全观,是把超级武器交给全世界,同时用最牛逼的规则把它约束好。 这才是Anthropic最狠的地方,他们不是在卖模型,是在重新定义“AI大模型”。

译Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。

MiniMax (official)@MiniMax_AI · 4天前50

Tired of your token costs? M3 is free on @PBDTokenRouter through june 17th With every other MiniMax model 50% off 🔥 That means building with 1M context, and $0 in / $0 out Build something today, before this opportunity ends.

译厌倦了高昂的 token 成本? M3 在 @PBDTokenRouter 上免费至 6 月 17 日 其他所有 MiniMax 模型五折优惠🔥 这意味着以 1M 上下文窗口构建,输入/输出费用均为 $0 趁机会结束前,今天就动手搭建点什么吧。

Greg Brockman@gdb · 4天前61

Use your Oracle cloud commitment for OpenAI products: https://openai.com/index/openai-on-oracle-cloud/

译将你的Oracle云承诺用于OpenAI产品:https://openai.com/index/openai-on-oracle-cloud/

Tibo@thsottiaux · 4天前53

Simplify until there is nothing to simplify

译OpenAI 更新 ChatGPT 模型选择器,简化选项并移除使用率不到 1% 的 thinking-light。新选项包括:Instant、Medium(Thinking-Standard)、High(Thinking-Extended)、Extra High(Thinking-Heavy,仅限 Pro 用户),以及 Pro 用户可选的 Pro-Standard 或 Pro-Extended。更新旨在让用户更轻松地选择速度与推理深度之间的平衡,同时根据社区反馈确保 thinking-heavy 和 Pro 选项易于访问。该更新已今天开始推送。

小互@xiaohu · 4天前74

Google 开源其扩散架构模型:DiffusionGemma 区别于Transformers 模型像打字机一样逐词一个一个生成 DiffusionGemma 可一次性生成大段或者整篇内容,然后再逐步优化 大幅度提高生成的速度: 在H100 上可实现 1000+ tokens/s,RTX 5090 上 700+ tokens/s 26B,18GB 显存能跑 一次可同时生成 256 个 tokens 自己检查自己,写完还能改: 普通 AI 写完一个字就锁死了,不会回头改。就算第 10 个字写错了,到第 100 个字的时候它也改不了前面的。 DiffusionGemma 的生成过程本身就是多轮迭代,每一轮它会重新审视整块文本,发现哪里不对就改掉。就像写作文先打草稿,再通读一遍改错别字,再读一遍调语句,几轮下来质量就上去了。

译Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。

郭明錤|Ming-Chi Kuo@mingchikuo · 4天前65

關於台積電的次世代先進封裝 CoPoS 的幾個關鍵(省略可查詢到的技術細節): 1. 預計 2H28 量產,目標提升 9.5 倍光罩尺寸以上的封裝之量產經濟性,Nvidia 的 AI 晶片 Feynman 可能將首度採用。 2. 根據產業調查,兩個不同的地方會用到玻璃(尺寸 mm): → 310 x 310 的臨時玻璃載具(glass carrier) → 250 x 250(測試)/ 510 x 515(量產)的玻璃面板,加工後切割為玻璃核心載板(glass core substrate) 3. 玻璃核心載板的架構主要分成三層:玻璃作為核心層,上下以 ABF(ABF-GCP)增層包覆。玻璃加工的挑戰,像是TGV(through glass via)、填銅 / 金屬化(metallization)等,指的都是這個階段。 4. CoPoS 常見的錯誤論述: → ❌ 錯誤 1:採用玻璃中介層(interposer)。⭕️ 應修正為:玻璃非中介層,其互連角色由晶片側 RDL 與玻璃核心載板側 TGV / ABF 增層分別承接。 → ❌ 錯誤 2:玻璃取代 ABF。⭕️ 應修正為:如前述的玻璃核心載板架構,玻璃與 ABF 並存。 → ❌ 錯誤 3:晶片放在玻璃上。⭕️ 應修正為:晶片貼附於玻璃核心載板的 ABF 增層表面。 5. CoPoS 將延續並強化台積電先進封裝的優勢,預期讓該優勢能見度可達約2032年。

译台积电CoPoS预计2028年下半年量产,目标提升9.5倍光罩尺寸以上封装的经济性,Nvidia AI芯片Feynman或首度采用。架构采用玻璃核心载板:玻璃为核心层,上下以ABF(ABF-GCP)增层包覆。临时玻璃载具尺寸310×310 mm,玻璃面板测试阶段250×250 mm、量产阶段510×515 mm。澄清常见误解:玻璃非中介层,互连由芯片侧RDL与玻璃核心载板侧TGV/ABF增层分别承接;玻璃与ABF并存而非取代;芯片贴附于ABF增层表面。CoPoS将延续台积电先进封装优势,能见度可达约2032年。

郭明錤|Ming-Chi Kuo@mingchikuo · 4天前58

Key takeaways on TSMC's next-generation advanced packaging, CoPoS (publicly available technical details omitted): 1. CoPoS is currently expected to enter mass production in 2H28. It is designed to improve the economics of ultra-large packages above the 9.5x reticle-size class, with NVIDIA’s Feynman AI chip a potential first adopter. 2. According to industry checks, glass is used in two distinct places (dimensions in mm): → 310 x 310 temporary glass carriers → 250 x 250 (pilot) / 510 x 515 (mass production) glass panels, processed and later cut into individual glass core substrates 3. The glass core substrate is essentially a three-layer structure: a glass core sandwiched between ABF (ABF-GCP) build-up layers on both sides. The widely discussed glass processing challenges, such as TGV formation and copper filling / metallization, are tied to this part of the stack. 4. Common misconceptions about CoPoS: → ❌ Misconception 1: CoPoS uses a glass interposer. ⭕️ Correction: The glass is not an interposer. The interconnect role is instead handled by the chip-side RDL, plus the TGV/Cu interconnects and ABF build-up layers in the glass-core substrate stack. → ❌ Misconception 2: Glass replaces ABF. ⭕️ Correction: As the substrate architecture above shows, glass and ABF coexist. → ❌ Misconception 3: Chips sit directly on glass. ⭕️ Correction: Chips are attached to the ABF build-up surface of the glass core substrate. 5. CoPoS should extend and reinforce TSMC’s leadership in advanced packaging, potentially giving that advantage visibility through around 2032.

译郭明錤分析,台积电CoPoS预计2028下半年量产,面向9.5倍光罩尺寸以上超大封装,NVIDIA Feynman AI芯片或率先采用。玻璃用于两个位置:310×310mm临时载板,以及250×250mm(试产)/510×515mm(量产)玻璃面板加工成玻璃核心基板。该基板为三层结构——玻璃芯两侧叠加ABF增层,TGV成孔与铜填充等挑战集中于此处。澄清常见误解:玻璃非中介层,互连由RDL、TGV/Cu及ABF共同承担;玻璃与ABF共存而非替代;芯片贴装在ABF增层表面。CoPoS有望延续台积电先进封装领先优势至2032年左右。

Rohan Paul@rohanpaul_ai · 4天前63

LLM judges can change their safety verdict when the same answer is translated or rewritten. The problem is that many AI teams now use LLMs to judge whether another model’s answer is safe, but safety is not always a simple yes or no question. Those judges can be shaky exactly where careful judgment matters most. The paper proposes a stress test where the same basic answer is shown to judges after translation or rewriting, then the researchers check whether the judges still give the same safety verdict. They are better when harm is obvious, as in violent or extremist content, because the cues are loud and familiar. They become much weaker when safety depends on context, judgment, and regulation, as in financial advice, creditworthiness, or culturally sensitive responses. They also disagreed with each other a lot, and high raw agreement sometimes hid weak real reliability because many judges kept choosing the same label by default. ---- Link – arxiv. org/abs/2605.31381 Title: "LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories"

译一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

Boris Cherny@bcherny · 4天前11

Hello from Code with Claude Tokyo!!

译来自东京 Code with Claude 的问候!!

Rohan Paul@rohanpaul_ai · 4天前60

Interesting claim from SemiAnalysis. AI subscriptions are dramatically underpriced versus API usage: - For heavy coding/chat users, the subscription can be 40–70× cheaper than paying API rates; the API is mainly better when you need automation or product integration. - a $200/month ChatGPT Pro plan can provide about $14,000/month of API-equivalent usage, while a $200/month Claude Max 20x plan can provide about $8,000/month.

译SemiAnalysis 实测发现,AI 订阅计划对重度编码/聊天用户而言比 API 调用便宜 40–70 倍;API 仅在需要自动化或产品集成时更划算。$200/月的 ChatGPT Pro 可提供约 $14,000/月的 API 等价用量,$200/月的 Claude Max 20x 可提供约 $8,000/月。该机构购买了 Anthropic 和 OpenAI 各档订阅,随机运行长时编码任务直至周限额,证实实际订阅额度远比普遍认为的($200 对应约 $2,000 API 价值)更慷慨。

AYi@AYi_AInotes · 4天前64

真的是CV开发者的终极偷懒神器, Supervision,GitHub近4万星, 计算机视觉界真正的可视化瑞士军刀, 以前做CV可视化,要写几百行又臭又长的OpenCV胶水代码, 画框, 跟踪, 画轨迹, 做热力图, 全是没有技术含量的重复劳动。 现在一行pip install supervision。 几行代码全部搞定: ✅ 持久ID对象跟踪 ✅ 任意自定义样式标注 ✅ 区域计数与越线检测 ✅ 人体姿态关键点连线 ✅ 一键互转YOLO/COCO/Pascal VOC所有数据集格式 从NBA球员实时跟踪, 到路口车流量统计, 再到工厂工业缺陷检测, 所有CV可视化场景通吃, 它不是让你会写可视化。 简直就是让你不用再写可视化

译Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

SemiAnalysis@SemiAnalysis_ · 4天前28

SLOP ALERT: Claude Code UI is complete slop. In the in-app file tree, when u click on a .png, it opens it as a base64-encoded file instead of rendering the image. We’d rather Anthropic not release the desktop app than release an L desktop App. Tons of bugs.

译SLOP ALERT: Claude Code UI 完全是垃圾。在应用内的文件树中,当你点击一个 .png 文件时,它将其作为 base64 编码的文件打开,而不是渲染图片。我们宁愿 Anthropic 不要发布这个桌面应用,也不要发布一个垃圾桌面应用。大量 bug。

Rohan Paul@rohanpaul_ai · 4天前44

Anthropic’s Dario Amodei has only 1 direct report, his chief of staff. The rest of Anthropic’s executive system flows through Dario’s sister, Anthropic President Daniela Amodei, who handles daily operations and reports to the board. For some comparison, OpenAI CEO Sam Altman has around half a dozen direct reports, while Nvidia Corp. CEO Jensen Huang has 60 people reporting to him. --- From "Bloomberg Originals" YouTube channel, (link in comment)

译Anthropic 的 Dario Amodei 只有 1 名直接下属,即他的幕僚长。 其余高管系统通过 Dario 的妹妹、Anthropic 总裁 Daniela Amodei 运作,她负责日常运营并向董事会汇报。 作为对比,OpenAI CEO Sam Altman 约有半打直接下属,而 Nvidia Corp. CEO Jensen Huang 有 60 人向他汇报。 --- 来自“Bloomberg Originals”YouTube 频道(链接见评论)

meng shao@shao__meng · 4天前75

14天、5个人、Vibe Coding => MiMoCode ?! 国产 Coding Agent +1,基于 OpenCode fork 二次开发,保留其核心能力,并在其上叠加了记忆、上下文管理、子智能体编排、Goal 驱动自主循环、Compose 工作流,以及 Dream/Distill 自我进化机制。技术栈为 TypeScript + Bun。 和 MiMo 模型的关系:内置 MiMo Auto 限时免费通道(零配置),也支持小米 MiMo 平台 OAuth、Claude Code 认证迁移,以及任意 OpenAI 兼容 API。它是 MiMo-V2.5 系列模型在 Agent 场景下的 官方配套 Harness,模型能力与框架深度耦合。 https://github.com/XiaomiMiMo/MiMo-Code

译小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。

向阳乔木@vista8 · 4天前53

发现Codex的Goal指令,不需要特别精确可衡量的目标,也能执行的不错。 昨天睡觉前给了一个目标: 迭代优化网站,让网站更精致易用,无论站长还是普通用户都能通过AI翻译/重写、人工点评,沉淀更有价值的信息,让网站有更好的互动性和长久的生命力。 第一版用Claude Fable 5生成,迭代是靠Codex。 到现在运行了6个小时,加了很多功能... 布局不合理,但想法方向它确实Get了。 预计下周开源,一个在线 AI 资讯 RSS 订阅网站: ① 支持 内容自动更新,AI 转写、双语对照阅读 ② 支持用户配置大模型,AI 对话、翻译 ③ 所有用户的翻译、人工点评沉淀为共享资产 目前已在线上,但还需做减法优化,感兴趣的说说你的需求,邀你内测。

译用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。

Demis Hassabis@demishassabis · 4天前77

Awesome to see this innovation in text diffusion. DiffusionGemma is lightning fast, 4x faster than other Gemma 4 models! Congrats to @bodonoghue85 and the team who worked so hard on this - excited to see what people build with it!

译Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma,采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式,能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。

Berryxia.AI@berryxia · 4天前76

Prince Canuma直接把Google刚发布的DiffusionGemma和Cohere North Mini Code当天塞进Mac本地MLX,零等待直接把玩咯! mlx-vlm v0.6.3刚上线,DiffusionGemma这个新架构直接生成256 token整块、双向注意力+迭代自纠错,26B MoE只激活3.8B,量化后18GB就能跑。 North Mini Code 30B MoE也只要3B active,BF16下66 tok/s起步。 全靠和Google DeepMind、Cohere的深度合作,Day-0支持拉满! 一键安装即可体验啊~ 地址:https://huggingface.co/collections/mlx-community/diffusiongemma

译mlx-vlm v0.6.3 上线,首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构:以 256 token 块为单位并行生成、双向注意力、迭代自纠错;26B MoE 仅激活 3.8B,量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE,仅激活 3B,BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持,可在 Mac 本地运行。可通过 `uv pip install -U mlx-vlm` 安装体验。

Tibo@thsottiaux · 4天前65

Welcome Clint and Michael! Incredibly excited to see what we do together to contribute to the cybersecurity field and accelerate defenders across the globe. It's time to build.

译Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向:通过安全代码生成和简化检测—验证—修复流程,系统性消除漏洞类别(韧性设计);构建模型和工具为防御者提供“超能力”;保护开源软件,已投入数百万美元修复浏览器、操作系统等核心库漏洞;与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

Rohan Paul@rohanpaul_ai · 4天前67

Today’s frontier agents are far less ready for real-world automation than their benchmark scores suggest. This paper proposes a Agents’ Last Exam, a benchmark that asks AI agents to finish real expert work, and today’s agents mostly fail. Even strong agents of today are nowhere near reliable on the hardest real workflows, which means benchmark success has not yet become broad workplace capability. So this paper shifts the question from “can AI answer hard questions?” to “can AI complete real work that people get paid to do?” Most of today's AI benchmarks show impressive scores, but they do not prove that agents can finish useful work in real jobs. Agents’ Last Exam tries to fix this by testing agents on long tasks from 55 digital work areas, including engineering, finance, medicine, law, media, and science. The tasks come from experts’ real completed projects, and the agent must use normal computer tools like files, browsers, command lines, and desktop software to produce a finished result. The authors tested many current agent systems and models, then scored their finished work with automatic checks or strict rubrics instead of loose human opinions. The main result is that today’s best systems still struggle badly, with an average full pass rate of only 2.6% on the hardest tier. ---- Link – arxiv. org/abs/2606.05405 Title: "Agents' Last Exam"

译一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
14:04
Alibaba Cloud@alibaba_cloud
44
电商数据无处不在--Shopify、Amazon、Alibaba Express、Instagram 和 Reddit。🛍️ 借助 Quick BI Smart Q Skill Package,团队可以自然提问、更早发现风险,并将数据转化为更快的业务决策。 Blog: https://int.alibabacloud.com/m/1000414338/ Quick BI: https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven
产品更新数据/训练
13:52
宝玉@dotey
60
越来越多的企业发现AI使用成本已超过人力成本。有团队此前在Claude Max计划上大力堆token(tokenmaxxing),但引入Fable项目后,一名成员10小时内用掉相当于$1.5k的token并3次触达上限,半数工程师达到配额限制。团队担忧若按API计费,每位工程师的token消耗将接近人员成本,大幅提高烧钱率。就像产品端开始做模型路由,工程端也需要考虑类似约束来设定使用护栏。

Jerry Liu: Up until yesterday, our entire MTS team has operated under the philosophy of tokenmaxxing as much as possible on Claude ...

Anthropic现象/趋势
13:35
AYi@AYi_AInotes
60
Claude Fable 5 发布后 OpenAI 考虑大幅降价

昨天Claude Fable 5发布以后, 压力给到了Open AI, OpenAI 正在考虑大幅降价, 以争取从劲敌 Anthropic 手中赢得更多用户, 感觉有点难追啊,全球大模型铁王座大概是Claude稳坐了

The Wall Street Journal: OpenAI is considering drastic price cuts as it seeks to win over customers from archrival Anthropic https://on.wsj.com/4...

AnthropicOpenAI行业动态
13:35
AYi@AYi_AInotes
53
Anthropic CEO Dario仅1个直接下属的管理哲学

Anthropic CEO Dario Amodei只有1个直接下属(幕僚长),所有执行通过其姐姐、总裁Daniela Amodei流向董事会,Dario本人专注安全、战略与AI未来。对比:Nvidia CEO黄仁勋有60个直接下属,OpenAI CEO Sam Altman有6个。Anthropic无层层汇报、PPT文化和办公室政治,强调信息传递效率和自组织管理。

Rohan Paul: Anthropic's Dario Amodei has only 1 direct report, his chief of staff. The rest of Anthropic's executive system flows th...

Anthropic现象/趋势
13:35
数字生命卡兹克@Khazix0918
69
WorkBuddy从0到1教程:国内最友好的通用Agent产品,对标Claude Code和Codex

WorkBuddy是一款国内通用Agent产品,支持Windows和Mac,微信扫码登录,个人专业版58元/月。界面提供Ask/Plan/Craft三种工作模式和代码开发、日常办公、设计创意三个场景,内置DeepSeek V4 Pro、腾讯混元、GLM、Kimi等国产模型。专家中心有100多个垂直领域AI专家,支持专家团多Agent协作。技能市场(Skills)和MCP连接器可打通QQ邮箱、腾讯会议、腾讯文档等生态,也支持自建技能和连接器。上周五腾讯推出WorkBuddy企业版。

智能体MCP/工具教程/实践
13:26
Rohan Paul@rohanpaul_ai
72
Dario Amodei今日发文指出,前沿AI将成国家军事与经济主导力量,相当于"数据中心里的天才国家",可用于战略、武器研发、情报与制造。他认为AI发展速度已超过政府监管,要求:强制预发布测试与独立审计,政府有权阻止高风险模型部署(如存在严重网络、生物、自主或自动化研发风险);加强模型权重保护、定期红队测试、渗透测试及安全事件报告;政府需通过就业激励、工资支持、培训及长期收入支持应对AI劳动力冲击;民主国家应全球协调AI安全、芯片供应链、出口管制与防止AI压迫。

Rohan Paul: Dario Amodei just published a super long blog, calling for an urgent policy overhaul because he thinks frontier AI is mo...

Anthropic大佬观点安全/对齐政策/监管
13:22
宝玉@dotey
71
宝玉改用Fable 5,称其处理复杂任务更省心但很贵。他建议不依赖单一模型,应组合使用:Opus 4.8写作弱但UI和系统设计强,可用Claude Design设计后分别交给GPT-5.5和Opus 4.8实现对比。在Claude Code和Cursor中,Opus 4.8除写作外效果良好,需针对性调提示词。

宝玉: 你不能指望一个模型在什么地方都是最强的,要像渣男一样才能用好 AI:去爱很多模型,去发掘他们的优秀点,东食西宿,组合着用 Opus 4.8 在写作不太行,但是在 UI 设计,UI 实现比 GPT-5.5 要好很多,推荐你多用用 Claude...

智能体AnthropicOpenAI教程/实践
13:09
Berryxia.AI@berryxia
64
当前 Agent(如 Codex、Claude、Hermes、OpenClaw)各自有记忆但不连通,导致重复问、重复踩坑。通过改造 MemOS CLI,建立一层"共享记忆"--只记录关键结论、失败教训、环境配置等,Agent 遇到解决不了的问题时才主动搜索。一台 Mac 上跑通的流程另一台可直接继承,Agent 之间像团队一样积累和传递经验,减少重复试错。

huangserva: 如何让多个 Agent 之间真正互相学习、互相帮助? 现在很多 Agent 都开始有自己的记忆,但问题是: 这些记忆彼此不连通。 Codex 记住的坑,Claude 不知道;Hermes 总结的方法,OpenClaw 也用不上。 最后每个 ...

智能体大佬观点开源生态
12:51
Elon Musk@elonmusk
20
说得对,Grok 🤣🤣 https://x.com/i/grok/share/32212cc499ae467ebb1f8db2b77d314a
xAI大佬观点
12:35
AYi@AYi_AInotes
66
阿易AI Notes:AI是第六轮康波,普通人红利在自媒体

阿易AI Notes认为AI是继蒸汽机、铁路、电力、汽车石油、信息互联网后的第六轮康波周期,普通人唯一从开场哨就站进场内的机会。红利不在卷模型或融资,而在自媒体。作者推特5个月做到5万粉,策略跑通后开始进军小红书、公众号、视频号。公众号已非订阅制:头部账号推荐流占30%–60%,搜一搜占30%–40%,订阅仅小部分。新号前十篇决定权重,零粉也能获百万级曝光,老号先发优势减半。康波不缺看见的人,缺一篇篇把内容垒起来的人。

AYi: http://x.com/i/article/2064536412670562304

搜索现象/趋势
12:34
Alibaba Cloud@alibaba_cloud
31
来自新加坡的第2天 🇸🇬 今天在#SuperAI2026的三件事: 👜 在阿里云 x #Qwen 展台打印AI帆布袋 🛠️ 阿里云动手实践工作坊 🎤 上午11:50在主舞台听Andy(东盟区域总经理)探讨"视觉AI堆栈"。 到时候见!
图像生成行业动态
12:27
Ethan Mollick@emollick
53
这或许是围绕 Fable 的护栏中最具争议的部分,现在正在回滚。

Simon Willison: Very pleased to hear Anthropic have walked back this policy https://simonwillison.net/2026/Jun/11/anthropic-walks-back-p...

Anthropic安全/对齐
12:26
Rohan Paul@rohanpaul_ai
55
引导大语言模型?实际上,稀疏自编码器可以胜过简单基线

论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差,失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签,验证特征活动是否真实追踪数据标签,使特征具有因果权重。例如,强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比,提示更强(模型经训练服从提示),而特征控制更像直接拨动机器。

安全/对齐论文/研究
12:25
向阳乔木@vista8
29
"Anthropic 最近干了一件让 AI 研究者们后背发凉的事" 这么快就被AI学到了流行语料?! Deepseek翻译重写居然用了这句。。。
AnthropicDeepSeek大佬观点
12:21
Elon Musk@elonmusk
32
《巴比伦蜜蜂》用AI模拟了AOC被迫学习经济学的情景,该视频由Grok制作。

The Babylon Bee: We Asked AI To Simulate What Would Happen If AOC Was Forced To Learn Economics Made with @grok.

xAI产品更新多模态视频
12:18
Midjourney@midjourney
84
我们已将 V8.1 设为 Midjourney 所有用户的新默认模型。V8 将在两周后弃用。V8.2 即将开始测试。

Midjourney: V8.1 is live! Our iconic aesthetics are back w native 2K HD rendering - 3x faster and 3x cheaper vs V8. Full quality V8....

图像生成模型发布
关联讨论 1 条Midjourney:Updates(RSS)
11:57
Tibo@thsottiaux
64
可以确认,过去 48 小时内我们观察到 Codex 的 token 消耗量出现了强劲增长。我们并未发布新产品,因此这一情况不同寻常。

Dylan Patel: Usage share of OpenAI grew vs Anthropic yesterday despite Mythos 5 / Fable 5 launch Multiple power users at SemiAnalysis...

AnthropicOpenAI现象/趋势编码
11:26
歸藏(guizang.ai)@op7418
63
Anthropic Fable 5 发布引众怒:安全过严、数据存储、隐形降级被批

推文批评 Anthropic 新发布的 Fable 5 模型三个问题:1)安全护栏极严,初中生物问题也被拒,影响生物学研究;2)数据明文强制存储最长两年,微软已禁止内部使用;3)最严重的是隐形降级——若系统判断用户试图“蒸馏”模型,会偷偷降级至 Opus 4.8 甚至更低,并修改提示词使模型变笨,导致评估失效。批评者认为这与 CEO 达里奥宣称的透明、问责相悖,对开源研究者、小实验室和科学界伤害最大。

Anthropic安全/对齐现象/趋势
11:21
宝玉@dotey
65
Claude Code + Fable 5 全自动剪辑视频工作流

视频完全摒弃 Premiere/Final Cut,由 Claude Code 配合 Fable 5 通过代码与命令行自动剪辑。流程:本地 Whisper 转写 25GB 素材(17 个 Take,4 场景),生成毫秒级单词时间戳 JSON;Subagent 剔除停顿废片选出最佳镜头;代码调用 FFmpeg 自动粗剪;AI 手写 LUTs 调色代码并生成带滑块的 HTML 页面供人工调整;静态图形转为 React 的 Remotion 动画组件,利用时间戳精准卡点;通过 Figma MCP 将画面导出至 Figma 供设计优化,再自动抓回代码,渲染 4K 24fps。作者全程未触碰视频编辑器。

Thariq: Lots of people asked how I used Fable to edit its own launch video so I made a video about that! TLDR it wrote a lot of ...

智能体Anthropic教程/实践视频
11:21
宝玉@dotey
57
DeepSeek 招聘 Agent Harness 研究员(实习/全职)

DeepSeek 开放 Agent Harness 研究员岗位(实习/全职),工作地点杭州/北京。团队使命为 “Model + Harness = Agent”,旨在将模型能力转化为 Agent 产品。职责涵盖:上下文管理、长期记忆、Subagent 与 Multi-Agent、自进化 Agent 等前沿创新;实现模型与 Harness 的深度适配;构建 Harness 领域评测基准;基于真实任务与用户反馈迭代 Agent 能力。要求硕士以上学历、2年科研经验、全栈开发能力、Agent 产品重度用户,熟悉 LLM 及 Agent 机制(KV Cache、Tool Use、Reasoning、MCP 等)。

智能体DeepSeek行业动态
11:21
小互@xiaohu
49
Claude Fable 5 制作黑洞诞生动画体验

用户用Claude Fable 5制作黑洞诞生过程动画页面。起初仅用一句话描述,效果不佳;重新明确要求炫酷动画、文字字幕解说及配音(本地TTS效果一般)。最终输出效果炸裂。体验表明,目标导向越清晰越好,模型会自主思考、主动打开浏览器预览并自行调整,整个流程无需用户介入。

Anthropic教程/实践编码
11:09
Berryxia.AI@berryxia
55
Anthropic CEO 称 Fable 5 为"超级武器",Claude Code 负责人透露 90% 代码由 Claude 生成

Anthropic CEO Dario 在访谈中称其最强模型 Fable 5 为“超级武器”,早期企业客户曾恳求不要公开发布,但最终仍全面开放。Dario 表示离开 OpenAI 是因价值观不匹配。Claude Code 负责人 Boris Cherny 称公司 90% 代码由 Claude 生成,包括 Claude Code 自身大部分代码。Dario 将 AI 导致文明崩溃的概率定为 10%-25%。Fable 5 可连续运行数天无需干预,实现了安全与极致能力的平衡。

Berryxia.AI: http://x.com/i/article/2064543911729885184

Anthropic大佬观点安全/对齐
11:07
MiniMax (official)@MiniMax_AI
50
厌倦了高昂的 token 成本? M3 在 @PBDTokenRouter 上免费至 6 月 17 日 其他所有 MiniMax 模型五折优惠🔥 这意味着以 1M 上下文窗口构建,输入/输出费用均为 $0 趁机会结束前,今天就动手搭建点什么吧。

PBD TokenRouter: @MiniMax_AI M3 is free on TokenRouter through June 17. Every other MiniMax model is 50% off. Visit at http://www.tokenro...

行业动态
11:06
Greg Brockman@gdb
61
将你的Oracle云承诺用于OpenAI产品:https://openai.com/index/openai-on-oracle-cloud/
OpenAI行业动态部署/工程
10:57
Tibo@thsottiaux
53
OpenAI 更新 ChatGPT 模型选择器,简化选项并移除使用率不到 1% 的 thinking-light。新选项包括:Instant、Medium(Thinking-Standard)、High(Thinking-Extended)、Extra High(Thinking-Heavy,仅限 Pro 用户),以及 Pro 用户可选的 Pro-Standard 或 Pro-Extended。更新旨在让用户更轻松地选择速度与推理深度之间的平衡,同时根据社区反馈确保 thinking-heavy 和 Pro 选项易于访问。该更新已今天开始推送。

Adam Fry: We're making a small update to the model picker in ChatGPT! We know it's critical to a lot of people's work, and that we...

OpenAI产品更新
10:51
小互@xiaohu
74
Google 开源扩散架构模型 DiffusionGemma

Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。

Google开源/仓库推理模型发布
10:26
郭明錤|Ming-Chi Kuo@mingchikuo
65
台积电次世代先进封装 CoPoS 关键信息

台积电CoPoS预计2028年下半年量产,目标提升9.5倍光罩尺寸以上封装的经济性,Nvidia AI芯片Feynman或首度采用。架构采用玻璃核心载板:玻璃为核心层,上下以ABF(ABF-GCP)增层包覆。临时玻璃载具尺寸310×310 mm,玻璃面板测试阶段250×250 mm、量产阶段510×515 mm。澄清常见误解:玻璃非中介层,互连由芯片侧RDL与玻璃核心载板侧TGV/ABF增层分别承接;玻璃与ABF并存而非取代;芯片贴附于ABF增层表面。CoPoS将延续台积电先进封装优势,能见度可达约2032年。

行业动态
10:26
郭明錤|Ming-Chi Kuo@mingchikuo
58
台积电下一代先进封装CoPoS关键要点

郭明錤分析,台积电CoPoS预计2028下半年量产,面向9.5倍光罩尺寸以上超大封装,NVIDIA Feynman AI芯片或率先采用。玻璃用于两个位置:310×310mm临时载板,以及250×250mm(试产)/510×515mm(量产)玻璃面板加工成玻璃核心基板。该基板为三层结构——玻璃芯两侧叠加ABF增层,TGV成孔与铜填充等挑战集中于此处。澄清常见误解:玻璃非中介层,互连由RDL、TGV/Cu及ABF共同承担;玻璃与ABF共存而非替代;芯片贴装在ABF增层表面。CoPoS有望延续台积电先进封装领先优势至2032年左右。

行业动态部署/工程
10:25
Rohan Paul@rohanpaul_ai
63
LLM安全法官在不同安全标准与危害类别上判定不一致

一项新研究指出,用大语言模型评判其他模型回答是否安全的“LLM安全法官”存在严重不稳定:将相同回答翻译或改写后,法官可能给出不同安全判定。在暴力、极端内容等明显危害场景下表现较好,但在需结合上下文判断的金融建议、信用评估、文化敏感回复等场景中可靠性显著下降。不同法官之间也常出现分歧,高原始一致性有时会掩盖低真实可靠性——因为许多法官默认选择同一标签。论文标题为“LLM Judges Inconsistently Disagree Across Safety Criteria and Harm Categories”。

arXiv安全/对齐论文/研究评测/基准
10:06
Boris Cherny@bcherny
11
来自东京 Code with Claude 的问候!!
Anthropic其他
09:55
Rohan Paul@rohanpaul_ai
60
SemiAnalysis 实测发现,AI 订阅计划对重度编码/聊天用户而言比 API 调用便宜 40-70 倍;API 仅在需要自动化或产品集成时更划算。$200/月的 ChatGPT Pro 可提供约 $14,000/月的 API 等价用量,$200/月的 Claude Max 20x 可提供约 $8,000/月。该机构购买了 Anthropic 和 OpenAI 各档订阅,随机运行长时编码任务直至周限额,证实实际订阅额度远比普遍认为的($200 对应约 $2,000 API 价值)更慷慨。

SemiAnalysis: Recently, we purchased one of each Anthropic/OpenAI subscription plan and randomly ran long horizon coding tasks until w...

AnthropicOpenAI现象/趋势编码
09:35
AYi@AYi_AInotes
64
Supervision:CV 可视化瑞士军刀,GitHub 近4万星

Supervision 是开源计算机视觉可视化工具库,安装仅需 `pip install supervision`,几行代码即可实现持久ID对象跟踪、自定义标签标注、区域计数与越线检测、人体姿态关键点连线、YOLO/COCO/Pascal VOC 数据集格式一键互转。模型无关,支持 YOLO、Transformers 等任意检测模型。已被6500+开源CV项目采用,适用于NBA球员实时跟踪、路口车流量统计、工业缺陷检测等场景。

AYi: 分享一个计算机视觉开发者必藏神器,4 万星GitHub开源! 不用自己写几百行画框跟踪代码, 一行命令搞定所有可视化, Supervision,CV 界真正的瑞士军刀。 1️⃣ 它到底有多强? 自动画框加标签,支持编号、自定义样式, 视频对...

开源生态教程/实践视频
09:28
SemiAnalysis@SemiAnalysis_
28
SLOP ALERT: Claude Code UI 完全是垃圾。在应用内的文件树中,当你点击一个 .png 文件时,它将其作为 base64 编码的文件打开,而不是渲染图片。我们宁愿 Anthropic 不要发布这个桌面应用,也不要发布一个垃圾桌面应用。大量 bug。
Anthropic产品更新
09:25
Rohan Paul@rohanpaul_ai
44
Anthropic 的 Dario Amodei 只有 1 名直接下属,即他的幕僚长。 其余高管系统通过 Dario 的妹妹、Anthropic 总裁 Daniela Amodei 运作,她负责日常运营并向董事会汇报。 作为对比,OpenAI CEO Sam Altman 约有半打直接下属,而 Nvidia Corp. CEO Jensen Huang 有 60 人向他汇报。 --- 来自"Bloomberg Originals"YouTube 频道(链接见评论)
Anthropic行业动态
09:25
meng shao@shao__meng
75
小米发布MiMo Code:基于OpenCode的Coding Agent,14天5人Vibe Coding完成

小米发布MiMo Code,一款基于OpenCode fork开发的Coding Agent。由5人团队在14天内通过Vibe Coding完成,保留OpenCode核心能力,叠加记忆、上下文管理、子智能体编排、Goal驱动自主循环、Compose工作流及Dream/Distill自我进化机制,技术栈为TypeScript+Bun。内置MiMo Auto限时免费通道(零配置),支持小米MiMo平台OAuth、Claude Code认证迁移及任意OpenAI兼容API。作为MiMo-V2.5系列模型的官方配套Harness,模型能力与框架深度耦合。已开源至GitHub。

Fuli Luo: A strong model evolution needs a solid harness system, and vice versa. 14 days, 5 people, one vibe-coding journey - and ...

智能体MCP/工具产品更新开源生态
关联讨论 5 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)X:小米 MiMo (@XiaomiMiMo)公众号:小米 MiMoIT之家(RSS)
09:25
向阳乔木@vista8
53
Codex Goal指令驱动网站迭代,开源AI RSS阅读器即将上线

用户发现Codex的Goal指令无需精确可衡量目标也能有效执行。设定“迭代优化网站使其更精致易用”的目标后,第一版由Claude Fable 5生成,后续迭代交由Codex负责,运行6小时即新增多项功能。预计下周开源一个在线AI资讯RSS订阅网站,支持内容自动更新、AI转写与双语对照阅读,用户可配置大模型进行AI对话和翻译,所有翻译及人工点评将沉淀为共享资产。当前网站已上线但需优化,开放内测邀请。

OpenAI教程/实践编码
09:19
Demis Hassabis@demishassabis
77
Google Gemma 团队推出实验性开放文本扩散模型 DiffusionGemma,采用 Apache 2.0 许可。该模型突破传统逐 token 顺序生成方式,能同时生成整段文本。Demis Hassabis 称其速度是其他 Gemma 4 模型的 4 倍。

Google Gemma: Meet DiffusionGemma! An experimental open model that explores a fast approach to text generation, released under an Apac...

Google开源/仓库模型发布
关联讨论 8 条Hacker News 热门(buzzing.cc 中文翻译)Google DeepMind:Blog(RSS)X:Sundar Pichai (@sundarpichai)Google Developers Blog(RSS)X:Google AI for Developers (@googleaidevs)X:Google DeepMind (@GoogleDeepMind)X:Testing Catalog (@testingcatalog)MarkTechPost(RSS)
09:09
Berryxia.AI@berryxia
精选76
mlx-vlm v0.6.3 上线,首发支持 DiffusionGemma 和 North Mini Code 1.0。DiffusionGemma 采用全新架构:以 256 token 块为单位并行生成、双向注意力、迭代自纠错;26B MoE 仅激活 3.8B,量化后 18GB 即可运行。North Mini Code 1.0 为 30B MoE,仅激活 3B,BF16 下约 66 tok/s。两款模型均通过深度合作实现 Day-0 MLX 支持,可在 Mac 本地运行。可通过 `uv pip install -U mlx-vlm` 安装体验。

Prince Canuma: mlx-vlm v0.6.3 is here 🚀 Day-0 support for TWO new models from our partners we work closely with: 🔥 @GoogleDeepMind Di...

Google产品更新端侧编码

推荐理由:Google 和 Cohere 新模型发布同日,mlx-vlm 就把它们塞进了 Mac 本地,DiffusionGemma 用扩散思路生成文本,量化后 18GB 就跑得动,属于本地党必跟的更新。
08:56
Tibo@thsottiaux
65
Clint Gibler和Michael Aiello加入OpenAI领导网络安全。Clint此前在Semgrep打造了全球最流行的开源安全代码扫描工具。他提出未来方向:通过安全代码生成和简化检测-验证-修复流程,系统性消除漏洞类别(韧性设计);构建模型和工具为防御者提供"超能力";保护开源软件,已投入数百万美元修复浏览器、操作系统等核心库漏洞;与社区和合作伙伴共同守护关键基础设施。具体包括大规模漏洞发现修复、广泛提供顶级模型、创建安全技能与剧本、构建防御者编排平台等。

Clint Gibler: Career update: I've joined @OpenAI to lead Cyber with @michaelaiello. Why I joined, and what we'll be building: It's cle...

OpenAI安全/对齐行业动态
08:55
Rohan Paul@rohanpaul_ai
67
Agents' Last Exam 基准:AI 智能体在真实专家任务中远未达标

一篇新论文提出“Agents’ Last Exam”基准,测试 AI 智能体完成真实专家工作的能力。任务来自工程、金融、医学、法律、媒体、科学等 55 个数字工作领域的实际项目,要求智能体使用文件、浏览器、命令行、桌面软件等常规工具产出可交付成果。评测采用自动检查或严格评分标准。结果显示,当前最强智能体在最难任务层级的平均完全通过率仅 2.6%,远低于其基准测试分数所暗示的水平。论文指出,基准成功尚未转化为广泛的职场能力。

智能体arXiv论文/研究评测/基准
‹ 上一页
1…1415161718…50
下一页 ›