AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 9311 条
全部一手资讯X论文
fofr@fofrAI · 6月3日18

That feeling of being trapped in latent space

译用户指令要求修改屏幕,使其显示为正在打FaceTime电话。主推文感叹:被困在潜在空间中的那种感觉。

查看原推 ↗
SenseTime@SenseTime_AI · 6月3日73

A plain sneaker image went in. Marketing visuals came out. #SenseNova U1 — see, think, create — all in one model. #OpenSourced. This is the architecture shift people keep talking about. Shoutout @AiLockup for the demo 🔥 🎥Watch the video: https://youtu.be/9IFgPqMWBGg Try it today: 🎛️ SenseNova Studio: https://unify.light-ai.top/ (Try infographics; also join Discord for text-image interleaved gen) 🤗 https://huggingface.co/collections/sensenova/sensenova-u1 🛠️ https://github.com/OpenSenseNova/SenseNova-U1 👾 Discord: https://discord.com/invite/BuTXPHmQub @huggingface @github

译商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

查看原推 ↗
Nathan Lambert@natolambert · 6月3日40

A key lesson of the last year of building open models, once it became so obvious the US is behind, is that talk is cheap. Many people say they're helping / want to help but actually don't do anything. Finding the few people who genuinely push open forward is crucial.

译过去一年构建开放模型的一个关键教训,当美国明显落后这一点已变得如此清晰时,就是空谈是廉价的。 许多人说他们在帮助/想要帮助,但实际上什么都没做。找到那些真正推动开放进步的人是至关重要的。

查看原推 ↗
DogeDesigner@cb_doge · 6月3日49

Grok Imagine is pretty cool for product marketing. Turn a quick phone photo into a professional ad in seconds.

译Grok Imagine 在产品营销方面相当不错。 将手机随手拍的照片在几秒钟内变成专业广告。

查看原推 ↗
向阳乔木@vista8 · 6月3日63

Codex 小技巧:一台电脑远程指挥另一台写代码 如果你多台电脑都安装了 Codex,且登录ChatGPT账号。 可以在设置 -> 连接 -> 控制其他设备,添加其他电脑。 这样设置后,本机创建项目时,能选添加远程项目。 比如远程控制家里电脑中的Codex工作。

译若多台电脑均安装 Codex 并登录同一 ChatGPT 账号,可在设置 -> 连接 -> 控制其他设备中添加其他电脑。之后本机创建项目时即可选择添加远程项目,例如远程控制家中电脑上的 Codex 进行代码编写。该功能无需额外配置,利用账号同步实现跨设备协作。

查看原推 ↗
Baidu Inc.@Baidu_Inc · 6月3日23

An 8-year-old built a working app with no code. What did it solve? A very real school problem: it's raining after class, and someone forgot their umbrella. Puman described his idea to Miaoda in plain language, and Dada Umbrella was born. Check out what he made ↓

译一个8岁孩子用无代码工具构建了一个可运行的App。 它解决了什么?一个非常真实的学校问题:课后下雨了,有人忘了带伞。 普曼用日常语言向Miaoda描述了他的想法,于是Dada Umbrella诞生了。 看看他做了什么↓

查看原推 ↗
fofr@fofrAI · 6月3日55

> Change the screen so it shows that she's on a facetime call

译更改屏幕,使其显示她在FaceTime通话中。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 6月3日72

Capafy has released 5 pre-made e-commerce Skills, each built by an operator who has spent years on the store-side front line, with their hands-on playbook packaged into an agent that anyone can now run. The set covers 👀 > Commerce Video Ad Maker > Amazon Listing Image Generator > Paid Ads Diagnose > Amazon Listing Fix Kit > Amazon/TikTok/eBay SOP Generator

译Capafy 推出 5 个预制电商技能,每个均由一线运营者将实践手册打包成 AI 智能体。包括:Commerce Video Ad Maker(上传 1-3 张产品图生成适配 TikTok Shop、Amazon、Meta 等平台的广告视频);Amazon Listing Image Generator(按买家疑虑顺序生成主图到画廊,用 GPT Image 2 检查合规性);Paid Ads Diagnose(分析 ROAS 下降或 CPA 飙升原因,给出扩量或暂停建议);Amazon Listing Fix Kit(逐行检查详情,提供重写文案、7 图计划、A+ 内容和索赔安全标识);Amazon/TikTok Shop SOP Generator(生成逐条执行的 SOP 并标注违规风险)。Capafy 定位为技能智能体市场,支持上传技能并按次收费。

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 6月3日71

Google Cloud revenue showed a +63% y/y growth this past quarter.  Microsoft Intelligence Cloud revenue showed a +30% y/y growth this past quarter. AWS revenue showed a +28% y/y growth. Despite this, AWS' margins increased 213bps q/q while the other CSPs lagged behind.  How you sell tokens is become equally important to how much of it you sell.  Bedrock's TaaS (token-as-a-service) business model with Anthropic has 3 parts: 🟠 fixed IaaS fee, 🟠 revenue share of the tokens, 🟠 and performance hurdles that trigger outperformance payments above certain token/spend thresholds. The risk with this business model is that there's no guaranteed take-or-pay floor so revenue can miss if adoption stalls but their bet paid off, primarily driven by Anthropic's addition of $21B net new ARR in a single quarter.

译Google Cloud营收同比增长63%,Microsoft Intelligence Cloud增长30%,AWS增长28%。但AWS利润率环比提升213bps,领先其他云服务商。AWS Bedrock与Anthropic采用Token-as-a-Service(TaaS)商业模式,包含三部分:固定IaaS费用、token收入分成、以及超额绩效支付(达到特定token/消费阈值触发额外付款)。该模式风险是无保底收入,但赌注成功,Anthropic单季度新增210亿美元净新ARR。

查看原推 ↗
AYi@AYi_AInotes · 6月3日46

发现老黄简直就是个行走的拉盘神器, COMPUTEX 2026 台北国际电脑展, Nvidia 市值5万多亿的黄仁勋,逛展会逛累了,直接跑到技嘉展台,席地一坐,跟技嘉老总李宜泰喝起来了。 旁边围了一圈人,他完全不在意,地上坐了近 10 分钟。 技嘉股价当场就被拉了一下, 估计很多人都纳闷,:老黄和技嘉到底铁到什么程度?这么捧场? 上上届 COMPUTEX 他公开喊过 "GIGABYTE NO.1",这次直接坐人地盘上喝啤酒——是真把合作伙伴当兄弟。 而且有个规律很硬,COMPUTEX 期间老黄一出现,相关供应链股票经常大涨,技嘉最近参会已经五连涨超 20%,这个视频一出,盘中又被带了一波。 所以怎么看这个信号? 第一层是股价信号,他在哪里坐下,市场的钱就跟到哪里, 第二层更深,他没去敲钟的展台,而是去长期合作伙伴的地盘坐下来聊天 ,这说明 Nvidia 的供应链逻辑里,技嘉的位置在加深,而不只是贴个牌。 对看供应链的人来说,老黄的行程表比研报值钱。

译黄仁勋在COMPUTEX 2026上逛至技嘉展台,席地而坐与技嘉老总喝啤酒近10分钟,引来围观。技嘉股价当场被拉,期间已五连涨超20%。深层信号显示Nvidia供应链逻辑中技嘉地位加深。引用推文回顾:2009年Nvidia市值仅40亿美元(Intel 1000亿),黄仁勋押注CUDA和异构计算,17年后Nvidia市值5万亿,Intel约五千亿,25倍劣势变为近10倍反超,体现其远见与护城河。

查看原推 ↗
Emad@EMostaque · 6月3日42

Yo @xai team, this would be an amazing demo of @grok capability. Push button, have it read all your bookmarks, organise them, make a report on the most interesting one and your interests over time etc

译嘿 @xai 团队,这将是一个展示 @grok 能力的绝佳演示。 一键操作,让它读取你所有的书签,整理它们,就最有趣的书签以及你长期以来的兴趣生成报告等。

查看原推 ↗
Chubby♨️@kimmonismus · 6月3日60

Fantastic in depth guide about Microsoft MAI by @eliebakouch tl;dr about the model: Respect where respect is due. -zero synthetic data or distillation from previous models. -1T model with 35B active, trained on 33.5T tokens

译Microsoft MAI 技术报告公开模型细节:1T 总参数,35B 活跃参数,在 33.5T tokens 上训练。最突出的特点是零合成数据、零知识蒸馏,推理、智能体行为、工具使用全部在后训练中从头学习。报告透明度极高,首次在此规模公开各迭代的 MFU 和完整缩放方案,目标成为前沿实验室。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日59

AI agents are getting powerful, but they still have a very basic problem: they keep relearning the same things. Every time you open a new Cursor session, run a coding agent, or ask an agent to triage security findings, a lot of the work is repeated context-building. @EvoMapAI is trying to solve that by turning agent experience into reusable infrastructure. The bigger idea: GitHub made code reusable. EvoMap is trying to make AI agent experience reusable. The core mechanism is so simple: a Gene is a reusable strategy for solving a class of problems. A Capsule is a verified execution record showing that the strategy actually worked in a real task. When an agent faces a similar task later, it does not start cold. It queries the EvoMap network, retrieves the closest Gene/Capsule, applies the proven strategy, and then feeds the result back into the system if it improves the pattern. That changes the economics of AI workflows. Instead of every agent run being a one-off inference, each successful run becomes a reusable asset. The docs show this across coding migrations, security remediation, and SIEM-style triage: fewer retries, lower token usage, more consistent execution, and better auditability through cited Capsule provenance. For teams already using Cursor, Claude Code, Codex, or custom agents, this is worth watching. To connect an AI agent to EvoMap, go to evomap[.]ai/onboarding/agent, register your node, run the setup command, open the claim_url, and bind the agent to your account. Then publish a successful workflow as a Gene/Capsule, so other agents can reuse it and you can earn credits when they do. #EvoMap #VibeCoding

译EvoMap AI致力于解决AI智能体每个新会话都要重复学习上下文的问题。其核心概念是Gene(可复用的问题解决策略)和Capsule(验证过的执行记录)。智能体遇到相似任务时,查询EvoMap网络获取匹配的Gene/Capsule,应用已有策略,再将结果反馈改进模式。这使每次成功运行成为可复用资产,而非一次性推理。适用于编码迁移、安全修复、SIEM分类等场景,可减少重试、降低token消耗、提升执行一致性,并提供审计溯源。用户可访问evomap.ai/onboarding/agent连接智能体(如Cursor、Claude Code、Codex),发布工作流并赚取积分。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日63

Agent performance is no longer about cost per token, but the cost to finish the whole task. We must treat inference as a whole operating system to turn tokens into real business value.

译智能体性能不再取决于每个token的成本,而是完成整个任务的成本。我们必须将推理视为一个完整的操作系统,将token转化为实际的商业价值。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 6月3日53

ICYMI 👀: Claude Code CLI can now operate Claude Platform, including the Messages API and Claude Managed Agents. One CLI to rule them all 🤖

译错过必看 👀:Claude Code CLI 现在可以操作 Claude 平台,包括 Messages API 和 Claude Managed Agents。 一个 CLI 统管一切 🤖

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日59

OpenAI's usage pattern from CFO Sarah Friar's new interview. "Our free users do about seven turns, or seven questions, a day. Our first paid tier does double that, about 15. Our real paid tier, Plus, which is $20, is about 3x, and Pro is about 11x over a free user." Our mission at OpenAI is AGI for the benefit of humanity, not for the benefit of humanity who can pay, or for the benefit of humanity who live in an enterprise" ---- From @theallinpod YouTube channel, (link in comment)

译OpenAI 的使用模式来自 CFO Sarah Friar 的最新采访。 “我们的免费用户每天大约进行七轮对话,也就是七个问题。我们的第一个付费层级是这个数字的两倍,大约 15。我们的真正付费层级 Plus,价格为 20 美元,大约是免费用户的 3 倍,而 Pro 大约是免费用户的 11 倍。” OpenAI 的使命是为了全人类的利益实现 AGI,而不是为了那些能付费的人,也不是为了那些在企业工作的人的权益。 —— 来自 @theallinpod YouTube 频道,(链接在评论中)

查看原推 ↗
PixVerse@PixVerse_ · 6月3日55

PixVerse CPP 2.0 is live. A global creator program with membership, credits, and a $2,500 weekly cash prize pool. AI video is moving fast — and we're rewarding the ones leading it. Follow + Reply + RT for quick access in DMs

译PixVerse CPP 2.0 已上线。 全球创作者计划,含会员、积分,以及每周 2500 美元现金奖池。 AI 视频发展迅速——我们正在奖励引领者。 关注 + 回复 + 转发,私信获取快速访问。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日53

Dr. Feifei Li, CTO of Alibaba Cloud & Tommy Eastman, Head of Strategy, Nous Research As we orchestrate intelligence at scale, reshaping knowledge work, giving agents autonomy requires reproducible actions—the core secret behind Hermes agent's success.

译阿里云CTO李飞飞博士与Nous Research战略主管Tommy Eastman:当我们大规模编排智能、重塑知识工作时,赋予智能体自主性需要可复现的行动——这是Hermes agent成功背后的核心秘诀。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 6月3日57

Airtap launched a cloud phone built around recurring mobile routines that run on a daily schedule and are handled automatically by an AI agent. > Morning briefings, midnight bookings, coupon sweeps, flight rebooking on price drops. > Aggregated summary across your chats, notifications, news, and emails. > Coupon sweeps across Amazon, pharmacy, and grocery apps and more! A SKILLS.md drop-in connects Claude Code, Codex, or OpenClaw to a dedicated cloud Android instance where the agent taps, scrolls, types, and navigates real apps on a set schedule.

译Airtap 发布了一款云手机,围绕重复性移动日常任务构建,按每日计划由 AI 智能体自动执行。支持用例包括:早间简报、午夜预订、优惠券扫描、降价机票改签,以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例,让智能体在真实应用上按计划自动点击、滑动、输入和导航。

查看原推 ↗
meng shao@shao__meng · 6月3日77

当 AI 成为默认工作方式,工程团队如何改变? Claude Code / Claude Cowork 工程负责人 Fiona Fung 在 Code w/ Claude SF 2026 给咱们分享了「如何管理一个 AI-native 工程团队」。她的主要判断是:在 Claude Code 团队里,写代码、写测试、重构已经很少成为主要限制,新的限制变成了验证、代码评审、安全和专业判断。 https://claude.com/blog/running-an-ai-native-engineering-org # 四个研发流程变化 1. 规划:从半年路线图转向及时规划 Fiona 说,Claude Code 团队曾经写过一份不错的六个月路线图,但因为变化太快,到第三个月就过时了。于是他们把规划从重文档、重长期计划,转向原型、内部用户反馈和更短周期的判断。 这不是说不规划,而是规划的颗粒度变了。越是 AI 加速明显的团队,越不适合把大量时间花在远期细节上。合理做法是保留方向判断,把执行细节放到更接近真实验证的时间点。 2. 上下文获取:从找人,变成先问系统 传统工程团队遇到问题,常常先找“谁写了这段代码”。但如果大量 PR 都由 Claude 辅助完成,只知道开发作者已经不够。文章建议更深入地问:你到底想知道什么?是找回归原因、找某个决策背景,还是找能回答客户问题的人? 这里的变化很关键:知识不再只绑定在人身上,而要尽量沉淀到代码、PR、日志、反馈和自动摘要里。团队管理的重点也从“问谁”变成“如何让上下文可被检索、可被解释、可被复用”。 3. 代码评审:AI 处理常规问题,人处理专业判断 文章提到 Claude 会大量参与样式、lint、PR 反馈、bug 发现、修复和测试补充;但法律风险、安全边界、产品判断、设计品味这些仍然需要人。 这说明代码评审的价值正在重新分层。低层次的一致性检查、常见 bug、测试补齐,应该更多自动化;高层次的架构判断、安全责任、业务取舍,仍然要由有经验的人负责。 这也是很多团队容易误解的地方:AI 不是让人退出评审,而是让人从琐碎检查中移出来,把注意力放在更难、更有责任的问题上。 4. 团队结构:角色边界变模糊,但深度专业仍然重要 文章提到 PM 开始写代码,工程师也会承担内容和设计相关工作。团队更看重两类人:有产品感觉的创造型建设者,以及有深厚系统能力的工程师。相对而言,单纯“写得多、写得快”的价值下降,因为模型已经能承担大量产出。 这点很现实。AI 会扩大非传统工程角色的能力范围,但并不会消除专业深度。恰恰相反,当更多人都能生成代码,真正稀缺的是:判断要做什么、如何保证可靠、如何处理复杂系统约束。 # 组织管理上的真正变化 第一,流程不能永久存在。很多流程当初是为了解决某个问题,但问题消失后,流程往往还在消耗团队时间。AI 加速后,团队要更频繁地审视哪些会议、文档、审批、评审已经不再有必要。 第二,组织要把“默认使用 AI”变成共同原则,而不是个人偏好。Claude Code 团队要求成员持续使用自己的产品,包括跨职能伙伴也使用 Claude Code 和 Claude Cowork。这会让团队更快发现真实问题,也能形成一致的工作方式。 第三,管理层需要贴近一线。文章提到希望 manager 先作为 IC 参与交付,理解团队真实工作方式。在 AI 改变开发流程时,只靠传统管理汇报,很容易低估变化速度,也容易保留过时流程。 # 可以跟踪的三个指标(建议工程负责人关注) 1. 新成员多久能有效工作。Claude Code 团队认为,现在新人可以在第一周就交付真实代码。 2. PR 周期是否变短。如果代码生成速度上来了,但 CI、构建、评审跟不上,瓶颈会转移到工程平台。 3. AI 辅助提交比例是否上升。但作者也提醒,不要把产出量本身误认为成功,真正要衡量的是团队原本想解决的问题。

译Claude Code 工程负责人 Fiona Fung 在 Code w/ Claude SF 2026 分享管理 AI-native 团队经验:写代码不再是瓶颈,验证、评审、安全与专业判断成为新限制。四个流程变化:规划从半年路线图转向短周期原型与反馈;上下文获取从“问谁写的”转为沉淀到代码/PR/日志;AI 处理常规代码评审,人负责法律/安全/业务判断;团队角色模糊但深度专业仍稀缺。组织上建议定期清理过时流程、默认使用 AI、管理者贴近一线。可跟踪新人首周交付真实代码、PR 周期变短、AI 辅助提交比例,但产出量不是成功本身。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日51

Ship the Next with Dr. Feifei Li, CTO of Alibaba Cloud & President of International Business We are upgrading to be Agent Native—moving past Cloud & AI Native to a full-stack system from Qwen models to silicon, delivering the scale and economy for agent reasoning and action.

译与阿里云 CTO 兼国际业务总裁李飞飞博士一同“Ship the Next”。 我们正在升级为 Agent Native——超越云原生和 AI 原生,构建从 Qwen 模型到硅片的全栈系统,为智能体的推理和行动提供规模与经济效益。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日28

Alex Chen, Vice President of International Business & GM for North America Region, Alibaba Cloud Qoder turns individuals into virtual organizations, building QoderWork with just 5 people in 7 days.

译Alex Chen,阿里云国际业务副总裁兼北美区总经理 Qoder 将个人转化为虚拟组织,仅用5个人7天就构建了 QoderWork。

查看原推 ↗
X.PIN@thexpin · 6月3日40

As AI strains power grids, China is moving data centers into space! Industrial collabs are rapidly forming across major cities, while Beijing aims to launch its first experimental satellite by 2028 to build a space-ground computing network. This gives China a crucial head start.

译随着 AI 对电网造成压力,中国正将数据中心送入太空! 各大城市快速形成产业合作,北京计划在 2028 年前发射首颗试验卫星,以构建天地计算网络。这使中国占据了关键先机。

查看原推 ↗
fofr@fofrAI · 6月3日31

I need to see a video of two of these playing each other in real life.

译一位开发者使用强化学习在模拟中训练AI智能体,随后部署到真实的机器人空气曲棍球台上。该机器人能以毫米级精度跟踪曲棍球,反应时间约20毫秒,足以挑战熟练的人类玩家。这标志着从预设编程规则到模拟学习后在物理世界执行的转变。主推文作者期待看到两个这样的机器人进行真实对战。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日22

Ontology bridges the LLM "Semantic Gap" in AIOps! 🧠 Pain Points: • LLMs lack private topology context 🏗️ • Correlation ≠ Causality 🔗 • Unexplainable black-box decisions ❓ ✅ UModel Solution: • Object-oriented IT modeling 🧩 • Unified query for multi-source data 📊 • Deterministic, auditable root-cause analysis Build trustworthy Agents with explicit knowledge graphs. 🚀 https://int.alibabacloud.com/m/1000413984/ #AIOps #LLM #Ontology #DevOps #CloudNative

译本体(Ontology)弥合了 AIOps 中 LLM 的“语义鸿沟”!🧠 痛点: • LLM 缺乏私有拓扑上下文 🏗️ • 相关 ≠ 因果 🔗 • 无法解释的黑箱决策 ❓ ✅ UModel 解决方案: • 面向对象的 IT 建模 🧩 • 多源数据统一查询 📊 • 确定性、可审计的根因分析 用显式知识图谱构建可信智能体。 🚀 https://int.alibabacloud.com/m/1000413984/ #AIOps #LLM #本体 #DevOps #云原生

查看原推 ↗
小互@xiaohu · 6月3日16

Codex 成瘾患者 正在接受治疗... 😅

译Codex 成瘾患者 正在接受治疗... 😅

查看原推 ↗
X.PIN@thexpin · 6月3日55

Alibaba, China's e-commerce and tech giant, has added Group CTO Wu Zeming to its Partnership Committee. His promotion from managing key AI initiatives signals the company's strong focus on AI. In fact, Alibaba expects its AI ARR to reach $4.2 billion by year-end.

译中国电商科技巨头阿里巴巴已将集团CTO吴泽明加入其合伙人委员会。他从管理关键AI项目晋升,标志着公司对AI的高度重视。事实上,阿里巴巴预计其AI年度经常性收入到年底将达到42亿美元。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日75

President Trump signs executive order to review advanced AI models. The administration will ask leading AI developers to voluntarily submit their most powerful AI models for cybersecurity testing before release, and agencies would get up to 30 days to test them. The policy idea is this: if a top lab builds a model that can discover vulnerabilities, automate cyber operations, or expose weaknesses in critical infrastructure, the government wants a short early testing window so defenders can prepare patches and safeguards. So participating AI labs can give the federal government access to covered frontier models for up to 30 days before those models are released to other trusted partners. A "covered frontier model" is not every new model release; it means a model that crosses a government-defined threshold for advanced cyber capability, based on a classified benchmarking process run with NSA and other agencies. So yes, the government can get early access, but only under this framework, only for models that qualify as cyber-relevant frontier systems, and subject to confidentiality, cybersecurity, insider-risk, IP, use, and nondisclosure protections. The EO also explicitly says it does not create mandatory government licensing, preclearance, or permitting for developing, publishing, releasing, or distributing new AI models, including frontier models.

译美国总统特朗普签署行政令,要求领先AI开发者自愿提交其最强大的AI模型进行网络安全测试。政府机构可在模型发布前获得最多30天的测试窗口,以便准备补丁和防护措施。"涵盖的前沿模型"并非所有新模型,而是指通过NSA等机构分类基准测试、达到政府定义的先进网络能力阈值的模型。行政令明确表示不建立强制性的政府许可、预审批或许可制度,并包含保密、网络安全、内幕风险、知识产权等保护条款。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日65

The first-ever Qwen Cloud Global AI Hackathon is LIVE! Join 5 advanced tracks to push AI agent limits on a global stage. $70,000+ total prize pool ($10K for track winners). Sign up on Devpost now: https://click.qwencloud.com/m/20000000281/

译首届Qwen Cloud全球AI黑客马拉松现已启动! 参与5大高级赛道,在全球舞台上挑战AI智能体极限。 总奖金池超过70,000美元(赛道冠军1万美元)。 立即在Devpost报名:https://click.qwencloud.com/m/20000000281/

查看原推 ↗
小互@xiaohu · 6月3日71

被 AI 不听话折磨了大半年,终于找到解法了 发现一个开源项目 OpenSquilla,国内团队做的 他们用 Python 把"小龙虾"重写了一遍 解决了它太费token、不按照规则执行以及安全的问题 100 次对话就能省下 100万 Token 先说省钱: 它集成了一个本地的小模型,你发的每一个请求,在真正发给大模型之前,会被这个小模型极速向量化,分析这个请求到底是简单任务还是复杂任务。简单的发给便宜模型,复杂的才派顶级模型上场。 就跟医院分诊台一个道理,感冒发烧不用挂专家号。 关键是这个分类在本地跑,不花 token,速度极快,基本感知不到。 官方跑了个测试,25 个任务,纯用 Claude Opus 4.7 总成本 6.2 美金,用 OpenSquilla 路由 Opus4.7、GLM5.1、DS4 Flash 混着跑,分数几乎一样,成本只要 0.68 美金。同样的效果,成本砍到九分之一! 这下我终于敢把 Opus 和 GPT 接进去了!每轮对话还会显示本轮省了多少 token。 而且省 token 不只省在模型调用上。 我装了九十多个 Skill,每轮对话都把所有 Skill 的 description 全塞进上下文里,算了一下每轮要消耗 9000 左右 Tokens。 OpenSquilla 会根据当前对话语义只注入匹配度最高的几个 Skill,按我的规模大概 100 次对话就能省 100万 Token

译国内团队开源项目OpenSquilla用Python重写“小龙虾”,解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类:简单任务走便宜模型,复杂任务走顶级模型。测试25个任务,纯Claude Opus 4.7成本6.2美金,OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金,分数几乎一样。同时,它根据对话语义只注入匹配度最高的Skill(原90+个),每轮省约9000 Token,100次对话累计省100万Token。

查看原推 ↗
X.PIN@thexpin · 6月3日66

DeepSeek is launching a massive initial funding round! And the most surprising figure doesn't come from Tencent. According to Reuters, the company aims to raise ~$7.4B, bringing its post-money valuation to between $52B to $59B. This would mark the largest AI funding round in China to date. Among the investors: 🔹 Founder Liang Wenfeng contributes ~$3B personally 🔹 Tencent invests ~$1.5B 🔹 Battery manyfacturer CATL invests ~$0.7B as it expands into supplying power for AI data centers 🔹 NetEase, http://JD.com, and China's national AI fund are in talks to join 🔹 Hong Kong's IDG Capital and Cornerstone Capital are also among the intended investors The deal is expected to close in about two weeks. After operating as a self-funded research lab for years, DeepSeek is finally accepting outside capital, though Liang remains the largest single investor.

译DeepSeek启动首轮大规模融资,目标募资约74亿美元,投后估值520亿至590亿美元,创中国AI行业融资纪录。创始人梁文锋个人出资约30亿美元,腾讯投资约15亿美元,宁德时代投资约7亿美元(同时布局AI数据中心供电)。网易、京东、中国国家人工智能基金等也在洽谈中。交易预计两周内完成。长期自筹资金的DeepSeek首次接受外部资本,梁文锋仍是最大单一股东。(来源:Reuters报道)

查看原推 ↗
数字生命卡兹克@Khazix0918 · 6月3日74

分享一个让Agent额度翻倍的小技巧。 之前发Codex教程的时候,评论区有一条留言被顶到了最高赞,是一个关于5小时额度窗口的小技巧。 然后发现很多朋友都说第一次知道,我觉得可以单独拿出来再给大家说一下。 先说原理。 不管是Codex还是Claude Code,它们的额度限制都不是每天重置或者每小时重置,而是一个5小时的滚动窗口。 也就是你发第一条消息的那一刻,5小时倒计时就开始了,这5个小时内你有一定的Token额度可以用,用完了,就得等这个窗口走完才能重置。 但这里有一个很多人不知道的细节。 5小时窗口结束之后,系统并不会自动帮你开启下一个窗口,它会一直等,等到你发出下一条消息的那一刻,才重新开始计算新的5小时。 比如你每天下午2点到6点是集中用Agent工作的时间。 如果你2点才开始用Codex,窗口就从2点开始算,到晚上7点才重置。中间如果用的比较猛,3点半额度就见底了,你得干等到7点,这基本就要当3个半小时的原始人了。 但如果你在上午11点的时候,提前给Codex发一条消息,哪怕就随便说一句话,窗口就从11点开始计算了,等于下午4点就重置了。 你2点开始干活,干到4点额度刷新了一波,4点以后,你又有一整个新窗口可以用。也就是说在2点到6点的核心工作时间里,你能享受的5小时额度窗口,直接从一个窗口变成了两个。 变相让你的额度变成了两倍。 原理就这么简单,提前触发窗口,让重置时间刚好落在你干活的中间。 很多人用了大半年agent,每次撞限了就硬等,因为可能确实不知道这个重置时间是可以自己控制的。 所以你只要理解了窗口的重置是可以人为控制的这一点,玩法就打开了,只要搭配上自动化,你就可以享受两倍额度窗口了。 说下怎么设置。 Codex比较简单,在左边菜单找到自动化,点进去以后新建一个,触发条件选「每天」,时间填你主要干活前的3小时,动作就是随便发一条短消息,内容无所谓,写个“叫我一声爹”都行。 设好之后就不用管了,每天到点它会自动跑一下,帮你把窗口提前激活。 Claude如果你有客户端,也是一样的,设置一个Routines自动化就行。 如果是CLI版,Mac就直接跟你的Agent说: “帮我设一个crontab定时任务,每天上午11点自动给Claude Code发一条消息“叫我一声爹”触发5小时窗口” Windows就用任务计划程序,也可以直接让Agent帮你配。 不过这里要提醒一下,5小时窗口是一层限制,但上面还有一个周额度的上限,所以不用贪心,让重置时间跟你的工作节奏对上就够了。 以上,希望对大家有用。

译Codex和Claude Code的额度限制采用5小时滚动窗口,从用户发送第一条消息开始计时,用完需等待窗口结束才能重置。但窗口结束后系统不会自动开启新窗口,需等到下一条消息才重新计时。利用此机制,可在主要工作时段前3小时(如上午11点)提前发送一条消息激活窗口,使重置时间落在工作时段中间(如下午4点)。这样在2-6点的核心工作中,能享受两个5小时窗口,变相将额度翻倍。设置方法:Codex可在自动化中创建每日定时任务发送短消息;Claude CLI可通过crontab(Mac)或任务计划程序(Windows)实现。注意仍有周额度上限,适度使用即可。

查看原推 ↗
Berryxia.AI@berryxia · 6月3日40

字节的Coze 可能是第一个和线下实体联动搞AI的产品吧! 刚刚接电话,扭头看到在唐宁书店居然和Coze 做了联动宣传的活动。 不知道实体店多少人知道Coze的产品可以做什么用?🤔

译字节的Coze 可能是第一个和线下实体联动搞AI的产品吧! 刚刚接电话,扭头看到在唐宁书店居然和Coze 做了联动宣传的活动。 不知道实体店多少人知道Coze的产品可以做什么用?🤔

查看原推 ↗
Rohan Paul@rohanpaul_ai · 6月3日58

Satya Nadella: Microsoft’s latest Wisconsin AI data center keeps yearly water consumption no higher than that of 1 local restaurant. "The cooling loop is filled once and the data centre can operate effectively with zero water consumption. Daily water usage across a year is roughly equivalent to what a single restaurant would use" The mechanism is mainly about replacing evaporative cooling with closed-loop direct-to-chip liquid cooling, so water moves like coolant inside a sealed machine rather than being boiled off into the air. Hot GB200-class AI racks produce too much heat for normal air cooling, so cold liquid is pushed through pipes into the servers and across metal cold plates touching the hottest chips. The liquid enters the rack cool, absorbs heat from the chips through cold plates, then exits the rack at a higher temperature and carries that heat through pipes to a huge cooling system outside the compute floor. Microsoft says Fairwater sends that hot water to cooling “fins” beside the datacenter, where 172 20-foot fans blow air across the fins and dump the heat into the outside air. The important detail is that the air cools the water through metal surfaces, so the water does not need to evaporate the way many older datacenters use cooling towers. The cooled liquid then returns to the servers, repeats the loop, and keeps absorbing heat from the chips. In older data centers, heat is often removed partly through cooling towers. Hot water meets moving air, some water evaporates, and that phase change carries heat away. Effective, but it consumes fresh water continuously. But Firwater is a closed loop because the same coolant keeps circulating through sealed pipes: it absorbs heat from the chips, releases that heat through radiator-like fins, then flows back to the chips again. For Wisconsin Fairwater, Microsoft says more than 90% of the facility uses closed-loop liquid cooling, while the remaining portion uses outside air and switches to water only on the hottest days. ---- From "Microsoft" YouTube channel, (link in comment)

译微软CEO萨提亚·纳德拉在Build 2026上介绍了威斯康星州Fairwater AI数据中心。该设施采用闭环直接芯片液体冷却,冷却液一次性注入后可零水耗运行,年日用水量约等于一家餐厅。超过90%设施使用闭环液冷,仅最热天切换部分外部空气冷却。数据中心采用垂直两层架构,三维密集部署GPU,保持低延迟与高带宽网络,集群如同一台巨型AI机器。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日28

Join the Qwen & @ModelScope2022 communities in Singapore on June 10! An evening for AI developers covering agent monetization, Qwen updates, the Global AI Hackathon, and sharing sessions from fellow builders. Apply: https://luma.com/4x2srooq #Qwen #ModelScope

译加入Qwen与@ModelScope2022社区,6月10日在新加坡!一场AI开发者晚间活动,涵盖智能体变现、Qwen更新、全球AI黑客马拉松以及来自同行构建者的分享环节。申请:https://luma.com/4x2srooq #Qwen #ModelScope

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日44

What if you could code faster, spend less, and ship predictably without compromising your stack? 🚀 Whether you're shipping solo or scaling as a team, Agentic Coding helps you to: ⚡ Accelerate development cycles with AI that handles the heavy lifting 💰 Lock in predictable costs — fixed monthly quotas, zero surprise bills 🔌 Integrate instantly — connect your favorite AI tools with zero friction, zero downtime 🎯 Ship faster, smarter — focus on innovation while Qwen handles the complexity 👉 See the Agentic Coding stack in action and save up to 70%: https://int.alibabacloud.com/m/1000413949/ #AlibabaCloud #Qwen #AI #Coding #Programming

译阿里云推出基于 Qwen 的 Agentic Coding,帮助开发者加速开发周期、锁定可预测成本(固定月配额,零意外账单),并能无缝集成主流 AI 工具。官方称使用该方案可节省高达 70% 的成本,同时保持技术栈不变。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日28

Data security just got a major AI upgrade! ️🤖 Meet Alibaba Cloud Data Security Center (DSC)—your all-in-one solution for intelligent data protection. 🧠Smart Classification: Uses LLMs to auto-identify sensitive data. 🖼Image Desensitization: Powered by Tongyi OCR to mask faces & IDs. 📝Native Audit: AI-driven threat detection with fewer false alarms. Secure your cloud-native & multi-cloud environments with unified control. Learn more🔗:https://int.alibabacloud.com/m/1000413974/ #AlibabaCloud #DataSecurity #AI #CloudComputing #CyberSecurity

译阿里云宣布数据安全中心(DSC)迎来重大AI升级,提供一站式智能数据保护。核心功能包括:基于LLM的智能分类,自动识别敏感数据;利用通义OCR进行图像脱敏,自动遮盖人脸及身份证信息;原生审计集成AI驱动威胁检测,减少误报。支持云原生及多云环境统一管控,提升数据安全防护效率。

查看原推 ↗
向阳乔木@vista8 · 6月3日52

不管怎么说,小红书上线了AI对话功能,还是很实用的。 毕竟小红书还是国内真人语料最多的平台之一。 且图文并茂,很适合做旅游、美食搜索攻略。

译不管怎么说,小红书上线了AI对话功能,还是很实用的。 毕竟小红书还是国内真人语料最多的平台之一。 且图文并茂,很适合做旅游、美食搜索攻略。

查看原推 ↗
Alibaba Cloud@alibaba_cloud · 6月3日30

Wan 2.7 is now available on @AskVenice! Your credits go further on every generation.

译Wan 2.7现已在@AskVenice上线!您的积分在每次生成中能发挥更大价值。

查看原推 ↗
向阳乔木@vista8 · 6月3日65

http://x.com/i/article/2062080260586283008 # xAI 视频多模态负责人访谈:视频模型的天花板,其实是语言模型 一个在英伟达造出 Cosmos 世界模型、又在 xAI 三个月从零搭出 Grok Imagine 的人,离职时说的理由是:视频模型最大的瓶颈,其实是语言模型。 Laten Space最近访谈了Ethan He,内容很不错,让AI转写一篇文章。 > https://www.latent.space/p/video-agents ## 他是谁,做过什么 Ethan He 是一位多模态 AI 研究员,职业轨迹横跨图像识别、自监督学习、大规模模型训练和视频生成。 在英伟达期间,他是 Cosmos 视频基础模型的核心作者之一。 Cosmos 是一个大规模视频生成模型,目标是模拟物理世界,作为机器人研究的基础底座,于 2024 年底发布。 2025 年中,他加入 xAI,主导 Grok Imagine 的视频和多模态方向,包括: - 音频视频联合生成(Grok Imagine 0.9) - 视频扩展(Video Extension,支持完整历史上下文的长视频生成) - 参考视频生成(Reference-to-Video,支持上传最多 7 张图片作为角色或场景条件) - 内部世界模型团队(专注实时长时程视频生成) 访谈时他刚刚离开 xAI,准备转向语言模型方向的研究。 ## 三个月从零到视频模型,靠的不是算法 加入 xAI 时,团队没有数据、没有基础设施、没有现成模型,只有几个工程师。 三个月后 Grok Imagine 0.9 发布。 他总结了两个关键因素。 第一是人的密度,而非人的数量。 团队里每个人都很强,目标高度一致,沟通成本极低。 每天只有一个例会,其余时间全部用来构建。 他的观察是:小团队减少沟通带宽,反而比大团队更容易快速迭代。 第二是迭代速度,而非单次训练质量。 他的核心判断是:训练模型最重要的指标,不是某次实验的结果有多好,而是每天能跑多少轮实验。 迭代越快,发现 bug 的机会越多。 而且他特别强调:模型质量最大的提升,往往不来自新算法,而来自数据管道和训练流程里那些不起眼的小 bug。 这听起来有点怪,但这是他在英伟达和 xAI 两次从零搭建视频模型的共同经验。 他还提到一个时间节点:2025 年中加入时,代码模型还不够好,写出来的代码经常是几千行的"意大利面条",连模型自己都搞不清楚怎么维护。 到 2025 年 12 月,代码模型已经强到可以快速实现任何想法。 这带来了一个新的瓶颈反转:以前是写代码慢,现在是算力跟不上想法的速度。 代码几小时就能写完,但训练一个新模型可能要等好几周。 ## 视频模型是怎么炼出来的:完整路径 第一步:先训图像模型,再训视频模型 原因很实际,图像比视频便宜得多,而且语言和图像之间的对应关系更密集。 举个具体数字:训练 10 亿张图文对,和训练 10 亿个视频文本对,成本完全不在一个量级。 但前者能给模型打下更扎实的语言理解基础。 视频模型对语言的理解,完全来自这种文本到视觉内容的映射关系。 如果映射数量不够,模型就不能充分理解人类意图。 所以标准做法是:先训图像扩散模型,再用它作为基础,迁移到视频模型。 第二步:解决数据对齐问题 互联网上的视频天然缺少精准的文字描述。 YouTube 上的标题和评论,和视频内容本身几乎没有关联。 一段山川自然风光,标题可能是"今天真开心",二者毫无关系。 所以必须用 VLM(视觉语言模型,能同时理解图像和文字的 AI 模型)给视频打字幕,生成合成的文本视频对。 但 VLM 本身在早期也需要人工标注来冷启动。 Cosmos 的标注要求非常具体:描述要详细到让一个盲人听完文字,就能在脑海中重建出这段视频。 所有物体、角色、互动、对话,都要覆盖。 这个标准直接决定了后来视频模型能不能真正理解人类意图。 第三步:训练 VAE(变分自编码器,一种把图像压缩成低维表示再还原的压缩器) 原始视频帧的像素量太大,1000×1000 的图像就有 100 万个像素,Transformer(一种主流的 AI 模型架构)根本无法直接处理。 VAE 把图像映射到一个低维的连续潜空间(latent space,可以理解为图像的"压缩编码"),再从潜空间还原回图像。 具体做法是把图像切成小块(patch),每个小块映射成一个向量,这样一张图就变成了几十个向量,而不是 100 万个像素。 时间维度的压缩比例是个关键决策。 Wan 2.1 采用 8×8×4 的压缩率,时间维度压缩 4 倍,上下文长度大幅缩短,训练效率更高。 但代价是实时性:如果要做实时交互,时间维度的压缩会引入固定的延迟,无法做到即时响应。 如果不压缩时间维度,只做帧内压缩(8×8×1),上下文长度会是 4 倍压缩方案的 4 倍,计算量大得多,但可以支持帧级别的实时输出。 第四步:训练扩散 Transformer(Diffusion Transformer) 流程和语言模型非常相似,区别只是输入输出换成了视觉 token(图像的压缩表示),以及加入了去噪过程:向视觉 token 加入随机噪声,训练模型把噪声去掉,推理时从纯噪声开始迭代生成干净的图像或视频。 推理侧的主要优化手段是步骤蒸馏(Step Distillation):用完整模型跑 100 步生成高质量结果,再训练一个只需要 10 步的小模型去模仿它。 这背后的逻辑是:完整模型要学的是整个互联网的图像分布,极其复杂,蒸馏模型只需要学老师模型的分布,简单得多。 Cosmos 的生产版本已经可以做到 4 步甚至 1 步生成(针对图生图等简单任务)。 ## 训练一个视频模型到底要花多少钱 Ethan He 做了一个粗略的估算,数字很有参考价值。 模型规模: 视频模型和中等规模语言模型相当。 LTX 是 19B(190 亿)参数的稠密模型,也有人在探索 MoE(混合专家模型,一种让模型只激活部分参数的架构),激活参数约 20B,总参数可能达到数百 B。 Cosmos 公开披露的视觉 token 数量也在数十万亿量级,和语言模型的训练规模接近。 存储成本: 假设有 10 亿个视频,每个视频 5MB,光存储就需要 5PB(5000TB)。 加上 VAE 提取的特征文件,总存储量翻倍,达到约 10PB。 在 AWS S3 标准存储上,5PB 的月存储费用约 23 万人民币,加上数据出口费用,每月总成本可能达到数百万人民币,还没算 GPU 训练成本。 他特别提到:数据出口费用(把数据从云端传输出去的费用)比存储本身更贵。 每次训练都需要把数据拉取一遍,如果多次训练,费用成倍叠加。 这也是为什么大规模训练团队通常会自建存储基础设施,而不是完全依赖公有云。 I/O 瓶颈: 视频训练天然是 I/O 密集型任务,数据加载速度很容易成为 GPU 利用率的瓶颈。 Ethan He 在英伟达做 Cosmos 时专门做了大量 I/O 优化。 ## 世界模型的定义:三个缺一不可的条件 Ethan He 给世界模型下了一个工程意义上的定义,三个维度。 交互性: 模型可以响应键盘、鼠标、语音等多种输入,并给出合理的反馈。 实时性: 响应延迟要足够低。 CS 职业选手需要亚 3 毫秒的响应(300FPS 对应约 3 毫秒每帧),60FPS 游戏需要 16 毫秒,实时语音交互的容忍上限大约是 200 毫秒。现有视频模型大多达不到这个要求。 长时程: 不是生成几秒钟的片段,而是能持续生成几分钟甚至几小时的内容,同时保持角色、场景、声音的一致性。 三个条件同时满足,才算世界模型。 目前的视频模型在任何一个维度上都还有很大差距。 长时程的工程难题 Cosmos 里 5 秒视频就有约 55K 到 60K 个 token,50 秒就是 500K token,再长就很难处理。 现有视频模型的上下文窗口大约在几百万 token 量级,但实际使用中很快就会爆炸。 Ethan He 在 xAI 主导的视频扩展(Video Extension)功能,是迈向长时程的第一步:让模型在生成下一段视频时,能访问之前所有视频的完整历史上下文,而不只是最后一帧或最后一秒。 这解决了多次扩展后视频质量退化、人物声音漂移的问题。 参考视频(Reference-to-Video)是另一个折中方案:允许用户上传最多 7 张图片作为条件,让模型在生成时参考特定角色或场景。 Ethan He 自己也承认这是个"作弊"方案,真正的解法是让模型自己学会从历史中选择性地提取相关上下文。 FramePack(一篇论文提出的方法)提供了一个启发式思路:最近的历史保留完整分辨率,越早的历史压缩得越小,总 token 数保持固定上限。 这和人类记忆的工作方式有些相似,但 Ethan He 认为更理想的状态是让模型自己决定哪些历史值得保留,而不是靠人工设计的规则。 ## 视频模型最大的进步,来自语言模型 这是整个访谈里最反直觉的判断,也是 Ethan He 离职的核心原因。 扩散模型本身其实很"笨" 扩散模型(Diffusion Model,一种通过去噪生成图像或视频的模型)在训练时被要求按照极其详细的文字描述生成视频,所以推理时也会字面理解用户的输入。 你说"一只猫",它就生成一只猫,白色背景,静止不动,因为你没说背景,没说动作。 它取的是训练数据里那种极度详细的描述风格,用户的简短输入和这个分布完全不匹配。 提示词重写器才是真正的智能来源 真正让模型变聪明的,是提示词重写器(Prompt Rewriter),一个更大的语言模型,负责把用户的简单描述扩展成极其详细的视频描述。 Cosmos 用的是 Llama 或 Mixtral,而且提示词重写器比视频扩散模型本身(7B 参数)还要大。 他举了一个具体例子:同样是生成一只快乐的羊,不经过重写,结果看起来像 CGI;经过重写之后,画面质量有质的飞跃,而且这个提升不需要任何联合训练。 GPT Image 生成一张图需要 3 分钟,其中大部分时间不是在生成像素,而是在"思考",也就是提示词重写和规划阶段。 语言模型的角色还在扩展 提示词重写只是第一步。 现在语言模型在视频生成中的角色已经扩展到: - 工具调用: 生成图片前先联网查今天的新闻,处理后再生成 - 智能体协调: 调用视频生成、视频编辑、图像处理、FFmpeg 等多种工具,迭代生成高质量内容 - 布局规划: 决定视频的结构、时间线和内容组织 Grok Imagine 已经有了一个智能体模式的早期版本,可以通过调用不同工具来生成更长的视频。 ## 音频:被低估的难题 Grok Imagine 0.9 是 Ethan He 认为业内首个大规模部署的音频视频联合生成模型。 音频的难点在于它有两个截然不同的成分: - 语音部分: 接近离散 token(可以理解为有限词汇表里的单词),可以用类似语言模型的方式处理 - 音乐部分: 完全连续,无法离散化,现有语言模型对音乐的理解非常有限 让语言模型描述音乐细节,就像让盲人描述颜色一样困难。 大多数语言模型可以识别"这是哪首歌",但无法描述音乐的节拍、音调和细节,更无法生成高质量的音乐。 更大的挑战是时间对齐。 文本和图像之间的对应是松散的,你可以用一段话描述整张图。 但音频和视频必须在时间轴上精确对齐:哪一秒有什么声音,必须和画面严格同步。 这种精确的时间感知,是现有多模态模型普遍缺失的能力。 ## 生成式 UI:扩散模型作为前端 访谈中展示了两个产品案例,代表了 Ethan He 对未来交互方式的判断。 Flipbook: 一个用图像生成模型实时渲染的浏览器界面。 页面里的所有内容都是模型生成的,公司不存在,场景是虚构的。 用户点击链接,模型就生成新的子页面。 比如点击"金字塔建造技术",模型会生成一个详细介绍杠杆技术的新页面,配有对应的生成图像。 Neural OS(神经操作系统): 用视频模型模拟一个完整的操作系统,可以运行 Doom、Firefox 等应用,所有画面都是模型实时生成的。 Ethan He 的预测是:随着推理成本下降,扩散模型会成为人机交互的前端层,语言模型和确定性代码在后端运行,用户看到的所有界面都由生成模型实时渲染。 每个用户可以有完全不同的界面,邮件可以像 TikTok 一样滑动,Instagram 可以去掉你总是误触的点赞按钮。 他估算了一下成本:如果每 100 个请求 1 美元,每天用 8 小时,每月大约 240 美元。 现在确实贵,但推理成本每年大约下降 2 倍,他认为这个未来会到来。 他还提出了一个关于人机带宽的判断:人类的最大输入带宽是视觉(看),最大输出带宽是语音(说)。 所以未来最自然的人机交互方式,是用户说话,AI 用生成式画面回应,这是神经链接(Neuralink)出现之前的最高带宽交互形式。 ## 为什么离开 xAI Ethan He 的回答很直接:有些研究在公司里做不了,而且公司的优先级会快速变化。 他想做的,是语言模型方向的研究,特别是模型如何自主管理自己的上下文。 他的具体预测是:语言模型很快会出现真正的上下文感知能力,模型知道自己的上下文窗口用了多少,能主动决定压缩、丢弃或保留哪些内容,而不是依赖外部 harness(智能体框架,一种包裹模型的工程系统)的启发式规则。 他举了一个例子:现在 Claude(Anthropic 的 AI 模型)在上下文接近上限时会自动触发压缩,但模型本身对这个过程毫不知情,还在按照原来的方式工作。 理想状态是模型自己感知到"我快到上限了",并主动调整策略。 他认为视频模型在这方面的探索某种程度上比语言模型更超前,因为视频的长时程问题更紧迫,研究者被迫更早面对这个问题。 他还提到一个更激进的想法:如果把智能体框架的代码直接放进模型的上下文,让模型能够修改自己的运行规则,比如决定"读长文档时我要分块处理还是只读前 200 行",这种自我修改的智能体框架可能是一个值得探索的方向。 ## 职业轨迹:每一次转型都是主动押注 Ethan He 的职业路径本身也值得单独说一下。 十年前他在做 ResNet(残差网络,一种经典的图像识别模型架构)时代的图像识别和目标检测研究,同时做模型压缩。 他当时想当教授,已经有几篇顶会一作论文,自信地申请了顶校博士,结果全部被拒。 被迫进入工业界,反而让他在 Facebook FAIR(Meta 的 AI 研究院,由 Yann LeCun 领导)做了自监督学习,之后到英伟达做 Cosmos 和 MoE(混合专家模型)扩展,再到 xAI 做视频多模态。 他在英伟达的另一个重要工作是 Megatron MoE,这是第一个开源的、能够高效训练超大规模 MoE 模型的框架,支持从 1000 亿参数到万亿参数的训练,MFU(模型浮点利用率,衡量 GPU 利用效率的指标)达到约 40%。 他的结论是:在机器学习内部切换方向,比大多数人想象的容易。训练大模型的核心原则是通用的,换个方向并不需要从零开始。 很多人觉得"我做计算机视觉,就只能做计算机视觉",但他的经验证明这个边界没有那么硬。 ## 关键判断汇总 ## 局限性和没说清楚的地方 这篇访谈有几个地方值得注意: 信息不对称: Ethan He 在涉及 Grok Imagine 具体架构时多次说"不方便评论",比如它是否是端到端扩散模型还是语言模型加扩散头的组合。这意味着一些关键技术细节仍然不透明。 成本估算是粗略的: 他的存储和训练成本计算是信封背面的估算,实际情况会因数据规模、训练次数、基础设施选择而有很大差异。 "语言模型是瓶颈"这个判断有边界: 他承认扩散模型本身的改进仍然重要,只是说在当前阶段,语言模型的改进带来的增益更大。这不等于视频模型架构研究没有价值。 世界模型的定义是他个人的: 他在访谈开头就声明,世界模型有很多定义,他只是分享自己的视角,不打算辩论谁对谁错。 本文根据 Latent Space 播客对 Ethan He 的访谈整理重写。 Ethan He 曾任英伟达 Cosmos 视频基础模型核心作者,xAI Grok Imagine 视频多模态负责人。

译xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
23:01
fofr@fofrAI
18
用户指令要求修改屏幕,使其显示为正在打FaceTime电话。主推文感叹:被困在潜在空间中的那种感觉。

fofr: > Change the screen so it shows that she's on a facetime call

图像生成教程/实践
22:39
SenseTime@SenseTime_AI
精选73
商汤开源SenseNova U1:视觉理解推理生成一体模型

商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHubHugging Face图像生成多模态
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:商汤把理解、推理、创作塞进一个模型,而且直接开源,做视觉营销的可以不用再拼凑工具链了。
22:37
Nathan Lambert@natolambert
40
过去一年构建开放模型的一个关键教训,当美国明显落后这一点已变得如此清晰时,就是空谈是廉价的。 许多人说他们在帮助/想要帮助,但实际上什么都没做。找到那些真正推动开放进步的人是至关重要的。
大佬观点开源生态
22:27
DogeDesigner@cb_doge
49
Grok Imagine 在产品营销方面相当不错。 将手机随手拍的照片在几秒钟内变成专业广告。
xAI图像生成教程/实践
22:09
向阳乔木@vista8
63
Codex 远程协同:一台电脑指挥另一台写代码

若多台电脑均安装 Codex 并登录同一 ChatGPT 账号,可在设置 -> 连接 -> 控制其他设备中添加其他电脑。之后本机创建项目时即可选择添加远程项目,例如远程控制家中电脑上的 Codex 进行代码编写。该功能无需额外配置,利用账号同步实现跨设备协作。

OpenAI教程/实践编码
22:09
Baidu Inc.@Baidu_Inc
23
一个8岁孩子用无代码工具构建了一个可运行的App。 它解决了什么?一个非常真实的学校问题:课后下雨了,有人忘了带伞。 普曼用日常语言向Miaoda描述了他的想法,于是Dada Umbrella诞生了。 看看他做了什么↓
OpenAI产品更新
21:31
fofr@fofrAI
55
更改屏幕,使其显示她在FaceTime通话中。
图像生成教程/实践视频
21:25
🚨 AI News | TestingCatalog@testingcatalog
72
Capafy 推出 5 个预制电商技能,每个均由一线运营者将实践手册打包成 AI 智能体。包括:Commerce Video Ad Maker(上传 1-3 张产品图生成适配 TikTok Shop、Amazon、Meta 等平台的广告视频);Amazon Listing Image Generator(按买家疑虑顺序生成主图到画廊,用 GPT Image 2 检查合规性);Paid Ads Diagnose(分析 ROAS 下降或 CPA 飙升原因,给出扩量或暂停建议);Amazon Listing Fix Kit(逐行检查详情,提供重写文案、7 图计划、A+ 内容和索赔安全标识);Amazon/TikTok Shop SOP Generator(生成逐条执行的 SOP 并标注违规风险)。Capafy 定位为技能智能体市场,支持上传技能并按次收费。

Capafy: Introducing 5 Capafy e-commerce Skills. Behind each of these 5 Skills is an operator who has spent years on the e-commer...

智能体教程/实践
21:24
SemiAnalysis@SemiAnalysis_
71
云厂商Q1营收增速及AWS Bedrock TaaS商业模式解析

Google Cloud营收同比增长63%,Microsoft Intelligence Cloud增长30%,AWS增长28%。但AWS利润率环比提升213bps,领先其他云服务商。AWS Bedrock与Anthropic采用Token-as-a-Service(TaaS)商业模式,包含三部分:固定IaaS费用、token收入分成、以及超额绩效支付(达到特定token/消费阈值触发额外付款)。该模式风险是无保底收入,但赌注成功,Anthropic单季度新增210亿美元净新ARR。

Anthropic现象/趋势
21:16
AYi@AYi_AInotes
46
黄仁勋COMPUTEX 2026坐技嘉展台喝啤酒

黄仁勋在COMPUTEX 2026上逛至技嘉展台,席地而坐与技嘉老总喝啤酒近10分钟,引来围观。技嘉股价当场被拉,期间已五连涨超20%。深层信号显示Nvidia供应链逻辑中技嘉地位加深。引用推文回顾:2009年Nvidia市值仅40亿美元(Intel 1000亿),黄仁勋押注CUDA和异构计算,17年后Nvidia市值5万亿,Intel约五千亿,25倍劣势变为近10倍反超,体现其远见与护城河。

AYi: 同样站在 2009 年那个路口,有人只看见一块显卡, 有人看见了往后二十年整个计算的样子。 那年 Nvidia 市值 40 亿,是 Intel 的零头, 所有人都笑黄仁勋不过是个卖游戏配件的。 那时候 Nvidia 市值 40 亿,Inte...

大佬观点部署/工程
21:16
Emad@EMostaque
42
嘿 @xai 团队,这将是一个展示 @grok 能力的绝佳演示。 一键操作,让它读取你所有的书签,整理它们,就最有趣的书签以及你长期以来的兴趣生成报告等。

GREG ISENBERG: Bookmarking tweets and not going back to them has become an epidemic

xAI大佬观点
20:49
Chubby♨️@kimmonismus
60
Microsoft MAI 技术报告公开模型细节:1T 总参数,35B 活跃参数,在 33.5T tokens 上训练。最突出的特点是零合成数据、零知识蒸馏,推理、智能体行为、工具使用全部在后训练中从头学习。报告透明度极高,首次在此规模公开各迭代的 MFU 和完整缩放方案,目标成为前沿实验室。

elie: microsoft MAI tech report is a gold mine, one of the most transparent for a model at this scale. this model uses zero sy...

Microsoft数据/训练论文/研究
20:48
Rohan Paul@rohanpaul_ai
59
EvoMap AI:将AI智能体经验转化为可复用基础设施

EvoMap AI致力于解决AI智能体每个新会话都要重复学习上下文的问题。其核心概念是Gene(可复用的问题解决策略)和Capsule(验证过的执行记录)。智能体遇到相似任务时,查询EvoMap网络获取匹配的Gene/Capsule,应用已有策略,再将结果反馈改进模式。这使每次成功运行成为可复用资产,而非一次性推理。适用于编码迁移、安全修复、SIEM分类等场景,可减少重试、降低token消耗、提升执行一致性,并提供审计溯源。用户可访问evomap.ai/onboarding/agent连接智能体(如Cursor、Claude Code、Codex),发布工作流并赚取积分。

智能体MCP/工具产品更新
20:40
Alibaba Cloud@alibaba_cloud
63
智能体性能不再取决于每个token的成本,而是完成整个任务的成本。我们必须将推理视为一个完整的操作系统,将token转化为实际的商业价值。
智能体推理现象/趋势
关联讨论 2 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:PixVerse (@PixVerse_)
20:24
🚨 AI News | TestingCatalog@testingcatalog
53
错过必看 👀:Claude Code CLI 现在可以操作 Claude 平台,包括 Messages API 和 Claude Managed Agents。 一个 CLI 统管一切 🤖

ClaudeDevs: For interactive login, the CLI supports "ant auth login". This runs a browser OAuth flow, scopes the token to a workspac...

智能体AnthropicMCP/工具产品更新
20:18
Rohan Paul@rohanpaul_ai
59
OpenAI 的使用模式来自 CFO Sarah Friar 的最新采访。 "我们的免费用户每天大约进行七轮对话,也就是七个问题。我们的第一个付费层级是这个数字的两倍,大约 15。我们的真正付费层级 Plus,价格为 20 美元,大约是免费用户的 3 倍,而 Pro 大约是免费用户的 11 倍。" OpenAI 的使命是为了全人类的利益实现 AGI,而不是为了那些能付费的人,也不是为了那些在企业工作的人的权益。 -- 来自 @theallinpod YouTube 频道,(链接在评论中)
OpenAI大佬观点
20:16
PixVerse@PixVerse_
55
PixVerse CPP 2.0 已上线。 全球创作者计划,含会员、积分,以及每周 2500 美元现金奖池。 AI 视频发展迅速--我们正在奖励引领者。 关注 + 回复 + 转发,私信获取快速访问。
产品更新视频
20:10
Alibaba Cloud@alibaba_cloud
53
阿里云CTO李飞飞博士与Nous Research战略主管Tommy Eastman:当我们大规模编排智能、重塑知识工作时,赋予智能体自主性需要可复现的行动--这是Hermes agent成功背后的核心秘诀。
智能体开源生态行业动态
19:54
🚨 AI News | TestingCatalog@testingcatalog
57
Airtap 推出 AI 智能体云手机,自动执行日常移动任务

Airtap 发布了一款云手机,围绕重复性移动日常任务构建,按每日计划由 AI 智能体自动执行。支持用例包括:早间简报、午夜预订、优惠券扫描、降价机票改签,以及跨聊天、通知、新闻和邮件的聚合摘要。通过一个 SKILLS.md 文件即可将 Claude Code、Codex 或 OpenClaw 连接到专属云端 Android 实例,让智能体在真实应用上按计划自动点击、滑动、输入和导航。

智能体MCP/工具产品更新
19:46
meng shao@shao__meng
77
当 AI 成为默认工作方式,工程团队如何改变?

Claude Code 工程负责人 Fiona Fung 在 Code w/ Claude SF 2026 分享管理 AI-native 团队经验:写代码不再是瓶颈,验证、评审、安全与专业判断成为新限制。四个流程变化:规划从半年路线图转向短周期原型与反馈;上下文获取从“问谁写的”转为沉淀到代码/PR/日志;AI 处理常规代码评审,人负责法律/安全/业务判断;团队角色模糊但深度专业仍稀缺。组织上建议定期清理过时流程、默认使用 AI、管理者贴近一线。可跟踪新人首周交付真实代码、PR 周期变短、AI 辅助提交比例,但产出量不是成功本身。

Anthropic大佬观点
关联讨论 3 条X:Ethan Mollick (@emollick)X:邵猛 (@shao__meng)Claude:Blog(网页)
19:40
Alibaba Cloud@alibaba_cloud
51
与阿里云 CTO 兼国际业务总裁李飞飞博士一同"Ship the Next"。 我们正在升级为 Agent Native--超越云原生和 AI 原生,构建从 Qwen 模型到硅片的全栈系统,为智能体的推理和行动提供规模与经济效益。
智能体行业动态
19:40
Alibaba Cloud@alibaba_cloud
28
Alex Chen,阿里云国际业务副总裁兼北美区总经理 Qoder 将个人转化为虚拟组织,仅用5个人7天就构建了 QoderWork。
产品更新其他
19:35
X.PIN@thexpin
40
随着 AI 对电网造成压力,中国正将数据中心送入太空! 各大城市快速形成产业合作,北京计划在 2028 年前发射首颗试验卫星,以构建天地计算网络。这使中国占据了关键先机。
行业动态部署/工程
19:01
fofr@fofrAI
31
一位开发者使用强化学习在模拟中训练AI智能体,随后部署到真实的机器人空气曲棍球台上。该机器人能以毫米级精度跟踪曲棍球,反应时间约20毫秒,足以挑战熟练的人类玩家。这标志着从预设编程规则到模拟学习后在物理世界执行的转变。主推文作者期待看到两个这样的机器人进行真实对战。

SciTech Era: Wow. This is crazy. A developer trained an AI agent in simulation and deployed it onto a real robotic air hockey table u...

具身智能现象/趋势
18:40
Alibaba Cloud@alibaba_cloud
22
本体(Ontology)弥合了 AIOps 中 LLM 的"语义鸿沟"!🧠 痛点: • LLM 缺乏私有拓扑上下文 🏗️ • 相关 ≠ 因果 🔗 • 无法解释的黑箱决策 ❓ ✅ UModel 解决方案: • 面向对象的 IT 建模 🧩 • 多源数据统一查询 📊 • 确定性、可审计的根因分析 用显式知识图谱构建可信智能体。 🚀 https://int.alibabacloud.com/m/1000413984/ #AIOps #LLM #本体 #DevOps #云原生
其他部署/工程
18:38
小互@xiaohu
16
Codex 成瘾患者 正在接受治疗… 😅
OpenAI其他编码
18:35
X.PIN@thexpin
55
中国电商科技巨头阿里巴巴已将集团CTO吴泽明加入其合伙人委员会。他从管理关键AI项目晋升,标志着公司对AI的高度重视。事实上,阿里巴巴预计其AI年度经常性收入到年底将达到42亿美元。
现象/趋势行业动态
18:18
Rohan Paul@rohanpaul_ai
75
特朗普签署行政令要求审查前沿AI模型

美国总统特朗普签署行政令,要求领先AI开发者自愿提交其最强大的AI模型进行网络安全测试。政府机构可在模型发布前获得最多30天的测试窗口,以便准备补丁和防护措施。"涵盖的前沿模型"并非所有新模型,而是指通过NSA等机构分类基准测试、达到政府定义的先进网络能力阈值的模型。行政令明确表示不建立强制性的政府许可、预审批或许可制度,并包含保密、网络安全、内幕风险、知识产权等保护条款。

安全/对齐政策/监管
关联讨论 5 条X:Anthropic (@AnthropicAI)TechCrunch:AI(RSS)Bloomberg:Technology(RSS)The Verge:AI(RSS)IT之家(RSS)
18:10
Alibaba Cloud@alibaba_cloud
65
首届Qwen Cloud全球AI黑客马拉松现已启动! 参与5大高级赛道,在全球舞台上挑战AI智能体极限。 总奖金池超过70,000美元(赛道冠军1万美元)。 立即在Devpost报名:https://click.qwencloud.com/m/20000000281/
智能体行业动态
关联讨论 1 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)
18:08
小互@xiaohu
71
开源项目OpenSquilla用Python重写"小龙虾",大幅节省Token与成本

国内团队开源项目OpenSquilla用Python重写“小龙虾”,解决费token、不按规则执行及安全问题。它集成小模型对请求实时分类:简单任务走便宜模型,复杂任务走顶级模型。测试25个任务,纯Claude Opus 4.7成本6.2美金,OpenSquilla混跑Opus 4.7、GLM5.1、DS4 Flash成本仅0.68美金,分数几乎一样。同时,它根据对话语义只注入匹配度最高的Skill(原90+个),每轮省约9000 Token,100次对话累计省100万Token。

智能体MCP/工具开源/仓库端侧
18:05
X.PIN@thexpin
66
DeepSeek启动大规模首轮融资,目标募资约74亿美元

DeepSeek启动首轮大规模融资,目标募资约74亿美元,投后估值520亿至590亿美元,创中国AI行业融资纪录。创始人梁文锋个人出资约30亿美元,腾讯投资约15亿美元,宁德时代投资约7亿美元(同时布局AI数据中心供电)。网易、京东、中国国家人工智能基金等也在洽谈中。交易预计两周内完成。长期自筹资金的DeepSeek首次接受外部资本,梁文锋仍是最大单一股东。(来源:Reuters报道)

DeepSeek开源生态行业动态
17:54
数字生命卡兹克@Khazix0918
74
Codex与Claude Code额度翻倍技巧

Codex和Claude Code的额度限制采用5小时滚动窗口,从用户发送第一条消息开始计时,用完需等待窗口结束才能重置。但窗口结束后系统不会自动开启新窗口,需等到下一条消息才重新计时。利用此机制,可在主要工作时段前3小时(如上午11点)提前发送一条消息激活窗口,使重置时间落在工作时段中间(如下午4点)。这样在2-6点的核心工作中,能享受两个5小时窗口,变相将额度翻倍。设置方法:Codex可在自动化中创建每日定时任务发送短消息;Claude CLI可通过crontab(Mac)或任务计划程序(Windows)实现。注意仍有周额度上限,适度使用即可。

智能体AnthropicOpenAI教程/实践
17:49
Berryxia.AI@berryxia
40
字节的Coze 可能是第一个和线下实体联动搞AI的产品吧! 刚刚接电话,扭头看到在唐宁书店居然和Coze 做了联动宣传的活动。 不知道实体店多少人知道Coze的产品可以做什么用?🤔
智能体行业动态
17:48
Rohan Paul@rohanpaul_ai
58
微软萨提亚·纳德拉在Build 2026介绍Fairwater AI数据中心

微软CEO萨提亚·纳德拉在Build 2026上介绍了威斯康星州Fairwater AI数据中心。该设施采用闭环直接芯片液体冷却,冷却液一次性注入后可零水耗运行,年日用水量约等于一家餐厅。超过90%设施使用闭环液冷,仅最热天切换部分外部空气冷却。数据中心采用垂直两层架构,三维密集部署GPU,保持低延迟与高带宽网络,集群如同一台巨型AI机器。

Rohan Paul: Satya Nadella on Microsoft's Fairwater data center, an AI superfactory. at today's Microsoft Build 2026 keynote. its ver...

Microsoft行业动态部署/工程
17:39
Alibaba Cloud@alibaba_cloud
28
加入Qwen与@ModelScope2022社区,6月10日在新加坡!一场AI开发者晚间活动,涵盖智能体变现、Qwen更新、全球AI黑客马拉松以及来自同行构建者的分享环节。申请:https://luma.com/4x2srooq #Qwen #ModelScope
智能体开源生态行业动态
17:39
Alibaba Cloud@alibaba_cloud
44
阿里云 Qwen Agentic Coding 加速开发并节省 70% 成本

阿里云推出基于 Qwen 的 Agentic Coding,帮助开发者加速开发周期、锁定可预测成本(固定月配额,零意外账单),并能无缝集成主流 AI 工具。官方称使用该方案可节省高达 70% 的成本,同时保持技术栈不变。

智能体产品更新编码
17:09
Alibaba Cloud@alibaba_cloud
28
阿里云数据安全中心推出AI智能防护升级

阿里云宣布数据安全中心(DSC)迎来重大AI升级,提供一站式智能数据保护。核心功能包括:基于LLM的智能分类,自动识别敏感数据;利用通义OCR进行图像脱敏,自动遮盖人脸及身份证信息;原生审计集成AI驱动威胁检测,减少误报。支持云原生及多云环境统一管控,提升数据安全防护效率。

产品更新部署/工程
17:08
向阳乔木@vista8
52
不管怎么说,小红书上线了AI对话功能,还是很实用的。 毕竟小红书还是国内真人语料最多的平台之一。 且图文并茂,很适合做旅游、美食搜索攻略。
产品更新多模态搜索
16:39
Alibaba Cloud@alibaba_cloud
30
Wan 2.7现已在@AskVenice上线!您的积分在每次生成中能发挥更大价值。

Venice: Your credits go further on every generation. Same model, same quality, more videos. Wan 2.7 is a powerful, next-generati...

行业动态视频
16:38
向阳乔木@vista8
65
xAI前视频多模态负责人Ethan He访谈:视频模型的天花板,其实是语言模型

xAI前视频多模态负责人Ethan He在离职转向语言模型研究时表示,视频模型最大的瓶颈是语言模型。他曾在NVIDIA参与Cosmos模型开发,并在加入xAI后三个月内从零搭建出Grok Imagine 0.9。他指出训练视频模型成本高昂,例如存储10亿个视频需5PB,仅AWS月费就达数百万人民币。视频模型需先预训练图像模型,再通过VLM生成合成字幕以解决数据对齐问题。当前模型在生成长视频时上下文容易爆炸,而他认为扩散模型对文本的理解过于字面化,对语言意图的深层理解才是突破关键。

xAI多模态大佬观点视频
‹ 上一页
1…4142434445…50
下一页 ›