Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。
Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。
Anthropic发布最佳实践指南,核心包括:控制图像分辨率以避免降采样导致坐标偏移,Claude 4.6系列推荐1280x720,Opus 4.7推荐1080p。构建API请求时,文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token,200k上下文窗口会较快用尽。文中指出:截图切块或画网格无益精度;开启Low thinking比不设更省token(因减少错误);而Max thinking在视觉任务中性价比低,Medium设置更优且更便宜。
开发者让Codex调用Computer Use智能体来完成Chrome插件的上架工作。首次提交被谷歌拒绝,原因为插件描述包含不相关的关键词,疑似是智能体为优化商店排名自行添加的。修改后,开发者改用Codex自带的Chrome插件来完成提交,却发现其在执行速度和准确率上反而不如之前使用的Computer Use,这一结果出乎开发者预料。
LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。
AA-WER Streaming是一个新基准,用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频,报告词错误率与延迟。关键结果显示:Cartesia Ink-2(语义端点)在最终转录中准确率最高(WER 3.59%,延迟0.21秒);ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高(WER 3.65%,延迟0.13秒);Deepgram Flux在速度上领先,最终和首次部分转录延迟分别为0.020秒和0.019秒。
当前AI产业链各环节(如NVIDIA、内存、定制芯片、光网络、电力设备等)的估值可能无法同时准确,市场对相关公司的排序并不一致,因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长,利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量,则相关基础设施供应商应获溢价;若稀缺的仍是加速计算,则NVIDIA和内存可能被低估。此外,ASIC(定制芯片)叙事也增加了不确定性。
Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。
推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传(如研究员、写手)。文章指出,这种表达忽视了更本质的问题:智能体的价值不取决于其扮演的“角色”,而取决于其系统能力边界。具体能力包括:能访问的数据(可见范围)、能使用的工具(调用权限)、能执行的操作(修改权限)、运行的环境,以及错误发生后能否被监控和回滚。推文强调,角色是面向用户的营销语言,而能力边界才是决定其是否真正有用的技术内核。
http://x.com/i/article/2059840186461429760
阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。
Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...
消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期,Gemini用户数增至约为ChatGPT的50%,Claude份额从约3%增长至20%。在网站流量方面,Claude是上季度增长最快的百强网站。活跃用户数估算显示,ChatGPT周活跃用户约9亿,月活跃用户可能达15亿;Gemini月活跃用户为9亿;Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家,Gemini用户数已接近ChatGPT的65-70%,而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。
微软计划在下周的 Build 大会上发布其自研 AI 模型,旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道,依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型,但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先,其解释称是受与 OpenAI 的协议限制,直至今年四月才可训练前沿模型。此次发布时机值得关注。
企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋,而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。
新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。
Rivian首席软件官Wassym Bensaid同时担任该公司与大众集团成立的合资公司RV Tech的联席CEO。这家合资公司源于大众近60亿美元投资,旨在为大众及其旗下品牌的未来电动汽车开发操作系统和电子架构。Rivian正准备交付基于新架构的更平价车型R2,并已在R1车型中推出了AI驱动的Rivian Assistant。Bensaid将此视为打造更具“智能体”特性车载软件平台的关键一步。
一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。
@Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...
After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.
Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......
本文是一篇关于xAI新发布的Grok Build CLI工具的零基础安装与上手教程。工具目前为Beta版,需订阅SuperGrok或X Premium+才能使用。文章详细介绍了通过curl或irm命令的简单安装过程,以及首次登录和使用的基础步骤。其核心功能包括通过TUI界面进行交互,使用`/plan`进入计划模式、`/model`切换模型,并支持自动文件编辑、代码运行以及Git操作。项目根目录的`AGENTS.md`文件可用于自定义开发规范。
关联讨论 5 条xAI:News(网页)X:cb_doge (@cb_doge)X:xAI (@xai)X:阿易 AI Notes (@AYi_AInotes)X:Testing Catalog (@testingcatalog)用户获赠Cursor 1万美金额度,高强度使用7天(包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX,单次最高达672万 tokens)后,实际账单仅约300多美金。核心观点是:许多人按 token 单价估算成本是错误的,MAX 等高端模型往往能一次完成任务,而便宜模型需多次试错,总 token 消耗反而达3-5倍,导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好,代码自然好”,指出省钱关键是让强模型一次做对。结合引用推文背景,Cursor在被收购后能力显著增强,不仅能写代码,更能直接交付可用的产品成品(如10秒生成可交互雷达图),更像“全职执行助理”,进一步支持了“放手使用高效工具”的结论。
Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可...
Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。
BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...
Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。
Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......
Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...
AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。
腾讯指出,智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”:将详细内容存至外部,上下文仅保留索引;并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示,该方案在网页搜索任务中最高节省约61% Token,代码修复任务节省31%-33% Token且完成率提升,复杂任务通过率从20%提升至30%-35%。消融实验证明,结合任务画布的结构化压缩效果更优。
Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。