AIHOT

全部动态

5月29日周五

5月28日周四

5月29日

01:12

Ethan Mollick@emollick

Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏，包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站，以及一个可玩的单人冒险--然后将其全部部署到 Netlify。全程没有我的任何反馈。 https：//stillpoint-osr.netlify.app

智能体Anthropic教程/实践编码

01:06

Google AI@GoogleAI

Google用AI工具让纸板和马克笔"活起来"

Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事，创作中融合了木偶戏与3D动画。核心工具包括：Nano Banana（从原始木偶镜头和基础3D动画生成风格化首帧）、Google AI Studio（构建定制工具以大规模测试帧并确保一致性）、以及Gemini Omni和Google DeepMind的实验性模型（合并基础动画与风格化帧，提升至电影级画面）。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节，例如木偶戏的细微不完美感。

Google多模态教程/实践视频

00:42

Yuchen Jin@Yuchenj_UW

今天粉丝数达到15万。 3个月前才10万。显然我的粉丝数遵循大模型缩放定律。感谢大家喜欢我的吐槽，AGI即将到来。更令人兴奋的是：Opus 4.8今天发布，也许GPT-5.6也会？！

AnthropicOpenAI大佬观点

00:36

OpenAI@OpenAI

研发第一部分：志在必得

OpenAI行业动态

00:33

Tomer Tunguz 博客（VC 分析）

精选61

AI智能体时代下的安全变革

Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出，AI对攻击者和防御者同样强大，但可被利用的漏洞窗口正在缩小，因为AI能更快地生成、审查和修补代码。为此，安全团队正向工程团队转型，例如Lemonade的安全部门均由工程师组成，并构建了包含智能体的内部AI平台。同时，每个智能体（单个终端上可能运行200到10000个）都需要被赋予身份，并在操作点由策略进行更复杂的管控，这超越了当前身份与访问管理系统的能力。

智能体MCP/工具大佬观点

推荐理由：Jaffe 给出的结论很提气，AI 对防御方的加成被市场严重低估了，尤其每个 Agent 必须拥有身份和策略控制这个预判，值得所有在做 Agent 架构的人看一遍。

00:31

AYi@AYi_AInotes

Google Omni演示手部解剖，生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议，展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构，被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0，强调了该技术在教育领域的独特应用价值。

Google多模态现象/趋势

00:13

Chubby♨️@kimmonismus

我已准备就绪

Gwall1878: @kimmonismus if you force latest version of cc

其他

00:07

向阳乔木@vista8

Anthropic发布Computer Use最佳实践指南

Anthropic发布最佳实践指南，核心包括：控制图像分辨率以避免降采样导致坐标偏移，Claude 4.6系列推荐1280x720，Opus 4.7推荐1080p。构建API请求时，文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token，200k上下文窗口会较快用尽。文中指出：截图切块或画网格无益精度；开启Low thinking比不设更省token（因减少错误）；而Max thinking在视觉任务中性价比低，Medium设置更优且更便宜。

智能体Anthropic教程/实践

00:07

向阳乔木@vista8

AI智能体自动上架Chrome插件，Computer Use表现意外更优

开发者让Codex调用Computer Use智能体来完成Chrome插件的上架工作。首次提交被谷歌拒绝，原因为插件描述包含不相关的关键词，疑似是智能体为优化商店排名自行添加的。修改后，开发者改用Codex自带的Chrome插件来完成提交，却发现其在执行速度和准确率上反而不如之前使用的Computer Use，这一结果出乎开发者预料。

教程/实践

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选61

LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队（Intel与SGLang）通过Dynamo和SGLang框架，为视觉语言模型（VLM）启用了异构编码-预填充-解耦（EPD）架构。该方案将视觉编码任务从GPU卸载至CPU（如Intel Xeon 6747P），与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中，采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器（能力比R=12）的配置，在ISL/OSL 128/256、1080p 8张图像的负载下，实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升，并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由：做VLM服务部署的可以认真看一下，用CPU头节点做异构EPD分离，几乎零成本换来了TTFT和TPOT的显著提升，有完整脚本和benchmark，能直接上手试。

5月28日

23:48

Artificial Analysis@ArtificialAnlys

发布AA-WER Streaming：测量语音智能体场景下流式语音转文本模型的新基准

AA-WER Streaming是一个新基准，用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频，报告词错误率与延迟。关键结果显示：Cartesia Ink-2（语义端点）在最终转录中准确率最高（WER 3.59%，延迟0.21秒）；ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高（WER 3.65%，延迟0.13秒）；Deepgram Flux在速度上领先，最终和首次部分转录延迟分别为0.020秒和0.019秒。

智能体评测/基准语音

23:43

Rohan Paul@rohanpaul_ai

AI产业链估值存在错配，利润将流向关键瓶颈环节

当前AI产业链各环节（如NVIDIA、内存、定制芯片、光网络、电力设备等）的估值可能无法同时准确，市场对相关公司的排序并不一致，因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长，利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量，则相关基础设施供应商应获溢价；若稀缺的仍是加速计算，则NVIDIA和内存可能被低估。此外，ASIC（定制芯片）叙事也增加了不确定性。

大佬观点现象/趋势

23:41

Google Developers Blog（RSS）

精选64

社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松，挑战开发者利用TPU和有限算力，将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标，该流程结合了监督微调（SFT）与GRPO、SimPO等先进对齐技术。比赛结果表明，社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google开源生态教程/实践数据/训练

推荐理由：Google 官方比赛总结，证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力，对想自己微调模型的小团队是个实用参考。

23:39

ginobefun@hongming731

AI智能体：角色只是包装，边界才是内核

推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传（如研究员、写手）。文章指出，这种表达忽视了更本质的问题：智能体的价值不取决于其扮演的“角色”，而取决于其系统能力边界。具体能力包括：能访问的数据（可见范围）、能使用的工具（调用权限）、能执行的操作（修改权限）、运行的环境，以及错误发生后能否被监控和回滚。推文强调，角色是面向用户的营销语言，而能力边界才是决定其是否真正有用的技术内核。

关木: http://x.com/i/article/2059840186461429760

智能体现象/趋势

23:37

X.PIN@thexpin

我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。

现象/趋势

23:31

Berryxia.AI@berryxia

通义千问（Qwen）发布新T2I评测基准Qwen-Image-Bench，推动评价标准升级

阿里通义千问（Qwen）推出了新的文本到图像（T2I）评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度，并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”，提升至关注“真实世界保真度”和“创意生成能力”两大支柱，通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Adina Yakup: Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...

图像生成开源生态评测/基准

23:07

Deedy@deedydas

AI市场从一家独大转向多强竞争

消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期，Gemini用户数增至约为ChatGPT的50%，Claude份额从约3%增长至20%。在网站流量方面，Claude是上季度增长最快的百强网站。活跃用户数估算显示，ChatGPT周活跃用户约9亿，月活跃用户可能达15亿；Gemini月活跃用户为9亿；Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家，Gemini用户数已接近ChatGPT的65-70%，而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

AnthropicOpenAI现象/趋势

23:05

OpenRouter@OpenRouter

精选69

提示：您可以为支持的模型（OpenAI、Google Vertex 等）使用 Flex 和 Priority 层级。定价信息请查看各模型页面。文档：https：//openrouter.ai/docs/guides/features/service-tiers

GoogleOpenAI教程/实践部署/工程

推荐理由：OpenRouter 这个 Flex/Priority 层级用法看似细枝末节，但你如果同时调 OpenAI 和 Vertex，知道怎么分层能免掉很多无谓的速率限制和成本焦虑。