AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
5月29日周五
5月28日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
01:12
Ethan Mollick@emollick
64
Opus 4.8 在 Claude Code 中构建并测试了一款新的 RPG 游戏,包括 3 本 PDF 手册和冒险内容、测试笔记、一个网站,以及一个可玩的单人冒险--然后将其全部部署到 Netlify。全程没有我的任何反馈。 https://stillpoint-osr.netlify.app
智能体Anthropic教程/实践编码
01:06
Google AI@GoogleAI
41
Google用AI工具让纸板和马克笔"活起来"

Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事,创作中融合了木偶戏与3D动画。核心工具包括:Nano Banana(从原始木偶镜头和基础3D动画生成风格化首帧)、Google AI Studio(构建定制工具以大规模测试帧并确保一致性)、以及Gemini Omni和Google DeepMind的实验性模型(合并基础动画与风格化帧,提升至电影级画面)。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节,例如木偶戏的细微不完美感。

Google多模态教程/实践视频
00:42
Yuchen Jin@Yuchenj_UW
17
今天粉丝数达到15万。 3个月前才10万。显然我的粉丝数遵循大模型缩放定律。 感谢大家喜欢我的吐槽,AGI即将到来。 更令人兴奋的是:Opus 4.8今天发布,也许GPT-5.6也会?!
AnthropicOpenAI大佬观点
00:36
OpenAI@OpenAI
43
研发第一部分:志在必得
OpenAI行业动态
00:33
Tomer Tunguz 博客(VC 分析)
精选61
AI智能体时代下的安全变革

Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。

智能体MCP/工具大佬观点

推荐理由:Jaffe 给出的结论很提气,AI 对防御方的加成被市场严重低估了,尤其每个 Agent 必须拥有身份和策略控制这个预判,值得所有在做 Agent 架构的人看一遍。
00:31
AYi@AYi_AInotes
48
Google Omni演示手部解剖,生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议,展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构,被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0,强调了该技术在教育领域的独特应用价值。

Google多模态现象/趋势
00:13
Chubby♨️@kimmonismus
12
我已准备就绪

Gwall1878: @kimmonismus if you force latest version of cc

其他
00:07
向阳乔木@vista8
62
Anthropic发布Computer Use最佳实践指南

Anthropic发布最佳实践指南,核心包括:控制图像分辨率以避免降采样导致坐标偏移,Claude 4.6系列推荐1280x720,Opus 4.7推荐1080p。构建API请求时,文本指令必须置于图片之前以提升准确性。每张截图消耗1000-1800 token,200k上下文窗口会较快用尽。文中指出:截图切块或画网格无益精度;开启Low thinking比不设更省token(因减少错误);而Max thinking在视觉任务中性价比低,Medium设置更优且更便宜。

智能体Anthropic教程/实践
00:07
向阳乔木@vista8
43
AI智能体自动上架Chrome插件,Computer Use表现意外更优

开发者让Codex调用Computer Use智能体来完成Chrome插件的上架工作。首次提交被谷歌拒绝,原因为插件描述包含不相关的关键词,疑似是智能体为优化商店排名自行添加的。修改后,开发者改用Codex自带的Chrome插件来完成提交,却发现其在执行速度和准确率上反而不如之前使用的Computer Use,这一结果出乎开发者预料。

教程/实践
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
23:48
Artificial Analysis@ArtificialAnlys
70
发布AA-WER Streaming:测量语音智能体场景下流式语音转文本模型的新基准

AA-WER Streaming是一个新基准,用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频,报告词错误率与延迟。关键结果显示:Cartesia Ink-2(语义端点)在最终转录中准确率最高(WER 3.59%,延迟0.21秒);ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高(WER 3.65%,延迟0.13秒);Deepgram Flux在速度上领先,最终和首次部分转录延迟分别为0.020秒和0.019秒。

智能体评测/基准语音
23:43
Rohan Paul@rohanpaul_ai
60
AI产业链估值存在错配,利润将流向关键瓶颈环节

当前AI产业链各环节(如NVIDIA、内存、定制芯片、光网络、电力设备等)的估值可能无法同时准确,市场对相关公司的排序并不一致,因为不同环节隐含了截然不同的增长预期。繁荣不会自动让每个供应商都持续增长,利润池将流向最难替代、最难延迟、最难被客户压价的环节。若稀缺的是电力、冷却和物理容量,则相关基础设施供应商应获溢价;若稀缺的仍是加速计算,则NVIDIA和内存可能被低估。此外,ASIC(定制芯片)叙事也增加了不确定性。

大佬观点现象/趋势
23:41
Google Developers Blog(RSS)
精选64
社区如何利用Tunix和TPU训练Gemma学会"思考"

Google在Kaggle举办的Tunix黑客马拉松,挑战开发者利用TPU和有限算力,将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标,该流程结合了监督微调(SFT)与GRPO、SimPO等先进对齐技术。比赛结果表明,社区能够借助开源资源成功训练出高能力的结构化推理模型。

Google开源生态教程/实践数据/训练

推荐理由:Google 官方比赛总结,证明用 Kaggle TPU 和开源工具就能把 Gemma 训练出不错推理能力,对想自己微调模型的小团队是个实用参考。
23:39
ginobefun@hongming731
52
AI智能体:角色只是包装,边界才是内核

推文批评了当前AI智能体产品普遍采用“AI团队”的角色化宣传(如研究员、写手)。文章指出,这种表达忽视了更本质的问题:智能体的价值不取决于其扮演的“角色”,而取决于其系统能力边界。具体能力包括:能访问的数据(可见范围)、能使用的工具(调用权限)、能执行的操作(修改权限)、运行的环境,以及错误发生后能否被监控和回滚。推文强调,角色是面向用户的营销语言,而能力边界才是决定其是否真正有用的技术内核。

关木: http://x.com/i/article/2059840186461429760

智能体现象/趋势
23:37
X.PIN@thexpin
10
我们刚刚发布了Claude 4.7 Sonnet和Claude Opus 4。
现象/趋势
23:31
Berryxia.AI@berryxia
73
通义千问(Qwen)发布新T2I评测基准Qwen-Image-Bench,推动评价标准升级

阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Adina Yakup: Qwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qw...

图像生成开源生态评测/基准
23:07
Deedy@deedydas
70
AI市场从一家独大转向多强竞争

消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期,Gemini用户数增至约为ChatGPT的50%,Claude份额从约3%增长至20%。在网站流量方面,Claude是上季度增长最快的百强网站。活跃用户数估算显示,ChatGPT周活跃用户约9亿,月活跃用户可能达15亿;Gemini月活跃用户为9亿;Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家,Gemini用户数已接近ChatGPT的65-70%,而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

AnthropicOpenAI现象/趋势
23:05
OpenRouter@OpenRouter
精选69
提示:您可以为支持的模型(OpenAI、Google Vertex 等)使用 Flex 和 Priority 层级。 定价信息请查看各模型页面。文档:https://openrouter.ai/docs/guides/features/service-tiers
GoogleOpenAI教程/实践部署/工程

推荐理由:OpenRouter 这个 Flex/Priority 层级用法看似细枝末节,但你如果同时调 OpenAI 和 Vertex,知道怎么分层能免掉很多无谓的速率限制和成本焦虑。
22:42
Chubby♨️@kimmonismus
56
微软将于 Build 大会发布自研 AI 模型,定位为更廉价替代品

微软计划在下周的 Build 大会上发布其自研 AI 模型,旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道,依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型,但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先,其解释称是受与 OpenAI 的协议限制,直至今年四月才可训练前沿模型。此次发布时机值得关注。

Microsoft模型发布行业动态
22:42
TechCrunch:AI(RSS)
63
在 TechCrunch Disrupt 2026 大会上:Databricks 联合创始人谈什么会搞砸企业 AI 交易

企业AI正进入一个新阶段。企业不再评估AI技术是否令人兴奋,而是重点评估其是否能够安全、大规模地部署。这一转变标志着市场对AI的关注点已从概念验证转向实际应用与规模化落地。

大佬观点部署/工程
22:42
TechCrunch:AI(RSS)
58
递归自我改进是新的通用人工智能(AGI)--同样难以定义

新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。

智能体现象/趋势
22:39
ginobefun@hongming731
52
阿里 ATA 这篇文章有点骚,把 Claude Code 从本地 CLI 工具部署到云端、通过魔改 SDK 实现 HTTP 流式调用,并利用沙箱实现多用户隔离。
AnthropicMCP/工具教程/实践部署/工程
22:12
The Verge:AI(RSS)
61
Rivian软件负责人:车载软件无需CarPlay或物理按钮

Rivian首席软件官Wassym Bensaid同时担任该公司与大众集团成立的合资公司RV Tech的联席CEO。这家合资公司源于大众近60亿美元投资,旨在为大众及其旗下品牌的未来电动汽车开发操作系统和电子架构。Rivian正准备交付基于新架构的更平价车型R2,并已在R1车型中推出了AI驱动的Rivian Assistant。Bensaid将此视为打造更具“智能体”特性车载软件平台的关键一步。

智能体大佬观点端侧语音
21:42
Chubby♨️@kimmonismus
67
一夜之间构建的AI Twitch主播:功能、情绪与潜在影响

一个团队在一夜之间打造了一款AI Twitch主播。该AI能玩游戏、进行解说、与直播聊天互动,并在做出高风险决策时感到紧张,在获胜后表现出喜悦。文中探讨了其深远影响:当AI能实现24/7不间断直播、永不倦怠时会怎样;当观众与能比人类创作者更“了解”他们的AI建立情感联结时意味着什么;以及当娱乐的创作门槛降至零时,对创作者经济将产生何种冲击。该AI主播被其开发者@karthik_ragu_06等人定义为“具有情感智能的数字人类”。

Tavus: @Twitch the first ever human-like AI streamer is here. This AI streamer plays, narrates, reacts to chat, gets nervous on...

智能体多模态现象/趋势视频
21:39
ginobefun@hongming731
50
过去四十年,写文档是在整理已经想清楚的事; 现在写 Spec、Rule、project.md,是在被一个永不疲倦的读者逼着把自己从未想清楚过的事想清楚。 这不是效率升级,而是认知事件。
大佬观点现象/趋势
21:37
elvis@omarsar0
38
如果我们以正确的方向改进AI,我怀疑它也能在所有科学领域实现类似效果。

Noam Brown: After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.

大佬观点现象/趋势
21:31
Berryxia.AI@berryxia
6
推文提及Anthropic首席执行官Dario Amodei与中国用户的互动历史,并讨论其对中国用户的态度。内容主要围绕个人经历与看法,未包含具体模型、参数或评测数据。

Berryxia.AI: Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......

Anthropic大佬观点
21:31
AYi@AYi_AInotes
75
Grok Build CLI 初步指南

本文是一篇关于xAI新发布的Grok Build CLI工具的零基础安装与上手教程。工具目前为Beta版,需订阅SuperGrok或X Premium+才能使用。文章详细介绍了通过curl或irm命令的简单安装过程,以及首次登录和使用的基础步骤。其核心功能包括通过TUI界面进行交互,使用`/plan`进入计划模式、`/model`切换模型,并支持自动文件编辑、代码运行以及Git操作。项目根目录的`AGENTS.md`文件可用于自定义开发规范。

xAI教程/实践编码
关联讨论 5 条xAI:News(网页)X:cb_doge (@cb_doge)X:xAI (@xai)X:阿易 AI Notes (@AYi_AInotes)X:Testing Catalog (@testingcatalog)
21:31
AYi@AYi_AInotes
58
Cursor高额额度实测:高效使用为何反而省钱

用户获赠Cursor 1万美金额度,高强度使用7天(包括Claude Opus 4.7 thinking xhigh MAX和GPT-5.3 Codex high fast MAX,单次最高达672万 tokens)后,实际账单仅约300多美金。核心观点是:许多人按 token 单价估算成本是错误的,MAX 等高端模型往往能一次完成任务,而便宜模型需多次试错,总 token 消耗反而达3-5倍,导致“贵的反而便宜”。引用Claude Code之父Boris Cherny的观点强调“计划做得好,代码自然好”,指出省钱关键是让强模型一次做对。结合引用推文背景,Cursor在被收购后能力显著增强,不仅能写代码,更能直接交付可用的产品成品(如10秒生成可交互雷达图),更像“全职执行助理”,进一步支持了“放手使用高效工具”的结论。

AYi: Damn,@Cursor被老马收购以后是进化了吗? 现在真的强到离谱,这波必须吹爆, 我现在已经不用 Cursor 写代码了,用它做产品很香啊, 随口一句 帮我做个六维协作雷达图, 10 秒直接交付,Excel 可编辑模板 + HTML 可...

大佬观点编码
21:18
SemiAnalysis@SemiAnalysis_
15
嗨 @elonmusk,与其在 Colossus 2 上涂写"MACROHARDER",不如涂点更有趣的,比如"67"或"SAM ALTMAN IS FINISHED"。这条推文需要多少赞才能让"67"出现在 Colossus 2 的屋顶上?
xAI其他
21:12
Chubby♨️@kimmonismus
46
Bloomberg泄露iOS 27 Siri重大改版方案

Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

Google大佬观点语音
21:11
Cloudflare Blog
49
我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。

智能体教程/实践部署/工程
20:31
Berryxia.AI@berryxia
23
推文围绕Jade Wang展开,称其"秀儿"(出色),并指出她曾被Anthropic创始人Dario Amodei赏识。引用内容提供了背景:有观点认为Dario Amodei早年与中国有较深渊源,并对其当前对国人态度提出猜测,暗示其态度"复杂"。推文核心在于探讨Dario的个人经历与当前人物选择之间的关联,未涉及任何具体模型、产品或技术细节。

Berryxia.AI: Anthropic 的老板Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人......

Anthropic其他
20:18
NotebookLM@NotebookLM
52
如果你错过了,可以查看我们公开的笔记本,其中总结了 Google I/O 2026 的所有重要公告。 访问地址:https://goo.gle/4dR9MiQ
Google教程/实践
19:31
Berryxia.AI@berryxia
16
Anthropic 的老板 Dario 看来当年没少在中国花啊~ 不知道遭遇了啥如此的痛很国人……
Anthropic大佬观点
19:18
IT之家(RSS)
34
小米汽车详解 V8s EVO 超级电机:搭载自研碳化硅功率模块,支持 28000rpm 高转速
产品更新教程/实践
18:04
Noam Brown@polynoamial
62
AlphaGo之后,人类围棋选手的水平显著提升。我怀疑我们将在数学领域看到类似的模式。

Timothy Gowers @wtgowers: Another major problem, this time in additive combinatorics, has fallen, this time to humans rather than AI, but using me...

OpenAI大佬观点推理
17:39
ginobefun@hongming731
62
AI Agent 演进:从提示工程到系统工程

AI智能体(Agent)的发展正经历工程范式转变,核心是从Prompt Engineering转向更系统的工程构建。这体现在六大模块的演进:1)提示词按需加载上下文;2)规划能力可拆解复杂任务;3)记忆采用文件系统与检索混合模式;4)工具层直接使用CLI和Script;5)工作流与灵活的Skill模块混合;6)环境需要安全的Workspace与Runtime。总体而言,好的智能体是用工程系统来承载模型的不确定性,模型负责推理,系统负责边界。

智能体大佬观点现象/趋势
17:39
ginobefun@hongming731
69
腾讯提出解决方案应对Agent长任务上下文过载

腾讯指出,智能体在执行长任务时面临上下文信息堆积导致的成本增加与目标遗忘问题。其提出的解决方案是结合“上下文卸载”与“Mermaid任务画布”:将详细内容存至外部,上下文仅保留索引;并用图表将执行过程结构化为带状态与依赖的任务地图。方案采用分层记忆系统。实验显示,该方案在网页搜索任务中最高节省约61% Token,代码修复任务节省31%-33% Token且完成率提升,复杂任务通过率从20%提升至30%-35%。消融实验证明,结合任务画布的结构化压缩效果更优。

智能体教程/实践部署/工程
17:12
MarkTechPost(RSS)
67
Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face开源/仓库部署/工程
‹ 上一页
1…4445464748…50
下一页 ›