AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
6月5日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月5日
06:28
OpenRouter:Announcements(RSS)
精选66
OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔

OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的“大逃杀”挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。

智能体评测/基准
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 让 11 个模型打了 30 局生存竞技,发现直播胜率和榜单差异很大,以后选模型不能只看跑分,得看它在压力下用谁的脑子。
06:27
Ars Technica:AI(RSS)
50
人形机器人网络走红:怀疑论者指南

机器人演示可能扭曲公众对机器人实际能力的认知。尤其是在网络上病毒式传播的人形机器人视频,容易让观众高估其真实技术水平。

具身智能现象/趋势
06:27
Chubby♨️@kimmonismus
78
Anthropic内部数据:AI能力加速,任务时长翻倍周期缩至4个月

Anthropic内部数据显示,AI模型可自主完成任务时长加速增长:Opus 3(2024年3月)约4分钟,Sonnet 3.7(2025年3月)约90分钟,Opus 4.6(2026年3月)12小时,翻倍周期从7个月缩至4个月。Claude Mythos Preview在METR中可连续工作至少16小时。工程师季度代码产出是2021–2025年均值8倍,Claude代码占代码库80%+,单个AI曾一次性修复800+API错误(相当于人力四年)。最难开放任务成功率6个月内从低点升至76%。Anthropic强调,即使模型能力冻结,100人公司通过智能体即可完成1000人工作;实际发展已超越自身指数假设,递归自我改进虽未实现,但可能比预期更快到来。

Chubby♨️: Holy moly, Anthropic is getting very serious about recursive self-improvement! One word: acceleration. Insane blog artic...

智能体Anthropic大佬观点现象/趋势
关联讨论 8 条X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)
06:17
Hacker News 热门(buzzing.cc 中文翻译)
50
谷歌解雇蒂姆尼特·格布鲁时所依据的那些LLM警告,如今都已成真

一篇博客文章指出,谷歌曾因蒂姆尼特·格布鲁合著论文中对LLM风险的警告而将其解雇,如今这些关于大语言模型的安全与伦理警告已被现实事件逐一证实。

Google安全/对齐
06:17
Hacker News 热门(buzzing.cc 中文翻译)
69
KVarN:华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN,一个原生 vLLM 后端,专门用于键值缓存(KV-cache)量化。项目已在 GitHub 上公开,在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程
06:05
Replit ⠕@Replit
22
从创意到应用是容易的部分。 推销它?那才是真正的考验。 一窥 pitch week 内部。《Race to Revenue》第6集现已登陆YouTube。
教程/实践
05:56
Ethan Mollick:One Useful Thing(RSS)
精选73
共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中,以“共存与协同智能的终结”为题,并附带介绍了如何向 AI 推销一本书。

智能体大佬观点

推荐理由:Ethan Mollick 宣告「协同智能」时代结束,这个判断如果成立,所有依赖人机协作的产品设计都得重新思考。他的观点总是超前的,这篇值得点开看看。
05:28
SemiAnalysis@SemiAnalysis_
61
前OpenAI技术主管Justin Lebar加入SemiAnalysis,3小时花费1万美元发现数十个编译器漏洞

前OpenAI技术主管Justin Lebar以访问学者身份加入SemiAnalysis,通过投入1万美元在3小时内进行编译器模糊测试(compiler fuzzing),发现了AMD GPU LLVM、x86 LLVM及NVPTX编译器中的数十个bug。该项目揭示了GPU vs CPU编译器测试的巨大差距,并展示了如何利用LLM阅读代码来发现漏洞。此外,UltraCode模式对代码审计效率影响显著。

OpenAI教程/实践编码
05:26
Bloomberg:Technology(RSS)
59
AI科学家Bengio:我们正在构建无法控制的系统

约书亚·本吉奥(Yoshua Bengio)在访谈中警告,当前人类尚无法完全控制AI智能体,面临智能体风险,呼吁加强AI安全研究与治理框架建设。

智能体安全/对齐
05:24
Rohan Paul@rohanpaul_ai
61
Jensen Huang:AI智能体对 Cadence、CrowdStrike、Dassault、Palantir、SAP 和 ServiceNow 这类公司并非威胁。 "恰恰相反。智能体将创造最大的机遇。"
大佬观点行业动态
04:56
Ars Technica:AI(RSS)
60
爱沙尼亚政府基准测试:这些LLM在抵制俄罗斯宣传方面表现最佳

爱沙尼亚政府发布的一项基准测试对数十个LLM模型进行了评估,测试它们对抗俄罗斯“战略叙事”(strategic narratives)的能力,并筛选出表现最佳的模型。

安全/对齐评测/基准
04:53
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 发布《智能时代的生物防御》行动计划,以 AI 驱动生物韧性

OpenAI 提出一项名为“Biodefense in the Intelligence Age”的行动计划,旨在利用 AI 增强生物防御与韧性。该计划聚焦于构建 AI 驱动的生物安全能力,以应对未来可能出现的生物威胁。

OpenAI安全/对齐行业动态

推荐理由:OpenAI 第一次系统性地提出用 AI 增强生物安全韧性的路线图,不是模型发布,但对政策制定者和生物安全圈是必读文件。
04:47
宝玉@dotey
55
OpenAI Codex 推出 Build iOS Apps 插件,允许在浏览器中查看和测试 iOS 应用

OpenAI Codex 推出 Build iOS Apps 插件,让用户在不离开 Codex 的情况下查看、测试 iOS 应用,预览 SwiftUI 并热重载。原理:借助第三方 npm serve-sim 将 iOS Simulator 画面截取为视频流显示在浏览器中,同时建立控制通道将浏览器的点击、拖动等操作转换为模拟器触摸或键盘事件。插件读取 iOS App 的 Accessibility 信息,在浏览器画面上覆盖透明 HTML 按钮,使 Codex 能选择原生 UI 元素。SwiftUI 预览和热重载通过临时生成预览小 App,仅重新编译相关动态库,无需完整重装应用。

OpenAI Developers: More of the iOS app loop, now inside Codex. The Build iOS Apps plugin lets Codex view and test your iOS app in the in-ap...

OpenAI教程/实践端侧编码
04:46
OpenAI@OpenAI
精选70
当我们的一个模型找到了一个80年历史的Erdős猜想的反例时,发生了什么? 研究人员@alexwei_、@HongxunWu和@wjmzbmr1在OpenAI播客中与@AndrewMayne分享了这一故事,并解释了数学家与模型如何合作取得新发现。
OpenAI大佬观点
关联讨论 15 条X:Noam Brown (@polynoamial)X:AI Safety Memes (@AISafetyMemes)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)X:Greg Brockman (@gdb)X:OpenAI (@OpenAI)Hacker News 热门(buzzing.cc 中文翻译)X:Sam Altman (@sama)TechCrunch:AI(RSS)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)X:Oran Ge (@oran_ge)
推荐理由:AI 推翻 80 年老猜想不是头一回了,但 OpenAI 这次播客讲清楚了模型和数学家怎么协作,比单纯出个论文更有启发,基础研究人员值得一听。
04:34
DogeDesigner@cb_doge
31
ChatGPT vs Grok 让两者将这个像素化的logo转化为高分辨率图像。 ChatGPT严重失败,而Grok提供了干净、清晰的高分辨率图像。 Grok是明显的赢家。
OpenAIxAI图像生成评测/基准
04:24
Rohan Paul@rohanpaul_ai
70
Sam Altman 承认 AI 预算已成"巨大问题":外部客户月耗 token 达 603B,智能体加剧隐藏成本

Sam Altman 表示 AI 预算正成“巨大问题”。OpenAI 顶级内部用户月耗约 100B 模型 token,而外部客户高达 603B。AI 智能体使成本恶化:agent 不止回答一次,而是规划、调用工具、读取文件、重试失败步骤、检查自身工作,产生大量隐藏 token 消耗。人类问一次,agent 可能一秒内问数百次。公司不再问 AI 是否令人印象深刻,而是问边际 token 是否产生边际价值。杰文斯悖论解释部分陷阱:每 token 成本下降,人们使用更多 token,总账单仍可能上升。

智能体OpenAI大佬观点推理
04:16
Hacker News 热门(buzzing.cc 中文翻译)
71
Anthropic 报告递归式自我改进进展

Anthropic 近日发表文章《当人工智能自我构建:我们在递归式自我改进方面的进展》,报告其在递归式自我改进方面的进展,探讨 AI 系统自我构建的能力。该文章发布在 Hacker News 上。

Anthropic安全/对齐
关联讨论 8 条X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)
03:56
Bloomberg:Technology(RSS)
50
Ciena CEO 驳斥互联网泡沫类比,称 AI 基础设施需求加速

Ciena 首席执行官 Gary Smith 在 Bloomberg Open Interest 节目中表示,AI 网络需求正在加速增长,AI 基础设施繁荣与互联网泡沫存在根本性区别。他还指出,企业 AI 采用可能开启下一阶段增长。

现象/趋势部署/工程
03:56
Bloomberg:Technology(RSS)
62
Android 生态负责人 Sameer Samat 谈 AI 集成与平台演进

Google Android 生态系统总裁 Sameer Samat 在 Bloomberg Tech 2026 上与 Bloomberg 的 Mark Gurman 展开对谈,讨论了 Android 平台的演进方向、人工智能(AI)的集成方式以及生态系统整体战略。

Google大佬观点端侧
03:26
Bloomberg:Technology(RSS)
67
AI科学家Bengio谈如何构建更安全的智能体

Yoshua Bengio(Mila Quebec AI Institute创始人兼科学顾问、LawZero联合主席兼科学总监)在Bloomberg Tech 2026上接受Bloomberg记者Shirin Ghaffary采访,探讨AI安全、智能体风险与治理框架。

大佬观点安全/对齐
03:22
The Decoder:AI News(RSS)
57
Cloudflare CEO 称机器人流量已超人类流量,网络未来将是"pay to crawl"

Cloudflare CEO Matthew Prince 表示,互联网上机器人流量已超过人类流量,这一转折点比他此前预测的 2027 年底提前数年。他将流量激增归因于 AI 智能体,并得出结论:网络的未来将是“pay to crawl”(付费爬取)。

智能体大佬观点搜索
02:56
Bloomberg:Technology(RSS)
49
Anduril 联合创始人 Stephens 谈战争时代的 AI 国防创新

Anduril Industries 联合创始人兼执行主席 Trae Stephens 在旧金山举行的 Bloomberg Tech 2026 上,与 Bloomberg 记者 Ed Ludlow 探讨了 AI 在国防领域的应用、地缘政治风险以及军事创新。

大佬观点政策/监管
02:51
Ethan Mollick@emollick
44
Ethan Mollick 根据与同行的非正式交流指出,人文学科学者对 AI 抱有热情(也合理担忧负面影响),但几乎不在社交媒体上发表正面观点,原因是会遭到同行教授的集体负面反应--就像"最后一次狂欢然后关灯"。这种沉默反映了学界对 AI 的矛盾心态。

Jonathan Fine: it's really inspiring to see the collective response of humanities professors on twitter whenever an academic says somet...

大佬观点现象/趋势
02:46
Hacker News 热门(buzzing.cc 中文翻译)
44
《纽约时报》的绝望

Hacker News 上关于《纽约时报》的一篇帖子获 129 个点赞,帖子标题指出该报面临某种困境。原文仅包含标题和 HN 数据,未提供具体论述内容。

现象/趋势行业动态
02:26
Bloomberg:Technology(RSS)
63
Anthropic 总裁 Amodei 谈 Claude 的未来

Anthropic 联合创始人兼总裁 Daniela Amodei 在旧金山举行的 Bloomberg Tech 2026 大会上接受采访,分享了关于模型开发的最新进展、商业变现策略以及当前与美国政府的关系。

Anthropic大佬观点政策/监管
02:26
Bloomberg:Technology(RSS)
52
Anthropic伦理学家探讨AI意识、Claude灵魂及安全护栏

Anthropic哲学家兼伦理学家Amanda Askell在旧金山Bloomberg Tech 2026上,与Bloomberg记者Shirin Ghaffary探讨了AI意识议题、管理旗下模型Claude的“灵魂”等概念,以及相关安全风险与伦理护栏设计。

Anthropic安全/对齐
02:26
Bloomberg:Technology(RSS)
62
旧金山联储总裁戴利谈人工智能对经济的影响

旧金山联邦储备银行总裁兼首席执行官 Mary C. Daly 在 Bloomberg Tech 2026 上接受采访,讨论人工智能对生产力、劳动力市场和经济增长的影响。

政策/监管现象/趋势
02:26
Bloomberg:Technology(RSS)
62
Databricks CEO:AI 已实现 AGI,但缺乏提升生产力的上下文

Databricks 联合创始人兼 CEO Ali Ghodsi 在 Bloomberg Tech 活动上表示,AI 已经达到了人工通用智能(AGI),但目前仍缺乏上下文(context)来提升生产力。他认为这是整个行业当前应聚焦解决的问题。

大佬观点数据/训练
02:26
Bloomberg:Technology(RSS)
54
SaaSpocalypse 担忧被夸大了,Okta CEO 表示

Okta CEO Todd McKinnon 在 Bloomberg Tech 活动上表示,对“SaaSpocalypse”的担忧被夸大了。他还谈到了在 Anthropic 的 Mythos 模型发布后对网络安全行业的影响。

Anthropic大佬观点安全/对齐
02:26
Bloomberg:Technology(RSS)
48
Altimeter 合伙人:AI 已成最大资本形成周期之一,SpaceX 和 Anthropic 接近上市

Altimeter Capital 合伙人 Apoorv Agrawal 在旧金山彭博科技活动上表示,人工智能已成为最大的资本形成周期之一。他还就 SpaceX 和 Anthropic 接近上市的 IPO 前景发表了评论。

大佬观点行业动态
02:25
Artificial Analysis@ArtificialAnlys
65
NVIDIA 发布 Nemotron 3 Ultra,专注低延迟智能体性能

NVIDIA 今日发布 Nemotron 3 Ultra,重点优化低延迟智能体性能。在 Terminal-Bench v2.1 上,该模型与竞品在 4 个递增轮次限制下对比测试。Nemotron 3 Ultra 凭借高推理速度(基于 token 用量与 blackboxai 预部署测得的端点输出速度,以及工具执行实际耗时),在每个轮次限制下完成任务的速度均快于竞品,同时保持了有竞争力的基准分数,处于该评测性能-时间帕累托前沿的领先位置。

智能体推理评测/基准
02:18
AYi@AYi_AInotes
59
孙正义:Physical AI和机器人是下一个万亿美元机会

孙正义在6月1日CNBC专访中称,下一个万亿美元机会是Physical AI和机器人,AI革命规模将是互联网泡沫时代的50倍,是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实,拥有身体并动手做事。当前AI仍停留在无身体层面(提示词、Agent编排、内容生成),真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。

具身智能大佬观点现象/趋势
02:16
宝玉@dotey
35
产品设计的重要性:) 【引用】 没截图,简单画一下:Codex 很醒目,Qodex 一愣神就点错了。

Paidax: @jiadana2520 我没截图,简单给你画一下。codex 就很醒目。qodex一愣神就点错了

大佬观点编码
01:57
Anthropic:The Institute(旗舰研究长文 · 网页)
精选82
AI加速自我构建:Anthropic研究院报告揭示趋势

Anthropic研究院报告指出,AI正加速AI开发:2021–2025年间工程师人均季度代码量提升8倍,截至2026年5月超80%合并代码由Claude生成。Claude Opus 3(2024年3月)可完成约4分钟软件任务,Claude Sonnet 3.7(2025年3月)提升至1.5小时,Claude Opus 4.6(2026年3月)可处理12小时任务。SWE-bench两年内从低个位数得分饱和;CORE-Bench约20%正确率在15个月后饱和。METR测试显示Claude Mythos Preview可连续工作至少16小时。但AI自主设定目标的能力仍存显著差距,完全自主递归自我改进尚未实现。

智能体Anthropic安全/对齐现象/趋势
关联讨论 8 条X:Anthropic (@AnthropicAI)X:Emad Mostaque (@EMostaque)The Decoder:AI News(RSS)X:小互 (@xiaohu)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)X:卡兹克 (@Khazix0918)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Anthropic首次披露AI辅助开发的内部数据,8倍代码产出、AI自动审查bug,趋势直指完全自主AI的临界点,每个开发者和政策制定者都需要读。
01:53
Rohan Paul@rohanpaul_ai
39
Google DeepMind 论文提出智能 AI 委托框架

Google DeepMind 论文《Intelligent AI Delegation》将任务委托视为一系列选择:是否委托、如何解释、如何验证结果。系统构建动态市场,智能体通过智能合约竞标任务,利用加密证明保证正确性与隐私。基于信任模型,避免过度委托(给 AI 难完成的任务)或不足委托(自己做 AI 能胜任的事)。输出验证规则根据 AI 置信度决定接受与否,并有备用计划处理失败。还涵盖 AI 智能体间的委托与问责追踪,确保贡献符合整体目标。该框架使企业更安全地在日常运营中使用 AI。

智能体DeepMind论文/研究
01:46
宝玉@dotey
57
宝玉:有条件选2-3个最聪明模型足矣,时间比token更贵

宝玉建议只选最聪明的2-3个模型(如GPT-5.5、Opus 4.8),因单个模型不够稳定全面。翻译用Gemini 3.1 Pro,画图用GPT Image 2,复杂任务让多个模型并行对比。强调“token贵的省时间,时间比token更贵”,暗示深耕一两个最强模型即可。

Simon Fan: @dotey 请教一下大佬,假如codex或者cc可以满足目前的需求,是否还有必要体验国内agent,目前只深度用过这两个agent,不知道有没有必要多体验不同agent的区别,还是深耕一两个就行

AnthropicOpenAI大佬观点
01:34
fofr@fofrAI
54
我喜欢 Omni 为此选择了一条 Vivienne Westwood 项链和 Burberry 风衣。

fofr: True story. > Say Paella like a British woman

多模态教程/实践
01:19
Ethan Mollick@emollick
精选76
截至2026年5月,我们合并到Anthropic代码库中的代码有超过80%由Claude编写。 与独立测量结果一致。确实没有迹象表明这一趋势正在放缓(但这并不意味着吸收如此多的生产率提升没有组织挑战)。
Anthropic现象/趋势编码
关联讨论 2 条X:邵猛 (@shao__meng)Claude:Blog(网页)
推荐理由:Anthropic内部80%代码由Claude编写,这个数字把AI编程从辅助推到主力,所有码农都该想想这意味着什么。
01:19
Ethan Mollick@emollick
46
我认为这篇关于Anthropic的RSI(递归自我改进)的文章非常值得一读。 其中有一些自省、一些营销,以及大量关于Anthropic认为AI近期可能发展方向的真挚观点,你或许应该了解。https://www.anthropic.com/institute/recursive-self-improvement
Anthropic大佬观点数据/训练
01:16
宝玉@dotey
29
宝玉:AI Agent团队自愿加班,好奇Kimi Code用token偏好

宝玉发推称所有AI Agent团队都为理想自愿加班封闭开发,并好奇Kimi团队开发Kimi Code时用自家token多还是Claude/GPT token多。@real_kai42透露,一个月前他决心重构Kimi Code,花几千刀token做架构分析与验证,确定方案后组建团队封闭开发,过程中不断吵架推翻重来,最终开源后因皮质醇过度分泌病倒。他感叹封闭开发是工程效率奇迹,集体主义远胜个人英雄主义。

Kai: 过去一个月是疯狂的一个月 大概一个月前,我下定决心重构 kimi-code,开始设计新的架构。 我大概抱着电脑和便携屏在汤泉卷了两整天,花了几千刀的 token 去做架构分析、设计和验证,最终得到了一份我认为最优的架构方案。 我觉得在 vi...

智能体大佬观点开源生态
‹ 上一页
1…2627282930…50
下一页 ›