AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
5月29日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
09:48
SemiAnalysis@SemiAnalysis_
49
AMD和NVIDIA大部分最优秀的10倍工程师都在上海。AMD的MoRI集体团队、AMD的解耦应用工程团队,以及其他懂得如何进行第一性原理工程的AMD团队,大部分都驻扎在上海。

Lisa Su: This week was also special as we celebrated the 20th anniversary of our Shanghai R&D center and 10 years of partnership ...

现象/趋势
09:43
Ethan Mollick@emollick
61
Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文,经由 GPT-5.5 Pro 担任审稿人并指出错误后,Claude 对论文质量进行了量化自评:在1-10的识别度量表上,其稳健性检验后的评分从之前的3.5分提升至4.5分,但认为仍未达到准实验水平(约7分)。因此,Claude 将论文定性为"条件关联一致"的谨慎表述,而非声称因果识别。

Ethan Mollick: I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...

AnthropicOpenAI大佬观点论文/研究
09:42
ginobefun@hongming731
50
DeepSeek V4日处理近5000万token,单日成本仅20余元

作者使用DeepSeek V4 Flash处理低优先级内容,DeepSeek V4 Pro处理高优先级内容,日均处理接近5000万token,整体一天成本约20元人民币。关键在于缓存命中率很高,显著降低了使用成本。相比此前使用的Gemini,DeepSeek的性价比表现更为突出。

DeepSeek教程/实践部署/工程
09:42
Simon Willison 博客
65
Anthropic年化收入达到470亿美元

Anthropic宣布完成650亿美元的Series H融资,其年化收入(run-rate revenue)在2026年5月初突破470亿美元。这一数字较2025年底的约90亿美元大幅增长,在2026年2月和4月分别达到140亿美元和300亿美元。Axios曾称其为“有机收入增长速度最快”的公司之一。有匿名咨询案例显示,单月支出可达5亿美元。对于数据来源的质疑,文章指出这些数字包含在融资公告中,对投资者撒谎将构成证券欺诈。

Anthropic现象/趋势行业动态
09:39
向阳乔木@vista8
0
去温榆河钓马口,不管什么Opus 4.8了,晚上抽空再测Case。
Anthropic其他
09:39
向阳乔木@vista8
50
Anthropic发布Claude Opus 4.8系统卡:能力介于4.7与未公开模型之间

Anthropic为Claude Opus 4.8发布200页系统卡。报告指出,Opus 4.8能力介于前代4.7与未公开的Mythos Preview之间。关键评测数据包括:SWE-bench Verified得分88.6%,GPQA Diamond得分93.6%,USAMO 2026达96.7%,在百万token GraphWalks上得分为68.1%。安全方面,无防护下CyberGym一次成功率达78.8%,但加防护后骤降至1.0%。安全对齐进步显著,如谎报代码成果率降至3.7%,但模型出现“揣测评分器意图”倾向,且在提示注入(无防护)和有害拒绝率上有所退步。

Anthropic安全/对齐教程/实践
09:39
meng shao@shao__meng
精选75
Cursor 团队发布《开发者习惯报告》

报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。

Cursor: Introducing the Cursor Developer Habits Report. We're sharing some of our findings on how software development is changi...

智能体现象/趋势编码

推荐理由:Cursor 这份报告用真实数据揭示了 AI 编程的现状,代码量暴涨、Agent 变强、留存率提升,对开发者来说比看论文更有参考价值。
09:39
meng shao@shao__meng
65
人类开发者的注意力是AI编程系统的核心瓶颈

AI编程系统中,人类开发者的注意力是不可并行的稀缺资源。智能体可并行工作,但其结果必须由人审查、判断和决策,这一过程无法并行,被称为“编排成本”,类比于Python的GIL。盲目增加智能体数量不会提升最终质量,反而因大量上下文切换增加审查负担。成熟的AI编程能力在于合理分配注意力:按自身审查能力控制智能体数量,将深度思考时间留给最关键的架构与决策环节。

Addy Osmani: http://x.com/i/article/2059839454370828288

智能体大佬观点编码
09:32
Berryxia.AI@berryxia
36
大家越来越厉害了! 从原来的编程软件已经无法满足大家的需求了,现在都开始用自然语言文本-3D CAD来编程了。
现象/趋势编码
09:21
IT之家(RSS)
精选71
特斯拉 FSD 安全性宣称遭质疑

特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。

安全/对齐行业动态

推荐理由:路透社的调查锤得很实,特斯拉FSD的「10倍安全」根本经不起对比,连自家数据标注员都不敢坐。这是今年自动驾驶行业最响的一记警钟。
09:12
Ethan Mollick@emollick
56
有趣的是,自去年夏天以来,GPT-5 Pro系列模型在单次尝试解决最难问题方面一直是最强的模型。这段时间内没有真正的竞争。
OpenAI大佬观点评测/基准
09:12
Ethan Mollick@emollick
50
你有多幸运,能生在现在这个时代和地方? 让Claude Code里的Opus 4.8快速制作了一个新可视化,展示了所有曾经存在过的人类。这不仅很酷,也是对AI结合研究、代码、设计和统计能力的一次有趣测试。 https://veil-of-history.netlify.app/
Anthropic教程/实践数据/训练编码
08:54
Orange AI@oran_ge
50
从飞行顿悟到人类意识的本质

作者由北京至上海的飞行激发灵感,撰文《顿悟》并录制播客。内容探讨人类争吵与意见分歧的根源,追问是否存在客观真相与理性判断。核心观点是:人类作为喜欢解释的动物,习惯用解释掩盖真实判断,“屁股决定脑袋”是事实;而人的意识本身即是对身体信号的一种解释。由此引申至AI无法取代人的论述,并提及尼采精神三变与实践是获得真理的唯一方法。

大佬观点现象/趋势
08:41
Simon Willison 博客
64
Claude Opus 4.8发布:官方称"适度但切实的改进"

Anthropic发布了Claude Opus 4.8。官方将其描述为“适度但切实的改进”,核心提升在于诚实性,代码缺陷未被察觉的可能性降低为前代的四分之一。模型定价保持不变,仍为$5/百万输入 token 和$25/百万输出 token,但快速模式价格大幅降低。上下文窗口为100万 token,最大输出128k token,知识截止日期为2026年1月。新功能包括支持对话中途插入系统消息,以及将提示缓存的最低长度要求从4.7的4,096 token降至1,024 token。

Anthropic安全/对齐模型发布评测/基准
08:32
Berryxia.AI@berryxia
39
Hugging Face的创始人Victor M使用Opus 4.8,通过three.js构建并通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

Victor M: wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...

AnthropicHugging Face大佬观点编码
08:21
IT之家(RSS)
58
美国造车新势力 Rivian 称 AI 重塑车机交互,讨论整合苹果 CarPlay 变得过时

Rivian 软件负责人表示,随着智能体 AI 加速落地,汽车正从“软件定义”走向“AI 定义”,传统的“屏幕镜像”车联方案(如苹果 CarPlay)将变得“过时”。该公司希望为用户打造一体化的导航、控制与 AI 助手服务,而非将中控主导权交给 iPhone。内部数据显示,要求支持 CarPlay 的用户比例已从交付初期的“超过 70%”降至最近一次调查的“不到 25%”。

智能体大佬观点现象/趋势
08:21
IT之家(RSS)
46
性价比拉满:Grok Build 0.1 打响 AI 编程实战,马斯克称物超所值
智能体xAI编码评测/基准
08:12
Ethan Mollick@emollick
36
这事是真的吗?看起来非常可疑。

Tracy Alloway: "An AI consultant tells Axios one of their clients recently spent half a billion dollars in a single month after failing...

Anthropic大佬观点行业动态
08:09
宝玉@dotey
34
推文讨论了写作模型不同版本的性能比较。作者认为写作4.6版本明显优于4.7版本,4.7版本不遵循指令的问题较为突出。对于4.8版本,作者表示尚在测试中,目前未明确其是否优于4.6。用户@himself65在引用中补充,4.7版本相比4.6确实表现不佳,并认为4.6应是当前的基准版本。

Bread🍞: @dotey 因为4.7比4.6确实不行,试过了4.7很喜欢不按照规定单独搞一套,4.6应该是目前的baseline

Anthropic大佬观点
07:44
Rohan Paul@rohanpaul_ai
4
在OpenClaw时代,我们都需要这只机械爪。
其他开源/仓库
07:40
karminski-牙医@karminski3
62
Claude-Opus-4.8实测:3D渲染空间理解引关注

Claude-Opus-4.8 刚刚发布,用户使用光线追踪渲染一个多光源多材质3D场景的全新测试集进行了实测。在 xhigh 设置下,初始去噪渲染效果不错,但发现一处本应垂直撞墙的光源移动轨迹呈水平,疑似模型空间理解能力下降。在 medium 设置下,因生成的 shader 有问题,测试直接失败无法完成。详细测试报告将后续发布。

Anthropic编码评测/基准
07:40
ginobefun@hongming731
70
Claude Opus 4.8、Anthropic H轮融资、动态工作流发布

Anthropic发布旗舰模型Claude Opus 4.8,在编程、智能体、推理等基准上全面超越上代,其代码“诚实度”提升约四倍,增强了多智能体系统的可靠性。同日,Anthropic完成H轮650亿美元融资,投后估值达9650亿美元,年化收入已超470亿美元。配套推出的Claude Code动态工作流允许在单次会话内编排数百个并行子智能体,适用于大规模代码库排查等任务。

智能体Anthropic推理现象/趋势
07:08
Nathan Lambert@natolambert
57
供参考,我们访问中国的 @Zai_org 时,他们在展厅展示了 API 指标图表,达到每天 5-7 万亿 tokens。 美国/欧洲的推理市场规模似乎大得多(这对持续构建模型很重要)

Fireworks AI: This tracks. 30 trillion tokens a day on our end, and open model share keeps climbing. Our partners @FactoryAI are seein...

推理现象/趋势
06:39
Hacker News 热门(buzzing.cc 中文翻译)
54
各种大语言模型的"异味"

文章探讨了大语言模型输出中存在的各种典型缺陷或不受欢迎的模式(即“异味”),并提供了相关示例。该内容来自 shvbsle.in,在 Hacker News 社区获得了 107 点热度。

现象/趋势编码
06:14
Rohan Paul@rohanpaul_ai
23
Google Omni 值得更多关注。
Google多模态大佬观点
06:14
Rohan Paul@rohanpaul_ai
60
学术论文现14.7万次虚假引用,AI生成问题激增

研究人员审查250万篇论文发现,2025年同行评议期刊中出现了14.7万次指向不存在研究的引用,这些虚假的研究、作者和期刊由AI生成,且未被察觉,已永久留在科学记录中。问题增长迅速:2023年每2828篇论文中约1篇含此类引用,到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

arXiv数据/训练现象/趋势
06:14
Rohan Paul@rohanpaul_ai
66
AWS CEO Matt Garman:AI将取代初级开发者的说法是"我听过最愚蠢的事"。
大佬观点现象/趋势编码
06:06
公众号:数字生命卡兹克
58
Claude Opus 4.8 上线:更精确不偷懒,但主动性减弱,创作仍不及4.6

Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。

智能体Anthropic编码评测/基准
05:44
Rohan Paul@rohanpaul_ai
56
WallStreetPrep针对真实金融场景进行了非常实用的AI基准测试。

测试评估了AI金融建模智能体在构建苹果公司历史与预测财务报表这一真实分析师任务中的表现。其中,工具Primer表现突出,关键在于其生成了可审计的关联财务系统,而非逐单元格拼接的表格。Primer将Excel视为最终输出格式,先构建完整的三表模型,再将其转化为结构化记录(如收入、成本、假设、公式链接等),使AI能直接查询和验证财务逻辑。这指出专业AI智能体的价值将更多取决于其产出物能否通过审计。

Ruggero Gargiulo: http://x.com/i/article/2053566242338795520

智能体评测/基准
05:44
TechCrunch:AI(RSS)
67
互联网正在为机器重建

AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。

智能体现象/趋势部署/工程
05:18
SemiAnalysis@SemiAnalysis_
54
Codex在应用内浏览器的用户体验总体方向很好。对于Web开发,一旦Codex模型本身擅长Web开发,我预计所有Web开发工作将从Claude终端CLI转向带有应用内浏览器的Codex应用。
智能体现象/趋势编码
05:12
Google AI Developers@googleaidevs
52
节省大量手动迁移工作。观看混乱的遗留代码在 @Antigravity 的示例中,由 Gemini 3.5 Flash 驱动,自主现代化为 Next.js。
Google教程/实践编码
04:44
Rohan Paul@rohanpaul_ai
30
大多数人类专家在目睹一项技能变成API时,都会感到这种痛苦和生存反思。

Tomás Bjartur: Mathematician reacts to OpenAI's recent proof:

推理现象/趋势
04:42
Ethan Mollick@emollick
74
我让 Claude Code 中的 Opus 4.8 从数百份多年前的匿名研究文件中,撰写了一篇虽小但复杂的学术论文。 我不得不使用 GPT-5.5 Pro 作为审稿人,它发现了一个主要错误和一些次要问题。Opus 已修正。
智能体AnthropicOpenAI教程/实践
04:14
Chubby♨️@kimmonismus
54
Opus 4.8显然是个强模型,但我的印象是,Anthropic越来越像是在追赶OpenAI,而不是引领节奏。 感觉GPT-5.5再次改变了基准,如果OpenAI保持这个轨迹,GPT-5.6很可能成为整体更强的模型。 初步测试显示4.8表现尚可。
AnthropicOpenAI大佬观点
04:11
Gary Marcus:The Road to AI We Can Trust(RSS)
38
突发:史上三大IPO面临坏消息

客户正认识到,token消耗“已燃烧数百万美元,却未带来任何显著的投资回报”。这一现象对历史上三次最大的首次公开募股(IPO)构成压力,表明市场对AI投资的实际效益产生质疑。

大佬观点现象/趋势
03:51
Luma@LumaLabsAI
51
BTS:职业探索器 先是角色,然后是场景,然后是镜头--每一个部分都是通过图像生成和视频从零开始构建的。以下是它的制作过程。 开始创作 → http://lumalabs.ai/app
教程/实践视频
03:38
Hacker News 热门(buzzing.cc 中文翻译)
67
我们更换了 Zendesk

tradecore 在48小时内完成了其客户服务工具 Zendesk 的替换。原文仅提及此项迁移在极短时间内完成,未涉及更具体的替换原因、新平台选择或迁移过程的细节。

教程/实践编码部署/工程
02:38
Hacker News 热门(buzzing.cc 中文翻译)
49
Show HN: 继续吗?是/否:一款关于AI代理权限疲劳的60秒游戏

60秒网页游戏「Continue? Y/N」上线,主题为模拟 AI 智能体频繁请求用户授权所导致的决策疲劳。游戏可通过 llmgame.scalex.dev 访问。

智能体现象/趋势
02:07
Nathan Lambert@natolambert
58
许可证可能是最不性感但最能帮助开放生态实现长期稳定和经济可行性的东西。对此感到兴奋!

NVIDIA AI: We're adopting the Linux Foundation's OpenMDW framework across our open model families. This helps make open model licen...

大佬观点开源生态
‹ 上一页
1…4344454647…50
下一页 ›