AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
6月10日周三
6月9日周二
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
03:13
TechCrunch:AI(RSS)
62
技术公司能学会爱上更便宜的AI模型吗?

如果技术公司能用更便宜的模型处理相同AI工作负载且不影响质量,这将意味着AI经济性的巨大转变。

推理现象/趋势
03:04
jason@jxnlco
49
loop this loop that 但说实话,如果你足够擅长使用 Codex 配合编排循环,你也可以成为那些周二上午 11:20 在 Equinox 的人之一。 "写好首席助理的线程,然后每 100 分钟检查我所有的连接器,协调我所有置顶线程中的工作"
智能体OpenAI教程/实践编码
02:46
Rohan Paul@rohanpaul_ai
58
Anthropic 发布 Claude Fable 5:静默降级限制前沿 AI 构建能力

Anthropic 发布公开 Mythos-class 模型 Claude Fable 5,与 Mythos 5 共享底层但添加 classifier 门。检测到敏感的网络、生物、化学及模型复制请求时不拒绝,而是回退到 Opus 4.8 实现模型降级。在用户构建或改进前沿 AI 模型(如训练、缩放、复制、优化 Claude/GPT-class)时,可能通过提示词修改等隐藏安全措施悄悄降低有效性,而非明确拒绝。受限制工作包括预训练流水线、数据管道、分布式训练、芯片设计等。降级仅针对狭窄主题,平均 <5% 会话触发。模型支持 1M-token 上下文,具备长程自主能力(如 1 天迁移 5000 万行 Ruby 代码)。产品本质变为路由机器,决定请求可接触的智力级别。

Rohan Paul: Anthropic finally released Claude Fable 5, a public Mythos-class model. Fable 5 and Mythos 5 share one underlying model,...

Anthropic安全/对齐
02:41
Nathan Lambert@natolambert
38
我真的不想和Anthropic对着干,但他们一直不必要地对抗整个中国,然后不那么微妙地对抗开放权重模型,现在更广泛地对抗开放的AI研究。接下来还有什么?
Anthropic大佬观点安全/对齐开源生态
02:41
Nathan Lambert@natolambert
52
致Anthropic领导层:你们并不特殊。确保AI发展顺利是一项团队努力,而不是"你们的努力"。
Anthropic大佬观点安全/对齐
02:40
Gary Marcus:The Road to AI We Can Trust(RSS)
39
The revenge of Claude Mythos
Anthropic大佬观点
02:33
Emad@EMostaque
1
那么
大佬观点
02:29
ClaudeDevs@ClaudeDevs
60
如果你无法访问 Claude Fable 5,请尝试运行 /model claude-fable-5。 在 Claude Code CLI 中,请确保升级到 2.1.170。 如果你使用的是 Claude Desktop 应用,请更新到最新版本。
Anthropic教程/实践部署/工程
关联讨论 35 条X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:邵猛 (@shao__meng)IT之家(RSS)Ars Technica:AI(RSS)X:Yuchen Jin (@Yuchenj_UW)Anthropic:Newsroom(网页)X:Anthropic (@AnthropicAI)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)公众号:卡尔的AI沃茨X:Kim (@kimmonismus)The Decoder:AI News(RSS)TechCrunch:AI(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)Simon Willison 博客The Verge:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Boris Cherny (@bcherny)Claude Code:GitHub Releases(RSS)X:歸藏 (@op7418)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)Nathan Lambert:Interconnects(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)Gary Marcus:The Road to AI We Can Trust(RSS)X:小互 (@xiaohu)Tomer Tunguz 博客(VC 分析)MarkTechPost(RSS)
02:21
Andrej Karpathy@karpathy
82
Andrej Karpathy 盛赞 Claude Fable 5 为重大版本跃升

Andrej Karpathy 称 Claude Fable 5 与 Mythos 同源但加入安全措施,是一次值得大版本号提升的跃进,定性表现与 11 月发布的 Claude 4.5 同级。模型在几乎所有基准测试上达 SOTA,长任务和高难度问题领先明显;@claudeai 指出其在软件工程、知识工作、科学研究和视觉方面表现卓越。Karpathy 认为开发者可尝试比以往更具雄心的任务,模型能理解并自主推进。不过模型仍有小问题,安全机制在发布时过于敏感,有待后续调优。

Claude: Fable 5 is state-of-the-art on nearly all tested benchmarks, with exceptional performance in software engineering, knowl...

Anthropic大佬观点模型发布
关联讨论 35 条X:Rohan Paul (@rohanpaul_ai)X:Testing Catalog (@testingcatalog)X:邵猛 (@shao__meng)IT之家(RSS)Ars Technica:AI(RSS)X:Yuchen Jin (@Yuchenj_UW)Anthropic:Newsroom(网页)X:Anthropic (@AnthropicAI)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)公众号:卡尔的AI沃茨X:Kim (@kimmonismus)The Decoder:AI News(RSS)TechCrunch:AI(RSS)X:OpenRouter (@OpenRouter)X:Perplexity (@perplexity_ai)Simon Willison 博客The Verge:AI(RSS)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Claude (@claudeai)X:Eric Zakariasson (@ericzakariasson)X:宝玉 (@dotey)X:Boris Cherny (@bcherny)Claude Code:GitHub Releases(RSS)X:歸藏 (@op7418)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)Nathan Lambert:Interconnects(RSS)公众号:数字生命卡兹克X:卡兹克 (@Khazix0918)Gary Marcus:The Road to AI We Can Trust(RSS)X:小互 (@xiaohu)Tomer Tunguz 博客(VC 分析)MarkTechPost(RSS)
02:17
Bloomberg:Technology(RSS)
57
IBM CEO Krishna谈量子优势与利润策略

IBM CEO Arvind Krishna在纽约Mizuho科技会议上表示对量子计算的潜力感到兴奋,同时评论了特朗普政府对IBM的投资、AI技术的利用以及IBM的利润策略。

其他大佬观点
02:11
Nathan Lambert@natolambert
51
实验室开始收起AI扩散的能力的梯子是不可避免的。但不告知用户就这样做是不对齐的。

NomoreID: When Fable 5 is used for frontier LLM development, it does not notify the user and instead limits the model's capabiliti...

Anthropic大佬观点安全/对齐
02:11
Nathan Lambert@natolambert
63
Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩,较 Claude Opus 4.8 高约 18 个百分点。两个子类别中,Integration 为 61.3%,Observability 高达 69.7%,后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型,也是唯一在该项上得分高于 Integration 的模型(其他模型均相反)。Observability 此前一直是所有模型的瓶颈,Fable 5 首次打破这一局面。主推文认为,虽然模型 token 价格不菲,但对大量企业而言物有所值。

Mercor: Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...

Anthropic推理编码评测/基准
02:11
Nathan Lambert@natolambert
59
Claude 5 Fable性能的疯狂跃升验证了那些说"Opus 4.5确实,我该(基本)停止手写代码,为未来做好准备"的人。更多跃升还在前方!
Anthropic大佬观点编码
02:11
Nathan Lambert@natolambert
48
所有这些 Claude 5 Fable 安全措施最好的一点是,我打赌越狱社区仍然能绕过它们,因此本着诚意进行公开研究的人无法使用最优秀的模型,而坏人反而可能用上。

Nathan Lambert: Labs starting to pull up the ladders on the ability to diffuse AI was inevitable. Doing it without telling the user is m...

Anthropic安全/对齐
02:11
Nathan Lambert@natolambert
46
如果Anthropic无法让X上的一群科技人士相信他们不是在安全洗白,那就祝你好运去说服美国公众吧。
Anthropic大佬观点安全/对齐
02:09
Ethan Mollick:One Useful Thing(RSS)
精选66
Claude Fable 发布:Anthropic 带来的另一种推理体验

Anthropic 发布 Claude Fable,这是一款提供截然不同推理体验的 AI 模型。它擅长规划与生成复杂代码库,在需要精确构建代码结构或理解程序员深层需求的场景中,其表现相比 Claude Sonnet 有了大幅提升。用户描述与它协作更像与一位直觉敏锐的资深工程师合作,其对代码意图的捕捉和方案生成能力令人惊叹,但并非通用型 AI。

大佬观点现象/趋势

推荐理由:Ethan Mollick 把和 AI 协作的真实手感写透了,这篇不讲 benchmark 只讲直觉,但直觉比参数更能告诉你下一个跳跃是什么。
02:07
Chubby♨️@kimmonismus
63
用户称 Claude 5 Fable 安全护栏过于严格,简单问题也会被立即切断。该模型仅开放至 6 月 22 日,暗示 Anthropic 认为其能力过强。引用信息显示:Fable 5 在软件工程、知识工作、视觉、科学研究等几乎所有 AI 基准测试中达到 SOTA,任务越长越复杂领先越大;它比此前 Claude 模型更节省 token,能在数百万 token 的长任务中保持专注,并利用自身笔记改进输出。Stripe 早期测试中,Fable 5 在 5000 万行 Ruby 代码库中一天完成全库迁移,而人工需两个多月。

Chubby♨️: Claude 5 Fable tl;dr - It is state-of-the-art on nearly all tested benchmarks of AI capability, showing exceptional perf...

Anthropic大佬观点安全/对齐模型发布
01:59
ClaudeDevs@ClaudeDevs
59
Claude Fable 5 改变了我们 Claude Code 团队的日常运作方式。 我们过去常常验证 Claude 是否正确完成了工作。现在我们验证它是否在做正确的工作。 以下是最大的三个变化:
智能体Anthropic教程/实践编码
01:49
Yuchen Jin@Yuchenj_UW
24
AGI 已在内部和外部实现。
大佬观点
01:47
Bloomberg:Technology(RSS)
47
美国凭借垂直整合引领AI创新,供应链担忧仍在

Allianz Bernstein 主题股票负责人 Lei Qiu 指出,美国在 AI 技术和基础设施领域凭借领先科技公司的战略投资和快速创新保持竞争优势,尽管中美地缘政治紧张局势持续。

现象/趋势部署/工程
01:38
Hacker News 热门(buzzing.cc 中文翻译)
59
"Sloppenheimer":亚马逊员工在Slack上调侃公司的人工智能

亚马逊员工在公司内部Slack上使用“Sloppenheimer”一词,调侃公司的人工智能产品。此事被媒体曝光后引发热议。

现象/趋势
01:38
swyx@swyx
70
Mythos上线:FrontierCode基准测试发布

Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。

swyx: It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represen...

AnthropicOpenAI编码评测/基准
01:32
AYi@AYi_AInotes
74
headroom:开源token压缩工具,可省60%-95% token

开源免费的 token 压缩工具 headroom 本周增速最快,已获 17k star。它专为所有 AI API 调用(输出、日志、文件、RAG 块)设计,压缩 60%-95% 的 token,将账单直接砍到原来的 1/5,且回答质量不变。无需修改一行现有代码,可作为库、代理或 MCP 服务器无缝对接所有大模型。开发者无需再绞尽脑汁凑提示词,一行配置即可大幅降低 API 成本。

GitHubMCP/工具检索增强开源/仓库
01:19
Yuchen Jin@Yuchenj_UW
71
Claude Fable 5 / Mythos 5 全面胜出。 我以为 Fable 5 只是弱化版 Mythos Preview,但它实际更强。SWE-Bench Pro:Fable 5:80.3%,GPT-5.5:58.6%。 而且价格仅为 Opus 4.8 的 2 倍:$10/输入 MTok,$50/输出 MTok。 我认为 GPT 5.6 无法超越这个成绩。
AnthropicOpenAI编码评测/基准
01:14
Ethan Mollick@emollick
65
我曾短暂使用过 Fable。能力确实跃升,我可以给它一份 15 页的项目设计文档,它能连续工作 9 个多小时并输出极好的结果。 但使用它的感觉很奇怪,而且更奇怪的东西即将到来。 大量示例:https://open.substack.com/pub/oneusefulthing/p/what-it-feels-like-to-work-with-mythos?r=i5f7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
智能体大佬观点
00:42
向阳乔木@vista8
14
有了AI后,iOS开发也方便,打算做个支持语音自动跟随的提词器。 计划用远程服务器管理文字脚本,也支持iOS文本粘贴。 不需要对外发布就简单很多,希望明天能搞定。
其他
00:35
OpenRouter@OpenRouter
精选73
想要在Cursor中使用OpenRouter吗? 这里有一份集成指南:https://openrouter.ai/docs/cookbook/coding-agents/cursor-integration
教程/实践编码

推荐理由:用 Cursor 又想用 OpenRouter 上 Claude 4.6 或 Llama 4 的开发者,这篇指南帮你打通关键配置,不是大新闻但值得收藏
00:33
jason@jxnlco
24
你在使用Codex创建PDF时遇到了哪些问题?
OpenAI其他编码
00:26
IT之家(RSS)
55
微软 AI CEO 苏莱曼改口,收回"AI 将于 18 个月内取代大部分白领工作"言论

微软 AI 部门 CEO 穆斯塔法·苏莱曼在昨天的播客节目中收回其此前“白领工作将在 12-18 个月内被 AI 完全自动化”的言论,改口称 AI 将帮助白领完成发邮件、与同事沟通、制作 PPT 等重复性任务,而非直接取代职业。他表示这些工作本身依赖人工且耗时,技术发展的方向是让生活更轻松、更高效,白领职位不会因此消失。

Microsoft大佬观点现象/趋势
00:18
GitHub Blog
精选68
GitHub Copilot CLI 推出自定义 AI 智能体,将一次性终端提示转化为可重复工作流

GitHub Copilot CLI 新增自定义 AI 智能体功能,使 CLI 能够理解开发者的技术栈和团队工作流,将一次性终端提示转变为可重复、可审查的流程。

智能体GitHub教程/实践编码

推荐理由:GitHub Copilot CLI 的自定义代理把一次性提示变成可重复工作流,相当于给命令行配了个 AI 副驾驶,做自动化的朋友值得一试。
00:14
Ethan Mollick@emollick
19
这值得一读。

Noam Brown: http://x.com/i/article/2057694226981257216

其他大佬观点
00:12
TechCrunch:AI(RSS)
62
不再是 FAANG 了,现在是 MANGOS

SpaceX、Anthropic 和 OpenAI 均筹备大规模公开上市,科技行业或将诞生新的企业巨头缩写。告别 FAANG,迎来 MANGOS。

AnthropicOpenAI现象/趋势
00:12
向阳乔木@vista8
37
推荐《被讨厌的勇气》并分享口播录制工具与技巧

作者首次录制口播脚本推荐书籍《被讨厌的勇气》,使用Pocket3相机与免费提词器teleprompter,脚本由自制的书籍口播解读Skill生成(计划稍后开源),剪辑用剪映添加片头片尾,调色采用LUT文件CELLULOID_01_FU_LOW.cube。

开源/仓库教程/实践
00:00
OpenRouter:Announcements(RSS)
精选72
Gemini 2.5 Flash API:定价、快速入门与提供商对比

Gemini 2.5 Flash API 的定价与快速入门指南,指导用户配置 thinking budgets、比较不同提供商,并在 5 分钟内完成首次 API 调用。

Google教程/实践部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 这篇把 Gemini 2.5 Flash 的 quickstart 和供应商价格表打包了,5 分钟跑通,价格对比部分尤其实在,想省钱的可以对着选。
6月9日
23:45
Rohan Paul@rohanpaul_ai
8
Crowdreply 推出 Searchmaxxing,一种让品牌在所有 AI 搜索平台都可见的新策略。Rohan Paul 称这基本上是营销领域的 Claude。

CrowdReply: Introducing Searchmaxxing. The new discipline for being visible everywhere AI looks. Across all platforms. This is how b...

其他大佬观点
23:38
Noam Brown@polynoamial
68
自 @OpenAI o1 以来,我们就知道 LLM 测试时计算缩放。 然而两年后,实验室仍在报告模型的标量评测;安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶;而 RSP 在决定关键阈值时仍忽略推理预算。

Noam Brown: http://x.com/i/article/2057694226981257216

OpenAI大佬观点安全/对齐评测/基准
23:26
IT之家(RSS)
58
WWDC26 苹果推出全面改造的 Siri AI,IDC 称其为 AI 可信度测试

彭博社记者古尔曼报道,苹果在 WWDC26 推出全面改造的 Siri AI,覆盖 iOS 27、macOS 27、watchOS 27 和 visionOS 27。IDC 分析师称 WWDC26 是苹果的 AI 可信度测试,需让 AI 在生态中可信、有用且不打扰用户。发布会期间苹果股价下跌 1.9%。Siri AI 初期仅支持英语,秋季以测试版面向消费者,中国和欧盟用户暂无法使用。IDC 分析师表示这些功能将推动 iPhone 14 及更早机型用户升级。

现象/趋势语音
22:50
SemiAnalysis@SemiAnalysis_
65
DeepSeek V4 1.6T 第0天至第43天性能随时间变化 - 华为, GB300 NVL72, MI355X, B200 第0天在InferenceX上的推理性能 26天内100倍性能提升 每百万Token成本 华为950DT推理追踪分析 https://semianalysis.substack.com/p/deepseekv4-16t-day-0-to-day-43-performance
DeepSeek推理评测/基准部署/工程
22:30
OpenAI Developers@OpenAIDevs
60
23,000+ 篇 ChinaRxiv 论文现已免费提供,并带有更完整的英文翻译,源于一位开发者用 GPT-5.5 替换了复杂的 OCR 管道。

0.005 Seconds (3/694): http://x.com/i/article/2059815427484655622

OpenAI多模态教程/实践
22:20
The Verge:订阅版科技(RSS)
59
Apple 的 AI 最佳创意类似氛围编程

Apple 在 Safari 和 Shortcuts 中推出的 AI 功能比 Siri AI 或 Image Playground 更实用,允许用户用自然语言总结网页、编排自动化,带来“氛围编程”体验。

现象/趋势编码
‹ 上一页
1…1112131415…50
下一页 ›