AIHOT

07:17

Hacker News 热门（buzzing.cc 中文翻译）

7

为何我不得不告别：谷歌管理层已迷失道德方向

一篇署名为 mayrhofer.eu.org 的文章在 Hacker News 上获得 107 个点赞。作者直言谷歌管理层的道德指南针已经失效，认为自己被迫离开。文章没有提供具体事件或数据，核心论点是谷歌在价值观层面出现严重偏离。

Google其他

07:02

SemiAnalysis@SemiAnalysis_

66

预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升，但从根本上说，这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率，尽管它不像预训练那样"性感"。

大佬观点数据/训练

07:00

Ethan Mollick@emollick

61

Ethan Mollick 指出，GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败。该测试要求将"Solo 3 parole： non sei solo"译为英语，同时将 meta-linguistic 声明从"3 parole"更新为"4 words"（正确译文："Just 4 words： you are not alone"）。但前沿模型拒绝修改措辞，即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为，Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试，说明 LLM 擅重组已知知识但缺乏真正理解，AGI 仍遥远。

Valerio Capraro: Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...

AnthropicOpenAI大佬观点推理

06:50

Chubby♨️@kimmonismus

24

真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。

Google大佬观点

06:50

Chubby♨️@kimmonismus

13

Anthropic 现在。

Anthropic大佬观点

06:14

Orange AI@oran_ge

39

这是最近我最喜欢的 Fable 5 游戏一次 Prompt 生成的完成度很高非常上头

其他视频

06:13

Replit ⠕@Replit

精选72

如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓

智能体教程/实践编码

推荐理由：Replit 官方教你跟 Agent 好好说话，这些 prompt 技巧对重度 Replit 用户是即时生产力，但出了这个生态圈就没什么用，典型的工具限定型干货。

06:03

elvis@omarsar0

25

今天让我10岁的孩子体验了Codex。他脸上的兴奋说明了一切。在用Claude Code CLI折腾了一会儿之后，今天他说："这就是未来，爸爸。" Codex团队打造了一个漂亮的应用程序。

OpenAI编码评测/基准

06:03

elvis@omarsar0

74

good. now let's undo the nerf stuff as well （引用推文：Anthropic 在遭受强烈反对后，撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见，并为此前错误权衡道歉。）

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic安全/对齐

05:47

Hacker News 热门（buzzing.cc 中文翻译）

23

汽车前照灯不必这么刺眼

《大西洋月刊》文章指出，现代汽车前照灯亮度过高，对行人和其他驾驶员造成眩光，但通过技术改进和更合理的法规标准完全可以缓解这一问题。作者呼吁重新审视车灯设计，在保证夜间安全的同时减少不必要的刺眼干扰。

其他

05:28

Bloomberg：Technology（RSS）

57

PIMCO的Richard Clarida：AI现已成为主要经济驱动力

Richard Clarida（PIMCO董事总经理兼全球经济顾问，前美联储副主席）指出，人工智能将在未来五年对经济和市场产生重大影响。他认为AI可能通过提高生产率和工资压缩成为通缩力量，同时AI投资也伴随融资风险。

大佬观点现象/趋势

05:25

Epoch AI@EpochAIResearch

55

Mythos 在网络能力方面有多大的飞跃？ @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据，发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势，但它在利用漏洞方面代表了一次巨大飞跃。🧵

安全/对齐现象/趋势

05:17

Hacker News 热门（buzzing.cc 中文翻译）

53

Claude Fable 5 在编码任务中表现中等

Claude Fable 5 在编码任务中取得中等水平结果，Hacker News 上获 109 个点赞。

Anthropic编码评测/基准

05:05

Peter Steinberger 🦞@steipete

17

让 Chris 用 Codex 做 PR！

Chris Williamson: Cooking. @steipete 🦞

OpenAI其他编码

05:05

OpenRouter：Announcements（RSS）

精选69

Advisor：让任何模型在生成过程中求助更强的模型

OpenRouter 推出 advisor 服务器工具，允许快速、便宜的模型在生成过程中向更强模型咨询。用户可用 GPT-4o Mini 处理常规任务，在关键环节调用 Claude Fable 进行更高质量的推理。

智能体产品更新部署/工程

关联讨论 2 条

推荐理由：给便宜模型配了个聪明后台，做agent时小模型应付日常，遇到难题自动呼叫大模型兜底，成本和智商两头顾，捣鼓推理架构的可以试试。

05:05

OpenRouter：Announcements（RSS）

精选60

什么是 LLM 网关？应用与 AI 模型之间缺失的一层

缺少 LLM 网关时，供应商中断会直接变成用户可见的错误，AI 支出也难以追踪。文章从路由、合规性和设置时间三个维度比较了最佳方案。

教程/实践部署/工程

推荐理由：LLM 网关正在成为 AI 栈的必备层，这篇把路由、合规、部署时间这些选型维度拆得明白，正在做生产级集成的团队值得点开对照自己的架构。

05:02

elvis@omarsar0

59

threepointone 使用 Fable 处理一个约 10k 行代码的大 PR，花费 $250，认为不值，更倾向小步骤。Elvis Saravia 认同，表示自己用 Opus 4.8 做规划、GPT-5.5 做执行，并将任务拆解成更小步骤能显著提升质量。他认为动态工作流（dynamic workflows）的重要性被大多数人低估了。其日常仍使用 Cursor AI。

sunil pai: spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...

AnthropicOpenAI大佬观点编码

04:59

Rohan Paul@rohanpaul_ai

71

贝佐斯：AI 不会导致失业，反而会带来劳动力短缺

杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为，许多人担心 AI 会消灭放射科医生、软件工程师等岗位，但这种看法是错的。AI 实际上会提升这些人的能力，就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺，经济生产力将大幅提升。

大佬观点现象/趋势行业动态

04:54

宝玉@dotey

73

宝玉表示使用 /goal 指令后，长任务运行稳定，不再需要像许多用户那样在AI意外停止时输入"继续"。引用推文指出，不少AI新手不知道AI意外停止时只要发一句"继续"即可恢复任务。宝玉的实践表明，/goal 指令能有效减少此类中断需求。

Jim Liu: 一个非常个人视野的观察:很多用AI时间不怎么久的人,似乎并不知道: > 当AI预期之外地停止工作的时候,通常只要给它再发一句"继续"就好了。

智能体教程/实践

04:54

宝玉@dotey

62

AI 没有重新定义软件工程，AI 放大了软件工程的重要性【引用 @arkuy99】：AI 重新定义了软件工程。

Go学长: AI 重新定义了软件工程。

大佬观点编码

04:38

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

51

AI 发明自己的语言--已在野外发生

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

安全/对齐现象/趋势

03:58

向阳乔木@vista8

70

想到一个特别有雄心的Claude Fable 5 任务！做一个在线版Photoshop。需求文档 AI 写好了，感兴趣的可以发过去试试。 PRD见评论

Anthropic图像生成教程/实践

03:55

DogeDesigner@cb_doge

18

只管 GROK 它

其他

03:35

OpenRouter：Announcements（RSS）

43

什么是 LLM Gateway？你的应用与 AI 模型之间的缺失层

LLM Gateway 能防止 API 提供商故障变成用户端可见错误，并让 AI 费用变得透明。通过路由、合规性和设置时间等维度，可以对比市面上最佳的网关方案。

教程/实践部署/工程

03:20

Logan Kilpatrick@OfficialLoganK

65

我与 @ymatias（Google Research 负责人）关于 AI 如何加速科学进步的魔力循环、改善全球真实人们的生活，以及我们正进入研究黄金时代的对话。这次交谈让我真切地感到振奋：）

Google大佬观点现象/趋势

03:02

Yuchen Jin@Yuchenj_UW

54

Claude Fable 5 到目前为止感觉不错，但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。我最大的不满：旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换（很好），但请不要削弱基本的AI研究或生物问题。

Anthropic大佬观点模型发布

02:28

Bloomberg：Technology（RSS）

56

SpaceX IPO 被视为里程碑时刻，Seven Seven Six 的 Ohanian 称

Seven Seven Six 创始人兼 Reddit 联合创始人 Alexis Ohanian 在柏林 SuperReturn 年会上表示，SpaceX 的 IPO 将成为里程碑事件，为太空经济注入新资本。他还谈到即将到来的 AI 公司 IPO（包括 OpenAI 和 Anthropic），认为这些上市将改变风险投资格局。

AnthropicOpenAI大佬观点

02:26

Simon Willison 博客

37

asyncinject 0.7 发布

asyncinject 0.7 发布，这是一个作者数年前为支持 asyncio 依赖注入模式而构建的 Python 工具库，曾与 Datasette 搭配使用。Claude Fable 5 发现了库中的若干 bug 并自动修复——Claude Fable 5 是一个非常主动的模型。

开源/仓库部署/工程

02:02

Nathan Lambert@natolambert

58

Dolci数据集中有一类特定粉丝小说，角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答，教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Goodfire: #4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...

安全/对齐数据/训练

02:00

Ethan Mollick@emollick

48

Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》，基于PorlockBench任务：假设"波洛克的人"未出现，补全诗歌并延续主题。Fable用时10分钟思考，思维痕迹充满对柯勒律治意图的复杂分析，但结果仍显直白，未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步，但基准尚未饱和。

Ethan Mollick: PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...

Anthropic大佬观点推理

01:55

Noam Brown@polynoamial

63

OpenAI 研究员 Noam Brown 表示，GPT-5.5 在 Agents' Last Exam（ALE）基准中排名第一，且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建，是一个滚动基准，包含超过 1500 个专家任务、覆盖 55 个职业，测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示：当前智能体能解决部分专业任务，但在需要持续推理和深度专业知识的最难层级，所有被测前沿智能体（包括 Fable 5）成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI大佬观点评测/基准

01:54

宝玉@dotey

53

Claude Fable 5：长思考致推理强度与Token消耗需权衡

用户分享 Claude Fable 5 使用体验：以前无脑选 Max 推理强度，现在则不敢随便选，因为模型足够聪明无需过强推理，且时间长、token 消耗大。Fable 5 还喜欢反复验证，结果虽好但耗时长不一定合算。引用推文指出，Fable 5 的强项之一是思考推理时间很长，曾有一次思考 15 分钟才开始行动。

向阳乔木: 发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。刚提了个想法,它思考15分钟才开始行动,牛逼。

Anthropic大佬观点推理

01:37

AYi@AYi_AInotes

70

QuantMind：量化金融知识处理框架开源（MIT协议）

一群AI研究员开源了量化金融知识处理框架QuantMind（MIT协议）。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱，支持多模态解析（表格、公式、图表）及自然语言多跳推理，可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304