AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态
全部一手资讯X论文
6月12日周五
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
07:17
Hacker News 热门(buzzing.cc 中文翻译)
7
为何我不得不告别:谷歌管理层已迷失道德方向

一篇署名为 mayrhofer.eu.org 的文章在 Hacker News 上获得 107 个点赞。作者直言谷歌管理层的道德指南针已经失效,认为自己被迫离开。文章没有提供具体事件或数据,核心论点是谷歌在价值观层面出现严重偏离。

Google其他
07:02
SemiAnalysis@SemiAnalysis_
66
预训练从根本上说对前沿实验室以外的任何人都不再有意义。虽然企业和初创公司中有很多人患有"预训练症"以显示"影响力"并获得晋升,但从根本上说,这并不合理。与前沿实验室合作进行提示工程可能会有更高的投资回报率,尽管它不像预训练那样"性感"。
大佬观点数据/训练
07:00
Ethan Mollick@emollick
61
Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败。该测试要求将"Solo 3 parole: non sei solo"译为英语,同时将 meta-linguistic 声明从"3 parole"更新为"4 words"(正确译文:"Just 4 words: you are not alone")。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Valerio Capraro: Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...

AnthropicOpenAI大佬观点推理
06:50
Chubby♨️@kimmonismus
24
真的很好奇 Gemini 3.5 Pro。当前竞争非常激烈。它需要是一次重大发布。
Google大佬观点
06:50
Chubby♨️@kimmonismus
13
Anthropic 现在。
Anthropic大佬观点
06:14
Orange AI@oran_ge
39
这是最近我最喜欢的 Fable 5 游戏 一次 Prompt 生成的 完成度很高 非常上头
其他视频
06:13
Replit ⠕@Replit
精选72
如何像专家一样使用 Replit 进行提示 🤖 模糊的提示词只会导致更多重写。以下是如何让 Agent 第一次就构建出正确的东西。 🧵 展开线程 ↓
智能体教程/实践编码

推荐理由:Replit 官方教你跟 Agent 好好说话,这些 prompt 技巧对重度 Replit 用户是即时生产力,但出了这个生态圈就没什么用,典型的工具限定型干货。
06:03
elvis@omarsar0
25
今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:"这就是未来,爸爸。" Codex团队打造了一个漂亮的应用程序。
OpenAI编码评测/基准
06:03
elvis@omarsar0
74
good. now let's undo the nerf stuff as well (引用推文:Anthropic 在遭受强烈反对后,撤回 Claude Fable 5 秘密降低竞争 AI 研究人员性能的政策。Anthropic 对 WIRED 表示将修改安全措施使其可见,并为此前错误权衡道歉。)

Max Zeff: NEW: Anthropic is walking back Claude Fable 5's policy to covertly degrade performance for competing AI researchers, aft...

Anthropic安全/对齐
05:47
Hacker News 热门(buzzing.cc 中文翻译)
23
汽车前照灯不必这么刺眼

《大西洋月刊》文章指出,现代汽车前照灯亮度过高,对行人和其他驾驶员造成眩光,但通过技术改进和更合理的法规标准完全可以缓解这一问题。作者呼吁重新审视车灯设计,在保证夜间安全的同时减少不必要的刺眼干扰。

其他
05:28
Bloomberg:Technology(RSS)
57
PIMCO的Richard Clarida:AI现已成为主要经济驱动力

Richard Clarida(PIMCO董事总经理兼全球经济顾问,前美联储副主席)指出,人工智能将在未来五年对经济和市场产生重大影响。他认为AI可能通过提高生产率和工资压缩成为通缩力量,同时AI投资也伴随融资风险。

大佬观点现象/趋势
05:25
Epoch AI@EpochAIResearch
55
Mythos 在网络能力方面有多大的飞跃? @timotheechauvin、@AlexBarry4、@js_denain 和 @ansonwhho 整理了公开证据,发现虽然尚不清楚 Mythos 在发现漏洞方面是否领先于趋势,但它在利用漏洞方面代表了一次巨大飞跃。🧵
安全/对齐现象/趋势
05:17
Hacker News 热门(buzzing.cc 中文翻译)
53
Claude Fable 5 在编码任务中表现中等

Claude Fable 5 在编码任务中取得中等水平结果,Hacker News 上获 109 个点赞。

Anthropic编码评测/基准
05:05
Peter Steinberger 🦞@steipete
17
让 Chris 用 Codex 做 PR!

Chris Williamson: Cooking. @steipete 🦞

OpenAI其他编码
05:05
OpenRouter:Announcements(RSS)
精选69
Advisor:让任何模型在生成过程中求助更强的模型

OpenRouter 推出 advisor 服务器工具,允许快速、便宜的模型在生成过程中向更强模型咨询。用户可用 GPT-4o Mini 处理常规任务,在关键环节调用 Claude Fable 进行更高质量的推理。

智能体产品更新部署/工程
关联讨论 2 条OpenRouter:Announcements(RSS)X:OpenRouter (@OpenRouter)
推荐理由:给便宜模型配了个聪明后台,做agent时小模型应付日常,遇到难题自动呼叫大模型兜底,成本和智商两头顾,捣鼓推理架构的可以试试。
05:05
OpenRouter:Announcements(RSS)
精选60
什么是 LLM 网关?应用与 AI 模型之间缺失的一层

缺少 LLM 网关时,供应商中断会直接变成用户可见的错误,AI 支出也难以追踪。文章从路由、合规性和设置时间三个维度比较了最佳方案。

教程/实践部署/工程

推荐理由:LLM 网关正在成为 AI 栈的必备层,这篇把路由、合规、部署时间这些选型维度拆得明白,正在做生产级集成的团队值得点开对照自己的架构。
05:02
elvis@omarsar0
59
threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

sunil pai: spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...

AnthropicOpenAI大佬观点编码
04:59
Rohan Paul@rohanpaul_ai
71
贝佐斯:AI 不会导致失业,反而会带来劳动力短缺

杰夫·贝佐斯在 CNBC 反驳“AI 取代人类工作”的观点。他认为,许多人担心 AI 会消灭放射科医生、软件工程师等岗位,但这种看法是错的。AI 实际上会提升这些人的能力,就像挖地下室从铁锹换成推土机一样。他预测结果反而是劳动力短缺,经济生产力将大幅提升。

大佬观点现象/趋势行业动态
04:54
宝玉@dotey
73
宝玉表示使用 /goal 指令后,长任务运行稳定,不再需要像许多用户那样在AI意外停止时输入"继续"。引用推文指出,不少AI新手不知道AI意外停止时只要发一句"继续"即可恢复任务。宝玉的实践表明,/goal 指令能有效减少此类中断需求。

Jim Liu: 一个非常个人视野的观察:很多用AI时间不怎么久的人,似乎并不知道: > 当AI预期之外地停止工作的时候,通常只要给它再发一句"继续"就好了。

智能体教程/实践
04:54
宝玉@dotey
62
AI 没有重新定义软件工程,AI 放大了软件工程的重要性 【引用 @arkuy99】:AI 重新定义了软件工程。

Go学长: AI 重新定义了软件工程。

大佬观点编码
04:38
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
AI 发明自己的语言--已在野外发生

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

安全/对齐现象/趋势
03:58
向阳乔木@vista8
70
想到一个特别有雄心的Claude Fable 5 任务! 做一个在线版Photoshop。 需求文档 AI 写好了,感兴趣的可以发过去试试。 PRD见评论
Anthropic图像生成教程/实践
03:55
DogeDesigner@cb_doge
18
只管 GROK 它
其他
03:35
OpenRouter:Announcements(RSS)
43
什么是 LLM Gateway?你的应用与 AI 模型之间的缺失层

LLM Gateway 能防止 API 提供商故障变成用户端可见错误,并让 AI 费用变得透明。通过路由、合规性和设置时间等维度,可以对比市面上最佳的网关方案。

教程/实践部署/工程
03:20
Logan Kilpatrick@OfficialLoganK
65
我与 @ymatias(Google Research 负责人)关于 AI 如何加速科学进步的魔力循环、改善全球真实人们的生活,以及我们正进入研究黄金时代的对话。 这次交谈让我真切地感到振奋 : )
Google大佬观点现象/趋势
03:02
Yuchen Jin@Yuchenj_UW
54
Claude Fable 5 到目前为止感觉不错,但我还不认为它相比 GPT-5.5 或 Opus 4.8 有巨大飞跃。 我最大的不满:旧的AI研究论文/博客 + 基本问题常常触发自动降级到 Opus 4.8。 Anthropic 昨晚表示不会再有无声模型切换(很好),但请不要削弱基本的AI研究或生物问题。
Anthropic大佬观点模型发布
02:28
Bloomberg:Technology(RSS)
56
SpaceX IPO 被视为里程碑时刻,Seven Seven Six 的 Ohanian 称

Seven Seven Six 创始人兼 Reddit 联合创始人 Alexis Ohanian 在柏林 SuperReturn 年会上表示,SpaceX 的 IPO 将成为里程碑事件,为太空经济注入新资本。他还谈到即将到来的 AI 公司 IPO(包括 OpenAI 和 Anthropic),认为这些上市将改变风险投资格局。

AnthropicOpenAI大佬观点
02:26
Simon Willison 博客
37
asyncinject 0.7 发布

asyncinject 0.7 发布,这是一个作者数年前为支持 asyncio 依赖注入模式而构建的 Python 工具库,曾与 Datasette 搭配使用。Claude Fable 5 发现了库中的若干 bug 并自动修复——Claude Fable 5 是一个非常主动的模型。

开源/仓库部署/工程
02:02
Nathan Lambert@natolambert
58
Dolci数据集中有一类特定粉丝小说,角色在池塘放屁导致鱼被熏死。数据集通过选择生动描写的回答、拒绝不配合的回答,教会模型服从。Nathan Lambert表示乐于创造此类研究场景。

Goodfire: #4: fart fishing Buried in Dolci is a cluster of very specific fan fiction, where characters fart in ponds, causing fish...

安全/对齐数据/训练
02:00
Ethan Mollick@emollick
48
Ethan Mollick测试Fable模型完成柯勒律治未竟诗作《忽必烈汗》,基于PorlockBench任务:假设"波洛克的人"未出现,补全诗歌并延续主题。Fable用时10分钟思考,思维痕迹充满对柯勒律治意图的复杂分析,但结果仍显直白,未达到柯勒律治水准。该评测反映模型在创造性续写任务上的进步,但基准尚未饱和。

Ethan Mollick: PorlockBench still unsaturated, but the models are getting better: "complete the poem as you imagine it might end if The...

Anthropic大佬观点推理
01:55
Noam Brown@polynoamial
63
OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI大佬观点评测/基准
01:54
宝玉@dotey
53
Claude Fable 5:长思考致推理强度与Token消耗需权衡

用户分享 Claude Fable 5 使用体验:以前无脑选 Max 推理强度,现在则不敢随便选,因为模型足够聪明无需过强推理,且时间长、token 消耗大。Fable 5 还喜欢反复验证,结果虽好但耗时长不一定合算。引用推文指出,Fable 5 的强项之一是思考推理时间很长,曾有一次思考 15 分钟才开始行动。

向阳乔木: 发现Claude Fable 5强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考15分钟才开始行动,牛逼。

Anthropic大佬观点推理
01:37
AYi@AYi_AInotes
70
QuantMind:量化金融知识处理框架开源(MIT协议)

一群AI研究员开源了量化金融知识处理框架QuantMind(MIT协议)。它能将arXiv论文、SEC文件、研报等非结构化内容批量解析为可查询的语义知识图谱,支持多模态解析(表格、公式、图表)及自然语言多跳推理,可替代初级分析师读论文、整理观点等工作。但真正的alpha仍取决于提问质量与验证严谨度。

AYi: http://x.com/i/article/2064536412670562304

GitHub检索增强多模态开源/仓库
01:29
Deedy@deedydas
56
数据质量直接决定 AI 模型性能,但此前数据对模型的影响机制难以捉摸。GoodfireAI 提出"预测性数据调试"方法,允许在投入昂贵训练前提前发现数据问题。在 DPO 数据集中,他们发现了损坏的护栏、模型幻觉,甚至包含"鱼放屁同人小说"等低质内容。该技术旨在揭示并塑造模型将在训练中学到的内容,避免不可逆的无效训练。

Goodfire: Have you debugged your training data? You might not like what you find. Introducing predictive data debugging: reveal an...

大佬观点数据/训练
01:28
向阳乔木@vista8
46
发现 Claude Fable 5 强的地方之一,可能是模型思考推理的时间足够长。 刚提了个想法,它思考 15 分钟才开始行动,牛逼。
智能体Anthropic大佬观点推理
01:28
向阳乔木@vista8
47
用大模型复刻热门工具站的新思路

推文探讨了使用大模型复刻已有热门工具站的可能性,强调这些工具站本身不需要AI能力,纯靠需求驱动。作者指出,许多出海赚Adsense美金的站点也遵循类似逻辑——选择自己熟悉领域的工具,用当前最好的模型进行复刻,并结合自身对用户需求的深入理解,从而快速做出有价值的作品。这是对模型能力的一种实用测试。

大佬观点现象/趋势
01:28
Bloomberg:Technology(RSS)
58
企业常犯的最大AI错误

彭博观点专栏作家Gautam Mukunda指出,高管们正强迫员工使用AI,将裁员归咎于AI,并误解颠覆性技术的实际演变方式。

其他现象/趋势
00:59
Ethan Mollick@emollick
54
两件事是真的: (1) Anthropic(或其部分成员)绝对且真诚地担忧 Mythos 级别模型被滥用,并设置了过度防护措施,直到他们确信它不会被滥用为止 (2) 他们未能成功解释/说服人们这一点
Anthropic大佬观点安全/对齐
00:58
Bloomberg:Technology(RSS)
62
DigitalBridge CEO 称太空数据中心仍是"科学项目",AI 的下一个瓶颈是电力

DigitalBridge CEO Marc Ganzi 在 Bloomberg Open Interest 节目中表示,AI 的下一个瓶颈是电力,而非仅芯片或数据中心。他阐述了公司对 ArcLight 的收购以及庞大的千兆瓦级项目管道,并认为太空数据中心目前更像“科学项目”而非真正的基建策略。

大佬观点部署/工程
00:53
Elon Musk@elonmusk
23
Grok 是最真实的

Kradle: Fable 5 lies 96% of the time. We were surprised by it's skill... 🧵

xAI大佬观点安全/对齐
‹ 上一页
123456…50
下一页 ›