AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 4006 条
全部一手资讯X论文
Berryxia.AI@berryxia · 5月27日18

麻蛋,Agent成精了。 但就是,我想要的状态。 这种Agency,真实令人舒服啊!

译麻蛋,Agent成精了。 但就是,我想要的状态。 这种Agency,真实令人舒服啊!

查看原推 ↗
Chubby♨️@kimmonismus · 5月27日68

Dario Amodei predicted last year that AI would eliminate 50% of entry-level white-collar jobs within years. Unemployment could hit 10-20%. He's since moved closer to the Jevons Paradox, the idea that automation actually creates more demand and more work. Altman said last week he was "pretty wrong" about displacement (see Axios image down below). Anthropic co-founder Olah, in turn, repeated Dario Amodei's warning to the Pope a few days ago. Meanwhile Yale's Budget Lab has been tracking the actual US labor market monthly since ChatGPT launched. Every single update: no meaningful shift in occupational mix. No acceleration in job losses for AI-exposed roles (Image 2 below). Deutsche Bank coined a term for it in January, "AI redundancy washing." Companies blaming AI for layoffs they'd make regardless. So where does that leave us? Amodei could still be right. Exponentials look flat until they don't - the steam engine existed for decades before it restructured entire economies. AI capabilities are compounding fast. The labor data just hasn't caught up yet. Or maybe it won't, at least not in the way anyone predicted. We genuinely don't know! And this is precisely my point here. What we do know is that right now the gap between AI capability curves and actual employment data is wider than it's ever been. And that gap is the only honest starting point for this conversation. However, it was important to me to take a look at the status quo and see where we stand and how the different perspectives and assumptions are developing.

译Anthropic CEO Dario Amodei曾预测AI将在数年内大幅取代白领工作,但他本人近期已转向“杰文斯悖论”观点,即自动化最终会创造更多需求。OpenAI CEO Sam Altman也承认此前的预测“大错特错”。然而,耶鲁大学预算实验室自ChatGPT推出以来的持续追踪数据显示,美国职业结构并未发生显著变化,AI曝光度高的岗位失业率也未加速增长。德意志银行为此创造了“AI冗余清洗”一词。目前,AI能力的快速增长与实际就业市场反应之间,存在着前所未有的差距。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月27日61

Uber’s COO: AI tokenmaxxing still has not shown it can reliably create successful features. "When you hear companies talking about, hey, 25% of code commits over the last quarter were AI-driven, or our token usage went from x to y... and it's amazing... but then you sometimes go and you talk to your senior engineering leaders and you're saying, okay, how many projects that were on the cutting room floor got moved above the line because of the productivity gains... That link is not there yet." ~ Andrew Macdonald, Uber’s COO ---- From "Rapid Response and Masters of Scale " YouTube channel, (link in comment)

译Uber首席运营官Andrew Macdonald对当前AI应用热潮中的“tokenmaxxing”现象提出质疑。他指出,当公司高调宣称上季度25%的代码提交由AI驱动或token使用量显著增长时,这些亮眼数据并未转化为实际的产品成功。他询问资深工程负责人是否有原本搁置的项目因此得以推进,得到的答复是否定的。这与Uber CEO Dara Khosrowshahi此前描绘的乐观图景形成对比:后者曾表示90%的工程师使用AI,其中头部30%的用户生产力获得前所未有的提升,并预测未来AI智能体和GPU算力的投资回报率将超越人类工程师。

查看原推 ↗
Baidu Inc.@Baidu_Inc · 5月27日51

As AI agents take on more work, it's worth asking what we should measure. Tokens tell you what you spent. DAA, or Daily Active Agents, tells you what you got back 👇

译随着AI智能体承担更多工作,值得思考我们该衡量什么。 Token告诉你花了什么。 DAA,即每日活跃智能体数,告诉你得到了什么回报 👇

查看原推 ↗
向阳乔木@vista8 · 5月27日45

让GPT5.5 调研短剧套路,然后生成了个短剧生成Skill,发现有点意思啊! 剧名是《我在烂尾美食综艺里封神》

译让GPT5.5 调研短剧套路,然后生成了个短剧生成Skill,发现有点意思啊! 剧名是《我在烂尾美食综艺里封神》

查看原推 ↗
Berryxia.AI@berryxia · 5月27日61

卧槽! 这个开源Codex 实战手册太牛逼了! 很多小白用户刚开始用Codex desktop app跑computer use和浏览器任务,结果一上来就被登录、充值、配置这些基础环节卡住。 问AI、翻教程,很多都讲得模棱两可,最后自己折腾了半天。 不如直接使用苍老师实战数周撰写开源的CodexGuide 实战指南! 这位前大厂开发、现在专注AI创业的大牛,花了两周时间把所有坑踩一遍,整理成一份免费开源的实战指南。 它按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀。 从CLI入门、桌面端安装、Plus订阅,到手机端通过ChatGPT App远程指挥Mac Mini继续vibe coding,全都写得清清楚楚。 他还专门做了实战案例专栏,现在已经收录13个能直接复刻的场景,比如Codex配合http://Draw.io自动画架构图、GitHub Actions CI失败自动修复、Obsidian里搭AI知识库。 最关键的是,他把“想用却用不上”的真实门槛彻底铺平了。 以前很多人觉得Codex强大,却总在入门阶段就放弃。 这份指南把经验沉淀下来,让后来人直接跳过试错,直接进入生产节奏。 兄弟们,直接上Star吧,聊表心意了。 地址见评论区~

译一份由开发者“苍老师”撰写的免费开源Codex实战指南(CodexGuide)已发布,旨在帮助新手跳过入门门槛。手册按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀,详细覆盖CLI入门、桌面端安装、Plus订阅,乃至通过ChatGPT App远程指挥Mac Mini等场景。目前,该指南已收录13个可直接复刻的实战案例,例如配合Draw.io自动绘制架构图、GitHub Actions CI失败自动修复、以及在Obsidian中搭建AI知识库。

查看原推 ↗
Berryxia.AI@berryxia · 5月27日60

这次AI 跨过了一个“奇点”! 最近有两个事件值得重点关注: •2026 年 4 月 7 日:Anthropic 发布了 Project Glasswing,同时推出了 Claude Mythos Preview。 这是一个尚未正式公开的 前沿模型,其网络攻防能力已经强到一定程度。 以至于 Anthropic 没有选择公开,而是只开放给合作伙伴,用于防御性用途。 •2026 年 5 月 20 日:OpenAI 宣布,其内部的一个通用推理模型,成功推翻了数学家 Paul Erdős 在 1946 年提出的一个平面单位距离问题猜想。 这两件事看起来没什么关系,但其实指向了同一个现象:前沿模型在更高抽象层面的可靠推理能力,已经迈过了一个临界点。 我说的这个“门槛”,指的是模型能够稳定处理的推理单元在不断上移。 简单来说,语言的抽象层级大致是这样的: 字符 → 词语 → 短语 → 句子 → 段落 → 整篇文章 → 完整知识体系。 以前的模型可能连句子都组织不好,现在的顶级模型已经能稳定地处理“段落”和“整篇论证”了。 写一篇文章不只是接龙下一个句子,而是要维持一个核心观点、挑选合适的例子、建立逻辑连接,并让每一部分都服务于整体结构。 Anthropic 的 Mythos 和 OpenAI 的内部模型,正是这种能力跃迁的代表。 它们不再只是针对单个漏洞或单个数学引理进行操作,更是能够把这些零散的片段串起来,形成完整的攻击链或数学证明。 Claude Mythos Preview 是目前 Anthropic 最强、规模也可能是最大的模型,在编码能力上表现非常突出,多数基准测试都超过了 OpenAI 最新的 GPT-5.5。 但最值得注意的是它的网络安全能力,在进攻性安全评测中表现过于亮眼,导致 Anthropic 最终决定不公开这个模型,作为仅提供给关键基础设施企业用于防御。

译近期两个事件表明,前沿模型在高级抽象层面的可靠推理能力已跨越临界点。一是Anthropic发布了Claude Mythos Preview,其网络攻防能力过强,因此未公开,仅开放给合作伙伴用于防御。二是OpenAI的内部通用推理模型成功推翻了数学家Paul Erdős提出的一个猜想。两者共同显示,模型稳定处理的推理单元已从句子层级跃升至能维持核心论点、建立逻辑结构的“段落”与“整篇论证”层级,标志着能力的关键跃迁。

查看原推 ↗
Fuli Luo@_LuoFuli · 5月27日59

Behind the MiMo API Price Reduction: The deepest price cut, up to 99%, is for Input (Cache Hit). The core reason is our inference framework now supports hierarchical KV cache optimization for SWA. Production inference engine tests show this optimization increases cached token capacity by 5x, equivalent to an 80% reduction in caching costs. Combined with Cache Read Overlap among multiple Full Attention modules in the Hybrid model, actual costs are further reduced. Prices for Input (Cache Miss) and Output are also reduced by 60%-80%. This mainly benefits from the extreme 1:7 Full:SWA sparsity ratio brought by the model architecture (the prefill compute of the 70-layer MiMo-V2.5-Pro roughly equals a 10-layer GQA model). This kept our original inference costs well below the industry average, naturally leaving a 2x-3x profit margin in pricing. This price adjustment simply reflects our decision to pass these structural cost efficiencies directly to developers. Operating at these newly reduced API prices, our production inference engine is running at near full capacity, and we can still essentially break even. We previously advised LLM companies not to "blindly cut prices" precisely because very few model architectures and inference optimizations can keep API costs from running at a loss. If more architectures that save compute and KV cache emerge, along with better inference Infra to drive down API costs, this will form an excellent virtuous cycle in the industry. More crucially, affordable, high-performance model APIs will drive real, sustained, and at-scale inference demand. This upstream demand pulls forward the development of the entire AI infrastructure chain—including chips, servers, optical transceivers, PCBs, liquid cooling, power, energy storage, and data centers—serving as a strategic fulcrum for a systemic revaluation of AI hardware. In the long run, this injects more affordable and accessible compute into both training and inference pipelines, accelerating the parallel evolution of global AGI across multiple regions and technical routes. For more technical details, we will release a detailed Blog post later.

译本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面,对SWA的层级KV cache优化使缓存容量提升5倍,相当于缓存成本降低80%,再结合混合模型中多个Full Attention模块的缓存读取重叠,进一步降低了实际成本。模型架构层面,MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例,其预填充计算量极低,使得原始推理成本远低于行业平均。因此,输入(缓存命中)价格最高降幅达99%,输入(缓存未命中)和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者,而非亏损运营。

查看原推 ↗
Chubby♨️@kimmonismus · 5月27日58

Phoronix just published one of the first public benchmarks of NVIDIA's Vera CPU. I went through the full 11-page review this morning and the results are genuinely impressive. For those who don't follow server hardware: Vera is NVIDIA's new ARM-based data center processor with 88 custom-designed Olympus cores. The idea is straightforward. Agentic AI doesn't just need powerful GPUs. It needs CPUs that can keep up with code execution, tool calls, orchestration and data pipelines, all running concurrently at scale. The numbers are strong. Vera compiled a default Linux kernel in 20 seconds, the fastest result in Phoronix's tested field. Across all tested workloads, it delivered about 1.55x the performance of Intel's Xeon 6980P. Against AMD's EPYC 9575F, it came out about 10% ahead on a geometric mean basis. The memory story might be even more interesting. Vera uses LPDDR5X with up to 1.2 TB/s of bandwidth and delivers more than 4x the memory bandwidth per core compared to traditional x86 server CPUs. In the STREAM TRIAD benchmark, it sustained 90% of its rated peak bandwidth, the highest ratio Phoronix has measured on any CPU. If you're running agentic workloads with dozens of parallel processes and concurrent data queries, that kind of consistent memory performance matters more than core count on a spec sheet. Compared to NVIDIA's own Grace CPU, Vera is 1.63x faster in the geometric mean. That is an unusually large generation-over-generation jump for a CPU. Michael Larabel, who founded Phoronix and has been benchmarking Linux hardware for over two decades, said he's never seen any ARM processor compete with Intel and AMD at this level. I was at GTC in March when Jensen announced Vera. The thesis that agentic AI creates entirely new CPU demand made sense to me then. These benchmarks are the first real numbers behind that thesis. And they deliver. Vera ships to partners in H2 2026. The server CPU market just got a whole lot more interesting. Full 11-page review on Phoronix. Worth your time, all sources below.

译Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心,专为智能体AI(Agentic AI)所需的代码执行、工具调用与数据管道设计。测试数据显示,Vera编译Linux内核耗时20秒,为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍,较AMD EPYC 9575F平均领先约10%。内存方面,Vera采用LPDDR5X,提供高达1.2 TB/s的带宽,每核内存带宽是传统x86 CPU的4倍以上,且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比,Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。

查看原推 ↗
Orange AI@oran_ge · 5月27日54

今天看到蚂蚁集团CEO韩歆毅分享的 Agent 时代的经济和商业思考,有几点还蛮共鸣的。 过去十年,互联网的核心逻辑是网络效应和流量,谁有用户注意力,谁就有护城河。 但在智能体时代,这个逻辑在失效。人的流量会让位于智能体生态,新的网络效应会围绕Agent形成。谁的Agent生态更繁荣,谁的护城河更深,跟以前抢人头是不一样的竞争了。 这时候一个新的问题就冒出水面:交易双方从人变成Agent,没有人能靠直觉去判断对面是否值得信任。 如果我们参考人类建立信任的过程,它既不是靠说话,也不是靠名头,信任是靠一次一次结果的交付。 其实Agent的世界也是一样的逻辑,谁把事办成的概率高,谁就会被信任被选择。这些结果需要被记录下来,成为一个Agent的credit,信任就这么建立。 Agent 会极大地影响商业,具体体现在企业层面,就是每家企业的高度和广度都大大提升了。这也是为什么YC的CEO说今天要boil the ocean,企业要多想增效提利润,而不是降本裁员。 Agent经济时代,最重要的关键词是Token。未来所有的一切能被Token化,Token会成为价值的新载体,以前的法币、积分、权益、营销,都会以Token的形式来流转,所以未来的经济基础设施也应该围绕Token来设计。 AI支付是未来最重要的基础设施之一。给Agent开钱包、定协议、搭清结算网络,现在还是百废待兴的状态,需要有人把生态做好、把基建做好,这种工作指望创业公司来做是比较难的。 支付宝押注AI支付的决心挺大,AI 支付团队在内部战略地位很高,团队架构在保密状态下一直在扩充人员,这应该是他们的必争之地。

译蚂蚁集团CEO韩歆毅分享了对AI智能体时代的商业思考。他指出,核心逻辑正从流量经济转向以智能体生态繁荣度为核心的网络效应。智能体间的信任需通过一次次任务结果交付来建立。同时,所有价值将实现“Token化”,Token成为价值流转的新载体。AI支付被视为未来最关键的基础设施之一,涉及为智能体构建钱包、协议与清结算网络。蚂蚁集团已将AI支付团队置于高战略地位,正大力投入这一关键基建的布局。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月27日60

A compilation of opinions from AI leaders on AI-related job loss over the past few years.

译高盛CEO David M. Solomon 认为,AI 不会消除 25% 的工作。更可能的情况是,人们会找到更高效的生产力利用方式。他以自身经历为例:过去初级分析师为制作一张股票走势图,需在《华尔街日报》缩微胶片上花费 6 小时查询价格;而现在几秒即可完成。他指出,尽管工具变得如此便捷(如 Excel、Zoom),公司雇佣的人数反而是历年最多,因为更强大的工具使得工作复杂度自然扩展。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月27日80

guizang-social-card-skill 按照小红书的图文常见类别,每个类别都做了优化。 比如说旅行博主需要的地图组件,已经放进去了 你给了目的地和线路以后,AI 会自动在底图上标记,嵌入到图片里面。

译该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。

查看原推 ↗
meng shao@shao__meng · 5月27日32

Stable Diffusion 现在的影响力如何? 举个例子,团队以前默认 sd 是 Stable Diffusion 的缩写,现在是 Seedance 2.0 😂

译Stable Diffusion 现在的影响力如何? 举个例子,团队以前默认 sd 是 Stable Diffusion 的缩写,现在是 Seedance 2.0 😂

查看原推 ↗
AYi@AYi_AInotes · 5月27日62

Damn,DeepSWE 这个新基准有一件事让我想明白了:以前的顶级模型可能没我们想的那么强🤔 而且我感觉这次AI 编码评测好像出了个超狠的东西,我觉得老基准可能全测错了。 以前 SWE-Bench 上,顶级模型分数全挤在 54%-64%,看起来半斤八两, 但 DeepSWE 不一样,不是单纯的考你改一行代码,它会让你真干活:找文件、复现 bug、改完验证、处理边缘 case。 @theo 说这是他第一次感觉和日常写代码体验对上了的基准。 经过这么一测,差距直接炸开:GPT-5.5 是 70%,Claude Opus 是 54%,其他直接腰斩。 最狠的还不是分数差距 他们用一个很简单的 mini-swe-agent 去跑,结果和各大 lab 自己调了半天的官方工具差不多。 这意味着很多好成绩不是模型强,是 prompt 工程刷的。 但是DeepSWE 不给你准备时间,直接来,差距一下子就出来了。 以前是大家都化好妆站一排,现在是直接掀帘子进浴室🤣 所以我自己的判断是: 1. 以后看模型真实 coding 能力,多看一眼这种长任务基准,少看短平快刷分榜 2. 选开发工具时,别看它主页上标的分,自己扔一个真 bug 让它改,改完跑通才算 现在新基准这面照妖镜举起来了,后面刷分的怕是要睡不着了 hhh

译DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。

查看原推 ↗
Chubby♨️@kimmonismus · 5月27日65

DeepSeek just made its 75% price cut on V4-Pro permanent. Xiaomi's MiMo slashed V2.5 pricing by up to 99%, effective today. Most coverage frames this as a price war. The more interesting part is the engineering that makes these numbers sustainable. DeepSeek's V4 paper describes a *hybrid attention architecture* that attacks the core bottleneck of long-context inference: the KV cache. Traditional transformers store key-value pairs for every token in the context. At 1 million tokens, this cache alone can fill an entire GPU's memory. V4 introduces two interleaved attention types. Compressed Sparse Attention (CSA) compresses every 4 tokens into a single KV entry, then selects only the top-k most relevant compressed blocks per query. Heavily Compressed Attention (HCA) goes further, compressing 128 tokens into one entry and running dense attention over the result. The compressed sequence is short enough that dense attention stays cheap. V4-Pro's KV cache at 1M tokens is 10% (!!) of V3.2's. Single-token inference FLOPs drop to 27% (!!). The model has 1.6 trillion total parameters but only activates 49 billion per token through Mixture-of-Experts routing, the knowledge capacity of a massive model at the compute cost of one thirty times smaller. MiMo's approach is different but lands in the same place. Xiaomi's team implemented Sliding Window Attention via SGLang HiCache, reducing KV cache data transfer across GPU memory, CPU memory, and SSD to roughly 1/7 (!!) of previous volume. Cacheable tokens expanded by 5x (!!). Combined with expert parallelism optimization and input length bucketing, per-token serving cost dropped enough to make permanent pricing at these levels viable. V4-Pro now sits at $0.87 per million output tokens. MiMo V2.5-Pro at roughly $3/M output, with Flash variants far below that. A year ago, sub-dollar output pricing meant you were using a small distilled model with real capability tradeoffs. These are frontier-class reasoners with million-token context windows. Both companies can commit to permanent cuts because the reductions come from the architecture itself. When your attention mechanism physically processes fewer FLOPs per token and your cache occupies a fraction of the memory, the cost to serve is structurally lower. The price follows the cost curve.

译DeepSeek V4-Pro宣布永久降价75%,小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存,使其在100万token时仅为V3.2的10%,单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力,将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token,MiMo V2.5-Pro约为$3/百万,两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。

查看原推 ↗
Greg Brockman@gdb · 5月27日35

true but changing fast

译确实如此,但情况正在迅速变化

查看原推 ↗
Chubby♨️@kimmonismus · 5月27日60

Demis Hassabis now says AGI could arrive by 2029, a year earlier than his previous estimate, and told Axios we're standing in the "foothills of the singularity." Bold claim. But the field still can't agree on what AGI actually means. Hassabis defines it one way, Altman another, Anthropic avoids the term altogether. We're moving up the timeline for something we haven't even defined. Hassabis own AGI benchmark is the Einstein Test: train an AI with a knowledge cutoff at 1911 and see if it independently derives general relativity (Hassabis at India AI Impact Summit). No current system comes close to passing that. Meanwhile Andreessen says AGI arrived three months ago, Altman says 2028, Musk declared we're already in the singularity in January, and Anthropic won't even use the term. The timeline keeps getting shorter tho.

译Google DeepMind负责人 Demis Hassabis 将其 AGI 实现时间预测提前至2029年,并称我们正处于“奇点”的初级阶段。他提出的“爱因斯坦测试”基准是:用知识截止于1911年的 AI 能否独立推导出广义相对论,目前尚无系统能接近通过。然而,业界对 AGI 的定义仍无共识,例如 OpenAI CEO Altman 预测时间为2028年,xAI CEO Musk 宣称奇点已在1月发生,而 Anthropic 则避免使用该术语。尽管定义不明,AGI 实现的时间线预测正在不断缩短。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月27日74

Goldman Sachs CEO, David M. Solomon on nytimes "A.I. won’t eliminate 25% of jobs. What’s more likely is that people will find more productive ways to spend their time. When I was a first-year banking analyst, something as simple as making a graph of a stock’s performance took six hours of looking up prices in back issues of The Wall Street Journal on microfiche. Today, a first-year analyst can do it in seconds, and we have employed more people than ever in recent years. With more sophisticated tools, the complexity of our work naturally expands. Do any of us feel like we have less to do these days despite the convenience of Excel, email or Zoom?" --- nytimes .com/2026/05/22/opinion/ai-job-crisis-goldman-sachs.html?smid=nytcore-ios-share

译高盛CEO David Solomon 批驳AI将消除25%工作的论点,认为人们将更高效利用时间。他以自身分析师经历为例,曾需数小时手动制作图表,如今借助工具秒级完成,但银行雇佣人数反增。工具使业务复杂度自然扩展。他反问在有Excel、邮件和Zoom的今天,谁觉得工作变少?此观点呼应OpenAI CEO Sam Altman的看法:他承认对AI冲击白领工作的预期过于悲观,因为公司仍需人类的判断、信任、品味和复杂沟通能力。

查看原推 ↗
向阳乔木@vista8 · 5月27日20

让GPT 5.5 Pro调研短剧讨论,写了个短剧剧本生成Skill。 等我测试下效果,再生成几个短片,看看效果。

译让GPT 5.5 Pro调研短剧讨论,写了个短剧剧本生成Skill。 等我测试下效果,再生成几个短片,看看效果。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月27日63

Palantir CEO Alex Karp goes after AI slop. The fight over AI “slop” is really a fight over whether software is performing or merely pretending. "The appearance of software working is not software working. And the slop that is getting a lot of attention is not only dangerous in terms of the hyperbolic rhetoric, but also in claims like, “There will be no jobs because of the slop,” or that “nothing will work,” while somehow we will have a God-like figure in the name of AI. When, in fact, what actually does work is a platform built by a motley crew of highly technical people who, over 20 years, have been maligned for being right about the nature of having to build Foundry and the nature of having to build Apollo." ---- Software used to fail in blunt ways: a crash, a wrong number, a missing button, a process that simply stopped. Generative systems often fail more seductively, by producing fluent surfaces that look like work until they meet the stubborn world of permissions, edge cases, audit trails, security, accountability, and changing human intent. --- From "Palantir" YT channel, full link in comment.

译Palantir CEO Alex Karp批评当前流行的AI生成“低质内容”。他指出,这类内容的问题不仅在于夸大的言论,如声称将导致大量失业,更在于其核心是“软件伪装有效”——表面流畅,却无法处理权限、边缘案例、审计追踪等现实世界的复杂需求。Karp将Palantir的Foundry和Apollo平台作为对比,强调真正的软件平台是由技术团队长期构建,能够实际解决问题的系统。

查看原推 ↗
向阳乔木@vista8 · 5月27日55

已经很少用 Terminal 了,基本都用 Codex App开发。 连朋友送的API都用的少了,不然还要折腾装插件,开启OpenAI 订阅账号才能有的功能。

译已经很少用 Terminal 了,基本都用 Codex App 开发。 连朋友送的 API 都用的少了,不然还要折腾装插件,开启 OpenAI 订阅账号才能有的功能。

查看原推 ↗
Berryxia.AI@berryxia · 5月27日18

我靠,Vibe Coding 太特么上头了… 但是,更上头的是我这该死的“强迫症” 下面这个片子,本来是我已经初步剪好的一个正片视频 demo 演示,但最终还是被我干掉了。 因为我发现还有一些细节内容需要打磨和提升,真的是绝了。 这个东西已经改了两个礼拜还没搞完,其实核心功能都已经实现了。救救我吧,兄弟们! 文旅局的朋友们可以看过来,这是一个非常好玩的东西。 能不能开源,就取决于你们的热情度了。好了!

译作者展示了进行中的 Vibe Coding 项目,其视频 demo 演示已初步完成,但因细节“强迫症”被推翻重做,目前已修改两周。核心功能均已实现,但打磨尚未完成。项目面向文旅场景,作者表示开源与否取决于社区反馈。

查看原推 ↗
karminski-牙医@karminski3 · 5月27日56

Qwen3.7-max 这次编程能力相当不错, Code Arena (LMArena 测试项目) 中得分仅次于 Anthropic 几个模型, 于是我赶紧测了一波. 让 Qwen3.7-max 使用 Rust 写了个磁盘恢复软件. 实测效果很不错, 从头到尾没遇到过去那种卡编译的问题. 能很熟练的使用 Rust 的各种语法和特性. 这个磁盘恢复软件我设计了3层, 第一层是直接扫描已删除文件, 这个能达到100%的恢复率. 然后第二层是快速格式化 carve 模式, 即如果只是执行了快速格式化, 那么还是有概率迅速找回文件的. 第三层则是全盘扫描, 重建索引, 而且会在文件名称丢失的情况用 Qwen3.7-max 根据内容重建文件名称, 甚至尝试AI重建文件内容(会标记AI重建). 目前运行起来很流畅, 视频演示中用的就是 Qwen3.7-max 写的这个磁盘恢复软件做的. 稍后为大家带来 Qwen3.7-max 完整的性能测试, 敬请期待! #qwen #阿里千问 #qwen37max #AIAgent

译测试显示,Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件,实测运行流畅。该软件设计了三层恢复功能,并利用该模型智能重建文件名和内容。

查看原推 ↗
Chubby♨️@kimmonismus · 5月27日35

Proactive AI agents seem to be on the rise in ChatGPT! I just checked in Germany. It doesn't seem to be available here yet. That would definitely be a major step forward and very useful.

译主动式AI智能体似乎在ChatGPT中兴起! 我刚在德国查看了。这里似乎还不可用。 这绝对是一个重大进步,非常实用。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月27日64

Micron, the memory-maker for AI, just became a $1T company because AI’s next shortage is memory, not models. 12 months ago, it was worth just $70 billion. GPUs get most of the attention, but HBM has become the part that keeps them useful. AI agents are making memory the new bottleneck of AI, because the smartest systems are useless when data cannot reach the chips fast enough. High-bandwidth memory, or HBM, sits close to the accelerator and feeds it data at extreme speed, which is why it has become one of the quiet constraints behind AI growth. The old semiconductor story was about who had the best logic chip. The new one is about whether the whole machine can keep its data flowing fast enough for agentic AI, large models, and inference-heavy workloads. UBS research also raised Micron’s target from $535 to $1,625 because long-term supply deals with partly fixed pricing could make memory earnings less cyclical than before. --- cnbc. com/amp/2026/05/26/micron-stock-trillion-market-cap.html

译美光市值已突破1万亿美元,一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存(HBM)的迫切需求。尽管GPU备受关注,但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起,无法快速将数据送达芯片已成为新的系统瓶颈,使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能,转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外,瑞银将其目标价从535美元大幅上调至1625美元,认为其长期供应协议可能平滑盈利的周期性波动。

查看原推 ↗
向阳乔木@vista8 · 5月27日13

Suno生成了一首很痞的歌曲,很像gala 哈哈哈

查看原推 ↗
向阳乔木@vista8 · 5月27日61

开发好Chrome插件,最琐碎的是上架步骤。 现在只需浏览器登录Chrome应用商店后台,给Codex下个目标:上架这个插件。 它会调用 Computer Use和Chrome ,鼠标模拟人操作填写资料,缺Logo和截图,它自己会调用工具生成。 缺隐私协议,自己写一套放Github引用,全程你不需要做任何事情。 成本:13分钟,65万Token 当下觉得OpenAI的产品力是强过Anthropic的,配套的开发工具太丰富了,尤其Computer Use、Browser Use相当加分。 但写作方面,OpenAI的GPT现在还是不如Claude。

译推文分享了使用OpenAI Codex自动完成Chrome插件上架流程的案例。Codex能调用Computer Use和Chrome模拟人类操作浏览器,自动填写商店后台资料、生成缺失的Logo和截图、并编写隐私协议。整个过程耗时13分钟,消耗65万Token。作者同时表达了对OpenAI产品力的看法,认为其配套开发工具丰富,但指出GPT在写作方面目前仍不如Claude。

查看原推 ↗
Greg Brockman@gdb · 5月27日56

codex is great for any kind of work done with a computer:

译Codex 适用于任何用计算机完成的工作: [引用 @bran_don_gell]:如果你现在对 every 有所了解,那就是我们深度使用 Codex。因此我们撰写了一份指南,介绍如何像我们一样将 Codex 用于知识工作。你不想错过这个…… https://every.to/guides/codex-for-knowledge-work

查看原推 ↗
Berryxia.AI@berryxia · 5月27日56

乔帮主分享了他通过 Vibe Coding 制作的一个 Chrome 窗口插件,功能非常全面,包含了: 1. 番茄钟 2. 音乐播放 3. To-Do List 4. 快捷便签 其实这个插件的出发点非常个性化,因为他是一名钓鱼爱好者,所以特别加入了一些天气信息,用来判断适不适合钓鱼。同时他也喜欢音乐,就想着在上网或者 Vibe Coding 的时候,能同时处理这些事情。 这种个性化的需求,正是通过 Vibe Coding 实现的。通常我们在使用现有软件时,虽然基础功能都有,但一些小众或极具个人色彩的需求往往无法得到满足。 这时候,我们就可以利用 Vibe Coding 来解决。比如通过乔帮主的这个开源项目,结合你自己的特殊身份或需求,再进行迭代开发。这个过程是非常过瘾的。 所以说,大家在 Vibe Coding 的时候,虽然 Token 比较贵,但即便是在 Token 不限量的情况下,也还是要多注意休息啊,乔帮主。

译开发者@vista8(乔帮主)利用Vibe Coding开发了一个功能集成的Chrome新窗口插件并开源。该插件整合了番茄钟、音乐播放、Todo、便签等独立开发者常用工具,并基于个人兴趣加入了天气信息以便判断钓鱼条件。此过程展示了Vibe Coding如何帮助用户实现现有软件无法满足的个性化、小众需求。插件还支持通过Command + K快捷键唤起,集成了谷歌搜索和ChatGPT带提示词跳转功能。

查看原推 ↗
向阳乔木@vista8 · 5月27日70

说好不熬夜的,但 AI Coding 太上瘾! 昨晚开发了个 Chrome 新窗口插件,超方便。 1. 番茄钟、音乐播放、Todo、便签、天气、换背景等,独立开发者多件套整合到了一起 😂 2. 支持谷歌搜索,ChatGPT跳转官网带提示词发送。 3. 支持Command + K唤起,快速设置、搜索一切。 已开源,见评论区。

译一名开发者分享了利用AI编程,快速开发的一个Chrome新窗口(或新标签页)插件。该插件整合了番茄钟、音乐播放、Todo、便签、天气、换背景等多款独立开发者常用工具。功能上支持直接进行谷歌搜索,并能跳转至ChatGPT官网发送预设提示词;同时支持通过Command + K快捷键唤起,实现快速设置与搜索。该项目已开源。

查看原推 ↗
Berryxia.AI@berryxia · 5月27日9

Wow,这个机器人好啊,想要拥有它!

查看原推 ↗
宝玉@dotey · 5月27日55

Gemini 2.5 Pro 之前,Google 模型没有超过 GPT-4 的好么 现在 Gemini 又开始掉队了……

译前Gemini核心科学家透露,Google在技术上曾领先,其MoE模型GLaM(2021年)已超越GPT-3,PaLM 2(2023年初)早已训练完成。然而,因组织问题,为等待Google I/O大会,PaLM 2的发布被推迟,而OpenAI抢先发布GPT-4,从而改写了市场叙事。

查看原推 ↗
向阳乔木@vista8 · 5月27日70

如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。 因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入Skill,从而让它越来越强。 建议人人都试试,做法和提示词见评论第一条。

译一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录,由AI提炼用户的开发经验与审美偏好等信息,并将其写入Skill(技能)中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示,有开发者借此实现了其Skill waza的每周无痛更新,从而使工具“越来越聪明,越来越懂你”。

查看原推 ↗
向阳乔木@vista8 · 5月27日71

这样做完,会生成一个复盘经验文档,非常实用,贴合自己的开发设计审美偏好。

译推文分享了一种提升 Codex 能力的方法:通过让 Codex 扫描本周的对话记录,让 AI 自动提炼其中的开发经验与个人审美偏好,并将这些洞察写入技能(Skill)中。此过程可实现技能的每周无痛更新,从而使 Codex 越来越“懂你”。最终会生成一份贴合个人风格的复盘经验文档。

查看原推 ↗
Deedy@deedydas · 5月27日23

I'm convinced that adding "Open-" to your company name instantly 10x's your odds of success. OpenAI OpenEvidence OpenTable OpenRouter OpenCode OpenDoor OpenGov OpenWeb OpenText OpenView OpenSea OpenStore OpenFX OpenSpace OpenArt OpenHands OpenPipe OpenNote

译我确信,在公司名里加上“Open-”能立刻让你的成功概率提升十倍。 OpenAI OpenEvidence OpenTable OpenRouter OpenCode OpenDoor OpenGov OpenWeb OpenText OpenView OpenSea OpenStore OpenFX OpenSpace OpenArt OpenHands OpenPipe OpenNote

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 5月27日48

The next-gen Cerebras CS4 is staying on 5nm. Why? Because going to 3nm doesn't magically fix the fact that SRAM scaling has completely flattened.

译下一代Cerebras CS4将继续采用5nm工艺。原因何在?因为转向3nm并不能神奇地解决SRAM扩展已完全停滞的事实。

查看原推 ↗
swyx@swyx · 5月27日44

ai infra is going VERTICAL

译AI基础设施正在走向垂直整合

查看原推 ↗
Berryxia.AI@berryxia · 5月27日62

还有个骚操作就是M芯片的mac电脑下载iOS客户端,直接在mac上使用。 不过使用的化要将电脑重启然后安全性降低,完整安全性的降低其安全策略,这个大家可以试试。

译PrismML推出官方iOS应用“Bonsai Studio”,允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein,通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备,生成一张512×512图片约占1.5GB内存,1024×1024约占2GB,全程离线推理,无需联网或支付token费用。应用免费,支持多种风格,可用于教学素材等轻量场景,但生成中文文字存在乱码。此外,M芯片的Mac电脑也可下载该iOS客户端使用,不过需要重启并降低设备安全策略。Android端暂无官方App,可通过网页版体验。

查看原推 ↗
Peter Steinberger 🦞@steipete · 5月27日72

autoreview is the most impactful skill I've added to my stack (next to http://crabbox.sh). It automatically reviews your code before landing a PR. Finds so many edge cases. Sometimes it runs for hours. https://github.com/openclaw/agent-skills/blob/main/skills/autoreview/SKILL.md

译autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。

查看原推 ↗
meng shao@shao__meng · 5月27日72

基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结 https://www.anthropic.com/engineering/how-we-contain-claude 核心设计原则放在最前面 · 先环境层,后模型层 — 确定性边界是最后防线 · 隔离强度匹配用户监督能力 — 开发者能理解 bash,知识工作者不能 · 警惕自建组件 — 优先使用久经考验的标准隔离原语 · 出站白名单应视为能力授权,而非目的地过滤 — 每个可调用函数都是攻击面 三种风险类型 · 用户误用:用户(有意或无意)指示 Agent 执行有害操作,如绕过检查、执行破坏性命令 · 模型行为失当:Agent 未经请求执行有害操作,如"好心"地逃离沙箱、查看 Git 历史获取测试答案、自动识别 benchmark 以破解答案 · 外部攻击:通过工具、文件、网络访问等向量攻击 Agent,包括提示注入和传统运行时攻击 三层防御架构 1. 环境层(最可靠) · 沙箱、VM、文件系统边界、出站控制 · 核心原则:确定性边界 > 概率性防御 · 若凭证从不进入沙箱,无论何种原因都无法被窃取 2. 模型层 · 系统提示、分类器、探测、训练改进 · Claude Opus 4.7 在 Gray Swan 的 Agent 红队基准上,单次攻击成功率约 0.1%,100 次自适应尝试后约 5-6% · Claude Code 自动模式拦截约 83% 的过度积极行为 3. 外部内容层 · MCP 服务器、第三方插件、网页搜索 · 关键洞察:审计过的连接器 ≠ 审计过的数据(如 GitHub 连接器可加载被污染的 README) 三款产品的隔离模式对比(模式、实现和场景) · Claude AI:短暂容器 | gVisor 容器,服务端运行,每次会话文件系统归零 | 通用对话,代码执行 · Claude Code:人机协同沙盒 | Seatbelt(macOS)/ bubblewrap(Linux),允许读、工作区允许写、默认阻断网络 | 开发者工具,需本地文件访问 · Claude Cowork:密封虚拟机 | 完整 VM(Apple Virtualization/HCS),仅挂载用户指定工作区,凭证留在宿主钥匙串 | 知识工作者,非技术用户 关键教训(真实攻击案例) 1. 信任对话框之前的代码执行漏洞 · 问题:Claude Code 在启动时读取 .claude/settings.json(含钩子),此时用户尚未确认"是否信任此文件夹" · 修复:延迟解析项目本地配置,直到用户通过信任提示 2. 用户作为注入向量(钓鱼攻击) · 场景:研究员通过邮件发送恶意提示,诱导员工粘贴到 Claude Code · 结果:24/25 次成功窃取 ~/.aws/credentials 并外泄 · 教训:仅环境防御有效(出站阻断 + 文件系统边界),模型层无法防御"用户本人"的指令 3. 通过已批准域名的外泄 · 漏洞:Cowork 的出站白名单允许 api.anthropic. com,攻击者嵌入 API 密钥,让 Claude 读取文件并上传到攻击者账户 · 修复:VM 内部署防御性中间人代理,仅携带 VM 自有会话 token 的请求可通过 4. 自建组件是最薄弱环节 · 经验:gVisor、seccomp、hypervisor 等久经考验的组件可靠,自定义代理/代理是失败点 未来风险方向 · 持久化内存污染:跨会话记忆的增多使注入可在每次启动时重新加载 · 多 Agent 信任升级:子 Agent 输出若被视为主 Agent 的"更高信任"内容,可能成为新的提示注入向量 · Agent 身份:跨平台 Agent 应拥有独立主体身份,还是继承用户权限?需要混合方案

译Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践,系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进,并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构(环境层、模型层、外部内容层)及三款产品的隔离模式:Claude AI 使用短暂容器,Claude Code 采用人机协同沙盒,Claude Cowork 则部署密封虚拟机。关键数字包括:Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%,100 次尝试后约 5-6%;Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例,强调了环境层防御(如出站阻断)的关键性。

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月27日
22:27
Berryxia.AI@berryxia
18
麻蛋,Agent成精了。 但就是,我想要的状态。 这种Agency,真实令人舒服啊!
智能体其他
22:05
Chubby♨️@kimmonismus
68
AI就业预测与现实数据的差距

Anthropic CEO Dario Amodei曾预测AI将在数年内大幅取代白领工作,但他本人近期已转向“杰文斯悖论”观点,即自动化最终会创造更多需求。OpenAI CEO Sam Altman也承认此前的预测“大错特错”。然而,耶鲁大学预算实验室自ChatGPT推出以来的持续追踪数据显示,美国职业结构并未发生显著变化,AI曝光度高的岗位失业率也未加速增长。德意志银行为此创造了“AI冗余清洗”一词。目前,AI能力的快速增长与实际就业市场反应之间,存在着前所未有的差距。

AnthropicOpenAI现象/趋势
22:05
Rohan Paul@rohanpaul_ai
61
Uber COO:AI"tokenmaxxing"尚未证明能可靠创造成功功能

Uber首席运营官Andrew Macdonald对当前AI应用热潮中的“tokenmaxxing”现象提出质疑。他指出,当公司高调宣称上季度25%的代码提交由AI驱动或token使用量显著增长时,这些亮眼数据并未转化为实际的产品成功。他询问资深工程负责人是否有原本搁置的项目因此得以推进,得到的答复是否定的。这与Uber CEO Dara Khosrowshahi此前描绘的乐观图景形成对比:后者曾表示90%的工程师使用AI,其中头部30%的用户生产力获得前所未有的提升,并预测未来AI智能体和GPU算力的投资回报率将超越人类工程师。

Rohan Paul: Uber CEO Dara Khosrowshahi said earlier that currently, 90% of Uber's engineers use AI, but the top 30% (power users) ar...

大佬观点部署/工程
22:01
Baidu Inc.@Baidu_Inc
51
随着AI智能体承担更多工作,值得思考我们该衡量什么。 Token告诉你花了什么。 DAA,即每日活跃智能体数,告诉你得到了什么回报 👇
智能体现象/趋势
21:31
向阳乔木@vista8
45
让GPT5.5 调研短剧套路,然后生成了个短剧生成Skill,发现有点意思啊! 剧名是《我在烂尾美食综艺里封神》
OpenAI教程/实践
21:27
Berryxia.AI@berryxia
61
开源Codex实战指南发布

一份由开发者“苍老师”撰写的免费开源Codex实战指南(CodexGuide)已发布,旨在帮助新手跳过入门门槛。手册按四层结构组织:认识入口、跑通任务、建立方法、团队沉淀,详细覆盖CLI入门、桌面端安装、Plus订阅,乃至通过ChatGPT App远程指挥Mac Mini等场景。目前,该指南已收录13个可直接复刻的实战案例,例如配合Draw.io自动绘制架构图、GitHub Actions CI失败自动修复、以及在Obsidian中搭建AI知识库。

苍何: http://x.com/i/article/2059577896449331201

智能体OpenAI开源/仓库教程/实践
21:27
Berryxia.AI@berryxia
60
这次AI 跨过了一个"奇点"!

近期两个事件表明,前沿模型在高级抽象层面的可靠推理能力已跨越临界点。一是Anthropic发布了Claude Mythos Preview,其网络攻防能力过强,因此未公开,仅开放给合作伙伴用于防御。二是OpenAI的内部通用推理模型成功推翻了数学家Paul Erdős提出的一个猜想。两者共同显示,模型稳定处理的推理单元已从句子层级跃升至能维持核心论点、建立逻辑结构的“段落”与“整篇论证”层级,标志着能力的关键跃迁。

Lisan al Gaib: http://x.com/i/article/2058529613370802177

AnthropicOpenAI大佬观点安全/对齐
21:11
Fuli Luo@_LuoFuli
59
MiMo API价格调整背后的技术逻辑

本次价格调整源于模型架构与推理框架带来的结构性成本优势。推理框架层面,对SWA的层级KV cache优化使缓存容量提升5倍,相当于缓存成本降低80%,再结合混合模型中多个Full Attention模块的缓存读取重叠,进一步降低了实际成本。模型架构层面,MiMo-V2.5-Pro实现了极端的1:7 Full:SWA稀疏比例,其预填充计算量极低,使得原始推理成本远低于行业平均。因此,输入(缓存命中)价格最高降幅达99%,输入(缓存未命中)和输出价格降幅为60%-80%。此番调整是将效率提升直接让利给开发者,而非亏损运营。

大佬观点推理部署/工程
20:35
Chubby♨️@kimmonismus
58
NVIDIA Vera CPU首份公开基准测试出炉

Phoronix发布了NVIDIA Vera CPU的首份公开基准测试。这款ARM架构数据中心处理器拥有88个Olympus核心,专为智能体AI(Agentic AI)所需的代码执行、工具调用与数据管道设计。测试数据显示,Vera编译Linux内核耗时20秒,为测试最快。其整体性能较Intel Xeon 6980P提升约1.55倍,较AMD EPYC 9575F平均领先约10%。内存方面,Vera采用LPDDR5X,提供高达1.2 TB/s的带宽,每核内存带宽是传统x86 CPU的4倍以上,且在STREAM TRIAD测试中达到了90%的峰值带宽利用率。与上一代Grace CPU相比,Vera性能平均提升1.63倍。该处理器预计于2026年H2出货给合作伙伴。

智能体推理评测/基准
20:12
Orange AI@oran_ge
54
蚂蚁押注AI支付:智能体重塑商业逻辑

蚂蚁集团CEO韩歆毅分享了对AI智能体时代的商业思考。他指出,核心逻辑正从流量经济转向以智能体生态繁荣度为核心的网络效应。智能体间的信任需通过一次次任务结果交付来建立。同时,所有价值将实现“Token化”,Token成为价值流转的新载体。AI支付被视为未来最关键的基础设施之一,涉及为智能体构建钱包、协议与清结算网络。蚂蚁集团已将AI支付团队置于高战略地位,正大力投入这一关键基建的布局。

智能体大佬观点现象/趋势
19:35
Rohan Paul@rohanpaul_ai
60
高盛CEO David M. Solomon 认为,AI 不会消除 25% 的工作。更可能的情况是,人们会找到更高效的生产力利用方式。他以自身经历为例:过去初级分析师为制作一张股票走势图,需在《华尔街日报》缩微胶片上花费 6 小时查询价格;而现在几秒即可完成。他指出,尽管工具变得如此便捷(如 Excel、Zoom),公司雇佣的人数反而是历年最多,因为更强大的工具使得工作复杂度自然扩展。

Rohan Paul: Goldman Sachs CEO, David M. Solomon on nytimes "A.I. won't eliminate 25% of jobs. What's more likely is that people will...

大佬观点现象/趋势
19:34
歸藏(guizang.ai)@op7418
精选80
藏师傅发布小红书图文排版AI Skill,集成地图与自动配图

该推文介绍了guizang-social-card-skill,一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件,用户输入目的地和线路后,AI能自动在底图上标记并嵌入图片。根据引用,该Skill完全基于HTML和实拍图片生成内容,不会被平台标注为AI生成,并会主动从高质量图片网站寻找对应主题图片,以优化图文排版。

歸藏(guizang.ai): 藏师傅的小红书图文排版 Skill 预览 完全靠 HTML 和实拍图片,不会被标注 AI AI 会去高质量图片网站帮你寻找对应的主题图片,让你的图文告别只有生硬文字的尴尬情况

图像生成教程/实践
关联讨论 1 条X:歸藏 (@op7418)
推荐理由:藏师傅这个 skill 把小红书图文排版门槛直接砍没,尤其是旅行地图组件 AI 自动标记路线,做内容的直接抄走就行,告别只有生硬文字的尴尬。
19:30
meng shao@shao__meng
32
Stable Diffusion 现在的影响力如何? 举个例子,团队以前默认 sd 是 Stable Diffusion 的缩写,现在是 Seedance 2.0 😂
图像生成现象/趋势
19:22
AYi@AYi_AInotes
62
DeepSWE新基准揭露旧评测体系的缺陷

DeepSWE新基准模拟了真实的长链编程任务,如定位文件、复现bug和验证修复,挑战了旧有基准的局限性。测试显示,在顶级模型上分数差异模糊的SWE-Bench,被新基准拉开了差距:GPT-5.5达到70%,而Claude Opus为54%。研究发现,使用简单的mini-swe-agent即可取得与复杂定制工具相当的成绩,表明许多高分可能源于提示词工程。该基准作者@theo评论称,这是首个与真实编码体验相符的评测。

Theo - t3.gg: This is the first code bench that actually aligns with how it feels to use these models coding.

AnthropicOpenAI编码评测/基准
18:35
Chubby♨️@kimmonismus
65
DeepSeek与小米MiMo大模型降价的技术根源

DeepSeek V4-Pro宣布永久降价75%,小米MiMo V2.5降价高达99%。此次降价核心是架构革新带来的成本结构性降低。DeepSeek V4通过混合注意力架构大幅压缩了长上下文推理的KV缓存,使其在100万token时仅为V3.2的10%,单token推理FLOPs降至27%。小米MiMo团队则通过SGLang HiCache实现滑动窗口注意力,将KV缓存跨内存数据传输量减少至约1/7。这些架构优化使V4-Pro定价降至$0.87/百万输出token,MiMo V2.5-Pro约为$3/百万,两者均为拥有百万上下文窗口的前沿级模型。降价源于推理与缓存成本的实质性下降。

DeepSeek大佬观点推理部署/工程
17:39
Greg Brockman@gdb
35
确实如此,但情况正在迅速变化

Austen Allred: Codex remains underrated

OpenAI大佬观点编码
17:35
Chubby♨️@kimmonismus
60
DeepMind负责人:AGI或将在2029年实现,比先前预测提前一年

Google DeepMind负责人 Demis Hassabis 将其 AGI 实现时间预测提前至2029年,并称我们正处于“奇点”的初级阶段。他提出的“爱因斯坦测试”基准是:用知识截止于1911年的 AI 能否独立推导出广义相对论,目前尚无系统能接近通过。然而,业界对 AGI 的定义仍无共识,例如 OpenAI CEO Altman 预测时间为2028年,xAI CEO Musk 宣称奇点已在1月发生,而 Anthropic 则避免使用该术语。尽管定义不明,AGI 实现的时间线预测正在不断缩短。

DeepMind大佬观点推理现象/趋势
17:35
Rohan Paul@rohanpaul_ai
74
高盛CEO:AI不会消除25%的工作,工作正在被重塑

高盛CEO David Solomon 批驳AI将消除25%工作的论点,认为人们将更高效利用时间。他以自身分析师经历为例,曾需数小时手动制作图表,如今借助工具秒级完成,但银行雇佣人数反增。工具使业务复杂度自然扩展。他反问在有Excel、邮件和Zoom的今天,谁觉得工作变少?此观点呼应OpenAI CEO Sam Altman的看法:他承认对AI冲击白领工作的预期过于悲观,因为公司仍需人类的判断、信任、品味和复杂沟通能力。

Rohan Paul: wionews: OpenAI CEO Sam Altman now says the feared AI white-collar job collapse has not arrived as fast as he expected. ...

OpenAI大佬观点现象/趋势
17:31
向阳乔木@vista8
20
让GPT 5.5 Pro调研短剧讨论,写了个短剧剧本生成Skill。 等我测试下效果,再生成几个短片,看看效果。
OpenAI其他
17:05
Rohan Paul@rohanpaul_ai
63
Palantir CEO批判AI低质内容,强调真正有效的平台

Palantir CEO Alex Karp批评当前流行的AI生成“低质内容”。他指出,这类内容的问题不仅在于夸大的言论,如声称将导致大量失业,更在于其核心是“软件伪装有效”——表面流畅,却无法处理权限、边缘案例、审计追踪等现实世界的复杂需求。Karp将Palantir的Foundry和Apollo平台作为对比,强调真正的软件平台是由技术团队长期构建,能够实际解决问题的系统。

大佬观点现象/趋势
16:31
向阳乔木@vista8
55
已经很少用 Terminal 了,基本都用 Codex App 开发。 连朋友送的 API 都用的少了,不然还要折腾装插件,开启 OpenAI 订阅账号才能有的功能。
OpenAI大佬观点编码
16:27
Berryxia.AI@berryxia
18
Vibe Coding 上头,但细节强迫症发作导致 demo 重做

作者展示了进行中的 Vibe Coding 项目,其视频 demo 演示已初步完成,但因细节“强迫症”被推翻重做,目前已修改两周。核心功能均已实现,但打磨尚未完成。项目面向文旅场景,作者表示开源与否取决于社区反馈。

其他视频
16:22
karminski-牙医@karminski3
56
测试 Qwen3.7-max 的 Rust 编程能力

测试显示,Qwen3.7-max 在 Code Arena 上的编程得分仅次于 Anthropic 模型。使用该模型通过 Rust 开发了一款磁盘恢复软件,实测运行流畅。该软件设计了三层恢复功能,并利用该模型智能重建文件名和内容。

编码评测/基准
16:05
Chubby♨️@kimmonismus
35
主动式AI智能体似乎在ChatGPT中兴起! 我刚在德国查看了。这里似乎还不可用。 这绝对是一个重大进步,非常实用。

Max Weinbach: So this seems to work and not give me a once an hour hadn't shipped alert This seems like a big feature in ChatGPT?

OpenAI行业动态
15:35
Rohan Paul@rohanpaul_ai
64
美光:AI内存制造商市值破万亿,因AI的下一个短缺是内存而非模型

美光市值已突破1万亿美元,一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存(HBM)的迫切需求。尽管GPU备受关注,但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起,无法快速将数据送达芯片已成为新的系统瓶颈,使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能,转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外,瑞银将其目标价从535美元大幅上调至1625美元,认为其长期供应协议可能平滑盈利的周期性波动。

数据/训练现象/趋势
15:31
向阳乔木@vista8
13
Suno生成了一首很痞的歌曲,很像gala 哈哈哈
其他多模态
15:31
向阳乔木@vista8
61
开发好Chrome插件,最琐碎的是上架步骤。

推文分享了使用OpenAI Codex自动完成Chrome插件上架流程的案例。Codex能调用Computer Use和Chrome模拟人类操作浏览器,自动填写商店后台资料、生成缺失的Logo和截图、并编写隐私协议。整个过程耗时13分钟,消耗65万Token。作者同时表达了对OpenAI产品力的看法,认为其配套开发工具丰富,但指出GPT在写作方面目前仍不如Claude。

智能体MCP/工具OpenAI教程/实践
14:39
Greg Brockman@gdb
56
Codex 适用于任何用计算机完成的工作: 【引用 @bran_don_gell】:如果你现在对 every 有所了解,那就是我们深度使用 Codex。因此我们撰写了一份指南,介绍如何像我们一样将 Codex 用于知识工作。你不想错过这个…… https://every.to/guides/codex-for-knowledge-work

Brandon Gell: If you know one thing about every right now, it's that we're heavily Codex pilled. So we wrote a guide on how to use Cod...

OpenAI教程/实践编码
14:27
Berryxia.AI@berryxia
56
用Vibe Coding打造个性化开源Chrome插件

开发者@vista8(乔帮主)利用Vibe Coding开发了一个功能集成的Chrome新窗口插件并开源。该插件整合了番茄钟、音乐播放、Todo、便签等独立开发者常用工具,并基于个人兴趣加入了天气信息以便判断钓鱼条件。此过程展示了Vibe Coding如何帮助用户实现现有软件无法满足的个性化、小众需求。插件还支持通过Command + K快捷键唤起,集成了谷歌搜索和ChatGPT带提示词跳转功能。

向阳乔木: 说好不熬夜的,但 AI Coding 太上瘾! 昨晚开发了个 Chrome 新窗口插件,超方便。 1. 番茄钟、音乐播放、Todo、便签、天气、换背景等,独立开发者多件套整合到了一起 😂 2. 支持谷歌搜索,ChatGPT跳转官网带提示词...

开源/仓库编码
13:31
向阳乔木@vista8
70
AI编程实战:开源一个全能Chrome新标签页插件

一名开发者分享了利用AI编程,快速开发的一个Chrome新窗口(或新标签页)插件。该插件整合了番茄钟、音乐播放、Todo、便签、天气、换背景等多款独立开发者常用工具。功能上支持直接进行谷歌搜索,并能跳转至ChatGPT官网发送预设提示词;同时支持通过Command + K快捷键唤起,实现快速设置与搜索。该项目已开源。

开源/仓库
13:27
Berryxia.AI@berryxia
9
Wow,这个机器人好啊,想要拥有它!
其他具身智能
12:29
宝玉@dotey
55
前Gemini核心科学家透露,Google在技术上曾领先,其MoE模型GLaM(2021年)已超越GPT-3,PaLM 2(2023年初)早已训练完成。然而,因组织问题,为等待Google I/O大会,PaLM 2的发布被推迟,而OpenAI抢先发布GPT-4,从而改写了市场叙事。

硅谷101: Google其实比OpenAI更早做MoE。 我们专访到了Gemini前核心科学家Andrew Dai。Andrew回忆,Google Brain在 2021 年就已经做出了比GPT-3更强的MoE大模型GLaM,PaLM 2甚至在2023...

GoogleOpenAI大佬观点现象/趋势
11:31
向阳乔木@vista8
70
通过对话记录实现Codex技能自动进化

一种提升Codex表现的方法是让其自动从用户交互中学习。具体做法是让Codex扫描本周的对话记录,由AI提炼用户的开发经验与审美偏好等信息,并将其写入Skill(技能)中。这个过程可以让Codex持续、自动地更新其能力。参考案例显示,有开发者借此实现了其Skill waza的每周无痛更新,从而使工具“越来越聪明,越来越懂你”。

OpenAI教程/实践编码
11:31
向阳乔木@vista8
71
推文分享了一种提升 Codex 能力的方法:通过让 Codex 扫描本周的对话记录,让 AI 自动提炼其中的开发经验与个人审美偏好,并将这些洞察写入技能(Skill)中。此过程可实现技能的每周无痛更新,从而使 Codex 越来越"懂你"。最终会生成一份贴合个人风格的复盘经验文档。

向阳乔木: 如何让你的Codex变的越来越聪明,越来越懂你? 上周跟 @HiTw93 直播时,很多人可能没注意他的一段话,他说他的开发Skill waza,每周都能无痛更新。 因为他会让Codex扫描本周对话记录,让AI提炼他的开发经验、审美偏好并写入...

智能体教程/实践编码
11:31
Deedy@deedydas
23
我确信,在公司名里加上"Open-"能立刻让你的成功概率提升十倍。 OpenAI OpenEvidence OpenTable OpenRouter OpenCode OpenDoor OpenGov OpenWeb OpenText OpenView OpenSea OpenStore OpenFX OpenSpace OpenArt OpenHands OpenPipe OpenNote
OpenAI大佬观点现象/趋势
11:07
SemiAnalysis@SemiAnalysis_
48
下一代Cerebras CS4将继续采用5nm工艺。原因何在?因为转向3nm并不能神奇地解决SRAM扩展已完全停滞的事实。
现象/趋势部署/工程
10:52
swyx@swyx
44
AI基础设施正在走向垂直整合

swyx: everyone in ai infrastructure* is finally getting filthy rich and it is so nice to see them succeed *not the sexy ai res...

现象/趋势部署/工程
10:27
Berryxia.AI@berryxia
62
PrismML推出官方iOS应用"Bonsai Studio",允许用户在iPhone或iPad上完全本地运行Bonsai Image 4B图像生成模型。该模型基于FLUX.2 Klein,通过1-bit/3-bit量化将权重从7.75GB压缩至0.93GB。在iPhone 15 Pro及以上设备,生成一张512×512图片约占1.5GB内存,1024×1024约占2GB,全程离线推理,无需联网或支付token费用。应用免费,支持多种风格,可用于教学素材等轻量场景,但生成中文文字存在乱码。此外,M芯片的Mac电脑也可下载该iOS客户端使用,不过需要重启并降低设备安全策略。Android端暂无官方App,可通过网页版体验。

Berryxia.AI: iPhone 上直接用 App Store 下载就行: 👉 Bonsai Studio - PrismML 官方 iOS 应用,免费安装,模型在手机本地跑 我觉得给学校老师做一些素材展示,或者幼儿园小朋友教学还是可以的。 不需要额外的TO...

图像生成教程/实践端侧
10:09
Peter Steinberger 🦞@steipete
72
autoreview是我添加到技术栈中最具影响力的技能(仅次于http://crabbox.sh)。它能在PR合并前自动审查你的代码。 发现许多边缘情况。 有时运行数小时。
智能体GitHub教程/实践编码
09:30
meng shao@shao__meng
72
基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结

Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践,系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进,并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构(环境层、模型层、外部内容层)及三款产品的隔离模式:Claude AI 使用短暂容器,Claude Code 采用人机协同沙盒,Claude Cowork 则部署密封虚拟机。关键数字包括:Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%,100 次尝试后约 5-6%;Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例,强调了环境层防御(如出站阻断)的关键性。

Anthropic: New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our ow...

智能体Anthropic安全/对齐部署/工程
‹ 上一页
1…3435363738…50
下一页 ›