还在读书的,这条价值 $1000+ 的福利千万别错过🤩 GitHub Student Developer Pack—— 学生一次申请,100+ 个工具全免费, 我见过性价比最离谱的学生福利,没有之一。 随手列几个里面的: · GitHub Copilot(AI 编程,正常 $100/年) · JetBrains 全家桶 IntelliJ/PyCharm($250/年) · Azure $100 云额度 · DigitalOcean $200、Canva Pro、1Password、域名… 加起来轻松 $1000+, 门槛只有一个:能证明你是在校学生。 老规矩入口下方评论区自取⬇️
译GitHub Student Developer Pack为在校学生提供一次申请即可免费使用100+开发工具的机会,总价值超过$1000,其中包含价值$100/年的GitHub Copilot、$250/年的JetBrains全家桶及$100 Azure云额度等。同时,任何公开开源项目的维护者可申请免费获得6个月的ChatGPT Pro(价值$1200),门槛较低,只需有项目链接即可申请。
这种小任务爬爬虾的工作交给Qclaw这种还是挺好的,每日有4000K的Tokens可以用啊。 不用白不用啊,整理成报告还是可以滴。不然你不用也浪费了啊!
译推文提及AI助手Qclaw(像素风小龙虾形象)日供4000K Tokens额度,适合处理小任务并生成报告。用户@berryxia将其视为能主动干活的数字同事,目前已邀请码内测中。
http://x.com/i/article/2061360923009564672 # 英伟达发布全新RTX Spark - 个人PC的新时代。 今天,英伟达的NVIDIA GTC Taipei 2026,在早上11点,终于如约而至了了。 发布了很多的东西,但是有一个东西,是我觉得真正具有历史意义的,必须要单独拿出来的说的。 甚至,它让英伟达喊出了,个人电脑诞生40年以来,这次,要重新定义。 “A New Line,A New Beginning” 而这一切,都是因为一个全新的消费级芯片。 也就是传说中的,被各种爆料了很久的代号为N1X的芯片。 RTX Spark。 就是这么个小小的东西。 可以说,这是我在今年上半年最期待的一场AI大会,因为在这个时代,你几乎很难看到,几个巨头联手预热,只为这一场发布会。 PC的新时代。 可能也只有英伟达,能攒起这样的局了。 那一串奇怪的数字,正是这次老黄演讲的地点,台北流行音乐中心。 在看完今天的发布会以后,我相信没有人会不再相信这句话了。 整个上半年的AI的进展,几乎都是OpenClaw、Claude Code、Codex等等等等。 背后,全部都是云端大模型。 但是ToC端的硬件层面,几乎毫无进展。 可试问,又有谁不想真正的把大模型和Agent,部署在自己的本地端呢,低延迟、隐私保护、无需网络,不仅仅是进行推理,甚至可以微调,那种自由又安全的感觉,永远会让人迷恋。 我们需要新的硬件,也需要新的芯片,需要一些更有趣的想象。 而这一切的目光,几乎都聚焦在了这次的NVIDIA GTC Taipei 2026上。 终于,RTX Spark如约而至。 如果比较关注英伟达或者过去打游戏比较多的朋友,可能对RTX和Spark这两个独立的单词都比较熟。 RTX就是英伟达的消费级产品线,大家见的最多的,就是各种显卡,比如RTX 5080。 Spark其实同源于去年的一个面向开发者的DGX Spark,只不过这次被正式升级成了一整套英伟达全新的业务线。 于是,RTX Spark出炉了。 直播的时候看的我起鸡皮疙瘩了。 整体参数如下。 RTX Spark的底层应该是跟DGX Spark相同的GB10芯片,因为我看这次的旗舰版的参数和之前差不多。 最高1 PFLOP的FP4 AI性能,20个CPU核心、6144个GPU核心和128GB的LPDDR5X统一内存。 能直接在本地轻轻松松跑120B的模型。 这次发布会上,老黄还秀了一把未来所谓搭载RTX Spark的合作品牌方做的电脑。 你可以在一台厚度为14mm、未插电的笔记本电脑上渲染一个90GB的3D场景、编辑12K分辨率视频。 非常离谱。。。 而且,不仅有很薄但性能爆炸的全新笔记本,还有类似于Mac Mini那种功耗很低的小盒子。 所以最近联想、HP、ARM大涨啥的,不是没有原因的。 能在个人消费级的电脑里,直接用统一内存的方式,以超高速+全面CUDA生态支持,来本地跑AI大模型,这应该是整个PC领域头一遭。 而且微软会跟英伟达一起,全面重构Windows系统,让搭载RTX Spark的电脑,原生支持本地Agent的运行。 Windows生态,感觉有救了,英伟达来当救世主了。 真的,无愧于个人PC新时代这个比喻。 感觉上,明年全新的Windows系列的换机潮要来了。 我觉得要理解RTX Spark的历史意义,还是得说一个我觉得大家需要知道的东西: 就是到底啥是统一内存?它有啥用? 在过去,我们传统的电脑里,一般有两个大家所熟知的最核心的东西,一个叫CPU,一个叫GPU。 这个叫CPU,我用AI画了一张。 GPU大家肯定都很熟了,在电脑上,经常就是我们常说的显卡,比如我的这个5080。 CPU和GPU他两呢,各有各的内存,是分开的两块。 CPU用的叫系统内存(RAM),GPU用的叫显存(VRAM),两边要交换数据得通过一条通道来回搬。 而统一内存呢,大概就是把这两块合成一块,CPU和GPU共用同一个内存池,谁都能直接访问。 苹果把这套玩意搞成了自己的主流,你现在买的Mac,几乎都是统一内存了。 但是Windows生态,CPU和GPU都是不同厂家做的做的,受限于过去的生态,过去也有人搞过,但是也都拉了,也从来没有人能把这么多上下游,联合起来大搞特搞。 这么大的阵仗,英伟达是第一个。 而这个统一内存,对于跑大模型来说,真的几乎就是决定生死的差别。 上面我们也说了,传统PC的内存架构是分裂的,CPU有自己的系统内存(RAM),GPU有自己的显存(VRAM),两者之间靠一条叫PCIe的东西连起来。 比如,CPU有一块系统内存,我们按64GB RAM来算,GPU又有一块自己的显存,比如RTX5080的16GB VRAM。 你想在本地跑一个大模型,比如量化后的70B模型,可能要几十G内存,你的电脑内存看起来有64GB,但GPU真正能高速使用的只有那16GB显存。 一旦模型太大,显存放不下,就要把一部分权重放在CPU的系统内存里,GPU每次需要这部分权重,就得通过PCIe去系统内存里拿。 GPU读自己的显存,带宽大概1TB/s,非常快。 但是PCIe这条连接CPU内存和GPU的通道,像PCIe 4.0 x16单向带宽只有大概32GB/s,差了三十倍,纯龟速。 所以,你的模型还是跑不动,或者跑的很慢。 统一内存解决的主要问题就是这个。 它可以把CPU和GPU的内存变成一个共享池,比如一台机器有128GB统一内存,那么GPU就可以直接使用这个大池子里的很大一部分。那这样你跑本地大模型的时候,就不再被一张显卡的 16GB、24GB、32GB显存限制得那么死。 统一内存在消费级单机上,几乎是跑本地大模型唯一优雅的解法。 数据中心就是另一个世界了,那条路跟我们普通消费者就没啥关系了。 说到这,那我觉得,你肯定想问,那既然统一内存这么牛逼,我买Mac不就行了,Mac也有128G的统一内存的版本,我买RTX Spark干啥? 这是个非常好的问题,有一个答案还是挺重要的,那就是英伟达真正的杀手锏。 CUDA。 CUDA这个词,很多关注AI的朋友应该都听过,但它到底是什么,为什么这么重要,我觉得还是值得认真聊一下。 很多人以为CUDA就是英伟达的显卡驱动,或者只是什么GPU加速技术。 这么理解也不能说错,但它远不止于此。 CUDA是一整套的生态,最牛逼的生态。 底层,它让你能把GPU当成通用计算器来编程,除了渲染画面,还能做数学计算。 中层,是一堆被打磨了将近二十年的数学库。cuBLAS做线性代数,cuDNN做深度学习的基础运算,TensorRT做推理优化,NCCL做多卡通信,FlashAttention这类关键优化,CUDA 路线最成熟,很多新特性也会优先围绕NVIDIA GPU做适配。 还有老黄这次演讲里反复强调的CUDA-X,为所有的Agent,开放的CUDA库,能让Agent直接调用,这下更离谱了。。。 里面有一整套横跨科学计算、工程仿真、芯片设计、基因组学、通信网络、机器人和物理仿真等等的加速库。 比如cuLitho做计算光刻,cuOpt做决策优化,cuDSS做稀疏矩阵求解,AI-Q做对结构和非结构化文档做深度研,Warp做可微分物理,Parabricks做基因组学等等等等。 用老黄的话说,数学,太美妙了。 CUDA,太牛逼了。 上层,就是PyTorch、TensorFlow、JAX,几乎所有深度学习框架的GPU后端,默认且首先支持的就是CUDA。 从2006年做到现在,CUDA积累了海量的优化库、教程、代码、生态等等。你今天去看学术论文放出来的开源代码,绝大多数都是在CUDA上写和测的,你今天遇到任何深度学习的问题去搜解法,搜出来的答案也几乎都是默认假设你在用CUDA。 整个AI工程界的母语,就是CUDA。 这也是Apple一直以来的一个痛点。 它的统一内存确实牛逼,但它的GPU用的是Metal,机器学习框架是MLX。 社区里绝大部分开源模型、训练代码、微调工具,都是先在CUDA上做好的,然后才慢慢有人移植到MLX,而且推理还好说,但是训练和微调在Apple上的生态到今天还是非常薄弱。 所以你现在应该能理解,RTX Spark为什么让整个行业都在期待了。 因为在RTX Spark之前,想要CUDA和想要统一内存的能效,这两件事在PC上,是不可兼得的。 RTX Spark第一次把这以前打架的东西捏到了一起。 这是以前任何一个单一平台都给不了的组合。 这才是RTX Spark真正的最牛逼的地方,也是最大的差异化。 运行人类至今创造过的一切,外加Agent。 而基于CUDA生态,这次,像Adobe之类的,会针对RTX Spark进行全面优化。 比如Adobe直接重新为RTX Spark设计了Photoshop和Premiere的核心架构,拥有高达两倍的速度,而且,还原生支持Agent调用。 而且,这一次,英伟达和微软还要一起携手,来重塑Windows上的Agent生态,虽然这块是后面才会跟纳德拉具体直播去聊,但是也透了一点东西出来。 包括全新的Windows安全基元,能为Agent的原生构建与运行提供身份认证、隔离防护、策略管控和端到端安全能力。 还有英伟达自己的Open Shell。 一套面向Agent的Windows PC平台就能看出来了。 底层是RTX Spark提供的硬件能力。 第二层是Windows的系统,微软会把Windows往Agent时代来改。 第三层就是是安全运行环境。 也就是Windows security primitives + NVIDIA OpenShell。 可以说,未来任何一个想要在本地电脑上跑大模型的开发者或者创作者,从硬件上来说,RTX Spark的机器,几乎就是最优解。 如果你还想打游戏,那相信我,你没有别的选择了。 仅此一家,只有RTX Spark。 A New Line,A New Beginning。 这就是,个人电脑的新时代。 它,不止是为你设计的,还是为Agent所设计的。 不止兼容着过去,还带着过去。 走进了,下一个未来。
译英伟达在GTC Taipei 2026发布消费级芯片RTX Spark。该芯片基于GB10,提供最高1 PFLOP的FP4 AI性能、20个CPU核心、6144个GPU核心及128GB LPDDR5X统一内存,支持在本地运行120B参数的大模型。其核心突破在于首次将统一内存架构与CUDA生态结合于消费级PC,解决了以往统一内存在AI开发生态上的短板。微软将重构Windows以原生支持本地AI智能体运行。这被称为个人电脑诞生40年来“重新定义”的时刻。
"I resisted AI for too long, living in denial. Now it is game on." — Elon Musk
译"我抗拒AI太久了,一直活在否认中。 现在,游戏开始了。" — Elon Musk
love to see it 🙌 go try M3 in @orca_build with @opencode
译太棒了 🙌 快去 @orca_build 里用 @opencode 试试 M3 [引用 @JinjingLiang]:MiniMax M3 让我惊艳 我一直在 @orca_build 里用 @opencode 智能体免费使用它 目前主要做 UI 任务和代码审查,但感觉性能与 Opus-4.7 不相上下 没想到它这么好用。(而且目前免费)
With Nemotron & Cosmos NVIDA gonna commoditise everyone's complement
译借助Nemotron与Cosmos,NVIDIA将把所有人的互补能力商品化。
赖叔的最新的办理港卡踩坑实操,主要是踩坑。 没有别的~~记得看~
译赖叔的最新的办理港卡踩坑实操,主要是踩坑。 没有别的~~记得看~ [引用 @hiheimu]:http://x.com/i/article/2061116526581977088
Jensen Huang just said this is the greatest era in history to build software. AI agents will not kill software. They will do the exact opposite: create a massive new wave of software demand. at NVIDIA GTC Taipei 2026 "Click and type. We now replace that with explaining to the AI what we want, our intent, and the AI generates the code or uses tools to produce the necessary output. This is how computers are going to work in the future. This is Agentic AI. For two years, we've been building toward this, and now it has arrived. One of the big breakthroughs, of course, is tool use. A lot of people have said, “Jensen, AI is coming. Agentic AI is coming. Therefore, all the software companies are going to go out of business.” This is exactly the opposite. Because there are going to be so many agents, the world is no longer limited by the number of people. Therefore, those agents are going to use more tools than ever. This is actually an incredible time to be a software company. But the software has to be presented to the agent in a way that the agent can use it. This is a big breakthrough. And in fact, what we have done, as you know, what Nvidia’s treasure..." ---- From 'NVIDIA' YT channel (link in comment)
译黄仁勋在NVIDIA GTC台北2026上表示,我们正处在构建软件的最伟大时代。他断言,AI智能体不会消灭软件,反而会创造巨大的新软件需求浪潮。核心在于,未来计算机的交互将从“点击和输入”转变为向AI解释意图,由AI生成代码或使用工具完成输出,这就是智能体AI。随着智能体数量激增,它们对工具的使用将前所未有。这对软件公司是非凡机遇,但关键突破在于,软件必须以智能体能使用的方式呈现。
妈的,终于搞定我的 Codex 断联和推理慢的问题了! 我有一台电脑上的 Codex 推理速度巨慢,即使开了快速模式也很慢,还有一个问题就是经常连不上。 我一直以为是自己的网络有问题,但它和我的 Mac Studio 处于同一个网络环境,Mac Studio 运行就非常快。 结果今天发现,是我的 config 配置文件有问题。里面写死了两个参数,还写死了两个必须加载的 MCP,导致速度巨慢。 如果你也有类似问题的话,我推荐让你的 Codex 自己检查一下配置文件。你只需要跟它描述具体的表现就行。
译作者解决了其Codex推理速度异常缓慢且频繁断联的问题。在同一网络环境下,其他设备运行正常,这排除了网络原因。最终发现根源是配置文件中错误地写死了两个参数,并强制加载了两个MCP,导致了性能问题。建议遇到类似情况的用户,可尝试利用Codex自身能力来检查其配置文件。
前几天有人还在疯狂转发日本人用Opus 4.8 的做小游戏,觉得amazing… 其实在Codex 中GPT-5.5的时候早就可以做的很好了。 不信你看看0 基础的人都可以使用Codex0-1 完成游戏的开发,而且看起来和玩起来不错的呢! 强烈推荐给大家看看~
译推文指出,当人们还在关注使用 Opus 4.8 制作小游戏的案例时,Codex 中的 GPT-5.5 模型早就能很好地完成这类开发任务。作者强调,即使是零基础的用户,也可以通过 Codex(或其“0-1”版本)完成一款体验不错的游戏开发,并对此进行了强烈推荐。此观点建立在与日本人使用 Opus 4.8 开发游戏这一被广泛传播的案例的对比之上。
这不是视频生成模型,是一个持久化、多人协作的世界模型。 核心突破是把「世界状态」与「视觉渲染」彻底解耦:世界不再是一帧帧画面,而是持续运行、可被用户修改、能从任意视角稳定观测的结构化环境。 这可能是目前最接近「可交互持久世界」的尝试。
译该推文介绍了一种新型“持久化、多人协作的世界模型”,明确强调其并非传统的视频生成模型。其核心突破在于将“世界状态”与“视觉渲染”彻底解耦。这使得世界不再是一系列连续画面,而是一个可持续运行、允许用户修改、并可从任意视角进行稳定观测的结构化环境。作者认为,这可能是目前最接近实现“可交互持久世界”的技术尝试。
見ているだけで涼しくなる、夏にぴったりの作品ですね🫧 @Yonohitomi ありがとうございます✨
译看着就感觉很凉爽,是夏天的绝佳作品呢🫧 @Yonohitomi 谢谢✨ [引用 @Yonohitomi]:人鱼耀在海中导览的视频🐬 🪼第一个视频是PixVerse V6 速度感、色彩运用,有种梦幻世界的感觉😆 🪼第二个视频是Seedance2.0 好像也能使用写实风格的照片了。耀的脸没有崩坏就能生成视频,很开心☺️ @PixVerse_ #pixverse PixVerseCPP
免费领 1 年 Cursor Pro,价值 $240🤩 继续给大家分享优质福利,这条专给还在读书的兄弟(不是学生的,转给你在校的朋友)。 在校大学生,用 .edu 邮箱通过 SheerID 验证,就能白嫖整整 12 个月 Cursor Pro,和花 $20/月的付费版一模一样: Claude / GPT / Gemini 全模型 + Agent 多文件编辑,每月还白送 $20 模型额度。 不用信用卡,验证过了直接开通! 毕业前赶紧薅,截至2026.6仍旧有效! 入口评论区自取!
译Cursor推出学生福利,在校大学生凭.edu邮箱通过验证可免费使用Cursor Pro一年,价值$240。套餐包含Claude、GPT、Gemini全部模型及Agent多文件编辑功能,每月附赠$20模型额度,无需信用卡,有效期至2026年6月。同时,OpenAI为开源项目维护者开放ChatGPT Pro申请,任何公开开源项目(无星数要求)的维护者均可申请,获批后可免费使用6个月,价值$1200。
F TIER KEYNOTEMAX: Jensen ComputeX presentation was one of the worst keynotes he has done. He announced nothing new on the AI datacenter side, and he only announced Windows on NVIDIA ARM CPU which the transition will not go work unlike Apple transition from x86 to M1 ARM. The NVIDIA laptop chip is already delayed by 6 to 8 months from its original expected launch window. During development, the high-speed connection between the Nvidia and MediaTek parts caused so much interference that the video output was completely broken, Laptop makers are reportedly being told definitely not let anyone turn them on or run benchmarks. That screams "immature hardware."
译演讲被评为黄仁勋最差之一,AI数据中心方面未发布新内容。仅宣布Windows on NVIDIA ARM CPU,但该转型被认为难以成功。NVIDIA笔记本芯片已比原计划延迟6-8个月,开发中因高速连接干扰导致视频输出完全故障。据报道,笔记本厂商被告知禁止开机或运行基准测试,暗示硬件不成熟。
用2周用Three.js + 实时语音AI,把盛唐长安做成了能走进去对话的3D世界 如果你能走进一座会说话的盛唐长安城,和李白对诗、让AI导游带路、在天枢府听智机使讲解,会是什么体验? 我们花两周高强度开发,把这个想法做成了一个可在线玩、可开源复用的浏览器3D互动项目。 在线体验:https://andyhuo520.github.io/tang-changan/ GitHub开源:https://github.com/andyhuo520/tang-changan 项目核心亮点: - 用WASD真正“走进”长安城,而不是只能转相机看模型 - 真实语音对话:按住麦克风就能和李白、杜甫、智机使聊天 - 融合诗词小游戏、珍宝馆、AI展馆,把历史和AI能力变成可玩体验 - 全开源,普通创作者和初学者也能复刻学习 整个项目从一个朴素想法开始:把盛唐长安做成一个可漫游、可对话、可游戏、可展示AI能力的3D世界。 开发过程分为9个阶段,我把最关键的干货和踩坑经验都写出来了: 1. 先搭出一个能看的低多边形长安沙盘(Three.js核心搭建) 2. 加入WASD游戏模式,让玩家真正“走进”长安。 3. 添加大量NPC和小游戏(飞花令、对对联、猜谜等唐风玩法) 4. 打造珍宝馆、诗画展厅,把文化内容变成可互动展厅。 5. 把AI品牌做成唐风“天枢府 / AI展馆”,让现代AI出现在盛唐场景里 6. 接入Agora实时语音Agent,实现真正的语音对话(最难也最核心的部分)。 7. 加上角色头像、视频面板、古风BGM,提升沉浸感 8. 解决3D尺度、浏览器缓存、语音账号等常见坑 9. 最终部署到GitHub Pages,让任何人一键体验 语音部分我们用了Agora ConvoAI + Persona设计,每个NPC(李白、杜甫、王维、智机使等)都有独立性格、音色和对话风格,不是千篇一律的机器人。 普通用户直接点链接就能玩: WASD移动 → 靠近NPC按E对话 → 进入展馆互动 → 语音聊天 开发者想复刻也很友好:代码模块化清晰,前端Three.js + 后端FastAPI分开,文档和踩坑记录都很完整。 我们最终做到的不是一个普通的3D展示页,而是一个小型数字文旅 + AI能力样板: 把历史文化游戏化,把AI能力场景化,把开源项目做成能真正分享的作品。 想体验盛唐长安的AI版吗? 点链接进去试试,和李白用语音对一句诗,或者让智机使给你讲解实时语音技术。 感兴趣的朋友欢迎点赞、评论你最想玩的环节,或者直接去GitHub看代码复刻。 #Threejs
译开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。
自从 Claude Design 可以共享额度,可以用的次数多了很多,但 Token 消耗还是很厉害。不过做出来的东西真的很好,真的强烈建议你多用用,这是我近期用的最好的 Agent 产品之一。 一个技巧,你可以导入现成的 Design System,再让它设计,风格一致性会好很多,用一些成熟的 Design System,做出来的东西也更高端大气一些。 我个人推荐试试 Adobe 的 Spectrum 2 design system, 用下面的 URL 就可以导入,导入后就可以让它设计时基于 https://github.com/adobe/react-spectrum 这里可以找到更多的设计系统: https://github.com/alexpate/awesome-design-systems
译Claude Design 现与 Claude AI 网站、Claude Code 共享额度,用起来更便捷。其产品设计和UI设计能力不错。一个提升设计一致性的技巧是先导入成熟的Design System再进行设计,例如推荐Adobe的Spectrum 2 design system。此外,GitHub上有更多设计系统资源可参考。
One day, anyone will be able to generate an entire movie with Grok.
译有一天,任何人都能用Grok生成一整部电影。
http://x.com/i/article/2060375125825036288 # 用Claude花了2周时间+800美金打造的大唐语音互动3D小游戏的教程。 这是一份面向普通读者、创作者和初学开发者的科普教程。它不假设你已经懂 Three.js、实时语音或 AI Agent,而是从一个朴素问题开始: > 如果一座盛唐长安城不是只能观看,而是可以走进去、和李白对诗、和导游问路、在 AI 展馆里听智能讲解,会是什么体验? 我们用两周左右的高强度开发,把这个想法做成了一个可在线访问、可开源复用的 Web 3D 互动项目。 项目地址: - 在线体验:https://andyhuo520.github.io/tang-changan/ - GitHub:https://github.com/andyhuo520/tang-changan > 上图是我们为语音 NPC 面板,使用GPT-image-2 模型生成的素材,准备的一组角色视觉素材。项目里每个核心角色都可以拥有自己的头像、视频开场和待机状态,让“和 NPC 说话”更像在游戏里见到一个具体的人。 ## 1. 最初的设计目标 一开始,我们并不是想做一个普通的“3D 展示页”。我们的目标更像一个小型数字文旅实验: 1. 它要像游戏一样能玩。 玩家可以进入场景,用 WASD 操控角色,而不是只能转动相机看模型。 1. 它要像博物馆一样能逛。 场景里有宫殿、朱雀大街、珍宝馆、诗画展厅、AI 展馆。 1. 它要像真实导览一样能说话。 玩家不是点几个固定按钮,而是能按住麦克风和 NPC 语音交流。 1. 它要有盛唐气质。 色彩、建筑、人物、诗词、小游戏都围绕“长安”“诗酒”“万邦来朝”展开。 1. 它要能开源。 最终要能部署到 GitHub Pages,让别人直接体验,也能阅读代码学习。 用一句话概括: > 我们想把“盛唐长安”做成一个可漫游、可对话、可游戏、可展示 AI 能力的浏览器 3D 世界。 ## 2. 第一阶段:先搭出一个能看的长安沙盘 任何复杂互动项目,第一步都不是做功能,而是先让“世界存在”。 我们先用 Web 3D 技术搭建了一个低多边形风格的长安微缩沙盘。核心技术是 Three.js:它可以在浏览器中渲染 3D 场景,不需要用户安装客户端。 这一阶段的重点是: - 建立主场景、相机、灯光、后期效果; - 搭建朱雀大街、宫殿、城门、市集、塔楼、河道等地标; - 用低多边形材质保持性能,让普通浏览器也能跑; - 加入昼夜、季节、天气、雾效等氛围变化; - 做出俯瞰视角,让它第一眼像一张“会动的唐代城市地图”。 这一阶段看起来像“美术搭建”,但其实它决定了后续所有玩法的边界:哪里能走、哪里能互动、哪些地标能承载剧情。 ## 3. 第二阶段:把展示页变成可玩的游戏 只有沙盘还不够。我们希望玩家不是“看长安”,而是“走进长安”。 于是项目进入第二阶段:加入 WASD 游戏模式。 玩家点击「走进长安」后,会进入角色选择: - 世子 - 商贾 - 侍女 - 游侠 每个角色有自己的头像、默认名字、初始钱包和物品。进入游戏后,玩家可以: - 用 WASD 移动; - 用鼠标调整视角; - 靠近 NPC 按 E 对话; - 靠近店铺或展馆按 F 触发互动; - 查看钱包、体力、行囊、任务提示。 这一阶段真正完成了从“3D 页面”到“小游戏”的转变。 ## 4. 第三阶段:让 NPC 不只是摆设 很多 3D 场景的问题是:建筑很漂亮,但里面没有生活。 所以我们给城市加了大量 NPC 和小游戏,让它变得有烟火气。 4.1 NPC 互动 玩家靠近路人、文士、商贾、仕女、官员、僧人等 NPC,可以触发对话。不同 NPC 会有不同身份和口吻。 4.2 诗词小游戏 我们设计了偏唐风的互动玩法: - 飞花令:给出一个关键字,玩家从诗句中选择含有该字的一句; - 对对联:给出上联,从多个候选句里选下联; - 猜谜:用民俗谜语和长安史实做选择题; - 猜拳:快速轻量的小互动,配合随机奖励。 小游戏不是单纯为了“好玩”,而是让诗词和历史知识变成可参与的体验。 ## 5. 第四阶段:做珍宝馆与诗画展厅 为了让项目更像数字文旅产品,我们加入了展厅系统。 玩家可以进入不同展馆,欣赏诗画、珍宝和历史主题内容。例如: - 《步辇图》 - 《历代帝王图》 - 《簪花仕女图》 - 诗词与书画主题展 - 丹青馆 DIY 展厅 展厅的作用是把“游戏”与“文化内容”连接起来:玩家既可以玩,也可以看展、听讲解、理解背后的历史语境。 ## 6. 第五阶段:加入 AI 展馆 项目最特别的一部分,是我们把现代 AI 品牌做成了唐风展馆。 我们设计了一个“天枢府 / AI 展馆”概念:在盛唐长安里出现一个古今穿越的科技坊市。不同 AI 品牌不再只是 logo,而是变成一座座唐风殿宇,每个展馆都有自己的讲席和风格。 其中 Agora 馆作为核心语音互动展馆,承担了实时语音能力展示。 > 在游戏场景中,Agora 不只是一个外部服务名,而是被设计成一座可进入、可互动、可召唤智机使讲解的“Agora 馆”。这能帮助非技术用户理解:语音 AI 不只是后台 API,它可以成为一个场景化体验。 在视觉上,我们做了: - 唐风殿宇; - 品牌 logo 立柱; - 发光牌匾; - 展馆说明牌; - 可交互门口热点; - 现代科技与古代街景混合的小彩蛋。 在叙事上,我们把它包装成: > 大唐长安出现了一座“智机府”,各路 AI 智机使在这里讲解不同的智能能力。 这样做的好处是:AI 展示不再像一个冷冰冰的产品页面,而是变成了玩家在游戏世界里能探索的一部分。 ## 7. 第六阶段:接入实时语音 Agent 这是整个项目最核心、也最难调的一部分。 我们的目标不是让 NPC 弹出文字框,而是让玩家真的能用语音和角色交流。 7.0 开发前置:安装 Agora Skills / Agora CLI 在这个项目里,Agora 语音能力并不是直接把 App ID 写死在网页里,而是通过 Agora Skills + Agora CLI 完成项目登录、能力检查、环境变量写入和 ConvoAI 就绪检查。 你可以把它理解成: > Agora Skills 负责告诉 Agent 怎么集成 Agora;Agora CLI 负责登录账号、绑定项目、写入 .env.local。 更具体地说,这里有两层: 层级作用谁来使用Agora Skills给 AI Coding Agent 的集成说明书,告诉 Agent 应该用官方 quickstart、怎么检查 ConvoAI、怎么处理 token 和环境变量Cursor / Claude / AgentAgora CLI真正执行登录、项目选择、能力检查、环境变量写入的命令行工具开发者和 Agent 都会用。 所以,“安装 Agora Skills”在实际复现时,通常会落到两件事: 1. 确保你的 AI 开发环境已经有 Agora Skill / Agora 参考资料; 1. 在本机安装并登录 agora CLI,让项目可以拿到有效的 Agora 项目配置。 第一步:确认是否已有 Agora Skill / Agora CLI 如果本机还没有 agora 命令,可以安装: 安装完成后,重新打开终端,确认命令存在: 如果能输出路径和版本号,说明 CLI 已经进入你的 PATH。 安装后检查: 如果终端能看到 Agora CLI install is healthy,说明 CLI 本身可用。 > 如果 agora 命令不存在,通常是 shell 没有加载新的 PATH。可以重开终端,或检查安装脚本输出里提示的 PATH 配置。 第二步:登录 Agora 账号 agora login 命令会打开浏览器完成授权。正常流程一般是: 1. 终端打印一个 https://sso2.agora.io/... 登录链接; 1. 浏览器打开 Agora SSO 页面; 1. 登录并授权 Agora CLI; 1. 浏览器回调本机 localhost; 1. 终端显示 Session stored 和 Status: authenticated。 登录后检查状态: 你希望看到类似: 如果这里显示未登录,重新执行 agora login。 如果登录成功但后面 agora project list 返回: ACCOUNT_BLOCKED 说明不是代码问题,而是 Agora 账号或控制台权限被限制。此时需要换一个可用账号,或先解除账号限制。 第三步:选择或创建 Agora 项目 登录后先列出项目: agora project list 如果你已经有项目,可以选择它: agora project use <project-id-or-name> 如果还没有项目,可以通过 Agora Console 创建,或用 CLI 初始化 quickstart 项目: 这个命令会做三件事: - 创建或绑定一个 Agora 项目; - 克隆官方 quickstart; - 写入本地 .env.local。 本项目是从 official quickstart 的思路继续改造的:先确保官方 demo 能跑,再把它嵌入到《大唐长安》的 3D 场景中。 第四步:检查项目是否支持 ConvoAI 实时语音 Agent 依赖 Agora 的 Conversational AI 能力。可以运行: 如果提示没有启用,可以尝试: 然后再次运行 doctor 确认。 你希望看到的结果是 project doctor 没有 blocking issue。它不等于“语音一定已经通了”,但至少说明控制台项目配置层面准备好了。 第五步:把 Agora 项目凭据写入语音后端 本项目的语音后端读取: 其中最关键的是: 可以让 Agora CLI 自动写入: > 注意:AGORA_APP_CERTIFICATE 是敏感信息,不要提交到 GitHub。项目的 .gitignore 已经忽略 .env.local。 写入后可以检查文件是否存在,但不要把证书贴到公开地方: 如果只是自查证书是否存在,可以看键名,不要打印完整值: 第六步:启动语音服务 后端: 前端 iframe: 主游戏默认会把语音面板指向: http://localhost:3000 如果线上部署语音服务,可以通过 URL 参数指定: ?voiceOrigin=https://你的语音前端域名 第七步:验证语音链路 先验证后端能返回 Agora 配置: 再验证能启动一个 agent: 如果返回 agent_id,说明后端成功请求 Agora 创建了一个语音 Agent。 最后打开游戏,进入 Agora 馆,点击右侧语音面板,观察三件事: - 面板不再一直停在“召唤中”; - 麦克风能采集声音; - AI 有返回语音和字幕。 > 语音功能最终不是孤立存在的,它会和玩家身份、NPC、展馆、字幕、头像面板一起工作。玩家看见的是“角色在长安城里与智机使对话”,背后才是 RTC、ConvoAI 和 Agent 编排。 常见错误与排查 如果看到: 通常不是前端按钮坏了,而是 Agora 项目或凭据不可用。优先检查: - agora auth status 是否已登录; - agora project list 是否能正常列出项目; - 当前账号是否被限制或 blocked; - agora project doctor --feature convoai 是否通过; - .env.local 里的 App ID / Certificate 是否来自同一个项目; - 修改 .env.local 后是否重启了后端。 可以按这个顺序排查: 如果 CLI 登录正常,但 project list 返回 ACCOUNT_BLOCKED,说明账号侧被限制,代码无法绕过。需要换可用账号或解除 Agora 控制台限制。 7.1 基本架构 项目被拆成两部分: - han-diorama 浏览器 3D 主场景 负责 Three.js、WASD、NPC、展馆、小游戏 - tang-voice-agent - 语音智能体子项目 - 前端是 Next.js iframe - 后端是 FastAPI / Python - 负责 Agora ConvoAI、Persona、语音对话 主场景里点击 NPC 后,会打开右侧语音面板。这个面板本质上是一个嵌入的 iframe,它和主游戏通过 postMessage 通信。 7.2 一次语音对话发生了什么 当玩家按住麦克风说话时,大致流程是: 玩家麦克风 ↓ 浏览器 RTC 上行 ↓ Agora 实时音频链路 ↓ ConvoAI:语音识别 → 大模型思考 → TTS 合成 ↓ AI 声音通过 RTC 回到浏览器 ↓ 游戏里 NPC 头像、字幕、状态同步变化 普通用户看到的是“我和李白说话了”。技术上背后是实时音频、语音识别、大模型、语音合成和游戏状态同步一起工作。 7.3 为什么要做 Persona 如果所有 NPC 都用同一个提示词,它们就会像同一个机器人。 所以我们给不同角色做了不同 Persona: - 李白:诗酒豪放; - 杜甫:沉郁关怀; - 王维:山水空灵; - 周引之:导游身份,可以带路; - 苏阮卿:画学博士,负责讲画; - 智机使 · Agora 馆:讲解实时语音与 ConvoAI。 每个 persona 有自己的: - 名字; - 身份; - 场景位置; - 说话风格; - TTS 音色; - 可注入的场景上下文。 这让语音功能不只是“能说话”,而是和游戏世界绑定在一起。 ## 8. 第七阶段:做角色头像、视频面板与 BGM 为了让语音互动更有“面对面”的感觉,我们做了左侧角色 portrait 面板。 它支持: - idle.jpg / idle.png 静态头像; - idle.mp4 静音循环视频; - intro.mp4 带原声开场视频; - AI 说话时切换 talking 状态; - 没有素材时自动 fallback。 后来又加入了古风 BGM: - 默认循环播放古琴 / 古筝曲; - 支持静音、音量、切歌; - 当玩家打开语音对话时,BGM 自动降低音量,避免盖住人声。 这一步看似是“包装”,但对用户体感影响很大。没有声音和头像时,AI 对话像工具;有了角色视频、字幕和背景音乐后,它更像游戏里的角色。 ## 9. 第八阶段:解决视觉与尺度问题 开发中遇到过一个典型问题:AI 展馆一开始太大,放到城市里会出现“浮在地面上”“镜头一转消失”的情况。 问题根源是单位尺度不一致: - 主城使用的是游戏世界单位; - AI 展馆早期按更大的现实尺度设计; - 结果展馆实际超出了主城地面范围。 解决方式是: - 把天枢府缩放到适合主城的面积; - 重新设置展馆中心点; - 调整 3×3 展馆布局; - 缩小 logo 立柱、牌坊、院墙和展馆模型; - 确认所有互动点都落在可见地面内。 这个经验很重要:3D 项目里,美术好看不够,尺度一致才是可玩的前提。 ## 10. 第九阶段:部署到 GitHub 项目完成后,我们把前端开源部署到了 GitHub。 前端 han-diorama 是静态 Web 项目,适合用 GitHub Pages 托管。 部署流程: 然后使用 GitHub Actions 自动发布 Pages。 线上地址: https://andyhuo520.github.io/tang-changan/ 需要注意的是: - GitHub Pages 只能托管静态前端; - 实时语音后端 tang-voice-agent 需要单独部署; - 本地开发时可以用 http://localhost:3000 作为语音 iframe; - 线上如果要启用语音,需要给游戏传入可访问的语音前端地址。 ## 11. 普通用户怎么体验 打开: https://andyhuo520.github.io/tang-changan/ 进入页面后可以: 1. 在沙盘视角浏览盛唐长安; 1. 点击「走进长安」; 1. 选择角色:世子 / 商贾 / 侍女 / 游侠; 1. 用 WASD 移动角色; 1. 靠近 NPC 按 E 对话; 1. 靠近展馆或店铺按 F 互动; 1. 进入珍宝馆看诗画; 1. 进入 AI 展馆体验语音智能体。 常用按键: 按键作用WASD移动鼠标调整视角E与 NPC 对话 / 触发小游戏F进入展馆 / 开店 / 触发场景Esc关闭语音面板 ## 12. 开发者如何理解项目结构 项目可以分成几层: han-diorama/ index.html 页面结构与 UI 容器 scene.js 主 3D 场景、游戏模式、NPC、语音面板 modelLoader.js 角色模型加载 assets/ logo、头像、BGM、预览图 portraits/ NPC 视频 / 头像素材 murals/ 画廊素材 lib/ content/brand-data.js AI 展馆品牌数据 world/brand-plaza.js AI 展馆 / 天枢府 world/gallery-hall.js 珍宝馆 / 展厅 world/diy-hall.js 丹青馆 DIY ui/voice-intent.js 语音意图路由 hero/ 大明宫、东西市、曲江等地标模块 tang-voice-agent/ web/ Next.js 语音前端 iframe server/ FastAPI 后端 server/src/personas/ 角色 Persona 最核心的思想是: > 3D 主项目负责“玩家在哪里、看见什么、能做什么”;语音子项目负责“玩家说什么、AI 怎么回答、声音怎么回来”。 ## 13. 这次开发踩过的坑 13.1 浏览器缓存 浏览器会缓存 JS 和图片。我们在模块路径后面加版本参数: scene.js?v=20260529-agora-only 这样每次重要更新后,线上用户能加载到新代码。 13.2 视频自动播放限制 浏览器通常不允许带声音的视频自动播放。解决方式: - 先尝试播放 intro.mp4; - 如果被浏览器拦截,就退回静音播放; - 在用户点击页面后再解锁音频。 13.3 语音项目账号状态 实时语音不只是代码问题,还依赖 Agora 账号、项目状态、ConvoAI 开通状态和 token 鉴权。 如果出现: CAN_NOT_GET_GATEWAY_SERVER: no active status 401 Invalid token 通常说明: - Agora 账号或项目被阻断; - App ID / Certificate 不匹配; - 项目没有开通对应能力; - 本地 .env.local 还是旧凭据。 这是开发 AI 语音项目时最容易误判的地方:页面看起来是“麦克风开了”,但其实浏览器和 Agent 都没有真正加入频道。 13.4 3D 尺度 展馆、城市、NPC、地面如果不在同一尺度体系里,就会出现漂浮、穿模、消失、点不到的问题。 解决办法不是不断调相机,而是回到世界坐标,统一单位、位置和可交互范围。 ## 14. 如果你想复刻一个类似项目 可以按这个顺序做: 1. 确定主题 先选一个世界观,例如唐代长安、宋代汴梁、敦煌石窟、未来博物馆。 1. 搭建一个能看的 3D 场景 不要一开始就做大地图。先做一个核心区域,保证 30 秒内能看懂。 1. 加入一个可控角色 WASD + 简单碰撞 + 一个 NPC,就足够验证“游戏感”。 1. 设计 3 个互动点 一个 NPC、一个展馆、一个小游戏。不要一开始做 20 个。 1. 接入语音 Agent 先用一个默认 persona 跑通,再扩展多个角色。 1. 把内容模块化 品牌数据、NPC 数据、展馆数据都写成配置,不要散落在代码里。 1. 部署上线 前端用 GitHub Pages / Vercel,后端用可公网访问的服务器。 1. 最后再做包装 BGM、头像、视频、封面图、教程、X 推文、GitHub README 都属于传播层。 ## 15. 我们最终做成了什么 最终,这个项目不只是一个 3D 页面,也不只是一个语音 demo。 它更像一个小型样板: - 文旅内容如何游戏化; - 历史知识如何互动化; - AI 能力如何场景化; - 语音 Agent 如何融入 3D 世界; - 开源项目如何从 demo 变成可分享作品。 如果要用一句话总结整个开发过程: > 我们不是把 AI 放到一个按钮里,而是把 AI 放进了一座城。 这就是《大唐长安 · 智机府》的核心。
译本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。
Nice shot from @CharaspowerAI ! He gets it. Great read from someone who clearly understands what real VFX control should feel like. That level of control is the shift with PixVerse C1!
译PixVerse C1在文本生成视觉特效(text-to-VFX)方面展示了强大的能力,提供了前所未有的控制力和电影级画质。用户通过一个复杂的提示词(涉及火山喷发、风暴、镜头运动和爆炸效果)生成了专业级VFX片段,其镜头动态、粒子效果和光照被视为真实的专业VFX制作水平。该模型被认为在控制力和质量上达到了一个全新的层次。
为她做一个游戏 可能是最好的儿童节礼物
译一位开发者使用AI工作流平台ColaOS,在两周时间内为女儿制作了一款哈利波特主题的专属游戏。整个流程涵盖了故事生成、剧本创作、分镜设计、人物与场景图像生成、转场视频、音效及鼠标特效等完整环节。游戏设计了5种结局,包含收集物品解锁成就及开启下一故事彩蛋的机制。
AI chatbots can answer fresh news well, but their weakest failures hide inside their confidence. Best systems are surprisingly good at recent news when the question is clean and multiple choice. But it also shows that this success is fragile, because the same systems get worse when they must answer freely, when the news is in Hindi, or when the user’s question contains a false assumption. The best systems crossed 90% accuracy on multiple-choice questions about events reported only hours earlier, which means retrieval-augmented AI has moved from stale encyclopedia mode toward live information work. That accuracy is not the same thing as reliability, because the systems were far worse when answers had to be produced freely these models usually do not fail because they cannot “think,” but because they land on the wrong evidence. More than 70% of errors came from retrieval failures or source divergence, where the system found something nearby but not exact, then answered faithfully from the wrong article, wrong language, wrong scope, or wrong timestamp. ---- Paper Link – arxiv. org/abs/2605.22785 Paper Title: "Evaluating Commercial AI Chatbots as News Intermediaries"
译该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。
HuggingFace 发的 AI Agent 词汇表 作者 @SergioPaniego @ariG23498 https://huggingface.co/blog/agent-glossary 做了一个信息卡便于保存随时查阅。
译HuggingFace 发布的 AI Agent 词汇表 作者 @SergioPaniego @ariG23498 https://huggingface.co/blog/agent-glossary 制作了一张信息卡,方便保存随时查阅。
我经常用 /goal ,主要用法: 1. 写一个 Checklist,让它一条条勾选 比如我逆向代码,会先用脚本做语法解析把完整的list整理成个json文件,让它分批去处理,每次处理完一批就更新json文件 2. 写一个设计文档,分成几个阶段 跟AI一起写一份详细设计文档,设计好了后让 AI 划分好 Phases,设定好每个 Phase 的验收条件,一个 Phase 一个 Phase 的执行,每个 Turn 都让它自己 commit
译推文分享了使用/goal的两种核心方法:一是将逆向代码等复杂任务拆解为清单,例如先通过脚本解析生成JSON文件,再让AI分批处理并实时更新状态;二是与AI共同编写设计文档,划分成具体阶段,设定验收条件后逐步执行,每个阶段完成后自动提交。这两类场景强调将AI作为结构化任务执行助手,通过明确的检查点与流程控制提升工作效率。引用部分提及该功能正在被用户尝试,并征集最佳实践案例。
在回北京的飞机上听完了这期播客 很多人说yusen的播客几个月后就被现实啪啪打脸了 我的评价是听yusen聊ai是种享受,正确与否真的重要吗? 其实播客本身最大的价值就是听朋友闲聊
just a small zoom out on the vibe shift: in Feb 2025 @soumithchintala was talking about his dream of personal, local, private agents, most people didn't believe him. it's June 2026 and @pewdiepie has just released his vibecoded @opencode wrapper that is a complete personal AI productivity suite including email, docs, and calendar. top of HN, easily >1m views, >10k stars in a day. if your Knowledge Work Agents startup can't beat pewdiepie you might as well pack up and go home at this point, his is the benchmark for what you can DIY.
译2025年2月,soumithchintala关于个人、本地、私有AI智能体的愿景曾遭质疑。而至2026年6月,知名玩家PewDiePie已基于opencode封装发布了一款vibecoded的个人AI生产力套件,功能涵盖邮件、文档和日历。该产品在Hacker News上迅速获得超过1百万次浏览和超过10k星标。推文指出,这一成果为知识工作智能体初创公司设立了新的DIY基准。
lol just figured out you can re-enable the context window circle in codex. thank god
译刚发现可以在Codex里重新启用上下文窗口的进度圈了。谢天谢地。
A study reveals how huge paychecks from tech giants are pulling top AI researchers away from universities. The top 1% of AI scientists in industry now earn around $2 mn a year. Researchers who move to these private companies stop writing public papers and instead file 530% more patents to keep their work secret. This study tracked 42,000 AI researchers --- nber. org/system/files/working_papers/w34964/w34964.pdf
译一项研究揭示,科技巨头的巨额薪酬正将顶尖AI研究人员从高校吸引走。 工业界前1%的AI科学家现在年薪约200万美元。 转投这些私营公司的研究人员不再发表公开论文,而是提交多530%的专利以保密其工作。 这项研究追踪了42,000名AI研究人员。
兄弟们,讲真! 那些让你每个月付费的AI工具、Bloomberg终端、交易系统、视频工作室,其实是资本用来维持稳定收入的机制。 大家还在继续订阅OpenAI、HeyGen、Bloomberg吗? GitHub上已经有10个开源项目,完全可以替代这些付费产品。 它们免费、功能强大、支持自托管,并且让你完全掌握自己的数据和控制权。 1. AutoHedge:四个AI代理组成自主对冲基金,在Solana上实时交易,pip install即可运行 → https://github.com/The-Swarm-Corporation/AutoHedge 2. Vibe-Trading:64个金融技能加29个专家代理群,使用DAG模型实时讨论策略,包含清算热图和代币解锁追踪 → https://github.com/HKUDS/Vibe-Trading 3. Fincept Terminal:笔记本上运行的Bloomberg替代品,提供CFA级别分析以及巴菲特、达里奥、索罗斯等20多位投资大佬的AI代理,连接100多个数据源 → https://github.com/Fincept-Corporation/FinceptTerminal 4. LibreChat:自托管版ChatGPT+Claude+Gemini+DeepSeek等20多个模型,你的数据和历史全部保留在本地 → https://github.com/danny-avila/LibreChat 5. Open Higgsfield AI:自托管电影工作室,把Flux、Midjourney、Sora、Kling、Veo、GPT-4o全部集成进去,支持文本生图、图生视频,本地运行 → https://github.com/Anil-matcha/Open-Higgsfield-AI 6. Open-LLM-VTuber:开源AI虚拟主播,直接本地部署 → https://github.com/Open-LLM-VTuber/Open-LLM-VTuber 7. Claude Ads:Claude一键生成广告素材工具 → https://github.com/AgriciDaniel/claude-ads 8. Agentic Inbox:AI直接帮你管理邮箱,自动处理邮件 → https://github.com/cloudflare/agentic-inbox 9. Camofox Browser:无头浏览器,让AI代理完全隐身操作 → https://github.com/jo-inc/camofox-browser 10. Hyperframes:AI直接写HTML生成专业视频 → https://github.com/heygen-com/hyperframes 我们一直以为AI变革来自估值百亿的大公司。 然而GitHub上的这些开源项目正在把机构级工具直接交给普通人。
译该推文指出,许多付费的AI工具和专业软件(如Bloomberg)是资本维持收入的机制。GitHub上已有10个开源项目可替代它们,提供免费、功能强大且支持自托管的选项。示例包括:AutoHedge(自主交易代理)、Vibe-Trading(金融技能与代理系统)、Fincept Terminal(Bloomberg替代品)、LibreChat(多模型聊天)以及Open Higgsfield AI(电影工作室)等。这些项目让用户能完全掌控自己的数据和控制权,将原本昂贵的订阅服务免费提供给普通人。
兄弟们,这数据太离谱了! 智谱直接遥遥领先DeepSeek! 我们国内前5家纯LLM公司总估值已经高达2260亿美元,大概是Anthropic最新一轮估值的四分之一。 但它们的收入运行率,只有Anthropic的1/40。 国内开放权重模型一边拿大量VC资金,一边在真实产生收入。 这和海外主流的闭源高定价模式,走的是完全不同的路。 这个估值和收入之间的巨大差距,把AI行业当前最核心的矛盾摆在了桌面上:市场到底在为AI的什么部分支付溢价? 当模型能力被快速商品化、价格被大幅拉低之后,估值逻辑要怎么变? 是继续只盯短期收入,还是要认真评估它对整个行业价格体系的破坏力? 你们怎么看? 国内这种低价+开放权重的打法,只是短期现象,还是会成为未来全球AI竞争的主流模式?
译国内五家纯LLM公司的总估值已高达2260亿美元,约Anthropic最新一轮估值的四分之一,但其收入运行率仅为Anthropic的四十分之一。这一数据凸显了国内厂商普遍采用的“低价+开放权重”融资与商业模式,与海外主流的闭源高定价模式形成鲜明对比。该现象将AI行业的核心矛盾——市场究竟为何为模型支付溢价以及估值逻辑在模型能力商品化后如何演变——直接摆上台面。
Students finish AI-friendly math problems faster, but they seem to learn less from them. The researchers studied 3.2 million ALEKS math learning records across 10 years to see what changed after ChatGPT became available. Finishing faster is not automatically learning more efficiently, because math practice builds knowledge through the friction of choosing a representation, testing a step, making an error, and correcting it. When a chatbot supplies the path, the student may still submit the answer, but the mind has skipped the work that turns exposure into memory. They compare word problems, which students can easily paste into an AI chatbot, with graph problems, which are harder to hand off because they require visual work inside the platform. After ChatGPT, high school and college students spent much less time on the AI-friendly word problems, while younger students showed smaller or no change. This time drop disappeared when tests were proctored, which suggests the faster work was not just students getting better or the platform changing. The learning cost showed up later: on proctored retention questions, students became about 25% less likely to answer AI-friendly items correctly, even though they looked better on non-proctored items where AI could still help. ---- Paper Link – arxiv. org/abs/2605.21629 Paper Title: "Faster Completion, Less Learning: Generative AI Reduced Study Time on Math Problems and the Knowledge They Build"
译研究分析了跨越10年的320万条ALEKS数学学习记录,发现自ChatGPT可用后,学生完成“AI友好”数学题(如单词题)的速度显著变快,但这并非意味着学得更好。研究指出,数学练习通过选择方法、试错和修正的过程构建知识,而当AI直接提供路径时,学生可能跳过了这个关键心智过程。关键证据是,在有监考的测试中,学生答对这类AI友好题目的可能性下降了约25%,表明更快的完成速度是以牺牲知识保留为代价的。论文链接:arxiv.org/abs/2605.21629。
Sam Altman talks about how in 2014, the so-called "elderly" in the field thought the idea of OpenAI is baseless. "In 2014, we started saying, "You know, we should really do something about this." It was incredibly unpopular at the time. We had said we want to make an AGI lab, and all the elders of the field were like, "You're insane. You're a scammer." This is because, at the time, people thought AGI was 100 years away and none of these approaches were going to work. We really said, "Let's just push on this one idea that scaling deep learning seems to matter." We didn't know at the time how beautifully predictable the scaling laws were, but it was at least clear back in those days that if you threw more compute at something, you got better results most of the time. We kind of just decided we were going to push on it as far as we could." --- From 'TreeHacks" YT channel (link in comment)
译Sam Altman回顾2014年OpenAI成立之初,业界普遍认为AGI遥不可及,团队因此被指为“疯子”和“骗子”。其核心押注在于持续扩展深度学习的规模,尽管当时团队并未完全理解扩展定律的精确预测性,但已观察到投入更多计算通常能提升效果,并决心坚持这一路径探索。
Wow, these are simply incredibly cool goodies that @Microsoft set up right here in the hotel room. I'm blown away. Plus a hand written letter. 1) what. Holy ❤️
译哇,这些是微软在酒店房间里准备的超酷礼物。我惊呆了。还有一封手写信。1) 什么。天啊 ❤️
A thoughtful take on Step 3.7 Flash and the new frontier of agent efficiency, from @FrankYouChill 👇
译关于 Step 3.7 Flash 与智能体效率新前沿的深度思考,来自 @FrankYouChill 👇 [引用 @FrankYouChill]:http://x.com/i/article/2060950736851316737
My review of Claude Opus 4.8: We should worry less about being turned into paper clips & more about being annoyed to death.
译我对 Claude Opus 4.8 的评测: 我们应该少担心被变成回形针,多担心被烦死。
For orbital datacenters, space has lots of energy, but cooling is hard there. Without convection, heat must radiate away, which needs large surfaces. But it is solvable because "there's a lot of space in space" ~ Nvidia CEO Jensen Huang
译对于轨道数据中心,太空有大量能源,但散热很难。没有对流,热量只能辐射出去,这需要很大的表面积。但这是可以解决的,因为“太空里有很多空间” ~ Nvidia CEO Jensen Huang
Starbase, Texas is probably the only place in the world where you can drive down a public highway and watch giant rockets being built right before your eyes.
译德克萨斯州的星基地,可能是世界上唯一一个你能沿着公共高速公路开车,亲眼目睹巨型火箭建造的地方。
Been teaching codex to be my QA assistant. For every commit it creates a user-test scenario and uses webVNC (crabbox), computer/browser use (peekaboo/mcporter) to test OpenClaw like a user/QA person would. This runs in the background and opens PRs with fixes.
译一直在训练Codex成为我的QA助手。对于每次提交,它都会创建一个用户测试场景,并使用webVNC(crabbox)、computer/browser use(peekaboo/mcporter)来像用户/QA人员一样测试OpenClaw。 这会在后台运行,并自动提交带有修复的PR。
every evals/analytics startup is going through a onetime generational upgrade into a continual learning platform in 2026 many will fail but as always the tasteful ones win
译每家评估/分析初创公司都将在2026年经历一次性的代际升级,转型为持续学习平台。许多公司会失败,但一如既往,有品味的公司会胜出。
GitHub Student Developer Pack为在校学生提供一次申请即可免费使用100+开发工具的机会,总价值超过$1000,其中包含价值$100/年的GitHub Copilot、$250/年的JetBrains全家桶及$100 Azure云额度等。同时,任何公开开源项目的维护者可申请免费获得6个月的ChatGPT Pro(价值$1200),门槛较低,只需有项目链接即可申请。
免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http...
🧵 1/8 前几天给大家分享的我用AI邮箱来搞钱的帖子(见前贴),有很多朋友私信我问,你使用的那个像素风的小龙虾是什么? 怎么那么可爱有趣,我今天给大家介绍一下! 熟悉我的朋友知道,我是一个像素爱好者,看看我头像哈哈! 我一直自己想做个属...
英伟达在GTC Taipei 2026发布消费级芯片RTX Spark。该芯片基于GB10,提供最高1 PFLOP的FP4 AI性能、20个CPU核心、6144个GPU核心及128GB LPDDR5X统一内存,支持在本地运行120B参数的大模型。其核心突破在于首次将统一内存架构与CUDA生态结合于消费级PC,解决了以往统一内存在AI开发生态上的短板。微软将重构Windows以原生支持本地AI智能体运行。这被称为个人电脑诞生40年来“重新定义”的时刻。
关联讨论 1 条Bloomberg:Technology(RSS)Blown away by MiniMax M3 I've been using it for free inside @orca_build with the @opencode agent Mostly UI tasks & code ...
http://x.com/i/article/2061116526581977088
黄仁勋在NVIDIA GTC台北2026上表示,我们正处在构建软件的最伟大时代。他断言,AI智能体不会消灭软件,反而会创造巨大的新软件需求浪潮。核心在于,未来计算机的交互将从“点击和输入”转变为向AI解释意图,由AI生成代码或使用工具完成输出,这就是智能体AI。随着智能体数量激增,它们对工具的使用将前所未有。这对软件公司是非凡机遇,但关键突破在于,软件必须以智能体能使用的方式呈现。
作者解决了其Codex推理速度异常缓慢且频繁断联的问题。在同一网络环境下,其他设备运行正常,这排除了网络原因。最终发现根源是配置文件中错误地写死了两个参数,并强制加载了两个MCP,导致了性能问题。建议遇到类似情况的用户,可尝试利用Codex自身能力来检查其配置文件。
推文指出,当人们还在关注使用 Opus 4.8 制作小游戏的案例时,Codex 中的 GPT-5.5 模型早就能很好地完成这类开发任务。作者强调,即使是零基础的用户,也可以通过 Codex(或其“0-1”版本)完成一款体验不错的游戏开发,并对此进行了强烈推荐。此观点建立在与日本人使用 Opus 4.8 开发游戏这一被广泛传播的案例的对比之上。
http://x.com/i/article/2061202487412215808
该推文介绍了一种新型“持久化、多人协作的世界模型”,明确强调其并非传统的视频生成模型。其核心突破在于将“世界状态”与“视觉渲染”彻底解耦。这使得世界不再是一系列连续画面,而是一个可持续运行、允许用户修改、并可从任意视角进行稳定观测的结构化环境。作者认为,这可能是目前最接近实现“可交互持久世界”的技术尝试。
人魚の耀が海の中を案内してくれる動画🐬 🪼1個目の動画がPixVerse V6 スピード感とか色使いとか、夢の世界感ある😆 🪼2個目の動画がSeedance2.0 フォトリアルな写真も使えるようになったらしい。耀の顔が崩れずに動画に...
Cursor推出学生福利,在校大学生凭.edu邮箱通过验证可免费使用Cursor Pro一年,价值$240。套餐包含Claude、GPT、Gemini全部模型及Agent多文件编辑功能,每月附赠$20模型额度,无需信用卡,有效期至2026年6月。同时,OpenAI为开源项目维护者开放ChatGPT Pro申请,任何公开开源项目(无星数要求)的维护者均可申请,获批后可免费使用6个月,价值$1200。
免费领6个月ChatGPT Pro, 价值$ 1200🤩 这可能是今年对开发者最实在的福利了, 没有硬性Star数要求, 有项目链接基本都能过, 只要你是任何一个公开开源项目的维护者,哪怕只有你一个人在维护, 都可以去申请试试: http...
演讲被评为黄仁勋最差之一,AI数据中心方面未发布新内容。仅宣布Windows on NVIDIA ARM CPU,但该转型被认为难以成功。NVIDIA笔记本芯片已比原计划延迟6-8个月,开发中因高速连接干扰导致视频输出完全故障。据报道,笔记本厂商被告知禁止开机或运行基准测试,暗示硬件不成熟。
开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。
http://x.com/i/article/2060375125825036288
Claude Design 现与 Claude AI 网站、Claude Code 共享额度,用起来更便捷。其产品设计和UI设计能力不错。一个提升设计一致性的技巧是先导入成熟的Design System再进行设计,例如推荐Adobe的Spectrum 2 design system。此外,GitHub上有更多设计系统资源可参考。
Claude Design 现在和 Claude AI 网站以及 Claude Code 共享额度了,之前是独立的额度,一不小心就没了。 这个产品推荐多用用,产品设计能力和 UI 设计能力挺不错的。 一个经验就是你先让它帮你定义一套设计系统...
本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。
It's actually crazy how few people are talking about how powerful Pixverse C1 is for text-to-VFX.We're on a completely d...
女儿想要哈利波特的魔法世界,我用 ColaOS 在两周内给她造了一个专属游戏 从故事→剧本→分镜→人物/场景剧照→转场视频→音效→鼠标特效,一共设计了 5 种结局。收集物品解锁成就,最终打开下一个故事的彩蛋。 但看到她认真玩进去的那一刻--...
该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现,当以多选题形式提问时,最佳系统对数小时前新闻的准确率已超过90%,这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而,这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语,或用户提问包含错误预设时,其表现显著下降。超过70%的错误源于检索失败或来源偏差,即系统检索到了近似但不精确的信息,随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》(arxiv.org/abs/2605.22785)。
推文分享了使用/goal的两种核心方法:一是将逆向代码等复杂任务拆解为清单,例如先通过脚本解析生成JSON文件,再让AI分批处理并实时更新状态;二是与AI共同编写设计文档,划分成具体阶段,设定验收条件后逐步执行,每个阶段完成后自动提交。这两类场景强调将AI作为结构化任务执行助手,通过明确的检查点与流程控制提升工作效率。引用部分提及该功能正在被用户尝试,并征集最佳实践案例。
大家真的开始用 /goal 解决问题了吗 能否在评论区留下你用 /goal 的最佳实践?
This is a new episode with Yusen Dai, Managing Partner at ZhenFund, the second episode in Yusen's Entrepreneurship & Inv...
2025年2月,soumithchintala关于个人、本地、私有AI智能体的愿景曾遭质疑。而至2026年6月,知名玩家PewDiePie已基于opencode封装发布了一款vibecoded的个人AI生产力套件,功能涵盖邮件、文档和日历。该产品在Hacker News上迅速获得超过1百万次浏览和超过10k星标。推文指出,这一成果为知识工作智能体初创公司设立了新的DIY基准。
该推文指出,许多付费的AI工具和专业软件(如Bloomberg)是资本维持收入的机制。GitHub上已有10个开源项目可替代它们,提供免费、功能强大且支持自托管的选项。示例包括:AutoHedge(自主交易代理)、Vibe-Trading(金融技能与代理系统)、Fincept Terminal(Bloomberg替代品)、LibreChat(多模型聊天)以及Open Higgsfield AI(电影工作室)等。这些项目让用户能完全掌控自己的数据和控制权,将原本昂贵的订阅服务免费提供给普通人。
10 GitHub repos so good they shouldn't be free. 1. AutoHedge An autonomous hedge fund built in Python with four AI agent...
国内五家纯LLM公司的总估值已高达2260亿美元,约Anthropic最新一轮估值的四分之一,但其收入运行率仅为Anthropic的四十分之一。这一数据凸显了国内厂商普遍采用的“低价+开放权重”融资与商业模式,与海外主流的闭源高定价模式形成鲜明对比。该现象将AI行业的核心矛盾——市场究竟为何为模型支付溢价以及估值逻辑在模型能力商品化后如何演变——直接摆上台面。
The Chinese LLM companies are raising at eye popping numbers Total valuation of the top 5 pure plays is $226B - about 1/...
研究分析了跨越10年的320万条ALEKS数学学习记录,发现自ChatGPT可用后,学生完成“AI友好”数学题(如单词题)的速度显著变快,但这并非意味着学得更好。研究指出,数学练习通过选择方法、试错和修正的过程构建知识,而当AI直接提供路径时,学生可能跳过了这个关键心智过程。关键证据是,在有监考的测试中,学生答对这类AI友好题目的可能性下降了约25%,表明更快的完成速度是以牺牲知识保留为代价的。论文链接:arxiv.org/abs/2605.21629。
Sam Altman回顾2014年OpenAI成立之初,业界普遍认为AGI遥不可及,团队因此被指为“疯子”和“骗子”。其核心押注在于持续扩展深度学习的规模,尽管当时团队并未完全理解扩展定律的精确预测性,但已观察到投入更多计算通常能提升效果,并决心坚持这一路径探索。
Back in SF, next stop Microsoft Build! See you around!
http://x.com/i/article/2060950736851316737