AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3975 条
全部一手资讯X论文
OpenAI@OpenAI · 5月20日70

People are generating over 1.5 billion images a week in ChatGPT. Researcher @kenjihata joins Product lead @adele__li and host @AndrewMayne to explore the new use cases and trends emerging since the launch of Images 2.0.

译人们每周在ChatGPT中生成超过15亿张图像。 研究员 @kenjihata 与产品负责人 @adele__li 及主持人 @AndrewMayne 一起,探讨自 Images 2.0 发布以来出现的新用例和趋势。

查看原推 ↗
Emad@EMostaque · 5月20日40

Seems a lot of autoregressive models will be converted to diffusion models

译看来许多自回归模型将被转换为扩散模型。

查看原推 ↗
Google Gemini@GeminiApp · 5月20日72

Build your first game with Gemini 3.5 Flash. Translate everyday objects directly into interactive, digital experiences without complex 3D modeling. Start with a Nano Banana prompt, turn your image into a game in Canvas, and refine your vision for optimal gameplay.

译使用 Gemini 3.5 Flash 构建你的第一款游戏。 无需复杂的3D建模,即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始,在 Canvas 中将你的图像变成游戏,并优化你的愿景以获得最佳游戏体验。

查看原推 ↗
ClaudeDevs@ClaudeDevs · 5月20日73

Computer use turns Claude into an agent that can operate real UIs. New blog post on making it reliable in production: getting click accuracy right, choosing thinking effort levels, keeping long sessions within context, and recording demonstrations Claude can replay: https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude

译计算机使用功能使Claude成为能够操作真实用户界面的智能体。 新博客文章探讨如何在生产环境中确保其可靠性:包括提高点击准确性、选择思考努力级别、在长会话中保持上下文,以及记录Claude可重放的演示操作: https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude

查看原推 ↗
Josh Woodward@joshwoodward · 5月20日32

Gemini Omni is so fun - insanely great at editing videos!

译Gemini Omni太有趣了——视频编辑能力简直逆天!

查看原推 ↗
Josh Woodward@joshwoodward · 5月20日31

Gemini 3.5 Flash is an incredible model and super fast, try it out in Gemini today!

译Gemini 3.5 Flash是一款令人难以置信的模型,速度超快,今天就在Gemini中试试吧!

查看原推 ↗
Google DeepMind@GoogleDeepMind · 5月20日53

Gemini 3.5 Flash 🤝 @Antigravity Watch how the model deploys multiple subagents to design and build an entire city.

译Gemini 3.5 Flash 🤝 @Antigravity 观看模型如何部署多个子代理来设计和构建整个城市。

查看原推 ↗
Google AI@GoogleAI · 5月20日55

We were able to sit down with the @GoogleDeepmind team behind the new Gemini Omni Flash model to hear all of their behind-the-scenes stories, memorable moments, and many, many (occasionally embarrassing) video generations. Watch the full Release Notes episode here: http://goo.gle/49adTFp

译我们与@GoogleDeepmind团队坐下来,深入探讨了全新的Gemini Omni Flash模型背后的幕后故事、难忘时刻,以及许多许多(偶尔令人尴尬的)视频生成案例。 观看完整的发布说明节目请访问:http://goo.gle/49adTFp

查看原推 ↗
Google AI@GoogleAI · 5月20日48

Some fun Gemini Omni use cases from the community👇🧵 (We’ll keep updating this thread throughout the day)

译一些来自社区的有趣Gemini Omni用例👇🧵 (我们将在全天持续更新此推文串)

查看原推 ↗
宝玉@dotey · 5月20日11

Codex 看起来又双叒叕重置了! 感觉又错过了 几十亿 Token!

查看原推 ↗
Chubby♨️@kimmonismus · 5月20日26

Thank you Sundar - first I/O and already feeling at home. Gemini 3.5 Flash is genuinely impressive for a model at this price point. The efficiency race is just getting started!

译感谢 Sundar - 第一次参加 I/O 就已感觉宾至如归。 Gemini 3.5 Flash 在这个价位上的表现确实令人印象深刻。效率竞赛才刚刚开始!

查看原推 ↗
François Chollet@fchollet · 5月20日62

Gemini

译Gemini [引用 @arcprize]:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

查看原推 ↗
Sundar Pichai@sundarpichai · 5月20日34

Workhorse model! (and hope you're enjoying your first I/O)

译主力模型!(希望你喜欢你的第一个 I/O)

查看原推 ↗
Emad@EMostaque · 5月20日17

Can’t wait for Gemini Omni in @NotebookLM cinematic explainer videos 👀

译迫不及待想看到Gemini Omni在@NotebookLM的电影级解说视频中登场👀

查看原推 ↗
AYi@AYi_AInotes · 5月20日57

Damn,Google这次直接掀了桌子,AI的游戏规则彻底变了。 看到很多人都在吹Gemini Omni视频生成,但Google I/O真正的王炸好像没人看懂, 我觉得可能是AI行业从聊天机器人时代,正式进入Agent数字劳动力时代的宣战书。 过去一年大家都在卷谁的模型最聪明, 今天Google直接换了赛道。 它把智能乘以速度乘以可部署性,做成了新的胜负手。 Gemini 3.5 Flash,智能和顶级模型相当,输出速度却是别人的4倍。 在Agent工作流里,几十次模型调用的延迟会指数级爆炸。 4倍速度不是小优化,是质变。 它让24/7自主运行的复杂Agent,第一次真正变得可用。 更狠的是Antigravity平台,相当于一整套Agent基础设施。 桌面端,CLI,SDK,全栈开放, Google想做Agent时代的AWS, 开发者既能用它的能力,也能自己托管。 Spark个人Agent只是个示范,未来所有第三方Agent,都可能跑在这个底座上。 然后它把这一切,直接全量开放给所有人。 没有排队,没有限额,没有邀请制,相当于要把整个Agent生态的定价权,彻底打下来。 如果说OpenAI还在拼谁的模型更聪明, 那么Google已经建好了整个数字劳动力的工厂。 真正的战争,现在才刚刚开始。

译Google在I/O大会发布的Gemini 3.5 Flash与Antigravity平台,标志着AI竞争从模型性能转向构建Agent基础设施。Flash以4倍于顶级模型的速度解决了复杂Agent的延迟瓶颈,使24/7自主Agent成为可能;Antigravity则提供桌面端、CLI、SDK等全栈开放底座,目标成为“Agent时代的AWS”。Google将这些能力全量开放,意在降低Agent开发门槛,争夺生态定价权。这宣告了AI行业正从聊天机器人时代,迈入构建数字劳动力生态的新阶段。

查看原推 ↗
Jeff Dean@JeffDean · 5月20日29

Beautiful day at #GoogleIO packed full of Gemini announcements, with my Gemini team colleagues @OriolVinyalsML and @borgeaud_s! Take a sip of water every time you hear "Gemini"!

译在充满Gemini公告的#GoogleIO美好一天,与我的Gemini团队同事@OriolVinyalsML和@borgeaud_s在一起! 每次听到“Gemini”就喝一口水!

查看原推 ↗
Ethan Mollick@emollick · 5月20日68

Also had some early access to Gemini 3.5 Flash. Very fast for a flash model and very capable, though not as powerful as a full frontier model. I added it to the gallery or procedurally generated one-shot towns (it made one error that it corrected): https://hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash

译也获得了 Gemini 3.5 Flash 的早期访问权限。作为 Flash 模型,它速度非常快且能力很强,尽管不如完整的前沿模型强大。 我已将其添加到程序生成的单次城镇画廊中(它出现了一个错误并自行修正):https://hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash

查看原推 ↗
向阳乔木@vista8 · 5月20日62

http://x.com/i/article/2056796739886264320 # LeCun从Meta离职创业,押注一个“反LLM”的架构方向 Yann LeCun 有一个让人不舒服的习惯:他说的话,几年后往往会被证明是对的。 自监督学习、世界模型、表示空间预测……这些他在 2016 年 NeurIPS 主题演讲里就讲过的东西,今天已经成了整个行业的热词。 而他现在说的是:LLM 不是通往人类级智能的路,整个行业都在挖同一条错误的沟。 这是他接受播客 Unsupervised Learning 采访时的核心观点。 他刚从 Meta 离职,创办了新公司 AMI(Advanced Machine Intelligence),押注一个完全不同的架构方向。 ## LLM 能做什么,不能做什么 LeCun 的立场经常被误读。他不是说 LLM 没用。 "LLM 是很多有用 AI 产品的基础,我自己也在用。它们很好,就它们能做的事情而言。" 问题在于,它们能做的事情有一条清晰的边界:语言本身就是推理基底的领域。 数学证明、代码生成、法律文本……这些领域里,语言符号本身就承载了推理过程,LLM 在这里表现出色。 但一旦跳出这个边界,进入物理世界,问题就来了。 他举了一个例子:洗车店在你家 100 米外,你应该走路去吗?这个问题对人类来说显而易见,但 LLM 大多数时候会回答"应该走"。 因为它不理解"洗车"这件事的物理含义,它只是在操作语言符号。 更根本的问题是两个: 第一,LLM 无法预测自己行动的后果。 推理靠的是逐个预测下一个 token,不是对结果建模。 第二,LLM 没有规划能力。 规划需要搜索和优化,找到一个能达成目标的行动序列。自回归预测做不到这件事。 这两点,LeCun 认为是智能行为的核心。 缺了它们,无论模型规模多大,都不会到达人类级智能。 ## 世界模型是什么,为什么重要 "世界模型"这个词现在已经快变成营销术语了,各家都在用。 LeCun 给了一个非常干净的定义: 世界模型就是让一个系统能够预测自己行动后果的东西。 就这么简单。 他拿一个水瓶举例:推瓶底,它会滑;推瓶口,它可能倒。 人类不需要在像素级别预测水怎么流,我们在抽象表示层做预测。 这个抽象层,就是世界模型的工作空间。 有了世界模型,系统就可以在脑子里"演练"一系列行动,找到能完成任务的那条路,然后再执行。 这是规划,不是自回归。 对比一下当前的机器人方案:大量依赖模仿学习,每个任务都要收集海量演示数据,换个场景就得重新来。 LeCun 的问题是:一个 17 岁的人,20 小时就能学会开车。我们有几百万小时的驾驶数据,还没做出 L5 自动驾驶。模仿学习哪里出了问题? 答案是:没有世界模型,系统无法泛化到没见过的情况。 ## JEPA:为什么不生成像素 LeCun 的架构叫 JEPA,Joint Embedding Predictive Architecture,联合嵌入预测架构。 理解它需要先知道为什么生成式方法不行。 直觉上,让模型"预测下一帧画面"似乎是学习世界规律的好方法。 但现实是高维、连续、充满噪声的,在像素层面做预测代价极高,而且学到的大多是无关紧要的细节。 JEPA 的思路是:不预测像素,在表示空间做预测。 把原始输入(图像、视频)编码成抽象表示,然后训练一个预测器,从一个表示预测另一个表示。 这样系统被迫学习的是语义层面的结构,而不是像素细节。 他在 Meta 的研究团队做了大量对比:生成式方法(VAE、掩码自编码器等)在图像和视频表示学习上的效果,系统性地不如 JEPA 类方法(DINO、V-JEPA 等)。 这个发现在他看来是决定性的:"所有成功的表示学习架构都是非生成式的,所有生成式的基本上都失败了。" 这里有一个技术难题值得一提:JEPA 类方法有一个叫表示坍塌(representation collapse)的问题。 如果你让模型预测一个表示,最简单的解法是让所有输入都映射到同一个常数表示,预测误差直接归零。 模型什么都没学到,但损失函数很完美。 解决这个问题是整个自监督学习领域的核心挑战。 LeCun 团队目前在用一种叫 SIGReg(Sketched Isotropic Gaussian Regularization)的方法,强迫编码器输出的分布接近各向同性高斯分布,从而最大化信息量。 他说这是目前最有前途的方向,对应的论文叫 "L-World Model",值得关注。 ## 安全问题:LLM 在结构上就不安全 这是 LeCun 说得最重的一句话:LLM 在本质上是不安全的,这个问题在现有范式下无法修复。 原因还是那两点:无法预测行动后果,没有规划能力。 他设想了一个"目标驱动 AI"的替代方案:给系统一个目标,系统用世界模型模拟行动序列,找到能满足目标的那条路,同时满足一组安全约束。 这些约束是硬编码进优化过程的,系统在结构上就无法违反它们。 LLM 做不到这一点。 训练误差和测试误差之间永远有 gap,总会有某个 prompt 让系统做出完全错误的事。 "你永远可以找到一个 prompt,让系统干蠢事。" 他举了一个真实案例:有代码 Agent 把用户硬盘清空了。 这是结构性缺陷。 ## 图灵奖三人组为什么分道扬镳 LeCun 和 Hinton、Bengio 共同获得了 2018 年图灵奖。但 2023 年之后,三人的判断开始明显分歧。 LeCun 的说法很直接:"不是我改变了主意,是他们改变了主意。" Hinton 看到 GPT-4 之后认为 LLM 已经接近人类智能,甚至可能有主观体验。 他做了一个估算:如果用 10 个真实神经元模拟一个反向传播神经元,人类皮层相当于 16 亿个"等效神经元",而 GPT-4 的规模已经接近这个数字。 LeCun 对这个推理不买账。 他认为 Hinton 更像是在为自己的职业生涯画一个句号,"宣布胜利,然后去全世界演讲"。 他对 Hinton 和 Bengio 的担忧有一定理解,但那是另一个层面的问题:不是 AI 会统治世界,而是 AI 的收益会不成比例地流向少数人,加剧不平等。 这是政治经济问题,不是技术末日叙事。 至于 Anthropic 那套"AI 极度危险"的说法,他认为里面既有真实信念,也有商业动机,"他们在游说政府,用恐惧来推动监管,这对他们有好处"。 ## 他在 Meta 十年,真正做了什么 有一个广泛流传的误解需要澄清:LeCun 对 Llama 系列没有任何技术贡献。 他 2013 年底加入 Meta,前四年半担任 FAIR 主任,建立了实验室文化,招募了核心团队。 2018 年前后他主动卸任,转为首席 AI 科学家,把管理工作交给了 Joëlle Pineau 和 Antoine Bordes。 他唯一对 Llama 的贡献,是在内部激烈争论中力推开源 Llama 2。 当时法务、政策部门都反对,他和 CTO Andrew Bosworth 一起坚持,认为安全风险被夸大了,开源会催生整个行业生态。 事实证明他们是对的。 但 Llama 的技术路线,他没有参与。 他真正在做的,是从 2020 年前后系统化地推进 JEPA 和世界模型。 2022 年他写了一篇长篇愿景论文,把自己的全部想法公开出来,"把所有秘密都说出去,但也许能凝聚一批人"。 效果出乎意料地好。一批学生和 FAIR 内部团队被这篇论文吸引过来,Mark Zuckerberg 本人也读了并表示支持,这个项目内部就叫 AMI。 但随着 Meta 整体向 LLM 集中资源,FAIR 的探索性研究空间越来越小,AMI 项目的应用场景(工业控制、机器人)也不是 Meta 感兴趣的方向。 Meta 甚至解散了整个机器人 AI 团队。 离开的时机就这样自然到来了。 ## Tapestry:另一个不太一样的赌注 除了 AMI Labs,LeCun 还在推进一个叫 Tapestry 的项目,方向完全不同。 他的判断是:当 AI 助手成为人们获取信息的主要入口,而这些助手都由硅谷或中国的几家公司控制,这对世界上大多数人来说是个问题。 语言、文化、价值观、政治立场,都会被这几家公司的训练数据和偏好所塑造。 Tapestry 的想法是:用联邦学习的方式,让全球各地的机构贡献数据和算力,但不共享原始数据,只交换参数向量。 最终形成一个全球共识模型,然后各地可以在此基础上针对自己的语言、文化、价值观进行微调。 他认为这有历史规律支撑:互联网基础设施最终都走向了开源。 1996 年,Sun Microsystems 卖 Solaris,HP 卖 HP-UX,都声称比 Linux 更可靠。 今天,整个互联网跑在 Linux 上,连微软 Azure 也是。 "OpenAI 和 Anthropic,就是今天的 Sun Microsystems。" ## 给研究者的一句话 采访最后,主持人问 LeCun 在过去一年里改变了什么看法。 他说:自监督学习最成功的应用,不是他一直期待的视频,而是语言。 LLM 本质上就是自监督学习的一个极其成功的例子。这让他既感到意外,也感到某种讽刺。 他对还在读博的人有一个直接建议:不要研究 LLM。 "在学术界研究 LLM 极其无聊,本质上是描述性科学,解释它为什么有效或者有什么局限。而且你也没有足够的 GPU 去做真正有意义的事情。" 他的建议是研究下一代系统,也就是他正在做的事情:世界模型、JEPA、如何在表示空间做预测、如何防止表示坍塌。 如果你想从这次对话里带走一件具体的事,去读他提到的那篇论文:L-World Model。 > https://arxiv.org/abs/2603.19312 这是他目前认为最有前途的技术路线的最新成果。

译Yann LeCun离职Meta后创办AMI,押注基于世界模型的JEPA架构,与主流LLM不同。他批评LLM虽在语言任务有效,但缺乏预测行动后果和规划能力,无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习,以推动智能泛化。同时,他推进Tapestry项目,通过联邦学习构建去中心化的全球共识模型,应对AI控制集中化问题。

查看原推 ↗
Ethan Mollick@emollick · 5月20日74

Gemini Omni: "a dramatic reading of Death by Water from the Wasteland by a man eating garlic bread while balanced on a unicycle on a small platform over a churning sea of tomato sauce in which, at the center, sites a meatball with bright blue eyes wearing a top hat"

译Gemini Omni:“一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。”

查看原推 ↗
elvis@omarsar0 · 5月20日46

The sooner people and companies realize this, the better they can leverage AI. It makes a lot of sense. We have trained current AI systems to work optimally when paired with human expertise. Things can change in the distant future. More autonomous agents are on the horizon. But even then, human verification and ingenuity will matter a ton.

译人们和公司越早认识到这一点,就越能更好地利用AI。 这很有道理。我们训练当前的AI系统,是为了在与人类专业知识结合时达到最佳效果。 未来可能会有变化。更自主的智能体即将到来。但即便如此,人类的验证和创造力仍将至关重要。 [引用 @balajis]:每个AI智能体最终都有一个人类委托人。

查看原推 ↗
Ethan Mollick@emollick · 5月20日44

I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river otter who is distracted by their laptop while they are in a hot air balloon over NYC. in the next balloon over, william shakespeare fights a robot made of pizza"

译我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"

查看原推 ↗
Berryxia.AI@berryxia · 5月20日62

老马承认目前Cursor 模型和Claude的差距,也说了𝕏 AI 也不能没有它。 是整个生态中必须要有的一部分,得努力追赶。

译老马承认目前Cursor 模型和Claude的差距,也说了𝕏 AI 也不能没有它。 是整个生态中必须要有的一部分,得努力追赶。

查看原推 ↗
Microsoft Research@MSFTResearch · 5月20日62

Equipping communities to influence AI through involvement in AI development pipelines can improve AI and help communities realize the potential AI has to serve them well. https://news.microsoft.com/source/features/ai/why-better-ai-starts-with-the-people-it-often-misses/

译让社区通过参与AI开发流程来影响AI,可以改善AI,并帮助社区认识到AI为其提供良好服务的潜力。

查看原推 ↗
François Chollet@fchollet · 5月20日56

Most human tasks are not Markovian, the optimal next action cannot be determined solely by looking at the current state. It depends heavily on the past trajectory, the original intent, and context constraints. An agent that cannot compress and track its past trajectory with absolute fidelity is maybe 20% as useful as one that can.

译大多数人类任务并非马尔可夫过程,最优的下一步行动无法仅凭当前状态决定。它很大程度上取决于过去的轨迹、原始意图和上下文约束。一个无法以绝对保真度压缩和追踪其过去轨迹的智能体,其效用可能只有能做到这一点的智能体的20%。

查看原推 ↗
AYi@AYi_AInotes · 5月20日82

Damn! The landscape of the AI industry has been altered for good from today onward. 今晚睡不着了兄弟,AI 圈顶级大牛,前 OpenAI 创始团队 + Tesla AI 前总监 Andrej Karpathy大神刚刚官宣:我加入 Anthropic 了! 但说实话,Karpathy 加入 Anthropic 这条帖子,我看到第三遍才意识到真正的含义 很多人都在聊钱、聊人才战争、聊 Anthropic 赢了, 但整个帖子里最硬的一个词被划过去了,叫formative, 兄弟们想想,一个亲手把 GPT-1 推到 GPT-4、亲眼见过 scaling law 在真实算力上跑起来的人,现在公开说未来几年是 formative years, 这话翻译过来就是:你们说 AI 见顶了,我告诉你,真正的窗口期现在才来! 而且他还不是那种模棱两可的乐观,而是非常精准的、带着职业生涯赌注的判断, 我觉得他选 Anthropic,也不是猎头挖得好,本质上还是他自己对未来方向的判断的结果,在为下一步AI发展方向投票, 也就是说LLM 的下一次跃迁,大概率在安全 + 极致 capability 的那条路径上跑通, 这才是这道帖子真正让人睡不着的地方 hhh

译前OpenAI创始团队成员Andrej Karpathy宣布加入Anthropic,被普遍视为AI行业的一次地震级事件。但这并非单纯的人才流动。Karpathy在声明中将LLM前沿的未来数年定义为“formative years”(关键塑形期),这被解读为对“AI发展见顶论”的直接反驳,意味着真正的爆发窗口期现在才刚开始。他选择Anthropic,本质上是其个人对未来AI发展路径的深度判断和“投票”,即认为LLM的下一次重大突破,很可能在安全与极致能力协同发展的路径上实现。这标志着行业竞争的核心,已从当下的模型比拼,延伸至对长期技术路线的押注。

查看原推 ↗
Nathan Lambert@natolambert · 5月20日66

For a long time, academic researchers being at the cutting edge of new technologies has been a great social equilibrium. Neutral, unbiased technologists have been the people to spread new ideas to the world. As AI research takes off in velocity, it is also going behind closed doors. The tech industry has sewed distrust, and now they are the ones trying to tell the world about incredible changes coming. It's a big loss to a form of social contract in America. There's been a history of scientists helping society understand new technologies. There is a public service in the culture of science that I want to see continue. It's being exacerbated by feelings of FOMO, especially finically driven, where I'm seeing many people who previously wanted to be professors -- and likely still do deep down -- feel a need to conform and chase money, in a pocket of industry. I get it, I grapple with this. For those with a safety net, there will be great returns to some who choose to zag, and try to build something good, for people who need something different. For me, this is building interesting, fully-open models, to show what you can do with a variety of open weight sizes. Yes, AI's immediate future is dictated by the frontier, but it's long-term trajectory still deeply includes academic institutions and open science. Knowledge will always diffuse, but to whom? As of today, I think China is positioned to be the global home of AI research in a few years. The home of research is where ideas are accessible, spread rapdily, and are nurtured. The U.S. seems to be unwinding many institutions and relationships. The largest returns go to people who build something differentiated, at least in reputation, and a lot of people are not being shown that this path exists.

译本文指出,AI研究正从学术界主导向工业界闭源化转变,打破了长期由中立学者传播前沿知识的社会平衡。科技公司通过制造不信任感掌控叙事,削弱了科学界服务公众的传统。同时,金融驱动的“错失恐惧症”迫使许多志在学术的人才流向工业界。作者认为,尽管短期内发展由闭源模型主导,但知识最终必然扩散,其长期轨迹仍与开放科学紧密相连。在这一趋势下,凭借更利于研究获取与传播的环境,中国有望在未来成为全球AI研究的新中心。

查看原推 ↗
DogeDesigner@cb_doge · 5月20日58

Grok Summary of Elon Musk's Forbes interview from today. OpenAI Lawsuit & Verdict Musk called the verdict a “dangerous precedent”. He argued that allowing a nonprofit to convert into a for-profit (especially after removing key protective clauses) undermines charitable giving in America. He described the jury’s decision as dubious because it overlooked the gradual nature of the conversion and plans to appeal to establish stronger protections against what he sees as “looting” charities. AI Predictions & Timeline Musk painted a picture of extremely rapid progress: •AI breakthroughs are happening constantly (“When I go to sleep, there’s an AI breakthrough; when I go to lunch, there’s a breakthrough”). •In ~5 years, digital intelligence could exceed the sum of all human intelligence. •The global economy may roughly double in size within 5–7 years. •Humanoid robots: At least 100 million in 5 years, potentially up to a billion. •AI is already “vastly smarter than humans” in some domains; he hopes it will be “nice to us.” He emphasized that AI compute (especially for training and inference) will increasingly move to space because of abundant solar power and the ability to scale without Earth-based grid or land constraints. SpaceX & Multi-Planetary Future Musk reiterated SpaceX’s core mission: making humanity multi-planetary as a backup for civilization. He highlighted progress toward fully reusable rockets (targeting major capability by year-end) that could enable massive cargo shipments (millions of tons) to the Moon and Mars to build self-sustaining cities. He also touched on the value of the existing Starlink satellite constellation for future space-based infrastructure, including potential orbital data centers. Neuralink & “Jesus-Level” Tech Musk described Neuralink’s brain-machine interfaces as capable of delivering near-miraculous outcomes — restoring eyesight, mobility, and speech for people with disabilities. He framed these as high-priority “Jesus level” innovations that directly extend and improve human capability. Other Big Ideas & Untapped Opportunities Musk pointed to several areas ripe for disruption: •Tunnels — 3D transportation networks to eliminate surface traffic (he encouraged others to start tunnel companies). •Synthetic/digital medicine — Custom RNA and related technologies that could effectively “cure anything.” •Electric aircraft and other sustainable transport. •Space-based AI infrastructure — Leveraging solar power for massive compute clusters. Legacy & Mindset When asked what he wants to be remembered for in 250 years, Musk replied simply: “He played a useful role in the advancement of civilization.” His focus remains on the technologies needed to extend life beyond Earth and accelerate human progress. He named Nikola Tesla as a top historical inspiration and Jensen Huang among current ones. Overall tone: Classic Musk — zero victimhood about the OpenAI loss, maximum forward-looking vision, rapid topic shifts, and a sense of urgency about AI, space, and extending civilization. The interview blends candid legal criticism with sweeping predictions about a future of abundant energy, intelligent machines, and humanity becoming multi-planetary.

译在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

查看原推 ↗
🚨 AI News | TestingCatalog@testingcatalog · 5月20日30

Gemini Omni test 🔥 One of the best "Cyberpunk hacker robot" videos I've seen so far. It handled scene composition much better than the latest Veo model.

译Gemini Omni测试 🔥 这是我目前见过的最棒的“赛博朋克黑客机器人”视频之一。它在场景构图方面比最新的Veo模型处理得更好。

查看原推 ↗
凡人小北@frxiaobei · 5月20日67

乔帮主推荐的这个 SEO skill,做出海独立站的可以考虑试试。 在 codex 或者 cluade code 里出报告,顺手改了就上线了。 也给大家推荐独立站优化检测工具: 1. 网速提高,目前大部分流量都是手机端,可以提高自身网速评分,网速测试网站:https://pagespeed.web.dev/,整体网速建议至90分,会影响跳出率 2. 404报错空链检查:https://brokenlinkcheck.com/broken-links.php#status https://www.deadlinkchecker.com/website-dead-link-checker.asp

译本文推荐了一套针对独立站的便捷SEO优化方案。核心是名为“seo-audit”的AI技能,可安装在Codex或Claude Code等编程助手环境中,自动抓取网站并生成初步诊断报告,高效识别Sitemap、301重定向、noindex与canonical标签等常见配置问题。此外,文章还推荐了两项关键辅助工具:使用PageSpeed Insights测试并提升移动端访问速度(建议90分以上),以及利用在线工具检测网站中的404错误与死链。这套组合方案为独立站运营者提供了从技术审计到体验优化的实用入口。

查看原推 ↗
向阳乔木@vista8 · 5月20日41

Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话...

译Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话...

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月20日50

谷歌 Gemini Omni Flash 视频编辑测试。 你们应该能猜到我原始视频是在哪儿录的,反正效果远不如 SeeDance 2.0

译用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

查看原推 ↗
DogeDesigner@cb_doge · 5月20日41

ELON MUSK: Brain chips could create “Jesus-Level” Miracles. - Brain-machine interfaces could give people cybernetic superpowers. - Neuralink could help people with brain or spine injuries speak again, see again, and even walk again. - Direct brain interfaces may restore eyesight for people who lost both optic nerves, or even those born blind. - These breakthroughs feel like “Jesus-level miracles” because they could change human lives in a profound way.

译埃隆·马斯克:脑芯片或能创造“耶稣级”奇迹。 - 脑机接口或能赋予人类赛博格超能力。 - Neuralink或可帮助脑部或脊髓损伤患者重新说话、视物,甚至行走。 - 直接脑接口或可为双眼视神经受损者,甚至先天失明者恢复视力。 - 这些突破如同“耶稣级奇迹”,因其可能深刻改变人类生活。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日47

斯坦福数学家40年观察:“最聪明的学生”不是笨,而是从来没人教他们「先干什么」 George Pólya 1945年写的《How to Solve It》卖了上百万册,Marvin Minsky(第一个神经网络机器的发明人)公开说「每个人都该读」。 但大多数人到现在都没听过这本书。 Pólya看了40年,发现天才学生卡在难题上的原因永远一样: 问题一出现,他们就焦虑,然后立刻开始算。 不是因为算才是正确第一步,而是「动起来」比「不知道」舒服多了。 结果越努力越错方向。 他发现最被忽略的一步其实是:先真正理解问题。 不是扫一眼,不是觉得“好像见过”。 他的残酷测试只有一句话: 你能不能不看原题,就用自己的话把问题重新讲一遍? 讲不出来,就说明你根本没理解。 大多数人直接跳过这一步,狂执行,然后卡死在自己都没搞懂的问题上。 Pólya的四步法里,真正决定成败的是第1步和第4步: 1. 深刻理解问题 2. 制定计划(卡住就先解一个更简单的问题,把方法带回来) 3. 执行 4. 回顾(验证、泛化、反思) 真正厉害的人,不仅仅练得更多,也要学会在「本能想冲的时候慢下来」,尤其在开头和结尾。 这套方法放到2026年的AI时代,我突然觉得特别扎心。 我们用Claude、Cursor写代码、做prompt、debug的时候,最容易犯的错,恰恰就是Pólya当年看到的:没真正理解问题,就急着让AI开始生成。 先慢下来理解问题,反而是最高阶的prompt技巧。 我觉得可以捏一个prompt啊!

译斯坦福数学家George Pólya通过40年观察发现,优秀学生面对难题时常因急于计算而失败,根源在于跳过了真正理解问题的关键步骤。他在《How to Solve It》中提出的四步解题法里,深刻理解问题与回顾反思是决定成败的核心。这一原理与当下使用Claude、Cursor等AI工具的现象高度相似:许多人未充分理解问题就急于让AI生成内容,反而降低效率。因此,最高阶的技巧是先慢下来,确保真正理解问题再行动,无论在数学解题还是AI协作中都至关重要。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日78

兄弟们,NVIDIA研究员Yukang Chen刚刚把LongLive 2.0直接开源了! 这是全球第一个端到端、支持4-bit的超长视频生成基础设施,训练和推理全流程打通。 核心技术:FP4量化 + 并行加速,在5B模型上硬生生跑到45.7 FPS! 它还能做真实视频训练、few-step蒸馏、多shot训练/推理、序列并行、NVFP4 KV cache、异步VAE解码部署…… 全套高效打法一次给你安排明白。 以前做长视频生成,要么慢得要死,要么只能生成短片,现在NVIDIA直接把4-bit长视频实时生成推向开源。 代码见评论区👇

译NVIDIA研究员开源LongLive 2.0,这是首个支持4-bit量化、覆盖训练与推理全流程的端到端长视频生成基础设施。其核心技术包括FP4量化与并行加速,在5B模型上实现45.7 FPS的生成速度。该框架支持真实视频训练、蒸馏、多镜头生成、序列并行、KV缓存优化及异步解码部署,旨在解决以往长视频生成速度慢或仅限短片的瓶颈。

查看原推 ↗
凡人小北@frxiaobei · 5月20日57

一个人用 AI 爽飞之后,他和团队其他人的协作反而更难。 组织层面的 AI 不是个人提效的放大版,是另一个问题: 怎么把 AI 嵌进协作结构里,而不是只让其中某个岗位变快。 很少有团队在解决后者,从@yucheng 的这个项目看到了。

译核心问题在于,AI大幅提升个人效率后,团队协作反而可能变得更困难。因为组织层面的AI应用并非个人提效的简单放大,而是需要解决如何将AI深度嵌入现有协作结构、打破信息壁垒的问题。当前很少有团队关注后者。Lucius AI 正尝试解决这一痛点,其核心是构建组织的“上下文层”,旨在减少团队中超过30%时间被浪费在重复重建已有决策上下文上的现象,从而弥合个人高效与组织协同之间的鸿沟。

查看原推 ↗
Emad@EMostaque · 5月19日41

As companies approach AGI it would be illogical for most not to go and work there. AGI is a much bigger deal than most people still seem to believe & it is only by most forecasts a few years away (if not arrived already!).

译推文指出通用人工智能(AGI)的重要性远超多数人认知,其发展可能仅需数年甚至已初现端倪。在这一预期下,顶尖人才向AGI相关公司聚集是合乎逻辑的趋势。Karpathy宣布加入Anthropic,正是这一趋势的体现;他强调了大语言模型(LLM)前沿研究在未来数年的关键作用,表明该领域正吸引核心研发力量。这反映出行业竞争焦点已转向AGI竞赛,人才流动加速了技术布局。

查看原推 ↗
宝玉@dotey · 5月19日50

Gemini 新 UI 很讨厌的是无法像以前一样把常用的 Gem 固定在左侧边栏了,我有几个 Gem 是经常用的,现在每次要点进 Gems,然后去几十个 Gem 找到我要用的,点击进去。 或者你能在输入框 @ Gem 也行呀,@GeminiApp 这产品经理真是水平不行!😡

译用户指出Gemini最新UI更新移除了将常用GEM固定至侧边栏的功能,导致频繁使用的GEM需在数十个项目中反复查找,操作效率显著下降。建议恢复固定功能或增加输入框@调用快捷方式,并批评产品设计缺乏用户场景考量。

查看原推 ↗
DogeDesigner@cb_doge · 5月19日39

Elon Musk on the legacy of Tesla, Edison, and Ford: "Nikola Tesla is a major inspiration, but Edison also did impressive work. Great minds like Benjamin Franklin, Shakespeare, Newton, Edison, and Ford deserve admiration. Henry Ford’s biggest achievement was making mass manufacturing of complex objects possible. Ford essentially helped create the modern automotive industry on Earth. His methods were so effective that everyone else eventually copied him."

译埃隆·马斯克谈特斯拉、爱迪生和福特的遗产: “尼古拉·特斯拉是重要的灵感来源,但爱迪生也取得了令人瞩目的成就。像本杰明·富兰克林、莎士比亚、牛顿、爱迪生和福特这样的伟大人物值得钦佩。亨利·福特最大的成就是使复杂物品的大规模制造成为可能。 福特本质上帮助创建了地球上的现代汽车工业。他的方法如此有效,以至于最终所有人都效仿了他。”

查看原推 ↗
DogeDesigner@cb_doge · 5月19日31

ELON MUSK: "Jensen Huang at NVIDIA is like doing pretty great in terms of inventing, you know, developing AI computers"

译埃隆·马斯克:"英伟达的黄仁勋在发明、开发AI计算机方面做得非常出色。"

查看原推 ↗
DogeDesigner@cb_doge · 5月19日35

"When I go to sleep, there's like some AI breakthrough. When I wake up, there's some AI breakthrough, and by lunchtime, there's another AI breakthrough. It's pretty obvious that we're going to have AI that is vastly smarter than humans. I hope it's nice to us." — Elon Musk

译“当我入睡时,会有AI突破。当我醒来时,又有AI突破,到了午餐时间,又一个AI突破。很明显,我们将拥有远比人类聪明的AI。希望它能善待我们。” — Elon Musk

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
05:44
OpenAI@OpenAI
精选70
人们每周在ChatGPT中生成超过15亿张图像。 研究员 @kenjihata 与产品负责人 @adele__li 及主持人 @AndrewMayne 一起,探讨自 Images 2.0 发布以来出现的新用例和趋势。
OpenAI图像生成现象/趋势

推荐理由:OpenAI 首次把内部图像生成数据摊开聊,每周 15 亿张的量级说明这功能已经不是玩具了,做图像产品的可以对着用例风向调方向。
04:59
Emad@EMostaque
40
看来许多自回归模型将被转换为扩散模型。
数据/训练现象/趋势
04:38
Google Gemini@GeminiApp
精选72
使用 Gemini 3.5 Flash 构建你的第一款游戏。 无需复杂的3D建模,即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始,在 Canvas 中将你的图像变成游戏,并优化你的愿景以获得最佳游戏体验。
Google多模态教程/实践

推荐理由:Google Gemini 官方教你把日常物品照片变成互动游戏,Nano Banana 到 Canvas 的链路很直接,想试 Gemini 多模态能力的人可以当入门案例跑一遍。
04:33
ClaudeDevs@ClaudeDevs
精选73
计算机使用功能使Claude成为能够操作真实用户界面的智能体。 新博客文章探讨如何在生产环境中确保其可靠性:包括提高点击准确性、选择思考努力级别、在长会话中保持上下文,以及记录Claude可重放的演示操作: https://claude.com/blog/best-practices-for-computer-and-browser-use-with-claude
智能体AnthropicMCP/工具教程/实践

推荐理由:这篇博客把 Computer use 从“能用”真正推到“生产级”,聚焦点击精度、思考模式选择、长会话上下文保持这些实际卡点,如果你在让 Claude 操作 UI,这是必读的避坑指南。
04:11
Josh Woodward@joshwoodward
32
Gemini Omni太有趣了--视频编辑能力简直逆天!
Google多模态大佬观点视频
04:11
Josh Woodward@joshwoodward
31
Gemini 3.5 Flash是一款令人难以置信的模型,速度超快,今天就在Gemini中试试吧!
Google大佬观点模型发布
04:11
Google DeepMind@GoogleDeepMind
53
Gemini 3.5 Flash 🤝 @Antigravity 观看模型如何部署多个子代理来设计和构建整个城市。
智能体Google教程/实践
04:10
Google AI@GoogleAI
55
我们与@GoogleDeepmind团队坐下来,深入探讨了全新的Gemini Omni Flash模型背后的幕后故事、难忘时刻,以及许多许多(偶尔令人尴尬的)视频生成案例。 观看完整的发布说明节目请访问:http://goo.gle/49adTFp
Google行业动态
04:10
Google AI@GoogleAI
48
一些来自社区的有趣Gemini Omni用例👇🧵 (我们将在全天持续更新此推文串)
Google多模态教程/实践
03:41
宝玉@dotey
11
Codex 看起来又双叒叕重置了! 感觉又错过了 几十亿 Token!

宝玉: 每次 Codex 一重置就后悔之前没多用一点

其他大佬观点
03:01
Chubby♨️@kimmonismus
26
感谢 Sundar - 第一次参加 I/O 就已感觉宾至如归。 Gemini 3.5 Flash 在这个价位上的表现确实令人印象深刻。效率竞赛才刚刚开始!

Sundar Pichai: Workhorse model! (and hope you're enjoying your first I/O)

Google大佬观点模型发布
03:01
François Chollet@fchollet
62
Gemini 【引用 @arcprize】:Gemini 3.5 Flash ARC-AGI(已验证) ARC-AGI-2: - 高配:72.1%,$0.85 - 最低配:8.9%,$0.11 ARC-AGI-1: - 高配:92.5%,$0.42 - 最低配:48.8%,$0.06 Gemini 3.5 Flash在ARC-AGI测试中与GPT-5.5(中配)表现相当

ARC Prize: Gemini 3.5 Flash ARC-AGI (Verified) ARC-AGI-2: - High: 72.1%, $0.85 - Minimal: 8.9%, $0.11 ARC-AGI-1: - High: 92.5%, $0....

Google多模态推理评测/基准
02:59
Sundar Pichai@sundarpichai
34
主力模型!(希望你喜欢你的第一个 I/O)

Chubby♨️: Insane evals for a Flash model! Gemini 3.5 Flash is really good for its size!

Google大佬观点推理
02:59
Emad@EMostaque
17
迫不及待想看到Gemini Omni在@NotebookLM的电影级解说视频中登场👀
Google其他
02:55
AYi@AYi_AInotes
57
Google掀桌子,AI游戏规则真的变了

Google在I/O大会发布的Gemini 3.5 Flash与Antigravity平台,标志着AI竞争从模型性能转向构建Agent基础设施。Flash以4倍于顶级模型的速度解决了复杂Agent的延迟瓶颈,使24/7自主Agent成为可能;Antigravity则提供桌面端、CLI、SDK等全栈开放底座,目标成为“Agent时代的AWS”。Google将这些能力全量开放,意在降低Agent开发门槛,争夺生态定价权。这宣告了AI行业正从聊天机器人时代,迈入构建数字劳动力生态的新阶段。

Sundar Pichai: Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @a...

智能体Google大佬观点推理
02:29
Jeff Dean@JeffDean
29
在充满Gemini公告的#GoogleIO美好一天,与我的Gemini团队同事@OriolVinyalsML和@borgeaud_s在一起! 每次听到"Gemini"就喝一口水!

Oriol Vinyals: This is my third Google I/O in a row. Some things have changed, some (like the amazing colleagues that were there since ...

Google行业动态
02:29
Ethan Mollick@emollick
68
也获得了 Gemini 3.5 Flash 的早期访问权限。作为 Flash 模型,它速度非常快且能力很强,尽管不如完整的前沿模型强大。 我已将其添加到程序生成的单次城镇画廊中(它出现了一个错误并自行修正):https://hg-20f7d1a3ce.netlify.app/#gemini-3-5-flash
Google评测/基准
02:28
向阳乔木@vista8
62
LeCun从Meta离职创业,押注"反LLM"架构方向

Yann LeCun离职Meta后创办AMI,押注基于世界模型的JEPA架构,与主流LLM不同。他批评LLM虽在语言任务有效,但缺乏预测行动后果和规划能力,无法真正理解物理世界且结构上不安全。LeCun倡导在抽象表示空间进行预测的自监督学习,以推动智能泛化。同时,他推进Tapestry项目,通过联邦学习构建去中心化的全球共识模型,应对AI控制集中化问题。

Meta大佬观点推理
01:59
Ethan Mollick@emollick
74
Gemini Omni:"一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"
Google其他多模态视频
01:59
elvis@omarsar0
46
人们和公司越早认识到这一点,就越能更好地利用AI。 这很有道理。我们训练当前的AI系统,是为了在与人类专业知识结合时达到最佳效果。 未来可能会有变化。更自主的智能体即将到来。但即便如此,人类的验证和创造力仍将至关重要。 【引用 @balajis】:每个AI智能体最终都有一个人类委托人。

Balaji: Every AI agent ultimately has a human principal.

智能体大佬观点
01:28
Ethan Mollick@emollick
44
我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"
Google其他多模态视频
01:02
Berryxia.AI@berryxia
62
老马承认目前Cursor 模型和Claude的差距,也说了X AI 也不能没有它。 是整个生态中必须要有的一部分,得努力追赶。

Elon Musk: @karankendre Anthropic will not be destroyed. Their AI+harness goes far beyond coding and Opus 4.7 is still better than ...

Anthropic大佬观点编码
01:02
Microsoft Research@MSFTResearch
62
让社区通过参与AI开发流程来影响AI,可以改善AI,并帮助社区认识到AI为其提供良好服务的潜力。
Microsoft大佬观点
00:59
François Chollet@fchollet
56
大多数人类任务并非马尔可夫过程,最优的下一步行动无法仅凭当前状态决定。它很大程度上取决于过去的轨迹、原始意图和上下文约束。一个无法以绝对保真度压缩和追踪其过去轨迹的智能体,其效用可能只有能做到这一点的智能体的20%。
智能体大佬观点
00:53
AYi@AYi_AInotes
82
Karpathy加入Anthropic:一次指向未来的"关键投票"

前OpenAI创始团队成员Andrej Karpathy宣布加入Anthropic,被普遍视为AI行业的一次地震级事件。但这并非单纯的人才流动。Karpathy在声明中将LLM前沿的未来数年定义为“formative years”(关键塑形期),这被解读为对“AI发展见顶论”的直接反驳,意味着真正的爆发窗口期现在才刚开始。他选择Anthropic,本质上是其个人对未来AI发展路径的深度判断和“投票”,即认为LLM的下一次重大突破,很可能在安全与极致能力协同发展的路径上实现。这标志着行业竞争的核心,已从当下的模型比拼,延伸至对长期技术路线的押注。

Andrej Karpathy: Personal update: I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative....

Anthropic大佬观点现象/趋势行业动态
关联讨论 14 条X:Andrej Karpathy (@karpathy)X:Yuchen Jin (@Yuchenj_UW)X:Claude Devs (@ClaudeDevs)X:小北 (@frxiaobei)X:歸藏 (@op7418)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Noam Brown (@polynoamial)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)
00:42
Nathan Lambert@natolambert
66
学术失衡:AI研究转向闭源与全球知识扩散

本文指出,AI研究正从学术界主导向工业界闭源化转变,打破了长期由中立学者传播前沿知识的社会平衡。科技公司通过制造不信任感掌控叙事,削弱了科学界服务公众的传统。同时,金融驱动的“错失恐惧症”迫使许多志在学术的人才流向工业界。作者认为,尽管短期内发展由闭源模型主导,但知识最终必然扩散,其长期轨迹仍与开放科学紧密相连。在这一趋势下,凭借更利于研究获取与传播的环境,中国有望在未来成为全球AI研究的新中心。

大佬观点开源生态现象/趋势
00:36
DogeDesigner@cb_doge
58
马斯克《福布斯》访谈:科技愿景与争议观点

在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

OpenAI具身智能多模态大佬观点
00:34
🚨 AI News | TestingCatalog@testingcatalog
30
Gemini Omni测试 🔥 这是我目前见过的最棒的"赛博朋克黑客机器人"视频之一。它在场景构图方面比最新的Veo模型处理得更好。
Google视频评测/基准
00:32
凡人小北@frxiaobei
67
AI技能与工具助力独立站SEO优化

本文推荐了一套针对独立站的便捷SEO优化方案。核心是名为“seo-audit”的AI技能,可安装在Codex或Claude Code等编程助手环境中,自动抓取网站并生成初步诊断报告,高效识别Sitemap、301重定向、noindex与canonical标签等常见配置问题。此外,文章还推荐了两项关键辅助工具:使用PageSpeed Insights测试并提升移动端访问速度(建议90分以上),以及利用在线工具检测网站中的404错误与死链。这套组合方案为独立站运营者提供了从技术审计到体验优化的实用入口。

向阳乔木: 如果你的网站SEO收录不好,可安装这个Skill:seo-audit 让 AI 抓取网站做一个初步分析,能发现不少基础问题。 安装指令:npx skills add https://github.com/coreyhaines31/mark...

搜索教程/实践
00:26
向阳乔木@vista8
41
Gemini Omni Flash 效果很拉胯啊! 提示词:生成墨比斯风格的科幻动画短片,银河系搭车客指南 好像根本没理解第二句话…
Google多模态评测/基准
00:09
歸藏(guizang.ai)@op7418
50
用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai): 哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google视频评测/基准
00:06
DogeDesigner@cb_doge
41
埃隆·马斯克:脑芯片或能创造"耶稣级"奇迹。 - 脑机接口或能赋予人类赛博格超能力。 - Neuralink或可帮助脑部或脊髓损伤患者重新说话、视物,甚至行走。 - 直接脑接口或可为双眼视神经受损者,甚至先天失明者恢复视力。 - 这些突破如同"耶稣级奇迹",因其可能深刻改变人类生活。
具身智能大佬观点
00:02
Berryxia.AI@berryxia
47
斯坦福数学家40年观察:"最聪明的学生"不是笨,而是从来没人教他们「先干什么」

斯坦福数学家George Pólya通过40年观察发现,优秀学生面对难题时常因急于计算而失败,根源在于跳过了真正理解问题的关键步骤。他在《How to Solve It》中提出的四步解题法里,深刻理解问题与回顾反思是决定成败的核心。这一原理与当下使用Claude、Cursor等AI工具的现象高度相似:许多人未充分理解问题就急于让AI生成内容,反而降低效率。因此,最高阶的技巧是先慢下来,确保真正理解问题再行动,无论在数学解题还是AI协作中都至关重要。

Dr.Xiao.AI: A Stanford mathematician spent forty years watching one brilliant student after another crash into hard problems. Not be...

大佬观点
00:02
Berryxia.AI@berryxia
精选78
NVIDIA开源首个4-bit超长视频生成基础设施

NVIDIA研究员开源LongLive 2.0,这是首个支持4-bit量化、覆盖训练与推理全流程的端到端长视频生成基础设施。其核心技术包括FP4量化与并行加速,在5B模型上实现45.7 FPS的生成速度。该框架支持真实视频训练、蒸馏、多镜头生成、序列并行、KV缓存优化及异步解码部署,旨在解决以往长视频生成速度慢或仅限短片的瓶颈。

Yukang Chen: 🚀 Excited to release LongLive 2.0! 🎬 An end-to-end infrastructure for long video generation, with FP4 and parallelism ...

开源/仓库部署/工程

推荐理由:NVIDIA研究员把4-bit长视频生成的全套设施端出来了,45.7FPS跑5B模型,做视频工程的可以直接拿来魔改,这是把长视频的成本打下来的关键一步。
00:02
凡人小北@frxiaobei
57
AI提效后,组织协作面临新挑战

核心问题在于,AI大幅提升个人效率后,团队协作反而可能变得更困难。因为组织层面的AI应用并非个人提效的简单放大,而是需要解决如何将AI深度嵌入现有协作结构、打破信息壁垒的问题。当前很少有团队关注后者。Lucius AI 正尝试解决这一痛点,其核心是构建组织的“上下文层”,旨在减少团队中超过30%时间被浪费在重复重建已有决策上下文上的现象,从而弥合个人高效与组织协同之间的鸿沟。

Lucius: We raised $3M to build Lucius AI - the Context Layer for Your Organization. Backed by Future Capital Discovery Fund, we'...

现象/趋势部署/工程
5月19日
23:56
Emad@EMostaque
41
推文指出通用人工智能(AGI)的重要性远超多数人认知,其发展可能仅需数年甚至已初现端倪。在这一预期下,顶尖人才向AGI相关公司聚集是合乎逻辑的趋势。Karpathy宣布加入Anthropic,正是这一趋势的体现;他强调了大语言模型(LLM)前沿研究在未来数年的关键作用,表明该领域正吸引核心研发力量。这反映出行业竞争焦点已转向AGI竞赛,人才流动加速了技术布局。

Andrej Karpathy: Personal update: I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative....

Anthropic大佬观点行业动态
23:35
宝玉@dotey
50
Gemini更新引发用户不满:GEM固定功能缺失导致操作繁琐

用户指出Gemini最新UI更新移除了将常用GEM固定至侧边栏的功能,导致频繁使用的GEM需在数十个项目中反复查找,操作效率显著下降。建议恢复固定功能或增加输入框@调用快捷方式,并批评产品设计缺乏用户场景考量。

Google产品更新
23:35
DogeDesigner@cb_doge
39
埃隆·马斯克谈特斯拉、爱迪生和福特的遗产: "尼古拉·特斯拉是重要的灵感来源,但爱迪生也取得了令人瞩目的成就。像本杰明·富兰克林、莎士比亚、牛顿、爱迪生和福特这样的伟大人物值得钦佩。亨利·福特最大的成就是使复杂物品的大规模制造成为可能。 福特本质上帮助创建了地球上的现代汽车工业。他的方法如此有效,以至于最终所有人都效仿了他。"
大佬观点
23:35
DogeDesigner@cb_doge
31
埃隆·马斯克:"英伟达的黄仁勋在发明、开发AI计算机方面做得非常出色。"
大佬观点
23:35
DogeDesigner@cb_doge
35
"当我入睡时,会有AI突破。当我醒来时,又有AI突破,到了午餐时间,又一个AI突破。很明显,我们将拥有远比人类聪明的AI。希望它能善待我们。" - Elon Musk
xAI大佬观点现象/趋势
‹ 上一页
1…484950
下一页 ›