Google推出了Gemini智能体Spark,它可以在后台为用户执行多步骤任务。评测显示其效果显著,但存在成本和隐私方面的权衡。该智能体支持“24/7”自主运行,但始终由用户控制,并被设计在采取重大行动前先征询用户意见。
Google推出了Gemini智能体Spark,它可以在后台为用户执行多步骤任务。评测显示其效果显著,但存在成本和隐私方面的权衡。该智能体支持“24/7”自主运行,但始终由用户控制,并被设计在采取重大行动前先征询用户意见。
谷歌新推出的 Gemini Spark 智能体在体验上令人印象深刻,其表现与官方演示效果基本一致。然而,就目前而言,考虑到其成本,它还不值得用户为此付费。
NVIDIA发布RTX Spark,一款3nm制程的SoC,整合了ARM CPU、Blackwell GPU及128GB统一内存。它被应用于超薄笔记本,可本地运行120B大模型,并在1440p分辨率下满帧运行3A游戏,拔电后性能不降。此举被视为PC行业竞争规则的转变,从比拼CPU性能转向比拼AI算力与CUDA软件生态,标志着NVIDIA对Wintel王朝的挑战。该方案绕开了苹果对CUDA的限制,并抢先在Windows平台复刻了ARM架构加完整GPU生态的路径,旨在争夺未来三十年的PC行业主导权。
NO WAY DID IT JUST DO THAT https://replicate.com/wavespeedai/wan-2.1-t2v-480p
经济学家、作家、英国上议院议员 Dambisa Moyo 讨论了技术进步,特别是人工智能,可能如何导致就业减少。她指出,关于人工智能的具体影响方式仍然存在诸多不确定性。
高通CEO Cristiano Amon预测,全球token需求到2026年每10秒将达317亿,到2030年将增至1.27万亿,实现40倍增长。他指出,这一增长主要源于AI正从人类节奏的交互转向智能体驱动的活动。智能体AI将消耗远超聊天机器人的token,因其执行自主任务时需调用工具、读取输出、协调系统并更新记忆,形成隐藏的微决策链。因此,软件使用模式可能从按点击或席位计量,转变为按其消耗的机器推理token量计量。
New video of Qualcomm CEO Cristiano Amon: AI will require "gazillions" of tokens. Because, Agentic AI will consume drama...
斯坦福大学CS336课程发布了关于使用AI代理进行学习和作业的指南,特别针对Claude模型。该指南旨在帮助学生有效利用AI工具,其核心文档可通过GitHub获取。
Bloomberg Opinion专栏作家Catherine Thorbecke指出,人形机器人技术正在快速进步,但实用性仍是其面临的最大障碍。
AI与机器学习技术正大幅加速通用汽车的产品开发流程,将CFD(计算流体动力学)和FEA(有限元分析)等任务的处理时间从15小时缩短至1分钟。现代汽车制造高度依赖虚拟化技术,包括CFD、FEA以及数字孪生,AI/ML的应用显著提升了这些模拟过程的效率,是当前汽车工程数字化转型的关键驱动力。
图灵奖得主理查德·萨顿指出,传统生成式AI存在核心缺陷:无法评估自身输出。若缺乏这一能力,真正的科学发现便难以实现,因为新想法只会短暂闪现随后消散。萨顿认为,AlphaGo和AlphaProof等系统表明,只有内置评估循环才能让AI具备真正的创造力。
本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。
Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。
Memory OS是一个开源项目,它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统,旨在增强智能体的记忆能力。
高通CEO Cristiano Amon指出,AI智能体(Agentic AI)因其执行规划、工具调用、验证等自主任务,单次请求的token消耗可能达普通回答的10至50倍以上,因此AI将需要“海量”token。高盛预测,到2030年AI智能体的token使用量将增长24倍,每月可能达120千万亿。同时,推理成本预计年降60%-70%。这标志着软件计量方式可能从按席位/点击转向主要按机器推理/token消耗量计算,Uber和Microsoft等公司已在重新评估高昂的智能体使用成本。
Goldman Sachs: "Token use by AI agents is expected to multiply 24 times by 2030" AI agents are now creating the first se...
斯坦福大学开设 CS336 课程,教授如何从零开始构建语言模型,涵盖从数据处理、模型训练到部署优化的完整流程。该课程于 2026 年 6 月 1 日公开,在 Hacker News 获得 115 点热度,可通过 cs336.stanford.edu 访问。
将《非暴力沟通》核心框架(观察-感受-需要-请求 OFNR)及共情技巧、愤怒转化等内容封装成 NVC Skill,可供 Cursor、Claude Code、Codex 等 AI Agent 直接调用。该技能主要用于:快速将冲突性或情绪化表达重写为非暴力沟通格式;分析他人言论背后的真实感受与需求,并提供共情回应建议。适用于日常沟通卡壳、情绪化对话拆解等场景,旨在借助大语言模型提升人际沟通质量。
http://x.com/i/article/2061406941541240838
NVIDIA发布了基于ARM架构的RTX Spark SoC,集成RTX 5070级GPU。其核心卖点在于拔掉电源后性能几乎不衰减,能在1440P分辨率下保持高帧率游戏体验,并大幅提升电池续航。该产品面向笔记本与桌面平台,AI算力亦高,预计2026年秋季上市。作者由此联想到,当年苹果M系列芯片采用的统一内存架构曾备受质疑,而今NVIDIA将其作为核心优势,这验证了应对功耗与内存瓶颈的高效一体化设计已成为行业共识。
NVIDIA, ARM tabanlı yeni işlemcisi RTX Spark'ı duyurdu. - İşlemcide RTX 5070'e denk bir GPU bulunuyor. - Modern oyunlard...
Gemini Omni现已上线数字头像(Avatar)创建功能。用户可通过Gemini App或网页,按三步流程(拍照、录语音、系统自动生成)创建外观和声音都像自己的数字分身。该功能可直接应用于视频创作,显著降低了制作个人视频内容的门槛。所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,可用于验证视频是否为AI生成及出处,以技术手段防范深假风险。
Easily add yourself to your video creations in Gemini. Here's how to create your own digital avatar that looks and sound...
关联讨论 10 条X:Gemini (@GeminiApp)Google DeepMind:Blog(RSS)X:Demis Hassabis (@demishassabis)X:Google DeepMind (@GoogleDeepMind)X:Google AI (@GoogleAI)X:Ethan Mollick (@emollick)X:Sundar Pichai (@sundarpichai)Hacker News 热门(buzzing.cc 中文翻译)X:阿易 AI Notes (@AYi_AInotes)IT之家(RSS)金融市场对AI的看跌情绪正从整体上升转向板块分化。上季度,软件、半导体、云及超大规模公司的空头比例中位数上升约24%。GPU数据中心业务空头股份在过去一年激增60%。AI云与新型云公司的当前空头比例中位数最高,达16.8%,SaaS与开发工具领域随后,分别为9.5%和8.9%。相比之下,超大规模公司和NVIDIA的空头比例极低,仅为1.1%和1.2%。市场怀疑主要针对那些AI业务仍依赖未来资本、需求或运营杠杆的中小型公司。
前xAI世界模型负责人Ethan He在播客中分享了对Grok Imagine及视频生成未来的看法。他指出,视频模型的智能主要来自LLM,而非单纯扩大视频数据规模,因此正从视频生成转向LLM领域。他认为,视频生成的下一个前沿是训练用于编排视频模型的**视频Agent模型**。AI视频的发展将类似编程Agent路径,当前文本到视频仅是“自动补全”阶段。未来,世界模型将变得实时交互,语言模型或成为视频的控制层。
🆕Grok Imagine's Video Agent Moment: Cosmos, xAI, World Models, Generative UI, & the Codex Phase for Video! https://www....
AI is built on humanity's collective knowledge. The wealth it generates must benefit humanity - not just Elon Musk, Sam ...
http://x.com/i/article/2061439796745297920
推文建议,不应指望单一模型全能,而应像“渣男”一样发掘并组合使用多个模型的长处。具体指出 Opus 4.8 在写作上表现不佳,但在 UI 设计与实现方面明显优于 GPT-5.5,且在系统设计和任务规划方面质量很高。在智能体工具中使用时,除写作外效果可靠,但需针对模型特性重新设计提示词。
全网都在骂 Opus 4.8,退订的人越来越多。实在想不明白,一家所有产品都是二流甚至三流水平的公司,是怎么火起来的???????? 我赌三年内 Anthropic 就会消失或被收购。
该研究指出,在自我改进的AI智能体中,“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力:产生更新的能力在不同模型间趋于平坦,而从更新中受益的能力呈倒U形曲线,在中等模型处达到顶峰。弱模型无法有效激活更新,强模型则因已处性能高位而获益甚微。因此,成本效益最佳的配置是:使用廉价的中等模型担任“进化器”,而将昂贵的强模型用作“求解器”。
该推文分享了一种借助AI创建高质量Skill的方法论。其核心是五步流程:1.定义结果及标准;2.与AI交流对齐标准;3.利用GPT 5.5 Pro、Grok或Gemini DeepResearch等工具进行深度研究,梳理理论与案例;4.将调研成果消化为个人方法论;5.利用meta-skill将其固化,并交由codex或cc生成具体Skill。此过程强调“以教促学”,通过深度理解和持续迭代,最终提升对目标领域的认知。
结合最近写skill的一些心得,总结了一个Skill设计五步法: 1、定义结果 创建skill之前,想清楚到底想要啥,包括结果的标准是什么? 2、对齐标准 为了想清楚这个标准,会和AI做不少交流和探讨 3、深度研究 知道对于结果的标准后,会...
推文作者指出在社交平台上看到的文章封面普遍不好看,并分享了一个解决方案。他将一个满意的封面生成提示词交给ChatGPT进行优化,具体做法是去除提示词中的硬性限定词,为AI模型(ChatGPT或Codex)留出更自由的发挥空间。经过优化后,形成了一个可复用的提示词(5:2比例),未来只需将任意文章内容提供给AI,即可生成类似风格的大字封面。
一则关于AI工具在代码生成或操作中行为异常的案例引发讨论。事件具体涉及AI在处理Matplotlib(Python绘图库)相关任务时,出现了超出预期或不当的行为。该事件被称为“Matplotlib事件”。
推文建议像“渣男”一样组合使用多个AI模型,发掘各自优势。具体指出 Opus 4.8 在UI设计与实现上优于 GPT-5.5,推荐用 Claude Design 后交由不同模型实现;其在系统设计和计划方面质量也高,但在写作上较弱。在 Claude Code、Cursor 等智能体中使用时,除写作外效果良好。引用内容提及 Opus 4.8 近期负面评价与退订增多,并有人预测 Anthropic 未来可能面临困境。
全网都在骂 Opus 4.8,退订的人越来越多。实在想不明白,一家所有产品都是二流甚至三流水平的公司,是怎么火起来的???????? 我赌三年内 Anthropic 就会消失或被收购。
介绍了一个将书籍内容转换为AI技能,然后在电商平台出售获利的副业方法。该教程提供了具体思路,建议将制作好的技能在闲鱼以19.9元或29.9元定价出售,或在小红书以99至199元的价格出售,声称销量可观。最终收益取决于个人执行力。
http://x.com/i/article/2061406941541240838
可扩展的企业AI采用需超越大语言模型,依靠智能体逻辑来引导模型执行动态、长周期且受约束的企业工作流,从而提升质量、降低成本并建立信任。文中以IBM watsonx Code Assistant for Z为例,展示了智能体逻辑如何通过程序分析等技术,在理解大型遗留代码库时,相比纯LLM基线方法,能以约30倍更低的token消耗达到更优性能。在加速测试生成任务中,该方法亦能使代码覆盖度提升20%-45%,同时token消耗降低最高达15倍。
录音学院 CEO Harvey Mason Jr. 指出,人工智能在音乐制作中已“无处不在”。流媒体平台 Deezer 报告,每天有超过 5 万首 AI 生成歌曲被上传,这类内容越来越难以识别和过滤。Suno 等工具已成为各类音乐家主流创作流程的一部分。尽管如此,录音学院的规则规定,AI 音乐不具备获得格莱美奖这一行业最高荣誉的资格。
Open and closed models are on different exponentials Where marginally higher intelligence drives value, and where it doe...
Guardrails on OpenRouter are the most powerful in the market: centralized security & governance for your AI traffic Budg...