全国1.3万多家肯德基门店以第三方Skill形式接入千问APP。用户对千问说出“帮我点附近肯德基的疯狂星期四,到店取”即可自动匹配门店与套餐,并显示距离和取餐时间。千问还与肯德基会员权益打通,下单时自动使用大神卡及匹配的优惠券。
全国1.3万多家肯德基门店以第三方Skill形式接入千问APP。用户对千问说出“帮我点附近肯德基的疯狂星期四,到店取”即可自动匹配门店与套餐,并显示距离和取餐时间。千问还与肯德基会员权益打通,下单时自动使用大神卡及匹配的优惠券。
型号 NP06J 的红魔游戏平板 5 Pro 已入网,支持 80W 快充,预计 6 月发布。工程机配置 9 英寸 185Hz OLED 屏、骁龙 8 Elite Gen5、液冷循环散热系统、8300mAh± 电池,提供 12+256GB/16+512GB/16+1TB/24+1TB 存储,配备 RGB 灯和透明设计,内置豆包大模型。官方预告十大黑科技,包括超高刷游戏平板、全新发光材料、透明纯平设计、顶级触控芯片、PC 级散热材料、CUBE 擎天游戏引擎等。
6 月 16 日,中国信通院人工智能研究所等将在北京联合召开“高质量 Token 服务研讨会”。论坛将成立“高质量 Token 服务特别研究组”,启动“高质量 Token 服务能力攀登计划”,上线新版“公有云大模型 Token 服务性能监测平台”,并发布“公有云大模型 Token 服务性能监测结果(2026 年 6 月)”,对主流 Token 服务平台的 Token 吞吐率、时延等进行量化评估。截至 2026 年 3 月,我国日均 Token 调用量已超 140 万亿次。
Ideogram 6月3日发布开源文生图模型 Ideogram 4.0,核心规模 9.3B 参数,采用单流架构,文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制,能准确呈现较长文本;通过对象和文本边界框训练,配合结构化 JSON 字幕数据,支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。
关联讨论 1 条X:Krea AI (@krea_ai)加州大学伯克利分校的计算机科学课程中,随着学生越来越多地使用AI工具,课程不及格率显著上升,同时学生的数学基础能力持续下滑。
Cerebras Systems 计划与多种 AI 数据中心组件供应商合作,为类似其与亚马逊协议的进一步合作铺平道路。
一位开发者构建了一个故意包含安全漏洞的Web应用程序,并投入1500美元,用于评估当前主流大语言模型(LLMs)在真实场景中自主发现并利用这些漏洞的能力。测试涵盖了多种模型及其API调用成本,旨在量化LLM在渗透测试与漏洞利用任务上的实际表现与成本效益。结果尚未在正文中提供,但该实验为AI在网络安全攻防中的应用提供了第一手数据。
谷歌 AI Edge Gallery 现已登陆 macOS,Mac 用户可在本地离线运行 Gemma AI 模型。该应用提供 5 个谷歌指令调优模型,其中 Gemma-4-12B-it 可在 16GB 内存 Mac 上处理文本、视觉和音频,具备代码能力,实现设备端智能体和多模态分析。AI Edge Gallery 完全离线、私密性高且速度快。同时,谷歌推出免费听写应用 Google AI Edge Eloquent,支持语音转文字、去除口误和轻度润色,全部在设备端完成,并支持不同写作风格和自定义词汇。
北京作为全国首批“双智”城市,在海淀区19个路口正式上线AI红绿灯系统。该系统通过3D空间轨迹连续拼接技术生成全息路口,利用大模型实时分析交通流量、排队长度和拥堵状况,50秒内生成约200套配时方案,并自动延长绿灯1-15秒。四道口地区13个交叉路口上线后,整体车速提升约21%,拥堵指数下降约19%。北京计划进一步推广基于交通流量的实时智能交通管控。
英国工党议员杰丝·阿萨托起诉xAI,称Grok AI平台被用于制作她的色情深度伪造图像。阿萨托声明指出,Grok生成的深度伪造色情内容侵害数千名妇女与未成年人权益,该功能是产品研发方刻意的设计选择。xAI虽于1月中旬限制相关功能,但路透社2月核查发现用户输入指令后Grok仍能生成涉黄伪造人像。阿萨托已向英国高等法院递交诉状,指控违反数据保护法规及滥用隐私,要求赔偿、承认违法并申请禁令。此前美国巴尔的摩市也在3月起诉xAI。
中国信息通信研究院等机构将于6月16日在北京召开“高质量Token服务研讨会”,成立“高质量Token服务特别研究组”并启动“高质量Token服务能力攀登计划”。Token作为大模型最小运算单元,已成为AI服务计量单位。截至2026年3月,我国日均Token调用量超140万亿次。目前中国移动推出最低5元月包,中国电信提供9.9-49.9元三档套餐。
特斯拉正向澳大利亚与新西兰的 HW4 硬件车主发送 FSD(监督版)V14 版本推送通知,确认该版本本地化开发与测试进入收尾阶段,性能与功能大幅升级。距大洋洲上次推送 V13 版本已近一年。FSD V14 已在美国、韩国等地上线,中国、澳大利亚、新西兰仍停留 V13,特斯拉正推动全球版本统一。同时,专为 HW3 车型优化的 FSD V14 Lite 版(保留完整功能)预计今年夏季上线,最快本月推出,后续将向全球多地区推送。
Nous Research 以公开预览版形式推出 Hermes Desktop,支持 Windows、macOS 和 Linux。桌面端共享 Hermes Agent 的配置、API 密钥、会话、技能和记忆,用户可在桌面、CLI 和 TUI 间无缝切换。Hermes Agent 具备长期记忆,能规划任务、调用工具、观察结果,并通过闭环学习自动写入可复用技能。持久记忆借助 FTS5 会话搜索、LLM 摘要和 Honcho 用户建模加强跨会话召回。安全方面支持 local、Docker、SSH、Singularity 和 Modal 共 5 类沙箱后端,内置网页搜索、浏览器自动化、视觉、图像生成、文本转语音及多模型推理工具,同时支持通过 MCP 接入外部工具。
一篇来自 maxleiter.com 的博文,标题为“它们是用哑铃做的”。正文内容极为简短,仅包含一张图片和一句声明“They're made out of weights”(中文翻译为“它们是用哑铃做的”),未提供任何上下文或技术细节。该博文在 Hacker News 上获得 113 个点赞。由于缺少具体说明,读者无法得知所指对象以及“哑铃”的真实含义。
Netflix 首席产品和技术官 Elizabeth Stone 表示,公司正利用 AI 帮助用户在内容过载中筛选出感兴趣的作品。
MapAgent是一种工业级智能体架构,用于生成符合规范的车道级地图。它在矢量化骨干网络基础上,通过Judge-Planner-Worker循环,利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发,保持高吞吐量。MapAgent已集成至百度地图,支撑全国360多个城市的车道级地图生成,整体生产自动化率超95%。
M^3Eval是首个系统评估多模态模型记忆能力的基准框架,基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现:模型难以在并行视频流中保持分离表示,干扰模式与人类记忆差异显著,空间域的记忆溯源比时间域更可靠,符号记忆能力有限。代码与数据集已公开。
AutoLab是一个评估超长周期闭环优化能力的基准,包含36个专家设计的真实任务,覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始,要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明,成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力,但多数前沿模型要么过早终止,要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。
Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习(RLVR)下取得进展,但长思维链中的试错和冗余探索被强化,导致过度思考。ThoughtFold 提出细粒度偏好学习框架:通过内省策略识别正确轨迹中的冗余段,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤,从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%,同时保持 SOTA 准确率。
训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题,学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化,通过测量这些算子对测试预测的扰动,利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优,且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。
WebRISE将任务需求编译为交互合约图(ICG),涵盖可观察状态、用户意图转换及DOM/视觉断言,实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态(文本、Markdown、草图、图像、视频),含5,495个转换和5,271个需求检查,区分显式功能与隐式产品约束。评估14个MLLM显示,最强模型仅达65.6%转换有效性和66.3%需求覆盖率;视觉质量不反映行为(Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5)。视频提供最强交互信号(隐式覆盖率比文本高10.6个百分点);缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。
AMD 客户端业务高级副总裁拉胡尔·蒂库在 2026 台北国际电脑展上回应英伟达推出 RTX Spark 入局 AI PC 处理器市场,表示欢迎竞争,认为大容量本地内存对 AI 智能体工作负载至关重要。AMD 的 Strix Halo 及后续 Gorgon Halo 足以与 RTX Spark 竞争,Gorgon Halo 采用 Zen 5 CPU 和 RDNA 3.5 GPU,统一内存最高 192GB。软件生态方面,AMD 主推 ROCm,称 CUDA 的壁垒影响已较三年前下降,开发者迁移难度较低。
香港生成式人工智能研发中心(HKGAI)发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升,Agent无干预运行时长增长近百倍,单次稳定运行达28小时,并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机,内置V3模型实现本地推理、数据不出站,适用于政务、金融、医疗等高安全场景。
三星在2026台北国际电脑展展示面向HBM5内存的HPB(热阻断路径)封装散热结构,通过在封装内部加入独立热柱降低散热压力。HPB已在HBM4E上验证,HBM4E首批12层样品已出货,速率14Gbps,可扩展至16Gbps,每堆叠带宽3.6TB/s。三星确认HBM5基底芯片将从4nm转向自家2nm工艺。SK海力士采用不同路线,其iHBM方案将冷却元件嵌入D2D PHY层,可较现有产品降低超过30%热阻。
GitLab 裁员约 14%(约 350 人),作为重组一部分,退出 22 个国家/地区并精简管理层级。CEO Bill Staples 称 AI 智能体以机器规模运行,给开发者基础设施带来超出设计承受能力的压力;公司已启动 Git 代际重构以支持 100 倍增长,并与一家未透露名称的 AI 实验室合作,构建面向智能体优化的 API 和编排工具。2026 年 Q1 营收 2.64 亿美元,同比增 23%,毛利率 88%,预计产生 3000 万至 3500 万美元重组费用。
Marvell 已获谷歌 TPU 定制网络芯片设计订单。该芯片用于连接多个 ASIC 构建同步计算集群,负责协调数据流、处理拥塞与延迟。因台积电先进节点产能紧张,可能采用英特尔 18A 或 18AP 制程,预计 2027 年底量产。据推测将配套 Humufish TPU(TPUv8e),谷歌负责主计算芯片设计,联发科负责 I/O 与后端设计,英特尔负责制造及 EMIB 先进封装。
OpenAI 首席执行官奥尔特曼透露,公司内部词元消耗冠军每月用掉约 1000 亿个词元,六年前这一数字仅为十万个。外部用户消耗更高。公司设有词元消耗排行榜,员工在 X 平台炫耀使用量;有截图显示 30 天内消耗 6030 亿个词元,《纽约时报》报道一名员工单周用掉 2100 亿个词元。与此同时,亚马逊关停内部词元榜单,Uber 则出台限额制度。奥尔特曼表示,OpenAI 正通过模型迭代和降本增效方案力求降低成本,AI 使用成本已从 2026 年初的无人介意变为亟待解决的难题。
一项干预审计研究揭示了检索增强问答流程中重写器(rewriter)性能提升的因果机制:增益主要来自重写上下文中出现正确答案字符串,而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示,从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点;向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”,但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1,且其中三种未通过等价检验。
中国美术学院与火山引擎联合开发「中国画创作平台」,通过6个月数据治理,将约3000张国画梳理为7维度结构化标签数据集,一次性标注通过率约95%。采用模型后训练技术,将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型,封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作,几分钟即可完成国画创作。智能体支持文生图、图生图,可集成至小程序、交互大屏,应用于教学、文创开发等场景。
xAI 宣布与 Vapi 合作,Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎,覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中,Grok Voice 位列第一;X 平台上的人机语音盲猜中,超 4500 名用户有一半无法区分 Grok 与真人。现在,Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard,团队还可通过 Grok Voice API 获取高级定制选项(含语音克隆),用于旁白、播客、广告等场景。
关联讨论 1 条X:xAI (@xai)GRAIL是一个全虚拟数字生成管线,利用3D资产、仿真就绪场景和视频基础模型先验,合成人形机器人交互数据,无需物理环境重建或遥操作。管线在视频生成前已知物体几何、相机参数、度量尺度、环境深度和机器人比例角色,从而更好地约束4D重建,通过基于模型的物体跟踪、人体运动估计和交互感知优化,恢复度量4D人-物交互轨迹。GRAIL生成超过20,000个序列,涵盖拾取、物体操作、坐着和地形穿越。仅使用GRAIL数据训练的自我中心视觉策略,通过仿真到真实迁移部署到宇树G1人形机器人,实现了84%物体拾取成功率和90%爬楼梯成功率。
Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer(DiTs)端到端优化,支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe,锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id,解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA,首次实现 24 小时(超 130 万帧)实时滚动生成。
Audio-Interaction是一种统一流式音频模型,通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署,包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本,覆盖7项基本能力、28个子任务;Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中,Audio-Interaction保持主流音频任务竞争力,同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。
StreamMA 采用“流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”:增加每智能体步骤数可同时提升效果与效率。
MeshWeaver提出一种自回归网格生成框架,将网格生成视为表面编织过程,直接预测下一个顶点而非独立坐标。其核心是多级稀疏体素编码器,通过三种方式注入几何上下文:体素特征作为顶点表示、交叉注意力引导token预测、以及作为结构骨架约束生成。层次化设计可在单解码步骤中实现从粗到细的顶点预测。实验表明,MeshWeaver达到18%的压缩比(SOTA),可生成最多16K面网格,并在几何保真度上显著超越此前方法。
据Electrek报道,特斯拉修改了2016年至2024年初签订的FSD购买协议,新增原本不存在的“需人工监督”条款,且多名车主反映原始协议文档链接已失效。2024年3月FSD更名为“FSD(需人工监督)”,明确无法实现自动驾驶;2025年9月放弃无监督自动驾驶承诺;2026年4月马斯克证实HW3车型永远无法实现无监督全自动驾驶。特斯拉正面临多起诉讼,索赔总额最高达145亿美元。
SK集团董事长崔泰源与台积电董事长魏哲家会面,双方同意拓展下一代HBM开发和先进封装领域合作。SK海力士在Computex 2026展出HBM4E 48GB 12Hi样品,引脚速率16.0Gbps,单堆栈带宽4.0TB/s,带宽提升38%,单Die容量提升33%。此外,SK海力士展示了基于V9 TLC的PCIe Gen5客户端固态硬盘PVF01,为其首款DRAM-less架构cSSD。
台积电董事长魏哲家在股东会上披露,一季度合并营收约11341亿元新台币,税后净利润5724.8亿元新台币,每股净利润22.08元新台币。第二季度合并营收预计390亿至402亿美元,毛利率65.5%-67.5%。AI需求转向智能体模式,推升token消耗支撑先进半导体。预计全年营收增长超30%,现金股利提升超30%。针对High-NA EUV传言,魏哲家澄清公司早已购入,但暂不量产,正努力降本。他还重申保障员工权益,因多数员工也是股东。
阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s,位列主流模型第一;端到端响应时长仅 7.1 秒;智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现,兼顾速度、智能与成本,适合大规模商业化部署。
论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。