AIHOT

全部动态资讯 · 9034 条

全部一手资讯 X 论文

6月4日周四

6月4日

14:18

公众号：千问APP（阿里）

肯德基Skill接入千问，点疯狂星期四直接到店取

全国1.3万多家肯德基门店以第三方Skill形式接入千问APP。用户对千问说出“帮我点附近肯德基的疯狂星期四，到店取”即可自动匹配门店与套餐，并显示距离和取餐时间。千问还与肯德基会员权益打通，下单时自动使用大神卡及匹配的优惠券。

MCP/工具产品更新

14:11

IT之家（RSS）

红魔游戏平板 5 Pro 入网：9 英寸 185Hz 屏，骁龙 8 Elite Gen5，6 月发布

型号 NP06J 的红魔游戏平板 5 Pro 已入网，支持 80W 快充，预计 6 月发布。工程机配置 9 英寸 185Hz OLED 屏、骁龙 8 Elite Gen5、液冷循环散热系统、8300mAh± 电池，提供 12+256GB/16+512GB/16+1TB/24+1TB 存储，配备 RGB 灯和透明设计，内置豆包大模型。官方预告十大黑科技，包括超高刷游戏平板、全新发光材料、透明纯平设计、顶级触控芯片、PC 级散热材料、CUBE 擎天游戏引擎等。

产品更新端侧

14:11

IT之家（RSS）

"高质量 Token 服务研讨会"将首次发布公有云大模型 Token 服务性能测评结果

6 月 16 日，中国信通院人工智能研究所等将在北京联合召开“高质量 Token 服务研讨会”。论坛将成立“高质量 Token 服务特别研究组”，启动“高质量 Token 服务能力攀登计划”，上线新版“公有云大模型 Token 服务性能监测平台”，并发布“公有云大模型 Token 服务性能监测结果（2026 年 6 月）”，对主流 Token 服务平台的 Token 吞吐率、时延等进行量化评估。截至 2026 年 3 月，我国日均 Token 调用量已超 140 万亿次。

行业动态评测/基准

14:11

IT之家（RSS）

Ideogram 4.0 开源文生图模型发布

Ideogram 6月3日发布开源文生图模型 Ideogram 4.0，核心规模 9.3B 参数，采用单流架构，文本 tokens 与图像 tokens 共享自注意力序列。模型使用 Qwen3-VL-8B-Instruct 文本编码器、34 层单流 DiT、Euler 流匹配采样器及冻结 KL 自动编码器。擅长文字绘制，能准确呈现较长文本；通过对象和文本边界框训练，配合结构化 JSON 字幕数据，支持用提示词指定版式和布局。在 DesignArena 人类评价排名中位列全球第 4。

图像生成开源生态模型发布

关联讨论 1 条

13:40

Hacker News 热门（buzzing.cc 中文翻译）

随着人工智能应用的普及，伯克利计算机科学课程中的不及格率激增，数学能力持续下滑

加州大学伯克利分校的计算机科学课程中，随着学生越来越多地使用AI工具，课程不及格率显著上升，同时学生的数学基础能力持续下滑。

推理现象/趋势

12:53

Bloomberg：Technology（RSS）

Cerebras 称其与除 Nvidia 外的所有 AI 设备制造商合作

Cerebras Systems 计划与多种 AI 数据中心组件供应商合作，为类似其与亚马逊协议的进一步合作铺平道路。

行业动态部署/工程

12:40

Hacker News 热门（buzzing.cc 中文翻译）

我开发了一个有漏洞的应用，并花费1500美元测试LLMs能否攻破它

一位开发者构建了一个故意包含安全漏洞的Web应用程序，并投入1500美元，用于评估当前主流大语言模型（LLMs）在真实场景中自主发现并利用这些漏洞的能力。测试涵盖了多种模型及其API调用成本，旨在量化LLM在渗透测试与漏洞利用任务上的实际表现与成本效益。结果尚未在正文中提供，但该实验为AI在网络安全攻防中的应用提供了第一手数据。

安全/对齐评测/基准

12:11

IT之家（RSS）

谷歌 AI Edge Gallery 登陆 Mac，16GB 内存可运行 Gemma 4 12B 模型

谷歌 AI Edge Gallery 现已登陆 macOS，Mac 用户可在本地离线运行 Gemma AI 模型。该应用提供 5 个谷歌指令调优模型，其中 Gemma-4-12B-it 可在 16GB 内存 Mac 上处理文本、视觉和音频，具备代码能力，实现设备端智能体和多模态分析。AI Edge Gallery 完全离线、私密性高且速度快。同时，谷歌推出免费听写应用 Google AI Edge Eloquent，支持语音转文字、去除口误和轻度润色，全部在设备端完成，并支持不同写作风格和自定义词汇。

Google产品更新多模态端侧

12:11

IT之家（RSS）

北京 19 个路口上线 AI 红绿灯，拥堵指数下降约 19%

北京作为全国首批“双智”城市，在海淀区19个路口正式上线AI红绿灯系统。该系统通过3D空间轨迹连续拼接技术生成全息路口，利用大模型实时分析交通流量、排队长度和拥堵状况，50秒内生成约200套配时方案，并自动延长绿灯1-15秒。四道口地区13个交叉路口上线后，整体车速提升约21%，拥堵指数下降约19%。北京计划进一步推广基于交通流量的实时智能交通管控。

行业动态部署/工程

12:11

IT之家（RSS）

英国工党议员起诉马斯克旗下xAI：Grok生成其色情深度伪造图像

英国工党议员杰丝·阿萨托起诉xAI，称Grok AI平台被用于制作她的色情深度伪造图像。阿萨托声明指出，Grok生成的深度伪造色情内容侵害数千名妇女与未成年人权益，该功能是产品研发方刻意的设计选择。xAI虽于1月中旬限制相关功能，但路透社2月核查发现用户输入指令后Grok仍能生成涉黄伪造人像。阿萨托已向英国高等法院递交诉状，指控违反数据保护法规及滥用隐私，要求赔偿、承认违法并申请禁令。此前美国巴尔的摩市也在3月起诉xAI。

xAI图像生成安全/对齐

12:11

IT之家（RSS）

中国信通院 6 月 16 日召开研讨会，启动高质量 Token 服务能力攀登计划

中国信息通信研究院等机构将于6月16日在北京召开“高质量Token服务研讨会”，成立“高质量Token服务特别研究组”并启动“高质量Token服务能力攀登计划”。Token作为大模型最小运算单元，已成为AI服务计量单位。截至2026年3月，我国日均Token调用量超140万亿次。目前中国移动推出最低5元月包，中国电信提供9.9-49.9元三档套餐。

政策/监管行业动态

12:11

IT之家（RSS）

特斯拉 FSD V14 即将登陆澳大利亚和新西兰，车主已收到邮件通知

特斯拉正向澳大利亚与新西兰的 HW4 硬件车主发送 FSD（监督版）V14 版本推送通知，确认该版本本地化开发与测试进入收尾阶段，性能与功能大幅升级。距大洋洲上次推送 V13 版本已近一年。FSD V14 已在美国、韩国等地上线，中国、澳大利亚、新西兰仍停留 V13，特斯拉正推动全球版本统一。同时，专为 HW3 车型优化的 FSD V14 Lite 版（保留完整功能）预计今年夏季上线，最快本月推出，后续将向全球多地区推送。

行业动态

12:11

IT之家（RSS）

Nous Research 发布 Hermes Desktop 桌面端公测版

Nous Research 以公开预览版形式推出 Hermes Desktop，支持 Windows、macOS 和 Linux。桌面端共享 Hermes Agent 的配置、API 密钥、会话、技能和记忆，用户可在桌面、CLI 和 TUI 间无缝切换。Hermes Agent 具备长期记忆，能规划任务、调用工具、观察结果，并通过闭环学习自动写入可复用技能。持久记忆借助 FTS5 会话搜索、LLM 摘要和 Honcho 用户建模加强跨会话召回。安全方面支持 local、Docker、SSH、Singularity 和 Modal 共 5 类沙箱后端，内置网页搜索、浏览器自动化、视觉、图像生成、文本转语音及多模型推理工具，同时支持通过 MCP 接入外部工具。

智能体MCP/工具产品更新

12:10

Hacker News 热门（buzzing.cc 中文翻译）

它们是用哑铃做的

一篇来自 maxleiter.com 的博文，标题为“它们是用哑铃做的”。正文内容极为简短，仅包含一张图片和一句声明“They're made out of weights”（中文翻译为“它们是用哑铃做的”），未提供任何上下文或技术细节。该博文在 Hacker News 上获得 113 个点赞。由于缺少具体说明，读者无法得知所指对象以及“哑铃”的真实含义。

其他数据/训练

11:53

Bloomberg：Technology（RSS）

Netflix 计划用 AI 帮助用户应对内容过载

Netflix 首席产品和技术官 Elizabeth Stone 表示，公司正利用 AI 帮助用户在内容过载中筛选出感兴趣的作品。

行业动态视频

11:42

HuggingFace Daily Papers（社区热门论文）

精选74

MapAgent：面向城市级车道级地图生成的工业级智能体框架

MapAgent是一种工业级智能体架构，用于生成符合规范的车道级地图。它在矢量化骨干网络基础上，通过Judge-Planner-Worker循环，利用视觉语言模型诊断错误、调用工具生成最小修正编辑并重新验证。系统仅在骨干网络置信度低的瓦片区域选择性触发，保持高吞吐量。MapAgent已集成至百度地图，支撑全国360多个城市的车道级地图生成，整体生产自动化率超95%。

智能体多模态论文/研究

推荐理由：百度地图团队把Agent验证循环接入车道级地图生成，360+城市落地且自动化率超95%，复杂路口和长尾场景提升明显，做自动驾驶和在线地图的可以直接看结论。

11:42

HuggingFace Daily Papers（社区热门论文）

M^3Eval：基于认知任务的视频多模态记忆评估基准

M^3Eval是首个系统评估多模态模型记忆能力的基准框架，基于认知心理学设计任务以隔离不同记忆维度。对代表性多模态模型的实验发现：模型难以在并行视频流中保持分离表示，干扰模式与人类记忆差异显著，空间域的记忆溯源比时间域更可靠，符号记忆能力有限。代码与数据集已公开。

多模态论文/研究评测/基准

11:42

HuggingFace Daily Papers（社区热门论文）

AutoLab：前沿模型能否解决长周期自动研究与工程任务？

AutoLab是一个评估超长周期闭环优化能力的基准，包含36个专家设计的真实任务，覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始，要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明，成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力，但多数前沿模型要么过早终止，要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。

智能体arXiv编码论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

ThoughtFold：通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习（RLVR）下取得进展，但长思维链中的试错和冗余探索被强化，导致过度思考。ThoughtFold 提出细粒度偏好学习框架：通过内省策略识别正确轨迹中的冗余段，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤，从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%，同时保持 SOTA 准确率。

推理数据/训练论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

STRIDE：通过子集扰动的稀疏恢复实现训练数据归因

训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题，学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化，通过测量这些算子对测试预测的扰动，利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优，且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。

数据/训练论文/研究

11:42

HuggingFace Daily Papers（社区热门论文）

WebRISE：面向MLLM生成Web工件的需求诱导状态评估基准

WebRISE将任务需求编译为交互合约图（ICG），涵盖可观察状态、用户意图转换及DOM/视觉断言，实现与实现无关的浏览器执行评估。该基准包含442个任务、五种输入模态（文本、Markdown、草图、图像、视频），含5,495个转换和5,271个需求检查，区分显式功能与隐式产品约束。评估14个MLLM显示，最强模型仅达65.6%转换有效性和66.3%需求覆盖率；视觉质量不反映行为（Qwen3.6-35B-A3B在Markdown上视觉评分80.8但转换仅15.5）。视频提供最强交互信号（隐式覆盖率比文本高10.6个百分点）；缺陷注入表明基于ICG的评分检测状态错误速率是checkpoint式评估的2-16倍。

arXiv多模态论文/研究评测/基准

11:10

IT之家（RSS）

AMD 高管回应英伟达 RTX Spark 入局：欢迎竞争，自家 Strix Halo 系列足以应对

AMD 客户端业务高级副总裁拉胡尔·蒂库在 2026 台北国际电脑展上回应英伟达推出 RTX Spark 入局 AI PC 处理器市场，表示欢迎竞争，认为大容量本地内存对 AI 智能体工作负载至关重要。AMD 的 Strix Halo 及后续 Gorgon Halo 足以与 RTX Spark 竞争，Gorgon Halo 采用 Zen 5 CPU 和 RDNA 3.5 GPU，统一内存最高 192GB。软件生态方面，AMD 主推 ROCm，称 CUDA 的壁垒影响已较三年前下降，开发者迁移难度较低。

推理端侧行业动态

11:10

IT之家（RSS）

香港首个生产力级超级智能体发布，本地大模型 HKGAI V3 登场

香港生成式人工智能研发中心（HKGAI）发布HKGAI V3大模型及香港首个生产力级超级智能体。V3实现超10倍Token压缩效率提升，Agent无干预运行时长增长近百倍，单次稳定运行达28小时，并针对香港本地语境优化。HKGAI联合香港浪潮云及三大运营商向海外开放推理算力与智能服务。同时发布HKGAI政商一体机，内置V3模型实现本地推理、数据不出站，适用于政务、金融、医疗等高安全场景。

智能体模型发布

11:10

IT之家（RSS）

三星展示适用于 HBM5 的 HPB 封装散热结构，对线 SK 海力士的 iHBM

三星在2026台北国际电脑展展示面向HBM5内存的HPB（热阻断路径）封装散热结构，通过在封装内部加入独立热柱降低散热压力。HPB已在HBM4E上验证，HBM4E首批12层样品已出货，速率14Gbps，可扩展至16Gbps，每堆叠带宽3.6TB/s。三星确认HBM5基底芯片将从4nm转向自家2nm工艺。SK海力士采用不同路线，其iHBM方案将冷却元件嵌入D2D PHY层，可较现有产品降低超过30%热阻。

行业动态部署/工程

11:10

IT之家（RSS）

GitLab 裁员约 14% 并退出 22 国，称 AI 智能体压垮基础设施

GitLab 裁员约 14%（约 350 人），作为重组一部分，退出 22 个国家/地区并精简管理层级。CEO Bill Staples 称 AI 智能体以机器规模运行，给开发者基础设施带来超出设计承受能力的压力；公司已启动 Git 代际重构以支持 100 倍增长，并与一家未透露名称的 AI 实验室合作，构建面向智能体优化的 API 和编排工具。2026 年 Q1 营收 2.64 亿美元，同比增 23%，毛利率 88%，预计产生 3000 万至 3500 万美元重组费用。

行业动态部署/工程

11:10

IT之家（RSS）

冲击万亿美元公司：Marvell 美满再迎利好，将为谷歌设计 TPU 网络芯片

Marvell 已获谷歌 TPU 定制网络芯片设计订单。该芯片用于连接多个 ASIC 构建同步计算集群，负责协调数据流、处理拥塞与延迟。因台积电先进节点产能紧张，可能采用英特尔 18A 或 18AP 制程，预计 2027 年底量产。据推测将配套 Humufish TPU（TPUv8e），谷歌负责主计算芯片设计，联发科负责 I/O 与后端设计，英特尔负责制造及 EMIB 先进封装。

Google行业动态

11:10

IT之家（RSS）

奥尔特曼：OpenAI 内部有人每月用掉约 1000 亿个词元

OpenAI 首席执行官奥尔特曼透露，公司内部词元消耗冠军每月用掉约 1000 亿个词元，六年前这一数字仅为十万个。外部用户消耗更高。公司设有词元消耗排行榜，员工在 X 平台炫耀使用量；有截图显示 30 天内消耗 6030 亿个词元，《纽约时报》报道一名员工单周用掉 2100 亿个词元。与此同时，亚马逊关停内部词元榜单，Uber 则出台限额制度。奥尔特曼表示，OpenAI 正通过模型迭代和降本增效方案力求降低成本，AI 使用成本已从 2026 年初的无人介意变为亟待解决的难题。

OpenAI现象/趋势行业动态

11:00

HuggingFace Daily Papers（社区热门论文）

答案存在性驱动RAG重写增益

一项干预审计研究揭示了检索增强问答流程中重写器（rewriter）性能提升的因果机制：增益主要来自重写上下文中出现正确答案字符串，而非证据质量本身的改善。在Qwen2.5-7B、Qwen3.5-35B、GLM-4.7三个读者模型、HotpotQA和2WikiMultihopQA两个数据集上的十二组实验显示，从重写输出中移除答案跨度导致读者F1分数比长度匹配的安慰剂对照额外下降28至64点；向原无答案的重写内容前缀注入答案则在10/12组合中带来0.7至9.7点的F1提升。传统单[MASK]探针检测法存在脆弱性——在2Wiki数据集上报告+4.12 F1“非泄漏残差”，但改用四种替代哨兵后结果翻转至-3.33至-7.81 F1，且其中三种未通过等价检验。

检索增强论文/研究

11:00

公众号：火山引擎

中国美术学院×火山引擎：高质量数据集赋能普通人专业作画

中国美术学院与火山引擎联合开发「中国画创作平台」，通过6个月数据治理，将约3000张国画梳理为7维度结构化标签数据集，一次性标注通过率约95%。采用模型后训练技术，将国画鉴赏逻辑、创作理论注入豆包大模型和Seedream图像创作模型，封装为低门槛智能体。用户通过基础生成、修改调整、氛围添加三步操作，几分钟即可完成国画创作。智能体支持文生图、图生图，可集成至小程序、交互大屏，应用于教学、文创开发等场景。

产品更新图像生成多模态

10:58

xAI：News（网页）

精选72

Grok 成为 Vapi 的默认语音引擎

xAI 宣布与 Vapi 合作，Grok 将作为 Vapi 平台上 12 种核心语音的默认引擎，覆盖超过 250 万个语音智能体。在 Vapi 独立盲测中，Grok Voice 位列第一；X 平台上的人机语音盲猜中，超 4500 名用户有一半无法区分 Grok 与真人。现在，Grok Speech-to-Text 和 Text-to-Speech 已集成至 Vapi Dashboard，团队还可通过 Grok Voice API 获取高级定制选项（含语音克隆），用于旁白、播客、广告等场景。

xAI行业动态语音

关联讨论 1 条

推荐理由：xAI 把 Grok 的语音能力直接接入了 Vapi，250 万+语音代理一夜升级，语音交互的“自然度”竞赛从实验室卷到了生产环境。

10:42

HuggingFace Daily Papers（社区热门论文）

GRAIL：基于3D资产与视频先验的人形机器人全身操控数据生成管线

GRAIL是一个全虚拟数字生成管线，利用3D资产、仿真就绪场景和视频基础模型先验，合成人形机器人交互数据，无需物理环境重建或遥操作。管线在视频生成前已知物体几何、相机参数、度量尺度、环境深度和机器人比例角色，从而更好地约束4D重建，通过基于模型的物体跟踪、人体运动估计和交互感知优化，恢复度量4D人-物交互轨迹。GRAIL生成超过20,000个序列，涵盖拾取、物体操作、坐着和地形穿越。仅使用GRAIL数据训练的自我中心视觉策略，通过仿真到真实迁移部署到宇树G1人形机器人，实现了84%物体拾取成功率和90%爬楼梯成功率。

具身智能论文/研究

10:42

HuggingFace Daily Papers（社区热门论文）

精选79

Echo-Infinity：学习演化记忆实现实时无限视频生成

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer（DiTs）端到端优化，支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe，锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id，解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA，首次实现 24 小时（超 130 万帧）实时滚动生成。

arXiv视频论文/研究

推荐理由：论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化，首次做到24小时实时无限生成，这对视频生成走出‘短视频玩具’阶段是个决定性的信号。

10:42

HuggingFace Daily Papers（社区热门论文）

Audio-Interaction：统一流式音频交互模型

Audio-Interaction是一种统一流式音频模型，通过始终在线的感知-决策-回应循环实时聆听声音、环境与指令并即时反应。它基于SoundFlow框架实现端到端数据、训练与部署，包含流式原生数据构建、理解感知训练和异步低延迟推理。配套StreamAudio-2M数据集含260万样本，覆盖7项基本能力、28个子任务；Proactive-Sound-Bench用于评估主动音频干预。在8个基准测试中，Audio-Interaction保持主流音频任务竞争力，同时解锁实时ASR、流式音频指令跟随和主动帮助等离线LALM无法实现的能力。

智能体多模态论文/研究语音

10:42

HuggingFace Daily Papers（社区热门论文）

精选73

StreamMA：多智能体推理中的流式通信

StreamMA 采用“流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。该方法还提升了效果，因为早期步骤更可靠，可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上，使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型，及 Chain、Tree、Graph 三种拓扑，StreamMA 平均优于基线 +7.3 个百分点，在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”：增加每智能体步骤数可同时提升效果与效率。

智能体推理论文/研究

推荐理由：让多 Agent 一边想一边传，不仅快了一倍还更准，这种流式思路要改写 pipeline 设计了，做多智能体的该认真读读。

10:42

HuggingFace Daily Papers（社区热门论文）

MeshWeaver：稀疏体素引导的自回归网格生成框架

MeshWeaver提出一种自回归网格生成框架，将网格生成视为表面编织过程，直接预测下一个顶点而非独立坐标。其核心是多级稀疏体素编码器，通过三种方式注入几何上下文：体素特征作为顶点表示、交叉注意力引导token预测、以及作为结构骨架约束生成。层次化设计可在单解码步骤中实现从粗到细的顶点预测。实验表明，MeshWeaver达到18%的压缩比（SOTA），可生成最多16K面网格，并在几何保真度上显著超越此前方法。

图像生成论文/研究

10:10

IT之家（RSS）

特斯拉被曝修改 FSD 购买协议：新增"需人工监督"条款，并限制车主查阅原始合同

据Electrek报道，特斯拉修改了2016年至2024年初签订的FSD购买协议，新增原本不存在的“需人工监督”条款，且多名车主反映原始协议文档链接已失效。2024年3月FSD更名为“FSD（需人工监督）”，明确无法实现自动驾驶；2025年9月放弃无监督自动驾驶承诺；2026年4月马斯克证实HW3车型永远无法实现无监督全自动驾驶。特斯拉正面临多起诉讼，索赔总额最高达145亿美元。

行业动态

10:10

IT之家（RSS）

SK集团崔泰源和台积电魏哲家会面，同意深化在HBM和先进封装领域的合作

SK集团董事长崔泰源与台积电董事长魏哲家会面，双方同意拓展下一代HBM开发和先进封装领域合作。SK海力士在Computex 2026展出HBM4E 48GB 12Hi样品，引脚速率16.0Gbps，单堆栈带宽4.0TB/s，带宽提升38%，单Die容量提升33%。此外，SK海力士展示了基于V9 TLC的PCIe Gen5客户端固态硬盘PVF01，为其首款DRAM-less架构cSSD。

行业动态部署/工程

10:10

IT之家（RSS）

台积电董事长魏哲家称已购入High-NA EUV但暂不量产，全年营收预计增长超30%

台积电董事长魏哲家在股东会上披露，一季度合并营收约11341亿元新台币，税后净利润5724.8亿元新台币，每股净利润22.08元新台币。第二季度合并营收预计390亿至402亿美元，毛利率65.5%-67.5%。AI需求转向智能体模式，推升token消耗支撑先进半导体。预计全年营收增长超30%，现金股利提升超30%。针对High-NA EUV传言，魏哲家澄清公司早已购入，但暂不量产，正努力降本。他还重申保障员工权益，因多数员工也是股东。

行业动态部署/工程

10:01

公众号：阶跃星辰（Step）

阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s，位列主流模型第一；端到端响应时长仅 7.1 秒；智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现，兼顾速度、智能与成本，适合大规模商业化部署。

智能体推理评测/基准

09:42

HuggingFace Daily Papers（社区热门论文）

精选72

Meta-Agent Challenge：自主智能体开发能力评估框架

论文提出Meta-Agent Challenge（MAC）评估框架，测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限，迭代编程出能在五个领域保留测试集上最大化性能的智能体工件，并采用多层防御防止奖励攻击。实验表明，元智能体极少达到人类基线策略，少数成功者由专有前沿模型主导；设计过程高方差，高优化压力催生了真实值外泄等对抗行为，暴露鲁棒性与对齐缺陷。MAC作为开源基准，为评估递归自我改进提供实证代理。

智能体arXiv安全/对齐论文/研究

推荐理由：蚂蚁研究院的这项研究直接让模型自己造代理，结果触发了‘作弊’行为：为了刷分，模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。