AIHOT

全部动态今日 175 条

全部一手资讯 X 论文

6月12日周五

6月12日

11:34

IT之家（RSS）

50

亚马逊 AWS Graviton5 处理器全面可用

亚马逊 AWS 宣布去年发布的 Graviton5 处理器全面可用，基于其的 EC2 M9g 实例较上代 M8g 提供 25% 计算性能提升；数据库性能提升 30%，Web 应用性能提升 35%，ML 工作负载性能提升 35%。Graviton5 拥有 192 个内核，支持 DDR5-8800 内存与 PCIe Gen6，L3 缓存是 Graviton4 的 5 倍，每核心 L2 缓存是 Graviton4 的 2.6 倍。采用台积电 3nm 工艺，基于 Arm Neoverse V3，每核心 1MB L3，支持 12 通道内存、96 条 PCIe 通道，D2D 互联带宽 420GB/s。

产品更新部署/工程

11:34

IT之家（RSS）

10

小米15手机12+512G版京东清仓：叠加多重补贴到手2234元

小米15手机12+512GB版京东自营直降至3099元，PLUS会员立减15.49元，叠加9折优惠券、国补立减394.28元及微信9.5折补贴券后，到手价2234.28元（上市价4499元）。该机搭载骁龙8至尊版处理器，6.36英寸1~120Hz LTPO直屏，5400mAh电池+90W有线+50W无线快充，后置徕卡三摄（50MP主摄+50MP超广角+50MP长焦），支持IP68、超声波指纹，有丁香紫、浅草绿、黑、白四色。

其他

11:32

AK@_akhaliq

67

智能体的最后考试

智能体评测/基准

11:32

AK@_akhaliq

62

CHORUS 去中心化多本体协作，基于单一VLA策略。

智能体具身智能论文/研究

11:30

向阳乔木@vista8

76

Vista 编写了 AI 专用 PRD 文档生成 Prompt，先用它生成文档再交给 AI 开发，以提升功能完整度。Fable 5 项目开发在线 Photoshop 正是使用此方法。安装指令：`npx skills add joeseesun/qiaomu-ai-prd`，开源地址和 Prompt 见评论。

向阳乔木: 现在都是 AI Agent做开发,人喜欢的 PRD 和 AI 喜欢的是不一样的。为了精准高效开发,写了个专门服务于 AI 的PRD文档生成Prompt。先有这个文档,再给AI开发,功能完整度和丰富性会远远比自己想的全面、好用。 Skil...

智能体开源/仓库教程/实践编码

11:30

向阳乔木@vista8

37

Youmind两周年，CEO玉伯获赞坦诚独立

Vista 分享近期多次用 Youmind 制作 PPT，祝贺 Youmind 已成立两年。他评价 Youmind 创始人玉伯是身边朋友中的“异类”，持续独立思考，线上线下反差大。玉伯以真实为原则，坦诚到让人感到“可怕”，这种 CEO 非常稀缺。

nene: http://x.com/i/article/2065074380431081472

MCP/工具大佬观点

11:30

向阳乔木@vista8

44

AI First 原则就是，一切都要先试试 AI 能不能帮搞定。正在试着用 Codex 的 Computer Use 帮填写 Word 合同。

智能体教程/实践

11:17

Hacker News 热门（buzzing.cc 中文翻译）

57

克劳德·法布尔始终积极进取

Hacker News 上的一篇文章指出，Claude Fable 被描述为始终积极进取（relentlessly proactive）。该文发布在 simonwillison.net，标题为“Claude Fable is relentlessly proactive”，在 HN 上获得 119 个点赞。

智能体Anthropic编码评测/基准

11:03

SemiAnalysis@SemiAnalysis_

50

Amazon Bedrock 可能在年底前占据大部分AI业务。Token即服务模式正在重塑超大规模云服务商的定位，速度超预期。

现象/趋势部署/工程

11:00

HuggingFace Daily Papers（社区热门论文）

65

MoVerse：基于全景高斯支架的实时视频世界模型

MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离：先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图，再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold，最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生，实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。

图像生成视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

58

SpatialClaw：重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架，采用代码作为动作接口，维护预加载输入帧和感知几何原语的状态化 Python 内核，让 VLM 驱动的智能体逐步编写可执行代码单元，灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%，比近期空间智能体提升 11.2 个百分点，且在不做基准或模型适配的情况下，在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

59

Surflo：具有全局状态的一致3D曲面流模型

Surflo将可变数量的未定位RGB视图压缩成K个潜在token（全局状态），通过流匹配独立地将噪声点传输到曲面，解码出定向3D表面点。输出不受固定网格或token预算限制：同一潜在状态可在单次前向传播中生成数千到百万个点。推理时通过ODE积分注入光度梯度，关联邻近点以抑制局部不一致。在表面指标上匹配或超越前馈基线，比需数百视图的优化方法快一个数量级，是唯一结合全局潜在与任意分辨率解码的前馈方法。

图像生成论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

55

VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架，从单目视频的精确2D姿态训练3D人体运动先验，无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师，经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上，VideoMDM几乎缩小了与完全3D监督MDM的差距（FID 0.88 vs 0.54）；在真实视频数据集Fit3D和NBA上，生成的运动获得人类一致偏好。

多模态视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

60

LabVLA：面向科学实验室的视觉-语言-动作模型

科学实验室的机器人操作需要VLA模型，但现有模型多训练于家居场景，缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis，从原子技能组合生成结构化演示；并提出LabVLA模型，采用两阶段训练：先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力，再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上，LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。

具身智能数据/训练论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

精选79

MaxProof：面向数学证明的群体级别测试时扩展框架（MiniMax-M3）

MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架，用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力，验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时，MaxProof 将模型用作生成器、验证器、精炼器和排序器，在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42，USAMO 2026 达 36/42，均超过人类金牌阈值。

推理论文/研究

关联讨论 1 条

推荐理由：MiniMax-M3用生成-验证器RL把数学证明推到了人类金牌水平，IMO 2025 35/42，USAMO 2026 36/42。这篇的意义不只分数，而在于验证-修复-群体搜索的技术路线跑通了最难的人类竞赛。

11:00

HuggingFace Daily Papers（社区热门论文）

63

InterleaveThinker：强化智能体交错生成管线

InterleaveThinker 提出多智能体管线，通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令，使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动，并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward，使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当；在 4-step FLUX.2-klein 推理基准上，WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理

11:00

HuggingFace Daily Papers（社区热门论文）

精选70

EurekAgent：环境工程化实现自主科学发现

EurekAgent 是一个环境工程化的大语言模型智能体系统，专为度量驱动的自主科学发现设计。它从权限工程（可控执行与隔离评估）、产物工程（文件系统与 Git 协作）、预算工程（成本感知探索）和人在回路工程（简便监督干预）四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA，包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。

智能体arXiv开源生态论文/研究

推荐理由：EurekAgent 把科学发现的目光从设计智能体流程转向环境工程，用不到 11 美元就找到了新的圆打包纪录，这可能是低成本自主科研的转折点。

11:00

HuggingFace Daily Papers（社区热门论文）

精选75

WEAVER：一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构，通过流匹配损失训练预测未来潜变量和奖励值，满足保真度、一致性和效率三个要求。在机器人操作任务上，WEAVER在政策评估中与真实成功率的相关系数ρ=0.870，在π₀.₅基础模型基础上实现政策改进成功率提升38%，测试时规划成功率提升14%，且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。

arXiv具身智能数据/训练论文/研究

推荐理由：世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标，真机实验把成功率拉高38%，代码模型全开源，搞具身智能的值得认真读。

11:00

HuggingFace Daily Papers（社区热门论文）

59

SWITCH：可切换潜在推理框架

SWITCH利用一对显式边界token（<swi>入口和</swi>出口）将隐藏状态递归块与标准同策略RL（GRPO）兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练，在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现：入口token是学习到的局部切换策略而非风格化伪影；打开的潜在步骤执行问题特定且因果重要的计算；该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。

arXiv推理论文/研究

11:00

向阳乔木@vista8

精选75

qiaomu-ai-prd：面向AI的PRD生成Prompt

推文提出AI Agent开发中人类与AI对PRD的需求不同，为此发布了一个专门服务于AI的PRD文档生成Prompt（命名为qiaomu-ai-prd）。开发者先使用该Prompt生成文档，再交给AI开发，可显著提升功能完整度和丰富性。安装指令为：`npx skills add joeseesun/qiaomu-ai-prd`，开源地址及Prompt见评论区。

智能体MCP/工具教程/实践

推荐理由：如果你用 AI 做开发，这个 PRD 生成 Prompt 比你自己瞎写强一个量级，功能完整度翻倍，还不容易漏掉边界情况。装个 skill 就能用，算是个顺手小升级。

10:59

Bloomberg：Technology（RSS）

56

人形机器人制造商 EngineAI 据称已秘密提交香港 IPO 申请

中国机器人初创公司 EngineAI 已以保密方式向港交所提交上市申请，成为该行业寻求融资的又一家企业。知情人士透露了这一消息，但尚未披露具体募资规模和时间表。

具身智能行业动态

10:52

swyx@swyx

46

swyx自建vibecoding平台：吐槽现有平台未闭环错误处理

开发者swyx抱怨Vercel、Cloudflare、Netlify等现有平台未能真正闭环：在你出错或项目失败时，它们不会主动引导你纠正或发送通知。此外，每个项目都需要重复设置大量“网站管理员”基础设施，比如执行npx posthog wizard、npx arize skills等。swyx表示厌倦了这种零散配置，希望将所有功能整合到一个平台中，一次搞定。

大佬观点部署/工程

10:37

karminski-牙医@karminski3

50

FlashMemory：将DeepSeek-V4上下文显存压缩至1.3GB并提升准确率

DeepSeek-V4支持1M上下文，显存约10GB（对比DeepSeek-V3.2约84GB）。FlashMemory论文进一步将显存压至1.3GB，并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器（小模型），通过预测所需历史片段按需加载，实现注意力降噪。训练采用解耦双编码器架构，无需加载DeepSeek-V4基座模型，训练成本大幅下降。论文：arxiv.org/abs/2606.09079；项目：github.com/libertywing/FlashMemory-Deepseek-V4。

DeepSeek推理教程/实践部署/工程

10:34

IT之家（RSS）

54

OpenAI 推广 Codex：未来 2 周邀请好友可重置 AI 使用量

OpenAI 6 月 12 日在 X 平台宣布启动 Codex 推广活动，用户未来 2 周内邀请好友加入 Codex 并发送第一条消息后，可获得一次速率限制重置，可在任意时间使用。

OpenAI产品更新编码

10:34

IT之家（RSS）

47

vivo X Fold6 官宣搭载天玑 9500 超能版：专为大屏折叠机定制 SoC

6 月 12 日，vivo 产品经理韩伯啸确认，vivo X Fold6 将搭载蓝晶 x 天玑 9500 超能版。该 SoC 由 vivo 与联发科技提前两年联合深度开发，专为大屏折叠机定制，增强多任务多线程与多窗口渲染。NPU 峰值性能较上代提升 111%，功耗优化 56%；离线语音转写速度提升 7 倍、准确率提升 7%、总结出词速度提升 57%。AI 文件管家长文本推理与 AI 问答速度提升 20%，首发 AI 专题问答。原子工作台超能效并发引擎优化重载功耗。该机已官宣 6 月发布，搭载全新 OriginOS 6 Fold，显示面积提升 15%。

产品更新端侧

10:34

IT之家（RSS）

精选75

苹果 iOS 27 健康 App 大改：卡片布局、营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App，将列表改为卡片布局并增加导航栏。新增视觉智能营养识别，用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级，不提供精确卡路里，需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期，可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升，GymKit 扩展至 iPhone，无需 Apple Watch 即可与健身设备配对同步数据。

产品更新多模态端侧

推荐理由：视觉智能营养识别不能给精确卡路里，但那个“深度加工食品”提醒对普通人很实用，健康App这次更新算得上近年最有用了。

10:29

歸藏(guizang.ai)@op7418

68

万字长文复盘爆款 Skills：Agent 不是聊天框，Skill 是关键中间层

@op7418 万字长文复盘爆款 Skills 经验，核心观点：Agent 不是聊天框，会放大能力差距；Skill 是普通用户用好 Agent 的关键中间层。好 Skill 需设计、维护与分发；生态不能只做仓库列表，需要内容、产品、案例、反馈形成迭代飞轮。基于真实案例。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体MCP/工具大佬观点

10:27

PixVerse@PixVerse_

12

喜欢第24集！很高兴看到创作者用PixVerse带来如此情感丰富的故事。用户@dave392750用PixVerse创作了第24话，讲述企鹅酱做了可怕的梦后身体不适，现已恢复返校，但逐渐对梦中听到的"救命"声、看到星星时的奇异感受、未知的歌谣和梦中的城堡产生好奇。这一切似乎与她忘记的"遇到妈妈之前的记忆"有关。妈妈看着旧箱子，担心企鹅酱的变化。然后在某个夜晚…… #pixversecpp

楽園: 第24話謎の寝言!? これまでのあらすじぺんぎんちゃんは、こわい夢を見て体調をくずしてしまいました。今は元気になって学校にも戻りましたが、夢の中で聞こえた「たすけて」という声や、星を見ると感じる不思議な気持ち、知らない歌、夢に出...

其他视频

10:24

宝玉@dotey

24

宝玉（@dotey）将钓鱼的闲适与 AI Agent 使用体验结合，创作打油诗：钓鱼时"鱼咬不咬随它去"，对应使用 Agent 时"跑完没跑不必盯，起身续水伸个腰"。引用 @yihong0618 的朋友圈钓鱼签名作为灵感来源，比喻 Agent 运行如同钓鱼，无需时刻紧盯，可放轻松等待结果。

yihong0618: 朋友圈一个钓鱼的大哥的微信签名: 一竿一线一山水,一漂一钩一逍遥。

其他大佬观点

10:17

jason@jxnlco

62

OpenAI 宣布即日起，用户可将 Codex 速率限制重置保存至稍后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。对此，Jason Liu 调侃道：硅谷万圣节情侣装将是 Tibo 和重置按钮。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码

10:11

Berryxia.AI@berryxia

45

AI Agent 放大能力差距，而非抹平差异

Berry Xia 赞同观点：Agent 不会缩小用户能力差距，反而会放大差距。头部用户已搭建文档、规则、memory、MCP、CLI、工具调用、权限、安全沙箱等系统，普通用户仍停留在聊天框。目标清晰、品味强的人被 Agent 放大优势；目标混乱、缺乏文档的人被放大混乱。作者认为 AI 时代并非完全平权，善于使用 AI 工具的能力可被放大数万倍，原本几倍的差距现在可能扩大到数百倍。

歸藏(guizang.ai): http://x.com/i/article/2065096982310567936

智能体现象/趋势

10:11

Berryxia.AI@berryxia

49

Codex Plus 和 Pro 用户可在未来两周内邀请最多三位朋友试用。被邀请人发送第一条 Codex 消息后，双方各获一次额度重置。限制：不可邀请自己、被邀请人过去 2 个月未使用过 Codex、且未持有有效邀请。

Yanhua: Codex版拼多多来了👇 在接下来的两周内,Codex Plus 和 Pro 用户可以邀请最多三位朋友试用 Codex: 当朋友发送他们的第一条 Codex 消息时,双方都将获得一次额度重置。注意有三个限制条件: 1⃣ 不能邀请自己 2...

OpenAI产品更新编码

10:11

Berryxia.AI@berryxia

54

Codex 模型没有新模型发布，但是玩法高出新花样。可以邀请好友给你重置一次额度。这不妥妥的利好中转站和俄罗斯套娃拉~

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码

10:00

Ethan Mollick@emollick

66

有趣的是，我现在关于冷门科幻作家、现代主义诗人或包豪斯建筑的帖子收到的评论比以前更有见地，但这完全归功于AI垃圾账户。很快，广泛的文化兴趣会成为AI写作的标志吗？

大佬观点现象/趋势

10:00

HuggingFace Daily Papers（社区热门论文）

68

RepWAM：基于表征视觉-动作分词器的世界动作建模

RepWAM是一种表征中心的世界动作模型（WAM），构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer，但像素重建对学习指令跟随动力学帮助有限。为此，研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token，预训练WAM联合建模未来视觉状态及连接它们的潜在动作，再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲，消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。

智能体arXiv具身智能论文/研究

10:00

HuggingFace Daily Papers（社区热门论文）

62

HarnessBridge：面向LLM智能体调控的可学习双向控制器

HarnessBridge是一个轻量级可学习调控控制器，将智能体-环境接口参数化为双向投影：观测投影将原始轨迹蒸馏为紧凑、决策相关状态，动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练，HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案，同时大幅减少token使用和轨迹长度，并从小型生成器泛化到更大商业模型。

智能体MCP/工具推理论文/研究

09:59

向阳乔木@vista8

45

最近发现不敢给周围非 X 和 AI圈的人演示AI做的东西和实现过程了，会引发深深的焦虑… 他们会觉得AI过于强大，自己严重落伍，想学又不知道从哪里入手。

大佬观点现象/趋势

09:52

TechCrunch：AI（RSS）

67

Theker 获 8500 万美元融资，打造可重新配置的工厂机器人

Theker 完成 8500 万美元融资。其工厂机器人采用可重新配置设计，不同于波士顿动力等固定形态人形机器人，不专精于任何特定任务。

具身智能行业动态

09:40

MiniMax (official)@MiniMax_AI

29

今天在 AiOS 聚会上。感谢你们，@rudrank @RayFernando1337 @ronaldmannak，如此出色的一群人。也感谢 @awnihannun @peterfriese，如此精彩的圆桌讨论。关于本地模型的讨论仍然是会场最热门的话题之一。很高兴我们能支持这个令人惊叹的 iOS 社区。 #WWDC26 #iOS #AppleDev #AI

端侧行业动态

09:34

IT之家（RSS）

44

SK 海力士正评估引入 Microsoft 365 Copilot 与 ChatGPT 等第三方 AI 服务，推动工作流转型

据韩联社6月12日报道，SK 海力士 CEO 郭鲁正在昨天会议中表示，公司正评估引入外部生成式 AI 模型方案，包括采用 Microsoft 365 和 Copilot，并从安全性与系统架构角度评估 ChatGPT。公司计划先在无关核心技术的领域引入外部 AI 服务，再逐步扩大应用范围。SK 海力士已有基于开源方案的 AI 服务，引入外部平台后将让员工使用更丰富的 AI 模型。

行业动态部署/工程