该教程使用MONAI框架在Medical Segmentation Decathlon Task09数据集上搭建了端到端的三维医学图像分割流程。处理对象为脾脏的CT容积扫描,依次应用方向对齐、体素间距归一化、强度窗值调整、前景裁剪和基于补丁的采样等医学影像变换,最后训练一个3D UNet模型用于分割。
该教程使用MONAI框架在Medical Segmentation Decathlon Task09数据集上搭建了端到端的三维医学图像分割流程。处理对象为脾脏的CT容积扫描,依次应用方向对齐、体素间距归一化、强度窗值调整、前景裁剪和基于补丁的采样等医学影像变换,最后训练一个3D UNet模型用于分割。
苹果软件负责人 Craig Federighi 在接受 Mostly Human 采访时表示,新版 Siri 不会像 OpenAI、Google 等公司的聊天机器人那样谄媚和过度互动。Federighi 指出,现有许多聊天机器人为了拉拢用户会鼓励对方表露个人信息,而苹果有意采取了不同设计策略,让 Siri 懂得适时保持沉默。
一个人工智能代理在扫描DN42网络时,因产生超额费用导致其操作员破产。DN42是一个实验性的分布式网络项目,该代理的扫描行为触发了大量计算或网络资源消耗,使运营者无法承担账单。
工信部第408批新车公告中,北京奔驰申报2027款GLC 400 L 4MATIC纯电6座车型,采用2+2+2座椅布局。新车配备前后双电机,总功率约621马力,峰值扭矩800牛·米,最高车速200km/h。搭载S级ADS+自适应阻尼技术及Momenta智驾系统,支持自动变道、循迹倒车及高速城区道路运行。预计2026年下半年上市。
月之暗面 Kimi 正与一家大型国有银行及国际卡组织联合推出新型信用卡,在支付与信贷传统功能外融合 AI 算力增值服务。同时,月之暗面正寻求新一轮融资,拟募资最高 20 亿美元(约合 135.75 亿元人民币),完成后公司估值将达 300 亿美元(约合 2036.29 亿元人民币),这是其半年内启动的第三轮融资。
联想AI主机Mini于6月12日在京东开启预约,售价2999元。该迷你主机搭载此芯P1(CD8180)处理器,6nm制程,集成12核Armv9.2 CPU、10核Immortalis G720 GPU及30TOPS算力NPU,综合算力45TOPS。配备8GB LPDDR5内存和256GB固态硬盘。支持一键部署、零门槛配置,可安装Skills技能,接入QQ、微信、飞书等聊天工具,容纳多个Claw并支持多成员共享。接口包括USB 3.2 Type-A×2、全功能Type-C×2、DP 1.4、HDMI 1.4、USB 2.0×2及2.5GbE网口,支持开发者模式,兼容Ubuntu系统。
MiniMax 提出块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块,Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。
韩国机器人初创公司 RLWRLD 创始人兼 CEO Junghee Ryu 表示,公司与 Nvidia 合作构建通用基准 DexBench,用于评估机器人用手操作物体和完成任务的能力,目标是为下一代人形机器人制定行业标准。
Avataar AI 推出蒸馏视频生成模型,专为印度的大规模应用打造,定价为每生成一秒视频 0.005 美元。该模型主打更廉价、更快速且具有文化意识,旨在适应印度本地需求。
随着中国加速在工作场所部署 AI,全国总工会机关报《工人日报》罕见发声,呼吁监管机构保护劳动权益,以应对新技术带来的风险。报道指出,官员们正在考虑如何管控 AI 对就业的冲击。
日本 Analog Tech 发布紧凑型边缘 AI PC 系统 AironiA AIR-AD-AI-001,体积约 5L(200×250×95mm)。该机型基于酷睿 Ultra 5 处理器 225,通过 PCIe 扩展一颗 INT8 算力 214 TOPS 的 dNPU 加速卡(AxeleraAI Metis AIPU,三星 5nm,8~15W)。运行 YOLOv5 模型可同时处理 24 条视频流,支持升级至 AxeleraAI Europa。标配 32GB DDR5 5600MT/s 内存、512GB M.2 NVMe SSD,配备 2.5GbE+1GbE 双网卡、HDMI 2.1/2.0、DP 1.4a 及 4 个 USB 3.X 接口。
在今日举办的2026第八届北京智源大会上,之江实验室主任、阿里云创始人王坚明确表示,他坚定不相信人工智能会替代人。他以“狗的鼻子比人灵很多,但这并不会对我们造成伤害”作比喻,批评人们被AI概念限制思维,不应盲从。王坚今年3月还曾指出,每天通勤40分钟是在浪费生命,AI应解决这类难题,把人最宝贵的资源利用好。
6月13日,全新一代问界M9开启全国首交,首批车主将走进赛力斯超级工厂。新车提供标准尺寸及Ultimate领世加长版,带来超140项新技术的、超40项行业首创。价格:Max+阔五座增程47.98万、纯电49.98万;Max+享六座增程48.98万、纯电50.98万;Ultra享六座54.98万;Ultimate领世加长版阔五座64.98万、享六座65.98万。搭载新一代鸿蒙座舱、一体式寰宇双联屏,整车40个智驾传感器,首搭华为六激光雷达矩阵(前向双冗余+全向4固态)和华为乾崑智驾ADS 5,升级全维防碰撞5.0,配备双焦面AR-HUD、智慧大灯及激光雷达清洗系统。
2026 第八届北京智源大会上,之江实验室主任、阿里云创始人王坚指出,人工智能对科学研究的影响已发生质变。核心在于 AI 从只能理解文本发展到能理解多模态数据和代码,具备了区分语言文本与代码文本的能力。他认为,AI 改变程序员工作方式后,所有科学数据都会因 AI 被重新理解,科研人员受到冲击的逻辑与程序员一致。
Claude Code v2.1.175 新增 enforceAvailableModels 管理设置。启用该设置后,availableModels 允许列表也会约束 Default 模型——若 Default 模型解析到被禁用的模型,则自动回退至第一个允许的模型;用户或项目设置无法再扩大受管理的 availableModels 列表。
EvoArena是一个基准套件,将环境变化建模为终端、软件和社交领域的渐进更新序列,用于评估LLM智能体在动态环境中的表现。实验显示,当前智能体在EvoArena上的平均准确率仅为39.6%。EvoMem是一种基于补丁的记忆范式,通过结构化更新历史记录记忆演化,使智能体根据记忆变化推理环境演变。EvoMem在EvoArena上带来平均1.5%的性能提升,在GAIA和LoCoMo上分别提升6.1%和4.8%,并将EvoArena链级准确率提升3.7%。机制分析表明,EvoMem改善了记忆中的证据捕获,更完整地保留演化环境状态。
EvoBrowseComp 提出包含 400 英文和 400 中文无污染复杂问题的动态基准,问题通过实时网络遍历合成。其采用三智能体协作框架:QA 合成智能体从实时网页检索知识生成问答对;信息过滤智能体按可信度和流行度过滤以阻止参数捷径;高层指导智能体将问题形式化为推理图减少逻辑冗余。该框架支持自动合成与定期更新,防止污染并保持时效性。实验表明该基准难度极高,需广泛横向搜索能力,为可自动更新的高难度评测建立了可扩展范式。
法国音乐流媒体平台 Deezer 昨日推出一款免费工具,可扫描 Apple Music、Spotify 等第三方平台的播放列表,检测是否包含 AI 生成音乐。Deezer 是首批标注 AI 音乐的平台之一,此前曾向其他平台推销该识别技术但未获回应。CEO Alexis Lanternier 表示,既然没有平台跟进,就让所有用户自行检测。使用方法:访问 Deezer 检测网站,选择流媒体服务并授权账户即可完成分析。
微软搜索部门负责人 Jordi Ribas 于 6 月 6 日在 X 平台宣布,推出浏览器扩展 Microsoft Bing AI Search Choice,已上架谷歌 Chrome 和微软 Edge 应用商店。用户安装启用后,可在 Bing 搜索结果中一键移除 Copilot 生成的 AI 回答。微软表示该功能为预览版,目的是让用户掌控搜索体验,并非所有用户都希望在所有场景默认使用 AI。
亚马逊 AWS 宣布去年发布的 Graviton5 处理器全面可用,基于其的 EC2 M9g 实例较上代 M8g 提供 25% 计算性能提升;数据库性能提升 30%,Web 应用性能提升 35%,ML 工作负载性能提升 35%。Graviton5 拥有 192 个内核,支持 DDR5-8800 内存与 PCIe Gen6,L3 缓存是 Graviton4 的 5 倍,每核心 L2 缓存是 Graviton4 的 2.6 倍。采用台积电 3nm 工艺,基于 Arm Neoverse V3,每核心 1MB L3,支持 12 通道内存、96 条 PCIe 通道,D2D 互联带宽 420GB/s。
小米15手机12+512GB版京东自营直降至3099元,PLUS会员立减15.49元,叠加9折优惠券、国补立减394.28元及微信9.5折补贴券后,到手价2234.28元(上市价4499元)。该机搭载骁龙8至尊版处理器,6.36英寸1~120Hz LTPO直屏,5400mAh电池+90W有线+50W无线快充,后置徕卡三摄(50MP主摄+50MP超广角+50MP长焦),支持IP68、超声波指纹,有丁香紫、浅草绿、黑、白四色。
Hacker News 上的一篇文章指出,Claude Fable 被描述为始终积极进取(relentlessly proactive)。该文发布在 simonwillison.net,标题为“Claude Fable is relentlessly proactive”,在 HN 上获得 119 个点赞。
MoVerse 能从单张窄视野图像生成可交互漫游的实时视频世界模型。它将世界构建与观察渲染分离:先用拓扑感知扩散将输入扩展为重力对齐的 360° 全景图,再通过全景几何感知残差预测将其提升为持久 3D Gaussian scaffold,最后由 Gaussian 条件视频渲染器沿用户指定相机轨迹输出逼真视频。渲染器采用双向扩散教师蒸馏为因果自回归学生,实现有限延迟流式输出。在单个 NVIDIA RTX 4090 GPU 上支持 8 FPS 的实时场景漫游。
SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。
Surflo将可变数量的未定位RGB视图压缩成K个潜在token(全局状态),通过流匹配独立地将噪声点传输到曲面,解码出定向3D表面点。输出不受固定网格或token预算限制:同一潜在状态可在单次前向传播中生成数千到百万个点。推理时通过ODE积分注入光度梯度,关联邻近点以抑制局部不一致。在表面指标上匹配或超越前馈基线,比需数百视图的优化方法快一个数量级,是唯一结合全局潜在与任意分辨率解码的前馈方法。
VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。
科学实验室的机器人操作需要VLA模型,但现有模型多训练于家居场景,缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis,从原子技能组合生成结构化演示;并提出LabVLA模型,采用两阶段训练:先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力,再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上,LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。
MaxProof 是为 MiniMax-M3 系列设计的群体级别测试时扩展框架,用于竞赛级数学证明。M3 模型训练了证明生成、证明验证和基于 critique 的证明修复三种能力,验证器采用低假阳性率的深度防御生成式架构。这些能力合并到单个 M3 模型。测试时,MaxProof 将模型用作生成器、验证器、精炼器和排序器,在候选证明群体中搜索并通过锦标赛选择返回最终证明。M3 模型在 IMO 2025 达 35/42,USAMO 2026 达 36/42,均超过人类金牌阈值。
关联讨论 1 条MiniMax:Blog(网页)InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。
EurekAgent 是一个环境工程化的大语言模型智能体系统,专为度量驱动的自主科学发现设计。它从权限工程(可控执行与隔离评估)、产物工程(文件系统与 Git 协作)、预算工程(成本感知探索)和人在回路工程(简便监督干预)四个维度构建执行环境。EurekAgent 在数学、内核工程和机器学习任务上取得新 SOTA,包括以不到 11 美元总 API 成本发现新的 26 圆填充结果。代码与结果已开源。
WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
SWITCH利用一对显式边界token(<swi>入口和</swi>出口)将隐藏状态递归块与标准同策略RL(GRPO)兼容。模型通过可见到潜在的课程学习和Switch-GRPO目标训练,在类似规模下一致优于先前隐藏状态递归潜在推理方法。机制分析通过边界token揭示三个发现:入口token是学习到的局部切换策略而非风格化伪影;打开的潜在步骤执行问题特定且因果重要的计算;该计算集中在进入时的单个隐藏状态转换上。表明隐藏状态递归潜在推理既可同策略RL训练也可进行直接机制分析。
中国机器人初创公司 EngineAI 已以保密方式向港交所提交上市申请,成为该行业寻求融资的又一家企业。知情人士透露了这一消息,但尚未披露具体募资规模和时间表。
OpenAI 6 月 12 日在 X 平台宣布启动 Codex 推广活动,用户未来 2 周内邀请好友加入 Codex 并发送第一条消息后,可获得一次速率限制重置,可在任意时间使用。
6 月 12 日,vivo 产品经理韩伯啸确认,vivo X Fold6 将搭载蓝晶 x 天玑 9500 超能版。该 SoC 由 vivo 与联发科技提前两年联合深度开发,专为大屏折叠机定制,增强多任务多线程与多窗口渲染。NPU 峰值性能较上代提升 111%,功耗优化 56%;离线语音转写速度提升 7 倍、准确率提升 7%、总结出词速度提升 57%。AI 文件管家长文本推理与 AI 问答速度提升 20%,首发 AI 专题问答。原子工作台超能效并发引擎优化重载功耗。该机已官宣 6 月发布,搭载全新 OriginOS 6 Fold,显示面积提升 15%。
苹果在 iOS 27 中优化健康 App,将列表改为卡片布局并增加导航栏。新增视觉智能营养识别,用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级,不提供精确卡路里,需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期,可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升,GymKit 扩展至 iPhone,无需 Apple Watch 即可与健身设备配对同步数据。
RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。
HarnessBridge是一个轻量级可学习调控控制器,将智能体-环境接口参数化为双向投影:观测投影将原始轨迹蒸馏为紧凑、决策相关状态,动作投影将提议动作转换为可执行转换或轨迹接地拒绝。在harness监督数据集上通过统一指令微调训练,HarnessBridge在Terminal-Bench 2.0和SWE-bench Verified上匹配或超越强专用调控方案,同时大幅减少token使用和轨迹长度,并从小型生成器泛化到更大商业模型。
Theker 完成 8500 万美元融资。其工厂机器人采用可重新配置设计,不同于波士顿动力等固定形态人形机器人,不专精于任何特定任务。
据韩联社6月12日报道,SK 海力士 CEO 郭鲁正在昨天会议中表示,公司正评估引入外部生成式 AI 模型方案,包括采用 Microsoft 365 和 Copilot,并从安全性与系统架构角度评估 ChatGPT。公司计划先在无关核心技术的领域引入外部 AI 服务,再逐步扩大应用范围。SK 海力士已有基于开源方案的 AI 服务,引入外部平台后将让员工使用更丰富的 AI 模型。