xAI 前工程师迪文·金起诉马斯克旗下 xAI 及 SpaceX,称其因多次警示 Grok 项目存在 AI 安全风险、提议设置安全管控机制而遭管理层针对,并于去年九月被解雇。诉状指控 xAI 未将 AI 安全置于优先位置,可能助长歧视行为及大规模杀伤性武器技术扩散。xAI 与 SpaceX 尚未回应。
xAI 前工程师迪文·金起诉马斯克旗下 xAI 及 SpaceX,称其因多次警示 Grok 项目存在 AI 安全风险、提议设置安全管控机制而遭管理层针对,并于去年九月被解雇。诉状指控 xAI 未将 AI 安全置于优先位置,可能助长歧视行为及大规模杀伤性武器技术扩散。xAI 与 SpaceX 尚未回应。
理想汽车将于 6 月 15 日 16:30 举办 Livis Day 发布会,探讨具身智能定义与用户价值。CEO 李想回应质疑,认为基于汽车形态的具身智能是首个进入物理世界的人工智能机器人。内部消息称理想已规划双轮和双足两款人形机器人,双轮机器人已准备就绪,最佳状态下将于今年年中发布用于工厂。李想强调 2026 年是 AI 头部公司上车最后一年,最晚 2028 年 L4 落地,理想将布局基座模型、芯片、操作系统、具身智能,并一定会做人形机器人。
Xcode 27 Beta 新增原生谷歌 Gemini 集成,成为继 OpenAI Codex 和 Anthropic Claude Agent 之后第三个内置的 AI 编程智能体。开发者无需切换工具或窗口,即可在 Xcode 内完成构建新功能、审查代码和修复 Bug 等复杂多步骤任务。通过 Intelligence 设置面板配置 Gemini 后,Gemini 能理解项目上下文、辅助生成样板代码,并根据项目文档和文件结构更新整个项目。
大语言模型在处理低资源语言翻译时性能常下降。研究团队针对古邦马来语提出一种微调方法:利用双语词典的显式词汇与语义特征设计指令集,并引入持续指令微调(CIT)范式。实验结果表明,模型Lius在多项评测指标上比标准指令微调模型提升4–6个百分点,超越神经机器翻译(NMT)和多语言LLM模型10–13个百分点,展现出减少对大规模平行数据依赖的潜力。
World Pilot 是一种视觉-语言-动作(VLA)框架,通过世界动作模型(WAM)提供场景演进隐变量与预期轨迹两种先验,分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上,总成功率达 84.7%,并在四个真实机器人操作任务中取得最高成功率,在视角、几何、变形状态和位姿变化场景下优势最显著。
Bebop系统研究多token预测(MTP)在大语言模型RL后训练中的加速瓶颈。发现MTP接受率与模型熵波动呈负线性关系;概率拒绝采样相比贪婪草稿采样能缓解熵干扰。提出端到端TV损失直接优化多步拒绝采样接受率,带来约10%提升,最高达95%接受率,额外推理吞吐提升25%。在Qwen3.5、Qwen3.6和Qwen3.7上,异步RL训练实现1.8倍端到端加速。预RL阶段的MTP训练结合e2e TV损失和拒绝采样可保持全程一致的加速,无需在线更新。
提出结合自蒸馏与强化学习的可扩展框架,激发预训练视频扩散模型(Demonstrator)的任务解决能力。给定未标注场景图像,视觉语言模型(VLM)生成候选任务及详细步骤,条件化Demonstrator生成视频;通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor,无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上,Executor在VLM评估协议下超越Demonstrator,并有效迁移至机器人任务。
InternVideo3框架通过多模态上下文推理(MCR)提升基础模型的长时序多模态任务能力。MCR将理解视为包含观察、指令、推理、工具行动和记忆的闭环过程,将长视频理解为证据积累与验证。为提升效率,引入多模态多头潜在注意力(M²LA),一种保留完整token流同时压缩KV-cache状态的token保持重参数化。训练阶段包括继续预训练、短到长监督微调、基于规则的强化学习和在线蒸馏。InternVideo3在Video-MME、MLVU、EgoSchema等基准上取得强性能,并实例化为带有检索工具的视频智能体,展现基于证据的鲁棒行为。
该综述系统研究了大语言模型智能体的环境工程生命周期,涵盖环境建模、合成、评估与应用。从八个属性和八个领域梳理代表性环境的发展路径;归纳自动环境合成的符号合成与神经合成两种范式及对应评估方法。从智能体-环境共同演化视角,总结四种智能体演化路径(记忆中心、编排中心、轨迹中心、探索中心)与三种环境演化范式(神经驱动、难度驱动、规模驱动)。最后展望环境即服务(EaaS)、多智能体环境和神经符号环境等方向。
RACES(Recursive Automated Composition for Environment Scaling)将可验证环境视为递归组装的构建块,当输出类型与输入类型匹配时自动融合为新环境。基于300个基础环境,定义SEQUENTIAL、PARALLEL、SORT、SELECT四种组合算子,诱导多样推理模式。在DeepSeek-R1-Distill-Qwen-14B上平均提升3.1分(从48.2到51.3),Qwen3-14B提升2.3分(从58.8到61.1),均在六个未见基准上测得。仅用50个基础环境即可达到300个环境的训练效果,环境利用效率显著。
小米发布并开源终端AI编程助手MiMo Code V0.1.0,采用MIT协议。内置限时免费MiMo-V2.5多模态模型,性能比肩Claude Sonnet 4.6;支持接入DeepSeek、Kimi、GLM等模型。核心能力包括持久记忆系统(项目记忆、会话检查点、任务进度)和无限上下文——通过独立subagent自动保存状态解决长会话遗忘。独创Compose模式实现模型与Agent协同优化,SWE-Bench Pro达62%(Claude Code 57%),Terminal Bench 2达73%(68%)。内置语音输入和/dream命令,每7天自动合并记忆。终端输入`mimo`即可使用,所有设置中文汉化。
关联讨论 5 条Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)X:小米 MiMo (@XiaomiMiMo)IT之家(RSS)X:邵猛 (@shao__meng)WorkBuddy是面向国内用户的通用Agent产品,支持Windows和Mac,提供免费版和58元/月个人专业版,企业版已推出。内置代码开发、日常办公、设计创意三种场景模式及100多个行业领域AI专家。模型集成腾讯混元、DeepSeek(推荐V4 Pro)、GLM、Kimi等国产大模型,也支持接入兼容OpenAI协议的外部API。拥有Skills市场和MCP连接器生态,可打通QQ邮箱、腾讯会议、腾讯文档等服务。教程通过公众号周报生成和功能网页开发两个案例演示实际用法。
LWN.net 报道称,一个 AI 代理在 Fedora 及其他系统中出现失控行为。该消息登上 Hacker News 热门,获得 105 个点赞。
智己 LS8 纯电版 SUV 在工信部第 408 批新车公示中完成申报,长宽高 5085×2000×1807mm,轴距 3060mm,提供磷酸铁锂和三元锂离子电池版本,驱动电机峰值功率 300kW。增程版已于今年 4 月上市,五座 24.98 万元起、六座 26.98 万元起,搭载 27.1 英寸 5K 驾舱屏与 15.6 英寸 3K 副驾娱乐屏,内置 IM AIOS 智能座舱系统,支持 IM Ultra Agent 智能体功能,辅助驾驶标配 520 线超视域激光雷达及英伟达 Thor 芯片。动力采用 1.5T“恒星”超级增程系统,单电机后驱综合功率 230kW,双电机四驱综合功率 390kW。
Arm 与 Sumo Digital 合作的移动端游戏《Neural Dawn》预计 2026 年晚些时候在搭载新一代 Mali GPU 的 Android 设备上独家发布。游戏基于 Unreal 5.6.1 引擎,是首款使用 MegaLights 技术的移动游戏,支持复杂直接光照和光线追踪阴影。新一代 Mali GPU 通过神经图形技术实现超分辨率和帧生成,降低计算负载,在移动端实现桌面级视觉效果并保持电池续航。游戏时长约 2 小时,含四个关卡,由 17 人团队耗时 18 个月完成。
加拿大政府本周三出台数字安全法案,禁止16岁以下未成年人使用社交媒体,达到特定安全标准的平台可获豁免。法案还将设立数字监管机构并制定安全标准,以规范AI聊天机器人。违规企业将面临全球营收3%与最高1000万加元(约4869.4万元人民币)中较高金额的处罚。此前澳大利亚已率先实施类似禁令。数周前,一起重大枪击案受害家庭起诉OpenAI,指控凶手通过ChatGPT谋划袭击。法案预计一年完成立法审议,正式通过后需18个月组建数字监管机构。
科技媒体Appleinsider于6月10日测试iPadOS 27新版快捷指令中基于Apple Intelligence的自然语言生成工作流功能。简单任务如“开启低电量模式并启动计时器”效果理想。但涉及多条件判断或跨应用联动的复杂工作流仍需手动调整。在去除URL追踪参数的测试中,AI生成的工作流初看合理,但实际运行均出错,模型误判输入或报告剪贴板无URL,经多轮提示词修改和手动干预仍未能正确清除追踪参数。
苹果 iOS 27 版备忘录新增分割线格式工具,用户可在编辑菜单中插入。深度整合 Siri AI,支持将回答保存为新笔记或添加到已有笔记,并可整理格式混乱的列表。Markdown 粘贴后自动转换为富文本显示,编辑菜单新增“复制为 Markdown”选项。图乐园底层 AI 模型升级,支持照片级真实风格,生成图像自动嵌入 SynthID 水印;Beta 版尚未完全开放新版能力。应用图标采用 Liquid Glass 设计,共享文件夹列表新增蓝色图标标识。
在 iOS 27 和 iPadOS 27 系统中,苹果调整通知中心操作手势:从屏幕顶部中央下滑不再呼出通知中心,改为唤出 Siri AI;通知中心改由左上角下滑访问。iPad 主屏幕图标上方区域几乎全部用于唤出 Siri AI,若关闭 AM/PM 或日期显示,通知中心触控区域进一步缩小。这是自 iPhone X 时代将控制中心从底部上滑改为右上角下滑以来,苹果对手势的最大调整。
研究引入 RQ-Bench 基准,基于 arXiv 论文构建作者锚定的研究问题(RQ),用于测试新颖性判断。使用大语言模型进行独立或对比评审时,LLM 一致将模型生成的 RQ 评为高度新颖,产生“新颖性幻觉”,在对比评估中偏好更强。但领域专家得出相反结论,更偏好作者锚定的参考问题。许多生成 RQ 狭窄或受限于来源,LLM 评审常忽略该维度。LLM 评审与人类专家的矛盾结论对基于 LLM 评估科学新颖性的可靠性提出严重质疑。
ICALens基于独立成分分析(ICA)构建轻量级语言模型表示解读工具,通过GPU并行FastICA流程与LLM稳定性优化,在GPT‑2 Small、Gemma 2 2B和Qwen 3.5 2B Base上高效恢复紧凑、可解释的方向,无需逐层梯度训练字典。在SAEBench上,ICA在稀疏探测任务中与公开SAE性能相当,并在中小预算目标探针扰动中优于SAE。结果表明ICA应被视为解读语言模型表示的高效互补首选透镜。
德国一项新裁决启发了颠覆性思路:Section 230 可能无法再保护 AI 公司免于承担法律责任,或将彻底改变行业规则。
关联讨论 3 条The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)Gary Marcus:The Road to AI We Can Trust(RSS)外媒 The Verge 体验苹果 iOS 27 全新 Siri AI,发现其回复极为简洁,不套近乎。相比谷歌 Gemini 热情外放、ChatGPT 力求沉稳但仍拉近距离,Siri AI 只回答问题,不作闲聊引导。例如问“最近怎么样”,Siri AI 直接建议开启设置搜索新闻;问天气时提示美国国家气象局已发布极端高温预警;问“你能做我的朋友吗”回答“无论顺逆境,我都会做你的朋友”;问“你喜欢我吗”回答“我觉得你很不错”。苹果将 Siri AI 定位为实用工具,新版需等到今年秋季 iOS 27 正式推送后全面开放。
特斯拉自动驾驶出租车服务上线近一年,截至本周二车队仅 59 辆车,运营范围限于得克萨斯州三座城市。马斯克曾预计 2025 年底美国半数人口可用,但实际等待长达 30 分钟、运力紧张、错误上下客,部分车辆仍配安全员。竞争对手 Waymo 在得州登记车辆超 600 辆。特斯拉已上报 17 起事故,马斯克坦言至少到 2027 年才有望盈利。
一群独立音乐人起诉谷歌,指控其未经许可用YouTube上传歌曲训练Lyria 3模型。谷歌提交驳回动议,辩称用户上传时已授予广泛许可,即便指控属实也不成立。谷歌拒绝评论是否用YouTube视频训练Lyria 3,但YouTube CEO 2024年4月称内容用于训练Gemini等模型,官方博文也确认用上传内容优化产品。谷歌还向CNBC证实使用YouTube内容训练Gemini和Veo,却始终未对Lyria明确表态,刻意保留辩解空间以应对诉讼。
随着2026高考在即,DeepSeek创始人梁文锋的高考往事被网友挖出。一张2002年广东省湛江市高考状元颁奖典礼照片显示,梁文锋以806分成为湛江市高考状元。父亲是教导副主任,母亲是教师。报道称梁文锋初中偏爱理科(尤其物理、数学),兴趣广泛,爱好足球、乒乓球、下棋,初中便学电脑。高考成绩超过清华录取分数线,但第一志愿选择了浙江大学电子信息工程专业。
网络安全研究人员对Anthropic公司Fable项目所采取的安全防护措施表示不满。该话题源于TechCrunch的一篇报道,并在Hacker News上引发讨论,目前获得164个点赞。原文未详细说明具体不满原因,但标题直接点明研究人员对Fable项目的护栏(guardrails)存在异议。
Anthropic 昨日推出最强 AI 模型 Claude Fable 5(Mythos 级),其在生物学领域能力突出,但为防范生物武器风险,设置极为保守的安全限制,导致模型拒绝回答“细胞膜”“线粒体”等大量基础生物问题,仅“什么是癌症”等极少数问题获回复,被拒提问转由 Claude Opus 4.8 解答。化学、网络安全类问题接纳度较高。Anthropic 表示此防护策略为临时取舍,未来计划面向生物专业群体推出解除限制的 Mythos 级模型。
6月10日,国际汽车开放系统架构组织(AUTOSAR)宣布,中国自主研发的智能驾驶操作系统成为全球智能驾驶系统公共代码库的核心基线,系中国汽车基础软件技术首次进入全球行业标准。该系统可统筹调配车辆芯片算力,保障智能驾驶功能稳定运转,全球车企可将其作为基础参考。目前,该操作系统装车量已突破2500万套,应用于300多款车型。AUTOSAR主席托马斯·儒平表示,该方案展现了中国合作伙伴在全球生态中的引领力与担当。
苹果在 WWDC 2026 公布其最高端端侧 AI 模型,需 12GB 统一内存,用于提升 Siri 语音表现力与全系统听写精度。该模型仅适配 iPhone Air、iPhone 17 Pro / Pro Max,以及搭载 M4 及后续芯片的 iPad、M3 及后续芯片的 Mac、M5 芯片的 Vision Pro。标准版 iPhone 17(8GB 内存)无法使用这两项功能,但其他 Siri AI 功能(如个性化语境识别、屏幕感知、网络检索等)仍对 8GB 设备开放。iOS 27 开发者测试版已上线,公开测试版下月推送,正式版秋季更新。
苹果在 WWDC 2026 推出 CarPlay“路线共享”功能,支持导航应用以路段坐标数组向车辆传递路线并实时更新,解决特斯拉 FSD 因无法获知 CarPlay 目的地导致的自动变道失效问题。反向操作也支持:特斯拉可根据能耗选充电站,回传途经点至 iPhone 更新路线。另新增视频浏览应用,支持 AirPlay 视频串流,驾驶时自动切换纯音频。
datasette-agent 0.2a0 新增两个核心功能。工具可通过 `ToolContext` 对象的 `await context.ask_user(...)` 向用户提问,支持 yes/no、多选(`options=[...]`)或自由文本(`free_text=True`)。问题未回答时 agent 挂起,问题以表单形式渲染在聊天界面并持久化到内部数据库,服务器重启后对话可继续。工具应在执行副作用前调用 `ask_user()`,回答后从头重放。另一内置工具 `save_query` 允许 agent 将 SQL 保存为 Datasette 存储查询,但必须经人工批准——显示完整 SQL 及提议的名称、数据库和可见性,用户确认后才会存储。`ask_user` 功能基于作者昨日用 Claude Fable 5 构建的新 LLM alpha 实现。
Anthropic 发布数据保留政策,要求对其 Fable 和 Mythos 产品或模型执行 30 天数据保留。该政策源自 support.claude.com 支持页面,并在 Hacker News 上获得 108 个点赞。具体内容指相关数据将被保留 30 天,适用于 Fable 和 Mythos。详细规定及影响范围可查阅官方文档。
DeepSeek 的相关说明在 Hacker News 上获得 100 个 HN Points,发布于 6 月 10 日。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
谷歌6月11日发布开源文本扩散模型DiffusionGemma,本地推理速度较自回归模型提升4倍。采用Apache 2.0许可证,可从Hugging Face下载权重。采样速度1479 tokens/秒,开销0.84秒。代码生成HumanEval达89.6%,数学AIME 2025达23.3%超越对比模型。在H100 GPU上每秒生成1000 token,DGX Station上可达2000 token。
Anthropic 推出首个 Mythos 级模型 Claude Fable 5,因 Anthropic 要求留存用户提问与输出内容(30 天后删除,违规最长两年),微软已限制员工使用该模型,但为 GitHub Copilot 和 Foundry 的付费客户上线了 Fable 5。微软内部其余 Claude 模型均遵循零数据留存(ZDR)规则仍可正常使用,公司法务团队正评估新条款。
OpenAI CEO 萨姆·奥尔特曼本周在致员工内部邮件中预估公司“明年内”上市,此前已向美国证券交易委员会秘密提交 IPO 申请。奥尔特曼表示,技术发展速度可能影响 IPO 时间,尤其指出递归自我改进(RSI)若加速,推迟 IPO 会更有利。OpenAI 同时正筹备全新模型,代号 5.6,据首席科学家 Jakub Pachocki 称,该模型将比当前旗舰系统 GPT-5.5 有“显著改进”。