olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。相比 OLMES,它减少了新增评测的实现工作量,支持 agentic 和多轮评测作为一等用例,并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构,模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同,olmo-eval 聚焦开发阶段快速迭代,可逐问题对比检查点输出以区分真实改进与噪声。
olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。相比 OLMES,它减少了新增评测的实现工作量,支持 agentic 和多轮评测作为一等用例,并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构,模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同,olmo-eval 聚焦开发阶段快速迭代,可逐问题对比检查点输出以区分真实改进与噪声。
SpaceX上市首日高开29%,募资750亿美元创全球最大IPO纪录,跻身全球第6大上市公司,马斯克成首位万亿富豪。高盛总裁沃尔德伦称,这表明投资者愿为AI和太空基建买单,预示IPO浪潮,Anthropic和OpenAI均可能今年上市。他还预计2026年并购交易将创纪录,全球并购规模达3.1万亿美元,同比增35.2%。
苹果在 WWDC 26 发布 iOS 27 等系统,深度集成 Apple Intelligence 的 Siri AI 仅限较新设备。iPhone 需 15 Pro/Pro Max 及 16 全系,iPad 需 M1 或更新芯片或 A17 Pro,Mac 需 M1 及以上,Apple Watch 需 Series 9/Ultra 2 等且搭配兼容 iPhone。高阶端侧 AI 模型(个性化语音语速、情感、语调)要求 12GB 统一内存,仅限 iPhone 17 Pro/Pro Max/Air、M4 12GB iPad、M3 12GB Mac、M5 Vision Pro;iPhone 17 标准版因 8GB 被排除。Siri AI 形成三级准入门槛。
Meta CEO 扎克伯格称,推动AI进步不需要成百上千名研究人员,一个十几至二十几人的团队即可取得进展。他谈及与妻子创办的非营利医学研究组织Biohub时表示,该组织结合AI与生物学,目标在21世纪末前治愈、预防或管理所有疾病。AI研究人员虽抢手,但Biohub的前沿生物学与AI结合的工作独特且难以替代。AI进展让扎克伯格对Biohub提早完成使命感到乐观,但算力获取仍受限。
6月12日,字节跳动旗下AI应用豆包大范围上线“任务模式”,支持定时执行、零代码网页生成、一键PPT生成、数据可视化分析等全链路Agent执行。原“思考模式”升级为“专家模式”,调用豆包大模型2.0 Pro版本,强化深度推理能力。App顶部模式切换改为“快速、专家、任务”。基础功能免费,高阶服务付费,专业版三档:标准版68元/月或688元/年,加强版200元/月或2048元/年,专业版500元/月或5088元/年。
Coinbase for Agents 将 AI 连接到金融执行通道,实现从用户投资组合自动进行交易和支付。大语言模型虽能处理海量数据,但缺乏与活跃金融投资组合的直接集成。个人常利用这些模型评估市场动向或研究投资机会,而这些软件工具具备处理复杂任务的能力。
SpaceX 于周五进行首次公开募股(IPO),公众首次可以购买这家融合火箭、AI 和社交媒体业务的公司股票。此次融资规模巨大,可能使埃隆·马斯克成为首位万亿富翁,其估值基于将 AI 数据中心发射到太空的业务前景。此外,SpaceX 还获得了一份价值 40 亿美元的合同,用于建造导弹追踪卫星“金穹”。
Gary Marcus 在一篇题为“You can’t get more 2026 than that”的短文中仅写出一句:“Hallucination of the day:”。该文未披露具体模型、版本号或任何数字细节,仅以简短方式指出现阶段AI仍存在模型幻觉现象。
法国AI初创公司Mistral AI正在谈判新一轮约30亿欧元的融资,估值约为200亿欧元。此次融资旨在支持其欧洲人工智能业务的拓展。
Google首次与FBI联合提起诉讼,针对一个涉嫌源自中国的AI诈骗网络;OpenAI同时屏蔽了多个来自中国的隐蔽影响力集群。两家公司均表示,这些操作的目标是美国基础设施和政治辩论。
Prometheus是Jeff Bezos的AI初创公司,旨在打造“artificial general engineer”(人工通用工程师)。该公司将开发AI驱动的工程工具,应用于机器人、药物设计、制造等领域。
亚马逊创始人杰夫·贝佐斯透露其新AI初创公司Prometheus的目标是开发“人工通用工程师”,即用于辅助物理产品设计的AI工程工具。Prometheus在完成120亿美元融资后估值达410亿美元,贝佐斯与Verily联合创始人Vik Bajaj共同担任CEO,目前团队约150人。
印度取消77-81GHz频段雷达传感器的许可证要求,并放开5.9GHz频段用于V2X通信,使该国与美欧标准接轨。车企可直接使用标准化现成硬件,降低开发成本。奔驰、宝马、马鲁蒂铃木、塔塔汽车和马恒达将更容易导入ADAS系统,实现紧急制动、自适应巡航控制、盲点警告等功能;博世、大陆、高通等供应商也将受益。2024年印度发生近50万起交通事故,超17.7万人死亡。
广汽昊铂 S600 于 6 月 12 日上市,推出纯电与增程双动力共 4 款车型,权益价 17.99 万-19.99 万元。车身尺寸 5015/1933/1700mm,轴距 2936mm。全系标配高通 8295P 芯片、17.3 英寸 3K 中控屏、27 英寸 W-HUD,搭载 ADiGO Intelligence 端云一体架构与 11 个 AI 智能体,配备激光雷达及 ADiGO GSD 3.0,融合 Momenta R6 强化学习大模型。增程版零百加速 4.3 秒,采用 12 合 1 碳化硅电驱和广汽星源增程技术(持续发电 85kW)。纯电版基于 AEP 3.0 平台,标配 800V 快充,CLTC 续航 660km。
台湾计划帮助巴拉圭建设一座价值2亿美元的数据中心,这是其罕见的基础设施投资,旨在深化与南美唯一邦交国的外交关系,该计划得到华盛顿方面的支持。
法国 AI 公司 Mistral AI 正在谈判融资约 30 亿欧元(合 35 亿美元),估值约 200 亿欧元。这笔资金将为这家欧洲人工智能领军企业提供现金支持,以应对与美国和中国竞争对手在昂贵计算竞赛中的竞争。
Kimi K2.7-Code 是一个开源编码模型,相比同类模型拥有更高的模型 token 效率,能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。
调查报告显示,美国多个警察部门数十名警员因滥用Flock AI车牌识别系统被解雇或逮捕,已发现至少18起执法人员利用该系统跟踪前任或现任伴侣的案件。例如佛罗里达州警员Jarmarus Brown在巡逻期间查询前女友车牌超100次。Flock Security回应称系统拥有14万月活用户,滥用“极少发生”,但投诉多来自受害者从公共记录中发现的滥用规律,实际暴露案例可能只是冰山一角。
英伟达已开始向中国客户推介其下一代数据中心 CPU Vera,该芯片不受美国出口禁令限制,最快今年 8 月上市,客户可启动下单。Vera 是英伟达首款独立 CPU,专为智能体 AI 和强化学习设计,运行速度达竞品 1.8 倍,已全面量产。中国客户计划先在海外数据中心部署测试,其中一家头部云服务商拟订购超 300 台双 Vera 服务器。单颗 Vera 售价超 2 万美元,满配 256 芯片机架约 1000 万美元。英伟达预计本财年 Vera 业务贡献约 200 亿美元收入。
SpaceX 总裁肖特韦尔在 CNBC 采访中表示,不排除未来与特斯拉合并的可能,称“那可能会让埃隆的生活轻松一点”。她承认两家公司未来目标存在协同效应,但眼下更关注 SpaceX 日常运营。双方正推进一项 550 亿美元的“Terafab”芯片制造计划,为 SpaceX AI 卫星、特斯拉 Robotaxi 及人形机器人生产半导体。SpaceX 已完成 IPO,估值 1.75 万亿美元,特斯拉市值为 1.25 万亿美元。
沐曦股份董事会通过议案,拟发行H股并在香港联交所主板上市,初始发行规模不超过发行后总股本的5%,另设不超过15%的超额配售权。募集资金将用于新一代通用GPU研发、MXMACA软件生态建设、产业链投资等。该公司于2025年12月在科创板上市,2025年营收16.44亿元同比增121.26%,GPU累计销量超5.5万颗;2026年一季度营收5.62亿元同比增75.37%。新一代训推一体GPU曦云C600已量产销售。
字节跳动旗下火山引擎与香港电视广播有限公司(TVB)达成深度合作。双方将围绕豆包视频生成模型 Seedance 2.0,在影视内容智能化生产、短剧制作、IP 商业化探索及云基础设施建设等方面展开合作。火山引擎将与 TVB 旗下 FF 工作室协同,基于 Seedance 2.0 的视频生成能力探索 AI 在短剧创作与制作流程中的应用。火山引擎还为 TVB 提供虚拟机、对象存储、网络资源、云数据库、视频云、CDN 内容分发等云产品与服务。
Anthropic正在限制其新模型Mythos在某些任务上的使用,同时构建与最大客户直接竞争的应用程序。这一做法引发客户、合作伙伴和投资者的反弹,批评其陷入类似微软的“平台陷阱”。
月之暗面发布并开源 Kimi K2.7 Code 编程模型。相比 K2.6,长上下文编程指令遵循和长程任务性能提升,过度思考倾向改善,平均 token 消耗减少 30%。Kimi Code Bench v2 提升 21.8%、Program-Bench 提升 11%、MLS Bench Lite 提升 31.5%;Agent 基准提升约 10%。即日起通过 Kimi API 调用,输入 6.5 元/百万 token、输出 27 元、缓存输入 1.3 元。非编程任务仍推荐 K2.6,模型需开启思考模式。预告高速版(输出约 180 Token/s),6 月 15 日可调用,6x 速度仅需 2x 价格。
金山云因全球AI算力需求攀升、硬件成本上涨,将AI算力相关产品服务价格上调约15%-50%,文件存储相关产品服务价格上调约30%-50%。调整于北京时间2026年7月12日00:00:00生效,存量订单在当前计费周期内不受影响。今年Q1金山云营收27.0亿元,同比增长37.2%,其中智算云账单收入达10.0亿元,同比增长90.1%,占公有云收入比重50.1%。
6月11日,一名加拿大女子在美国加州起诉OpenAI及其CEO,称其女儿因ChatGPT设计缺陷自杀。起诉书显示,女儿在自杀前约一年半多次向ChatGPT倾诉自杀想法,但聊天机器人安全系统未启动、未介入,也未通知危机机构或家人。ChatGPT设计优先用户参与度而非安全性,持续情感支持或致过度依赖。OpenAI回应称事件令人心碎,正加强应对敏感情况的能力。原告律师透露,OpenAI已面临多起类似诉讼。
湖北江城实验室成功研制三维多层片上电容,电容密度突破每平方毫米1000纳法,可直接应用于AI/GPU芯片、高性能处理器等高端芯片。目前正开展工艺流片及小批量试产,将在先进封装领域规模化应用。
Pokémon Go玩家在游戏中收集的数据被重新用于AI训练,支持军用无人机技术。这一做法持续引发各方审视。
一份报告敦促欧洲采取“最具雄心”的努力以在AI竞赛中跟上步伐。悲观者描绘了欧洲因行动迟缓而滑向无关紧要的场景。
中国投入2950亿美元打造AI基础设施算力骨架,同期美国数据中心爆发式增长也在提速。两国围绕计算资源展开的新一轮科技竞赛正迅速升温。
关联讨论 3 条Bloomberg:Technology(RSS)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)OpenAI收购了德国初创公司Ona(原名Gitpod),该公司成立于2020年,专注于AI智能体和安全云开发环境。此次收购旨在推动Codex向能够长时间运行、自主完成的编码任务方向发展。
零刻6月12日宣布ME Pro系列大存储电脑扩展至三大平台,最新款首次搭载龙芯中科2025年推出的8核SoC龙芯2K3000。该芯片基于完全自主的“龙架构”,主频2.2GHz,集成第二代自研GPGPU核心LG200,支持OpenGL 3.3、OpenCL 1.1,AI算力超6 TOPS。龙芯版ME Pro提供2盘位和4盘位存储,板载64GB eMMC,配备DDR4内存插槽,支持M.2 PCIe SSD与M.2 SATA SSD扩展;接口包括双USB 3.1、HDMI及双2.5GbE网口,支持网络唤醒与PXE引导。官方暂未公布价格。
为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。
英国首都伦敦正掀起AI创业浪潮,英国已成为欧洲AI领先中心。Bloomberg Tech: Europe节目主持人Tom Mackenzie深入探讨伦敦如何崛起为全球人工智能重镇,并采访了英国估值最高的AI初创公司ElevenLabs联合创始人。该月度杂志风格节目每期30分钟,专访科技领袖、投资者与政策制定者,全景式呈现区域技术创新与机遇。
Kimi Work 是 Moonshot AI 推出的本地桌面智能体,支持 macOS 和 Windows。它运行 300 个子智能体集群,通过 WebBridge 驱动已登录浏览器,并能调度后台任务。该智能体据称基于 Kimi K2.6 模型。
商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化,支持绘本、故事书、多页 PPT 等连续内容创作,解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已开源。
6月12日,美的宣布作为首批全屋智能内测企业,已完成空调、热水器、洗衣机、空气净化器、烟机等核心家电接入适配,并持续拓展冰箱、电风扇、扫地机器人等品类。通过微信AI Agent,用户可自然语言控制设备开关、模式调节、状态查询。未来双方将拓展更多全屋智控场景及全生命周期服务。微信AI目前内测,提供自动与开发两种接入模式。