Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。
Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。
受人类学习过程启发,研究提出了一种让大语言模型持续学习的“睡眠”范式。该范式包含两个阶段:第一阶段为记忆巩固,通过“知识播种”将较小模型的记忆向上蒸馏至更大网络,以保留知识并提升容量;第二阶段为“做梦”,模型利用强化学习生成合成数据课程进行自我演练和改进,无需人工监督。实验验证了该范式在长期、持续学习、知识整合及少样本泛化任务上的重要性。
OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型,使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作,自回归地实时生成动作条件化的逼真传感器视频,可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中,作为高响应性环境。初步结果显示,基于OmniDreams后训练的世界-动作模型(WAM)在Physical AI自动驾驶NuRec数据集上,仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。
Ψ-Bench 是一个新提出的基准测试,旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景,并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估,发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现,在提供客户档案后,模型性能平均提升 18.24%,凸显了用户特定信息对于实现有效说服的重要性。该工作指出,人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。
江苏全省首个商用万卡集群“词元超市(Token 超市)”已试运行,汇聚智算资源超 13000PFLOPS。平台接驳了三十余家厂商,提供阿里通义、DeepSeek、阶跃星辰等主流大模型,用户可按需选择文本创作、智能问答等业务场景,并依据实际 Token 用量按需付费。该模式已服务近五十家客户,帮助本地企业降低研发成本。
据市场情报机构 Sensor Tower 估计,OpenAI 旗下 ChatGPT 全球月活跃用户在 2026 年 5 月突破 10 亿,成为达成此里程碑最快的应用,增速超过 Google Maps、TikTok 等。同期,其竞争对手 Anthropic 的 Claude 月活达 5600 万,同比增幅约 640%,增长势头迅猛。数据显示,部分用户已开始在 Claude 与 ChatGPT 间切换使用。在达成用户里程碑之际,Anthropic 已秘密递交 IPO 申请,OpenAI 也计划筹备上市。
Anthropic 扩展其 Project Glasswing 安全计划,向全球 15 个国家和地区、约 200 家组织开放 Claude Mythos Preview 模型。该模型此前仅向苹果等少数伙伴提供访问权限。计划新增约 150 家组织,新获准的国家包括加拿大、法国、德国、日本和韩国等。知情人士透露,三星和 NATO 也可能进入名单。新伙伴必须先满足安全要求才能获得访问权限。
Marvell 发布 Teralynx T100 网络交换芯片,采用 3nm 制程和单片式结构,支持至多 512 个端口,兼容 ESUN、UEC 等新兴互联协议,可配置为 BGA、CPC、CPO 封装。其典型功耗低于 1000W,宣称比竞品节能 25%。该芯片专为 AI 负载优化设计,旨在降低功耗与延迟,提升集群效率。
微软在 Build 2026 上宣布,Windows 11 将从带 AI 功能的桌面系统,转型为 AI 应用和智能体的开发平台。新举措包括引入 Microsoft Execution Containers 以安全管控智能体、提供本地模型 Aion 1.0 Instruct 和 Aion 1.0 Plan、并将 Windows AI 接口从 NPU 扩展至 GPU 和 CPU。目标是整合目前过于分散的 AI 开发工具链,为开发者提供覆盖开发、部署、监控到安全管理的统一工作流。
美国地区法官驳回了xAI的申请,维持原裁定,要求埃隆·马斯克提交其在特斯拉和SpaceX公务邮箱中处理X平台及xAI业务的相关邮件,作为其起诉苹果与OpenAI诉讼的证据。该诉讼源于马斯克不满AI产品Grok在苹果App Store的榜单排名,指控苹果与OpenAI存在反竞争合作。法院认为,马斯克身兼多家公司首席执行官,并有证据显示他曾通过非本公司邮箱处理业务往来,因此相关邮件属于可开示证据。
加州大学系统内部,不同高校对在校园中使用人工智能工具采取了差异化的态度和政策。部分学校可能持开放或谨慎接纳的态度,而另一些则可能实施了更严格的限制。这种内部的政策分歧反映了在人工智能快速发展的背景下,学术机构在平衡创新应用与学术规范、伦理考量时面临的复杂局面。
Claude Code团队工程总监Fiona Fung提出,AI时代软件工程瓶颈从“写代码太贵”转移至验证、评审与安全。团队采用JIT规划,先做原型再补文档;遇到重复工作追问“能否自动化”,形成肌肉记忆。代码评审中Claude承担60-70%风格检查与漏洞捕捉,人类聚焦法律、安全与产品判断。角色边界模糊,PM写代码、工程师用Claude起草文案,招聘看重品味与判断力而非代码产出速度。
本教程详细介绍了如何在 Google Colab 环境中,使用 QLoRA 和 DPO 方法对 LFM2 模型进行微调。内容涵盖了使用 TRL 和 PEFT 库进行监督微调、DPO 对齐以及适配器合并的完整分步编码过程。
江波龙在COMPUTEX 2026上发布了两款端侧AI推理专用内存产品:插槽式的AIDIMM与焊接式的AILPBGA。两者均基于LPDDR5X,拥有256-bit大位宽,支持9600MT/s速率。AIDIMM尺寸为80mm×30mm,至高支持128GB容量。AILPBGA采用22mm×22mm的BGA1764封装,容量覆盖24~64GB,适用于紧凑型嵌入式场景。
Perplexity 计划于7月升级其自主AI智能体系统 Perplexity Computer,引入混合AI调度能力。该功能可根据场景和需求,自动将任务拆分至本地模型与云端前沿模型:涉及金融记录、健康信息等敏感数据的任务由设备上的小模型在本地处理;需要完整前沿能力的复杂任务则交由服务器处理。此举旨在免去用户手动选择“本地”或“云端”的步骤,并协调完成混合类型的真实任务。
Meta 已缩减其在办公电脑中预装追踪软件、收集员工鼠标移动与键盘输入数据用于 AI 训练的计划。根据内部备忘录,新控制功能允许员工每次暂停数据收集长达 30 分钟,并可申请豁免参与该项目。此前,该计划因软件过度消耗流量与电脑电量、涉嫌侵犯个人隐私而遭到员工强烈反对,部分员工将 Meta 称作“员工数据收割工厂”。Meta 表示,此举亦可能加重其在欧盟地区的合规风险。
天风国际分析师郭明錤评论称,英伟达 RTX Spark 的核心看点在于黄仁勋提出的“重新发明 PC”口号及端侧 AI 智能体工作流概念。该概念涵盖操作系统、云端与本地大语言模型切换等要素,但并非英伟达原创。他指出,RTX Spark 在未来 2 年内仍是笔记本电脑中的利基市场产品,目标人群是对端侧 AI 算力有需求的重度用户。要真正实现智能体工作流,需依赖 CUDA Toolkit 公开支持 Windows Arm64 及微软 Windows 本机 AI 智能体架构正式商用等软件生态支持。苹果在 WWDC 上对设备端 AI 智能体工作流的回应也将是另一观察重点。
在Build 2026大会上,微软CEO萨提亚·纳德拉回应了数据中心环保争议。他介绍了位于威斯康星州的Fairwater AI数据中心新设计,该设施采用垂直化架构与三维机架布局,其冷却循环仅需初次注水,全年耗水量仅约相当于1家社区餐厅。纳德拉表示,微软Azure目前覆盖80个区域和500多个数据中心,过去18个月新增的容量已超过早期10年的总和。他强调,数据中心的扩张必须赢得社区许可,包括不推高电价、补充用水和创造当地就业等条件。
微软在 Build 2026 发布专为 AI 智能体打造的操作系统“Project Solara”。该系统基于 Android 定制,旨在运行于小型低功耗设备。现场同步展示了桌面终端和可穿戴智能胸牌两款概念设备,作为硬件厂商的参考设计。
微软CEO纳德拉与高通CEO阿蒙在对话中阐述了平台向智能体演变的愿景。微软此前推出全新芯片到云平台 Project Solara,旨在结合芯片、软件与云,提供更个性化和智能的AI体验。纳德拉表示,平台正从构建操作系统和应用程序转向构建智能体,使其成为主要交互界面。阿蒙在视频中展示了智能胸牌版 Project Solara 概念设备。微软在 Build 2026 大会还曾展示过桌面终端概念设备。
SparDA提出解耦稀疏注意力架构,在QKV外引入第四层投影Forecast,预测下一层所需KV块,使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数,训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度,实现prefill加速1.25倍、decode加速1.7倍;相比非offload稀疏基线,单GPU上decode吞吐量提升5.3倍。代码已开源。
多智能体系统(MAS)中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优,但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议,将通信视为公共状态更新问题,把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能,同时大幅减少token消耗:在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率,在SWE-agent上解决率不变但输入token减半。代码已公开。
SGDR是一种面向Web智能体的在线技能学习方法,能在执行过程中按步骤动态复用技能。它包含三个组件:滑动窗口提取将完成轨迹转化为可调用子过程;双文本-代码表示连接技能检索与可执行动作;状态接地动态检索机制同时匹配任务目标与当前网页状态。在WebArena五个领域上,SGDR搭配GPT-4.1的平均成功率达37.5%,搭配Qwen3-4B达24.3%,分别相对最强基线提升10.6%和10.0%。代码已开源。
AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。
现有跨视角地理定位方法将城市级检索和精确位姿估计分离,导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务:采用共享Transformer编码器配合任务专用token,分离全局检索特征与空间定位线索;引入双向Transformer位姿解码器,以地面特征作为空间查询进行双向交叉注意力,弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上,CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。
研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示,两者一阶增益相当,但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度(NDS),两者更新范数相近,Muon 的 NDS 更低,且数据不平衡会放大这一优势。中后期训练中,Muon 的 NDS 优势主要源自更小的层内曲率。理论证明,Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS,在曲率异质性足够强时,同等步数下局部二次损失也更低。
研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。
多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征,使模型能在保持与输入观测一致的前提下,外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL,构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能,在 MVC 上准确率提升 3.4%,在 PT 上与强闭源模型相当,且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号,同时生成可解释的中间表征。
现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。
提出基于 Fisher 信息矩阵(FIM)谱范数的攻击无关鲁棒性度量,量化模型输出对输入扰动的 worst-case 敏感度。理论上证明 FIM 等于输入 Jacobian 的方差,并推导出 VGG、ResNet、DenseNet、Transformer 等架构的闭式谱界,给出首个理论鲁棒性排序。开发基于幂迭代和 Hutchinson 估计的高效算法,支持白盒与黑盒场景。在 CIFAR、ImageNet、医学图像等数据集上的实验表明,该度量与对抗脆弱性高度相关。代码已开源。
基因组基础模型的进展因基准碎片化、评估协议不兼容而难以评估。GENEB是一个大规模诊断基准,在统一探针协议下评估40个模型在100个任务(13个功能类别)上的冻结表示,包含少样本场景。分析显示聚合排行榜不稳定:模型排名在不同任务类别间差异显著,规模带来的收益有限且不一致,架构和预训练对齐的影响常超过参数数量。GENEB为基因组机器学习提供了原则性比较和类别感知模型选择的参考框架。
BRepCLIP是首个通过对比预训练将CAD边界表示(BRep)几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列,使用表面(如圆柱面、环面、NURBS)和曲线(如直线、圆弧、B样条)的离散词汇表,并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入,通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape,BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%,在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。
TIDE是一种模板引导的迭代框架,用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求,而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题,并基于已发现结果调节后续搜索以扩大覆盖;同时通过思维模板从历史案例中提炼复用模式,指示模型关注哪些上下文信号及如何关联,将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中,基于四个模型骨干的验证显示,TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。
SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。
研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。
VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。
Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。
世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。
经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。
SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。