AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态资讯 · 9034 条
全部一手资讯X论文
6月4日周四
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
09:42
HuggingFace Daily Papers(社区热门论文)
55
Stateful Visual Encoder:为视觉-语言模型引入有状态视觉编码器

现有开放权重视觉-语言模型(VLM)在多图像、多轮智能体场景中,视觉编码器是无状态的,每张图像独立编码,无法访问先前视觉上下文,导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder,将每个视觉表示基于先前视觉特征进行条件化。通过监督微调,配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进,且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中,有状态编码器持续提升通用 VLM 基线,在特定领域匹配或超越专用模型。

智能体多模态论文/研究
09:42
HuggingFace Daily Papers(社区热门论文)
63
GRAIL:面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习(如GRPO)常用统一的序列级优势更新所有token,稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法,利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示,GRAIL一致优于GRPO,平均准确率提升3.60%,Pass@3提升3.05%,无需过程级监督即可实现细粒度推理对齐。

arXiv推理数据/训练论文/研究
09:28
xAI:News(网页)
精选75
xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)

xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`(Grok Imagine 1.5 预览版)。该模型能将单张静态图片转为流畅的电影感视频,用户提供起始帧和描述运动的提示词后,模型可生成包含相机移动、氛围和物理效果的动画,并保持对源图像的忠实。支持生成 720p 片段,可使用自然语言指令控制镜头、节奏和音效,并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频
关联讨论 1 条X:cb_doge (@cb_doge)
推荐理由:xAI的新视频模型从单张图像生成电影级短片,支持自然语言控制运镜和氛围,对视频创作者和开发者是个值得一试的工具。
09:10
IT之家(RSS)
48
微软加速 Arm 生态补缺,用 AI 推进 Win11 原生应用适配

微软将在 2026 年 Build 开发者大会上展示如何利用 AI 智能体,帮助开发者将 x86 应用转换为 Windows on Arm 原生应用。目前原生 Arm 版本已占所有 Windows on Arm 用户应用使用时长的 90%,剩余缺口仍需依靠 Prism 仿真层运行。AI 智能体可承担重复代码处理、转换检查和兼容性验证等任务。

智能体Microsoft端侧行业动态
09:10
IT之家(RSS)
62
Calif 利用 OpenAI Codex 发现 HTTP/2 Bomb 拒绝服务攻击

网络安全公司 Calif 借助 OpenAI Codex 智能体发现 HTTP/2 Bomb 拒绝服务攻击,单机在 100 Mbps 连接下数秒至数十秒内可拖垮 Web 服务器。攻击利用 HPACK 压缩放大请求头(Envoy 放大比 5700:1,Apache httpd 4000:1)并借零字节流控窗口滞留请求,迫使服务器分配大量内存且无法释放。测试显示 Envoy 1.37.2 约 10 秒耗尽 32GB 内存,Apache httpd 2.4.67 约 18 秒耗尽 32GB。nginx 1.29.8 已加入 max_headers 指令,Apache mod_http2 2.0.41 修复(CVE-2026-49975);IIS、Envoy 和 Pingora 暂无补丁,建议关闭 HTTP/2 或在前端限制请求头数量。

OpenAI其他
09:10
IT之家(RSS)
精选75
联合国报告:2030年AI数据中心水电消耗将翻倍

联合国大学水、环境与健康研究所报告指出,受AI需求驱动,去年全球数据中心耗电448太瓦时(AI占五分之一),耗水4.5万亿升,碳排放1.89亿吨。预计到2030年,年耗电量将翻倍至945太瓦时(AI占40%),耗水增至9.3万亿升,碳排放升至3.99亿吨,占地面积从6900平方公里扩展至14500平方公里。报告警告若忽视环境成本,AI落地还将加剧土地紧张与电子废弃物问题。

行业动态部署/工程

推荐理由:这份联合国报告把算力繁荣的隐性账单摊开了,2030年数据中心要喝掉9.3万亿升水,做AI基建的人该看看,别光比参数。
09:10
IT之家(RSS)
51
微软 Surface RTX Spark Dev Box 更详细规格曝光:约 1000 孔铝壳散热驾驭 AI 负载

微软 Surface RTX Spark Dev Box 是一款面向本地 AI 开发的紧凑型桌面设备,主打模型微调、本地推理和智能体式工作流。采用 NVIDIA Grace CPU(最高 20 Arm 核心)、Blackwell RTX GPU(6144 CUDA 核心),配备 128GB 统一内存,AI 算力最高 1 Petaflop,可本地运行 120B 参数模型,整机功耗 100W。一体式铝制外壳覆盖约 1000 个散热孔兼作散热器,预装 Visual Studio Code、GitHub Copilot、WSL 2、CUDA 支持等工具。

Microsoft产品更新端侧
09:10
IT之家(RSS)
50
中国小伙带八台宇树机器人登上《美国达人秀》,全票晋级下一轮

26岁四川小伙吴宇飞带着八台宇树机器人登上当地时间6月2日晚播出的《美国达人秀》舞台,与机器人共同起舞,获得评委全票通过,晋级下一轮。评委惊叹“太了不起,太壮观了”。

具身智能行业动态
09:10
IT之家(RSS)
61
欧盟将出台数据中心最低能效标准,应对 AI 浪潮下的能耗激增

欧盟宣布将对新建及存量数据中心制定最低能效标准,配套需求评估需在2027年前完成。目前欧盟数据中心装机容量为12吉瓦,预计2030年增至28吉瓦,届时用电量占比将突破2.5%。欧盟还在制定可持续性标签,考核水资源消耗、清洁能源供电比例等指标,大型数据中心须对外公示。此举隶属于一揽子科技扶持法案,旨在壮大本土云计算与AI产业,并包括用生成式AI简化新能源项目审批、划拨专项资金研发电网AI管控工具。

政策/监管部署/工程
09:10
IT之家(RSS)
61
苹果 iOS 27 Siri 部分查询将经 Google Cloud 调用授权版 Gemini,使用 NVIDIA Blackwell B200 集群处理

科技媒体 The Information 报道,苹果 iOS 27 版 Siri 的部分用户查询将跳转至 Google Cloud,调用授权版 Gemini 模型,并由谷歌的 NVIDIA Blackwell B200 GPU 集群处理。Blackwell B200 基于 Blackwell 架构,面向大模型训练与推理。为降低云端隐私风险,苹果将启用英伟达机密计算(confidential compute)硬件级安全功能,在 GPU 处理数据时加密,保护 AI 模型在共享云环境中的机密性与完整性。

Google安全/对齐推理端侧
08:10
IT之家(RSS)
17
SpaceX 敲定 IPO 发行价:每股 135 美元,估值有望达 1.77 万亿美元

SpaceX 将 IPO 发行价定为每股 135 美元,按此价格及 EchoStar 频谱收购与 Cursor 交易完成计算,整体估值达 1.77 万亿美元。公司计划发售 5.556 亿股,融资 750 亿美元,承销商包括高盛(主承销)、摩根士丹利、美国银行、花旗集团与摩根大通。马斯克掌握超 82% 投票权。SpaceX 将于 6 月 12 日在纳斯达克挂牌上市,股票代码 SPCX。旗下人工智能子公司 xAI 在 4 月采购了价值 2.69 亿美元的特斯拉 Megapack。

xAI行业动态
08:10
IT之家(RSS)
精选72
深陷版权诉讼仍受资本热捧,AI 音乐生成公司 Suno 再融资 4 亿美元

AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资,投后估值 54 亿美元,较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型,但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后,涉案曲目从 560 首增至超 6.1 万首;华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投,用户日均生成 AI 歌曲超 700 万首。

数据/训练行业动态语音
关联讨论 1 条X:Suno (@suno)
推荐理由:一边被三大唱片巨头起诉,一边估值翻倍到54亿美元,资本对AI版权风险的容忍度比我们想的要大得多。创作者和平台都得重新想「合理使用」的边界在哪了。
08:10
IT之家(RSS)
62
豆包宣布将推出专业版,基础功能保持免费;阿里千问向第三方Agent全面开放

豆包声明,针对专业人群推出豆包专业版,基础功能(搜索问答、写作生图、语音和视频对话)保持免费。阿里千问向第三方Agent、Skill全面开放,瑞幸咖啡、肯德基、蜜雪冰城、东方航空为首批接入测试企业。DeepSeek首轮融资拟筹集500亿元,腾讯、宁德时代等参投,投后估值或达4000亿元。腾讯人士称微信AI智能体上线时间暂未定,取决于监管审批。苹果MacBook Neo开售三周出货110万台。

智能体DeepSeek端侧行业动态
08:10
IT之家(RSS)
58
特斯拉在奥斯汀推出无安全员自动驾驶出租车服务

6月4日,特斯拉在得克萨斯州奥斯汀都会区正式推出无安全员自动驾驶出租车服务。马斯克将此项业务视为公司增长战略的关键一环。该服务已试运行近一年,用户时常面临超30分钟的候车时长。目前特斯拉在当地投入约50辆运营车辆,而Waymo在同一区域部署了超250辆。马斯克预计无安全员全自动驾驶车型将于今年晚些时候在美国大范围普及。

产品更新具身智能
08:10
IT之家(RSS)
41
Uber 人力资源部门裁员 23%,称与人工智能无关

Uber 在新任总裁黑泽尔贝克主导下裁减人力资源部门 23% 的员工,波及招聘等岗位,占 3.4 万全体员工总数的远不足 1%。CEO 科斯罗萨西称此举旨在提升人力团队效率,并明确裁员与 AI 无关。Uber 证实已对员工使用的 AI 智能体工具设置分级消费限额,基础档月额度 1500 美元(约 10168 元人民币),更高档位逐级上调。据《The Information》报道,Uber 仅用四个月即耗尽 2026 年度全部 AI 项目预算。

行业动态部署/工程
08:10
IT之家(RSS)
46
微软重押Win11原生应用:WinUI 3改名WinUI,承诺不再另起新UI框架

微软在Build 2026大会上确认WinUI为Windows 11原生应用最优平台,放弃WinUI 3编号改称WinUI,承诺不再另起新框架。此举关联Windows K2计划,旨在重建Windows 11系统。微软已组建新团队改造开始菜单、文件管理器等组件,重点改善稳定性、内存占用和开发工具,并切换至System Compositor。WinUI将推出DataGrid和Charting控件支持企业数据密集型应用,并适配AI智能体开发,AI工具可辅助规划、构建和优化WinUI应用。

产品更新
08:10
IT之家(RSS)
53
Meta 推出商业智能体,欲借 AI 开拓广告之外新营收渠道

Meta 于当地时间周三推出 Meta 商业智能体,集成于 WhatsApp、Messenger、Instagram 等应用,可自动回复客户咨询、商品推荐及预约登记。该功能纳入面向商户的付费订阅套餐 Meta One,大型企业采用按量计费模式,计费规则与 WhatsApp 商业版消息收费标准一致。Meta 同步推出商业智能体开放平台,支持接入 Shopify、Zendesk 等第三方数据源。扎克伯格表示,此举旨在减少对广告业务的依赖,并计划通过迭代大模型让智能体逐步承担全链路企业运营任务。

智能体Meta产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
69
ToolSense:审计LLM中参数化工具知识的诊断框架

大语言模型作为智能体处理大型工具目录时面临检索瓶颈,参数化工具检索将每个工具编码为虚拟token并两阶段微调(记忆→检索),在标准ToolBench上表现强劲,但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架,自动生成三个基准:现实检索基准(RRB,含三个模糊层级)、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置,发现知识-检索分离:RRB上部分配置性能相比全描述基准下降约50-64个百分点,低于嵌入模型基线;部分模型事实探测得分接近随机。框架和基准已开源。

智能体arXivMCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
结构化缺陷定位:面向文本到图像反馈的诊断与对齐框架

本文提出结构化缺陷定位(SDG),将文本到图像(T2I)模型缺陷诊断建模为结构化集预测,每个缺陷表示为(位置、类型、原因、重要性)元组。构建了SDG-30K数据集(30K图像,来自四种T2I生成器,含框级标注)和评估协议SDG-Eval。在此基础上提出诊断到对齐框架:以视觉语言模型为SDG检测器,BoxFlow-GRPO将预测缺陷集转化为框导出、重要性加权的空间奖励,用于扩散模型对齐。实验表明,SDG检测器在结构化缺陷定位上超越领先专有VLM,SDG引导的奖励持续提升T2I对齐并支持局部图像细化。

图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
DRIFT:用于视觉语言模型连续输出解码的残差流适配器

针对视觉语言模型(VLM)难以处理连续值输出(如事件时间边界定位、机器人控制动作生成)的问题,研究者提出DRIFT框架。该框架通过基础预测器提供粗略估计,并结合基于流匹配的生成式精化模块迭代优化预测结果。残差公式将生成建模从学习全局输出分布简化为在强先验附近拟合局部残差分布,显著降低优化难度。在视觉定位和机器人控制等任务上,DRIFT在多种架构(MLLM、VLA、WAM)中均持续优于强回归与生成基线方法。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
AsyncWebRL:面向视觉Web智能体的高效多步强化学习

AsyncWebRL采用异步系统设计,重叠rollout、梯度更新与策略刷新,并引入永久rollout池和轻量截图处理,比此前最快开源同步流程WebGym实现最高2.9倍端到端训练吞吐加速。算法方面将多步GRPO中每轨迹归一化因子1/|τ_i|替换为常数1/k,解除了失败轨迹对梯度权重的耦合,压缩轨迹长度。在WebGym分布外测试集上创下新开源SOTA(相对+5.8%),Medium子集+42%,Hard子集+48%。

智能体数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
基于角度-范数分解的激活干预几何分析

本研究通过控制实验解耦隐藏状态的径向与角度分量,发现不同激活干预方法的主要差异在于如何耦合 token 与概念方向的角度对齐及隐藏状态范数变化。在七个语言模型上,概念主要编码于角度结构,但范数对干预稳定性和下游效果仍至关重要。结果解释了概念效果相似的干预可能表现不同的原因,建议将激活干预参数化为可解释的角度和径向分量,而非单一加性系数。

arXiv安全/对齐论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
LatentSkill:用于LLM智能体的权重空间技能框架

LatentSkill通过预训练超网络将文本技能转换为即插即用的LoRA适配器,将技能知识存储在权重空间而非上下文空间,消除每步推理中的技能token开销。在ALFWorld上,seen和unseen分割成功率分别比上下文技能基线高出21.4和13.4个百分点,预填充token减少64.1%;Search-QA精确匹配提高3.0点,技能token开销降低72.2%。生成的技能LoRA形成结构化语义几何,可通过缩放系数精确控制,对齐后能通过参数空间算术组合。该方法提供了高效、模块化且暴露度更低的权重空间技能基底。

智能体论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
66
PRISM诊断揭示余弦误导:辅助损失重塑VLM而非潜变量

对五种LVR变体的测试发现,余弦对齐度与准确率呈强负相关(r=-0.94)。研究提出诊断工具PRISM(线性探针+破坏性测试)发现:有监督潜token大部分被绕过,破坏后准确率变化最多4%;答案在潜token下游可解码、在潜token处不可解码,解码能力差距可预测各变体对潜变量的依赖。辅助目标通过共享参数重塑语言模型,而非通过名义上优化的潜变量。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
BloomBench: 基于认知的英-阿双语多模态基准

研究团队提出 BloomBench(Almieyar 基准系列的一部分),首个基于人类认知的英-阿双语多模态基准。以布鲁姆分类学为框架,系统评估视觉语言模型在记忆、理解、应用、分析、评价、创造六个认知层级的表现。采用半自动化流程构建和分层混合质量保证协议,确保可扩展性与文化包容性。对现有 SOTA 模型的测试揭示:语义理解能力强,但事实回忆和创造性合成严重不足;阿拉伯语与英语之间存在显著性能差距。基准框架与数据集已开源。

GitHub多模态开源生态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
OPDLM:基于On-Policy蒸馏的数据高效自回归到扩散语言模型转换

现有方法将自回归模型(ARLM)转换为扩散语言模型(DLM)时面临两种分布偏移:目标函数切换导致知识丢失,以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM,采用On-Policy蒸馏(OPD)进行转换。学生模型(双向注意力的ARLM)生成自身轨迹,教师模型(冻结的原ARLM)在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练,消除了DLM的训练-推理不匹配,蒸馏机制保留了原ARLM知识。实验表明,OPDLM仅需原训练token量的1/15至1/7000,在多样任务上表现强劲,使DLM转换成为ARLM后训练手段。

数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
UnpredictaBench:评估大语言模型分布随机性的基准

UnpredictaBench 测试大语言模型(LLM)捕捉真实底层分布的能力。基准包含 448 个问题,涵盖标准统计分布、随机程序产生的分布以及描述随机过程的自然语言场景。采用 KS@N 指标(基于 Kolmogorov-Smirnov 检验)衡量模型输出与黑盒目标分布的逼近程度。测试开源和闭源模型发现,生成样本数为 100(KS@100)时,得分从接近 0 到超过 20%,没有任何模型达到 40% 以上。增加推理能力可略微提升分数,但无法根本解决该问题。UnpredictaBench 表明即使简单的分布模拟对 LLM 仍具挑战性。

论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
机器人不仅需要VLA与世界模型

本文认为通用机器人智能常被简化为策略缩放问题,但核心瓶颈并非策略学习,而是缺乏将人类运动、互联网视频等非结构化行为数据转化为具身监督信号的机制。研究者识别出四个缺失接口:自动标注非结构化行为的数据接口、重定向人类运动至机器人动作的具身接口、基于物理的3D推理世界模型接口,以及从视频和语言推断任务进度与成功的奖励接口。文章梳理了机器人基础模型、视频学习等进展,并提出构建能从更广泛物理世界学习的机器人系统研究议程。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
压缩-蒸馏:面向高效知识蒸馏的推理轨迹压缩

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹,经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%,训练速度提升2.0–7.6倍,推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率;压缩学生模型可保留高达96%的原始准确率,同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时,压缩轨迹缩小了与原始轨迹的差距,但未超过原始。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
PhaseLock:两步推理锁定运动先验,避免视觉细化阶段擦除物理一致性

图像到视频扩散模型常生成违反物理定律的运动。研究发现,同一模型的两步生成比50步生成物理一致性更好。频谱分析表明,去噪过程中相位退化约18%,幅度保持稳定。基于此,提出无需训练的PhaseLock框架,从仅两步推理提取运动先验,通过Latent Delta Guidance施加到高保真生成。PhaseLock有效缓解相位退化,在多种模型上平均提升物理一致性6.2点,同时保持视觉保真度,额外开销仅1.06倍时间和1.02倍内存,并减少对外部昂贵引导方法的依赖(约5倍时间)。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
DIRECT:通过分解视觉代理实现直接3D感知物体插入

提出DIRECT框架,实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件:参考物体外观引导、用户调整的3D代理几何引导、目标背景上下文引导,通过分开注入避免特征纠缠,同时保留参考外观、遵循指定姿态并适配场景。还引入自动化数据构建管道提升训练数据多样性与质量。实验表明,DIRECT在几何可控性和视觉质量上均优于此前方法。

arXiv图像生成论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
SoCRATES:面向跨领域与社会认知变化的主动式LLM调解评估基准

SoCRATES是一个评估主动式LLM调解员在真实多领域场景中表现的基准。它通过智能体流水线从真实冲突构建8个领域场景,探测战略姿态、参与方构成、历史长度、情绪反应和文化身份5个社交认知适应轴,并使用主题局部评估器仅对推进该主题的轮次打分。该评估器与人类专家的对齐度达0.82,是每轮基线得分的两倍以上。对8个前沿LLM的测试显示,即使最强的调解员在多样化现实测试床下也仅能弥合约三分之一的未调解共识差距,且性能随社交认知轴剧烈变化,表明进步关键在于社会适应能力。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
反事实链与因果图的大语言模型可解释性

提出一种使用因果图解释大语言模型推理的方法,包含四阶段:发现类区分概念、将输入映射为LLM感知的概念状态、通过MCMC启发的反事实增强扩充稀疏观测数据、利用σ-CG进行稳定因果发现。在三个大语言模型上应用于疾病诊断、情感分析和LLM-as-a-judge分类任务。实验评估了因果图的预测保真度和结构稳定性,以及反事实增强的收敛性与下游效用。结果表明所发现的因果图捕获了与LLM推理一致的有意义依赖关系,为概念层面的可解释性提供了基础。

arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
SubtleMemory: 细粒度关系记忆辨别基准

SubtleMemory是一个评估长期运行AI智能体在细粒度关系记忆辨别上能力的基准。它构建关系控制的潜在语义伪影变体(包含互补、细微或矛盾关系),并嵌入逼真的用户-智能体历史。基准包含1,522个评估实例,基于10个长历史,覆盖用户相关与非用户相关查询。评测了多个独立记忆系统和Claw-style智能体,发现当前系统表现薄弱。研究还引入诊断协议,揭示记忆保留、检索和下游推理阶段的差异化能力轮廓。

智能体arXiv论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
43
Astra:借助世界模拟器实现智能体视觉空间推理

视觉-语言模型(VLM)在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL(基于强化学习的VLM策略)与Astra-WM(基于Bagel的世界模拟器)耦合,后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习,训练模型仅在想象观测优于直接回答时调用模拟器。实验显示,Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5;Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。

具身智能多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
OpenSkill: 开放世界下的LLM智能体自我进化

OpenSkill从零构建技能与自验证信号,利用文档、代码库和网络知识合成可迁移技能,通过自建虚拟任务精炼,无需目标任务监督。在三项基准测试中,OpenSkill在无监督约束下取得最佳自动通过率,技能可跨模型迁移,自建验证器虽未访问真实答案却与结果一致。

智能体arXiv论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
WorldBench:一个挑战性强且视觉多样化的多模态推理基准

WorldBench是一个用于评估多模态大语言模型(MLLM)的推理基准,通过构建涵盖多个领域(如生物)的数千个视觉概念分类体系,从搜索引擎和现有数据集中广泛收集图片,并采用结构化试错方法手动设计前沿MLLM难以回答的挑战性问题。在15个MLLM上的评估显示,最强模型准确率仅达64.0%,部分模型性能略高于随机水平,揭示了现有模型在视觉理解上的不足。该基准在视觉多样性上优于现有任何多样化基准。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
ToolMaze:LLM智能体在工具失效时的动态重规划与异常恢复基准测试

ToolMaze是一个评估LLM智能体在工具失效场景下动态路径发现与错误恢复能力的基准测试。其采用双维度设计:DAG拓扑复杂度与2×2工具扰动分类(显式/隐式、瞬时/永久)。评估显示,几乎所有模型在扰动下性能均下降,隐式语义失效导致扰动恢复率(PRR)骤降约37%,复杂拓扑则使智能体陷入无效试错循环。关键发现:智能体容错能力随模型规模提升的速度比基本任务执行慢3.66倍,动态重规划成为模型扩展无法解决的独立瓶颈。数据和代码已公开。

智能体MCP/工具论文/研究
07:52
Bloomberg:Technology(RSS)
30
Sam Altman 称不计划为 2026 年美国选举捐款

OpenAI 首席执行官 Sam Altman 表示,他无意向今年的美国选举提供任何财务捐助。与此同时,其他硅谷亿万富翁已承诺投入巨额资金,试图影响将决定国会控制权的 2026 年中期选举。

OpenAI其他
07:26
OpenAI:官网动态(RSS · 排除企业/客户案例)
42
Wasmer 使用 Codex 构建边缘 Node.js 运行时

Wasmer 借助 Codex(基于 GPT-5.5)构建了一个用于边缘计算的 Node.js 运行时,将开发速度提升 10 到 20 倍,交付周期从数月缩短至数周。

OpenAI教程/实践编码
‹ 上一页
1…3940414243…50
下一页 ›