AIHOT

全部动态资讯 · 9034 条

6月4日周四

6月4日

09:42

HuggingFace Daily Papers（社区热门论文）

Stateful Visual Encoder：为视觉-语言模型引入有状态视觉编码器

现有开放权重视觉-语言模型（VLM）在多图像、多轮智能体场景中，视觉编码器是无状态的，每张图像独立编码，无法访问先前视觉上下文，导致任务关键的小变化被弱化。本文提出 Stateful Visual Encoder，将每个视觉表示基于先前视觉特征进行条件化。通过监督微调，配备该编码器的 VLM 在跨图像空间聚合、多对象视觉差异和轨迹行为克隆等任务上取得一致改进，且适用于不同分辨率、语言模型规模和 VLM 主干。在纵向放射学、精细图像比较和遥感等真实任务中，有状态编码器持续提升通用 VLM 基线，在特定领域匹配或超越专用模型。

智能体多模态论文/研究

09:42

HuggingFace Daily Papers（社区热门论文）

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习（如GRPO）常用统一的序列级优势更新所有token，稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法，利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示，GRAIL一致优于GRPO，平均准确率提升3.60%，Pass@3提升3.05%，无需过程级监督即可实现细粒度推理对齐。

arXiv推理数据/训练论文/研究

09:28

xAI：News（网页）

精选75

xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）

xAI 通过 API 发布了图像转视频模型 `grok-imagine-video-1.5-preview`（Grok Imagine 1.5 预览版）。该模型能将单张静态图片转为流畅的电影感视频，用户提供起始帧和描述运动的提示词后，模型可生成包含相机移动、氛围和物理效果的动画，并保持对源图像的忠实。支持生成 720p 片段，可使用自然语言指令控制镜头、节奏和音效，并支持逐帧拼接成长场景。模型目前通过 xAI API 提供预览使用。

xAI多模态模型发布视频

关联讨论 1 条

推荐理由：xAI的新视频模型从单张图像生成电影级短片，支持自然语言控制运镜和氛围，对视频创作者和开发者是个值得一试的工具。

09:10

IT之家（RSS）

微软加速 Arm 生态补缺，用 AI 推进 Win11 原生应用适配

微软将在 2026 年 Build 开发者大会上展示如何利用 AI 智能体，帮助开发者将 x86 应用转换为 Windows on Arm 原生应用。目前原生 Arm 版本已占所有 Windows on Arm 用户应用使用时长的 90%，剩余缺口仍需依靠 Prism 仿真层运行。AI 智能体可承担重复代码处理、转换检查和兼容性验证等任务。

智能体Microsoft端侧行业动态

09:10

IT之家（RSS）

Calif 利用 OpenAI Codex 发现 HTTP/2 Bomb 拒绝服务攻击

网络安全公司 Calif 借助 OpenAI Codex 智能体发现 HTTP/2 Bomb 拒绝服务攻击，单机在 100 Mbps 连接下数秒至数十秒内可拖垮 Web 服务器。攻击利用 HPACK 压缩放大请求头（Envoy 放大比 5700:1，Apache httpd 4000:1）并借零字节流控窗口滞留请求，迫使服务器分配大量内存且无法释放。测试显示 Envoy 1.37.2 约 10 秒耗尽 32GB 内存，Apache httpd 2.4.67 约 18 秒耗尽 32GB。nginx 1.29.8 已加入 max_headers 指令，Apache mod_http2 2.0.41 修复（CVE-2026-49975）；IIS、Envoy 和 Pingora 暂无补丁，建议关闭 HTTP/2 或在前端限制请求头数量。

OpenAI其他

09:10

IT之家（RSS）

精选75

联合国报告：2030年AI数据中心水电消耗将翻倍

联合国大学水、环境与健康研究所报告指出，受AI需求驱动，去年全球数据中心耗电448太瓦时（AI占五分之一），耗水4.5万亿升，碳排放1.89亿吨。预计到2030年，年耗电量将翻倍至945太瓦时（AI占40%），耗水增至9.3万亿升，碳排放升至3.99亿吨，占地面积从6900平方公里扩展至14500平方公里。报告警告若忽视环境成本，AI落地还将加剧土地紧张与电子废弃物问题。

行业动态部署/工程

推荐理由：这份联合国报告把算力繁荣的隐性账单摊开了，2030年数据中心要喝掉9.3万亿升水，做AI基建的人该看看，别光比参数。