AIHOT

全部动态论文 · 2150 条

全部一手资讯 X 论文

5月25日周一

5月24日周日

5月25日

13:11

IT之家（RSS）

精选77

华为何庭波"韬定律"论文发布，逻辑折叠技术提升芯片性能

华为何庭波在ISCAS 2026上提出“韬定律”，并介绍逻辑折叠（LogicFolding）技术。该技术通过三维空间拓扑重组提升芯片性能，不依赖新光刻工艺。在麒麟2026芯片测试中，晶体管密度从155 MTr/mm²提升至238 MTr/mm²，性能核心能效提高41%，最大时钟频率提升近13%。论文显示，麒麟2027芯片已进入Silicon状态，后续规划包括麒麟2028、2029。AI芯片方面，昇腾990计划在2030年左右引入逻辑折叠，硬件集成预计到2035年提高超过100倍。

推理端侧论文/研究

关联讨论 1 条

推荐理由：华为用‘逻辑折叠’替代光刻进步，在不依赖新工艺下实现代际性能提升，这是中国芯片行业的一个技术转折，做硬件和AI推理的值得仔细看看。

12:28

Hacker News 热门（buzzing.cc 中文翻译）

精选70

感知图像编解码器：实用学习型图像压缩中的关键因素

苹果公司的研究探讨了感知图像编解码器，分析其在实用学习型图像压缩中的关键作用。该研究聚焦于提升压缩效率与视觉质量平衡的实际需求。

开源/仓库论文/研究部署/工程

推荐理由：苹果官方把学习型图像压缩落地时真正重要的几个因素讲透了，附带代码，做视频编码和图像传输的同行值得看。

08:00

HuggingFace Daily Papers（社区热门论文）

44

当梯度冲突时：LLM Judge多目标提示优化的失败模式

针对LLM Judge的多目标提示优化中，文本梯度方法无法借用多任务学习的冲突解决工具，因其产生自然语言评语而非数值向量。通过改变损失、梯度和优化器LLM之间跨任务信息共享程度，测试了五种分解模式。结果发现，10种配置中有6种优化从未优于初始提示。当梯度LLM同时处理多个标准时，梯度特异性下降59%（从9.0降至3.7）。将各任务指令简单合并为单条提示使Spearman's rho下降-5.3%。这些结果识别出两种可分离的失败模式：优化时梯度稀释与推理时指令干扰。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

提出 Unified Neural Scaling Laws （UNSL），统一建模多维度变化的深度神经网络缩放规律

研究提出了一个称为统一神经缩放规律的功能形式，能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为。这些维度包括模型参数数量、训练数据集大小、训练步数、推理步数、计算量及多种超参数。该规律适用于多样架构，并覆盖视觉、语言、数学和强化学习等上游与下游任务。实验表明，相比其他缩放规律的功能形式，UNSL 在该集合上的行为外推结果显著更准确。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

可验证奖励强化学习中的时间调度策略

本文指出，在大语言模型后训练的可验证奖励强化学习中，学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定，而本文引入时间维度，在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token，并逐渐转向一般化优化，从而使学习过程更稳定高效。实验表明，这种时间调度方法在数学和通用推理基准上实现了持续改进，并能引导更健康的策略演进。

arXiv推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

StreamChar：面向角色动画的流式音视频生成框架

StreamChar是一个面向角色动画的流式音视频生成框架。它将长时间序列的编排与短窗口的音视频去噪进行解耦。核心是由基于大语言模型的编排器生成帧对齐的音频条件，再由联合音视频DiT执行局部双向去噪。为实现高效部署，框架采用两阶段蒸馏流水线。此外，利用进度感知指针和持久视觉锚点来减少音画偏移与长时漂移。实验表明，StreamChar在单张H100 GPU上能实时运行，并在转录保真度、音画同步、视觉质量和流式稳定性方面取得了有利的系统级权衡。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

从模型扩展到系统扩展：扩展AI智能体的执行层

本研究指出，AI智能体的下一个主要瓶颈是系统扩展，而非单纯的模型扩展。研究提出了“扩展执行层”的概念，即需要将基础模型周围的结构化执行层作为首要设计对象。该执行层由记忆、检索、工具使用、编排和验证等组件构成，它们的交互共同决定了智能体的长期行为。论文聚焦于扩展执行层的三大核心瓶颈：上下文治理、可信记忆与动态技能路由。为进行具体讨论，研究开发了CheetahClaws这一参考实现，并与Claude Code、OpenClaw进行了对比。其核心观点是，AI智能体的未来进展将同样依赖于更强的基础模型与更优的系统设计。

智能体arXivGitHub论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

CollectionLoRA：通过多教师在策略蒸馏将50种效果统一于1个LoRA

CollectionLoRA是一个多教师在策略蒸馏框架，旨在解决为扩散模型定制大量视觉效果时，因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标，用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示，CollectionLoRA在显著降低部署成本的同时，实现了与独立教师模型相当或更优的概念保真度。

arXiv图像生成论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

通过多视角基础模型的统一全景几何估计

PaGeR（全景几何重建）是一个将3D基础模型扩展到全景领域的框架。它基于预训练的3D重建 Transformer 架构，通过最小化改动并混合透视与全景图像进行训练，使其能在单次前向传播中从透视和全向图像预测尺度不变深度、度量深度、表面法线和天空掩码。该模型在透视和全景图像上均实现了高性能，能够在室内和室外环境中从单张全景图像估计几何一致的360度场景，展现出卓越的零样本性能。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

你的智能体也在老化：部署系统的智能体寿命工程

本文提出了AgingBench，一个用于评估AI智能体长期可靠性的纵向基准。部署后的智能体会因交互历史压缩、记忆检索等机制而逐渐老化。AgingBench通过时间依赖图和反事实探针诊断记忆管道问题。测试发现老化现象复杂：行为测试可能正常，但事实精度已下降；相同错误答案可能需要不同的修复策略。结论是可靠的智能体部署需要生命周期评估与机制级诊断，而不仅是更强的基础模型。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

49

评估视频质量模型对扩散模型视频超分辨率的预测准确性

本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比，研究分析了六种超分辨率方法（Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini）在处理压缩（AV1, DCVC-RT）和未压缩低分辨率视频时的表现。结果表明，基于CNN的全参考模型（如LPIPS, DISTS, CVQA-FR）表现出更高的相关系数。大多数模型高估了SCST的结果，而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终，所有测试的视频质量模型均未达到足以替代主观测试的准确度。

arXiv视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

AgentHijack：针对电脑使用代理在常见环境干扰下的鲁棒性评测基准

AgentHijack 是一个评测基准，用于评估由多模态大语言模型驱动的电脑使用代理在动态环境干扰下的鲁棒性。该基准设置了 9 种可配置的常见干扰来模拟真实世界中的不理想场景。实验发现，即使轻微的干扰也会导致代理性能显著下降，凸显了增强其鲁棒性的必要性。为此，研究提出了一个改进框架 AgentHijack-Agent，它结合了具有增强定位能力的动作生成器以及负责行为总结和环境检查的观察者模块。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

58

SKILD：尺度不变扩散模型统一图像生成与连续超分辨率

SKILD是一个尺度不变的扩散模型，它利用自然图像和物理系统的尺度不变性，在一个统一的无条件框架内同时实现图像生成和连续超分辨率任务。其前向过程从细到粗尺度逐步衰减图像内容并注入噪声。训练后的反向过程仅通过改变起始时间步，即可执行生成或超分辨率，无需任务特定架构。在无条件CIFAR-10上，SKILD达到FID 2.65和Inception Score 9.63；在ImageNet上，它从单一无条件检查点实现了2倍至8倍超分辨率，并在感知指标上优于条件模型。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

Fast-dDrive：用于自动驾驶的高效块扩散视觉语言-动作模型

Fast-dDrive是一种块扩散视觉语言-动作模型，旨在平衡自动驾驶中的高保真规划与高效推理。它在语义单元内进行双向精炼，同时严格保持跨单元的因果顺序。该模型冻结结构token作为脚手架，并采用分段感知训练，优先保障安全关键规划。通过脚手架推测解码实现接近自回归模型的质量与更高吞吐量。其测试时扩展方案从单个共享前缀KV缓存分叉多个随机轨迹并取平均，以低成本有效抑制预测方差。实验表明，Fast-dDrive在WOD-E2E测试集上取得了SOTA的ADE@3s与ADE@5s成绩，在nuScenes上将平均L2误差降至0.32米（提升22%），集成SGLang后较自回归基线实现12倍吞吐量提升。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

三元组块扩散 RWKV

B³D-RWKV 是一种扩散 RWKV 变体，旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法，将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下，在 8 项任务套件中达到了与现有模型相当的准确率，同时解码吞吐量显著优于基线，平均速度提升达 1.6 倍。

arXiv推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

66

ScientistOne：迈向人类水平自主研究

自主研究智能体虽能生成看似专业的论文，但存在可验证性缺陷，如模型幻觉引用、分数不可复现及方法描述与实现不符。本文提出三项贡献：Chain-of-Evidence（CoE）验证框架，要求每个声明可追溯至证据源；ScientistOne系统，在文献调研、方案发现和论文撰写中构建证据链；CoE Audit审计工具，进行四项完整性检查。在对涵盖五个系统的75篇论文评测中，所有基线系统均存在系统性问题，如幻觉引用率达21%。ScientistOne则实现零幻觉引用、完美的分数验证及最高的方法-代码一致性，并在五项任务上匹配或超越人类专家水平，还成功泛化至其他任务，在 Parameter Golf 上达到SOTA。

智能体arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

推进大型多模态模型的创造性物理智能

该研究评估了大型多模态模型（LMMs）在开放环境中发现物理可行视觉解决方案的能力。为此，推出了MM-CreativityBench基准，用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明，当前LMMs因无法维持扎根式探索而表现不佳，常忽略实体、检查不足或产生模型幻觉。为此，研究提出功能可供性扎根对齐方法，将创造性工具使用建模为偏好学习问题，利用DPO引导模型选择基于视觉证据的推理，并结合可供性知识库监督，以减少幻觉并提升实体与部件选择能力。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

LLM能够内省吗？现实检验

针对“大语言模型能否检视并报告其内部状态”这一问题，本文基于人类元认知研究指出，现有结论可能为时过早。作者重新审视了两个评估范式：在第一个范式中，模型无法可靠区分针对其内部状态的干预与输入操纵；在第二个范式中，仅访问输入的分类器能达到与模型自身预测相当的性能，且引入的重新标记控制实验显示模型表现接近随机。这些结果表明，当前证据不足以确立LLM展现出真正的内省或元认知监控能力。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

NSF-SciFy：从NSF奖项数据库中挖掘科学主张

NSF-SciFy是一个从美国国家科学基金会奖项摘要中提取的科学主张数据集，包含来自40万篇摘要的280万条主张，涵盖所有科学与数学学科。提供了两个子集：材料科学方向的11.4万条主张和跨五个部门的13.5万条主张。研究采用零样本提示联合提取科学主张与研究方案，并在非技术摘要生成、主张提取等三个下游任务上微调模型，获得显著提升，相对增益常超100%。代码与数据已开源。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

CroCo：基于自生成响应的跨语言对比偏好调优

本研究提出CroCo方法，扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移，在包含14种高低资源语言的评估中，使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明，单语或多语配对设置均能提升多数任务性能，并防止监督微调导致的灾难性遗忘。具体而言，在结构化任务上，调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平；在开放式生成任务中，两个模型在全部11种评估语言上均优于基线。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

D^2-Monitor：一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法

针对扩散大语言模型（D-LLM）安全监控的空白，研究发现其中间隐藏状态反复接近探测器决策边界的“安全犹豫”信号最能预测轻量级监控器的失败。基于此，提出了D^2-Monitor双层架构：使用一个参数不超过0.85M的轻量探测器作为基础分类器，当犹豫水平超阈值时，动态激活一个更强的探测器。在WildguardMix等3个数据集和4个D-LLM上的评估显示，该架构以紧凑规模实现了效果与效率的最佳平衡。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

重新思考VLA初始化中的VLM表征

视觉-语言-动作（VLA）模型常以预训练视觉-语言模型（VLM）为骨干，但何种VLM表征适合作为初始化尚不明确。本研究将其视为表征设计问题，沿三个轴实验：具身VQA监督、参数更新策略和机器人数据预训练。发现原始预训练VLM表征是动作性能关键。具身VQA适应收益不一致，取决于下游瓶颈。LoRA比全量微调更可靠，表明过度重塑表征会削弱效果。机器人数据预训练可进一步提升，最优变体来自基于LoRA的分阶段训练。结论是有效适应应在注入动作相关信号的同时，保留预训练VLM中对动作学习有用的表征。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

激活预言机的置信度与校准研究

本研究调查了6种用于估计激活预言机置信度的方法，并评估其校准程度。实验针对Qwen3-8B和通义千问（Qwen3.6-27B）两个模型进行，每个预言机测试6000个样本。结果显示，引导模式频率是校准效果最佳的方法，其ECE在两个模型上分别为5.7%和10.3%，显著优于作为基线的答案词对数概率方法。此外，对数概率基线可作为一种低成本的快速筛选信号。

GitHub安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

LLaVA-OneVision-2：迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术，通过分析压缩视频的比特成本动态进行自适应分组，并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标，并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中，其 8B 版本达到 74.9 分的 mAP，显著超越 Qwen3-VL-8B（30.1 分），且在匹配 token 预算下，编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例，覆盖文本到音视频（T2AV）、图像到音视频（I2AV）和视频到音视频（V2AV）三种条件模态。该基准采用分类引导构建方法，并整合了统一评估框架。该框架结合了多模态大模型（MLLM）辅助评估与多种感知及多模态指标，例如 DINO-v2、ArcFace、CLIP 和 ImageBind，对超过 20 个细粒度维度进行评分，涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证，LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

MobileGym：面向移动GUI智能体研究的可验证高度并行仿真平台

MobileGym是一个浏览器托管、轻量级且完全可控的移动端日常使用环境。它实现了基于结构化JSON状态的确定性状态判定，以提供可验证的结果信号，并通过低成本并行轮转实现可扩展的在线强化学习。其完整环境状态以JSON进行捕获与配置，单个服务器可托管数百个并行实例，单实例内存约400MB，冷启动约3秒。配套的MobileGym-Bench提供了覆盖28个应用的416个参数化任务模板。在Sim-to-Real案例研究中，使用GRPO对通义千问Qwen3-VL-4B-Instruct进行训练，在测试集上提升了+12.8个百分点，且真实设备执行保留了仿真端95.1%的训练增益。项目主页：https://mobilegym.github.io。

智能体arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

个性化先于存储：长期代理个性化记忆的基准测试与学习

现有基于大语言模型的记忆系统采用通用、静态策略，忽略了不同用户值得存储在记忆中的内容存在差异。为解决这一问题，研究引入 PerMemBench，首个用于评估个性化记忆系统的基准测试，并提出 session level storage gating 轻量级框架，通过选择性地为临时会话跳过记忆操作以实现记忆个性化。研究确认个性化在完美门控条件下能带来显著的记忆保留增益，但准确的门控仍是开放性挑战。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

面向鲁棒多视角3D重建的几何感知表征去噪

提出几何感知表征去噪（GARD）框架，用于解决真实退化条件下多视角3D重建的鲁棒性问题。该框架在前馈3D重建模型的特征空间中执行基于扩散的多视角修复，利用其几何感知表征恢复精确场景几何结构。同时，通过额外的RGB图像解码器，可同步恢复高质量RGB图像。在Depth Anything 3 (DA3)基准测试上的全面实验证明了该框架的有效性。

arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

看得越多，就懂得越多吗？单锚点优势归一化实现多源视觉推理

现有基于可验证奖励的强化学习（RLVR）视觉推理方法在处理多源输入时，常将其视为简单信息堆叠，缺乏机制区分融合带来的信息增益与噪声干扰，导致多源性能可能低于单源。为此，本文提出MARS框架，将每种视觉模态建模为独立信息源，并以单源奖励为动态锚点，将多源融合引入的信息增益显式纳入优势归一化过程，以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明，该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

从多模态大语言模型中挖掘主体驱动生成能力

现有主体驱动生成方法因分别编码文本与参考图像，存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型（MLLMs）之上，并引入基于VAE的身份条件。通过设计双层聚合（DLA）模块汇聚多层次的MLLM特征，以及采用多阶段去噪策略，在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明，该方法能协调多模态理解与身份保留，缓解复制粘贴问题，并在人类偏好评估中取得优越性能。

图像生成多模态论文/研究

03:57

Rohan Paul@rohanpaul_ai

65

全注意力回归：将全注意力转化为稀疏，训练步骤在百步之内

阿里巴巴与南京大学提出RTPurbo，一种轻量级适配方法。该方法发现，已训练的全注意力模型内存在隐藏的稀疏结构。它利用一个轻量的16维token查找器作为“侦察兵”，为少数需要长程信息的关键注意力头定位重要token，而让其他头主要关注局部文本。基于此，RTPurbo在100万token预填充任务上，相比FlashAttention-2实现了高达9.36倍的加速，解码阶段也约有2倍加速，同时在长上下文和推理基准上保持了接近全注意力模型的精度。该研究表明，长上下文推理中的计算浪费具有可挖掘的结构性。

arXiv推理论文/研究

03:57

Hacker News 热门（buzzing.cc 中文翻译）

67

约束衰减：大型语言模型代理在后端代码生成中的脆弱性

论文研究了大型语言模型代理在后端代码生成任务中存在的脆弱性，特别是“约束衰减”现象。该研究揭示了这类智能体在处理复杂后端开发时，其生成代码的质量或遵循指定约束的能力会随任务难度或上下文变化而出现下降。

智能体arXiv编码论文/研究

02:57

Chubby♨️@kimmonismus

60

又有九个Erdős问题被解决了。但这次，是Google DeepMind完成的。这不容小觑，因为一方面它加剧了竞争压力，另一方面也证明了其他前沿实验室可以轻松跟上。

Przemek Chojecki | PC: Another 9 open Erdos problems solved, this time by DeepMind team. Interesting loop of LLM - Lean agents working autonomo...

DeepMind推理论文/研究

02:57

Rohan Paul@rohanpaul_ai

73

大型MoE模型或在无需专家帮助的简单token上浪费半数计算

论文提出ZEDA框架，可将训练后固定的静态MoE模型（如Qwen3、GLM）转变为动态模型，允许路由器在token过于简单时跳过专家调用。实验显示，在Qwen3-30B-A3B和GLM-4.7-Flash上，ZEDA可移除约50%的专家计算量，仅带来轻微准确率损失，并实现约20%的实际推理速度提升。研究发现，计算分配主要依据模型的不确定性，而非单纯跟随任务难度。

推理论文/研究部署/工程

5月24日

21:57

The Decoder：AI News（RSS）

59

字节跳动研究发现：向多模态大模型提问比转录文本更利于长文档训练

字节跳动 Seed 团队的研究表明，一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时，比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍，该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式，优于传统上对页面内容进行转录的训练方法。

多模态数据/训练论文/研究

20:27

Chubby♨️@kimmonismus

68

德国研究：普通WiFi路由器可近乎完美识别个人身份

德国KIT研究人员展示，使用普通WiFi路由器即可近乎完美地识别个人身份，无需手机、特殊硬件或视线。该系统利用每个已连接设备都在广播的未加密波束成形反馈（beamforming feedback）。在197名受试者的测试中，识别准确率接近100%。该研究指出，此类监控基础设施（如咖啡馆、机场、办公室中的路由器）已普遍存在，核心问题在于谁将开始读取并利用这些信号。

安全/对齐论文/研究

17:06

MarkTechPost（RSS）

62

微软研究院推出Webwright终端原生浏览器代理框架

微软研究院近日发布了Webwright，这是一个终端原生的浏览器代理框架。它通过可复用的Playwright脚本取代传统点击追踪的网页自动化方式，基于包含三个模块的单一代理循环构建，代码量约1000行。由GPT-5.4驱动的Webwright在长周期Odysseys基准测试中取得60.1%的得分，较基线模型的33.5%提升近一倍；同时在Online-Mind2Web基准测试中达到86.7%，成为当前开源工具中自动评估得分最高的方案。

智能体Microsoft开源/仓库论文/研究

16:27

The Decoder：AI News（RSS）

60

研究人员让Claude Code发现人类可能不会设计的AI缩放算法

马里兰大学、谷歌、Meta等机构的研究人员利用AutoTTS框架，使Claude Code编码智能体自主发现了用于AI推理的控制算法。该算法将计算成本降低了约70%，同时保持了与标准自一致性方法相当的准确率。整个算法搜索过程耗时160分钟，成本仅为40美元。这项工作展示了AI智能体自主设计高效算法的可能性。

智能体推理论文/研究

12:00

公众号：腾讯混元

43

清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠，NPU推理提速4.1倍

在MLSys 2026 MoE模型推理优化竞赛中，清华联合腾讯混元获得冠军。针对MoE架构在异构芯片（NPU）上面临的推理性能挑战，其提出的优化方案在NPU上实现4.1倍推理速度提升。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

50

WorldCraft：从相机导航到物体操作的交互式视频世界模型

WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后，模型生成未来帧，使选定物体沿轨迹运动同时相机继续导航。其核心包括：Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影；Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力；Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制，保持相机保真度，并维持跨长自回归滚动的物体状态。

arXiv具身智能视频论文/研究