AIHOT

全部动态资讯 · 1789 条

全部一手资讯 X 论文

5月25日周一

5月24日周日

5月23日周六

5月25日

08:00

HuggingFace Daily Papers（社区热门论文）

LLM能够内省吗？现实检验

针对“大语言模型能否检视并报告其内部状态”这一问题，本文基于人类元认知研究指出，现有结论可能为时过早。作者重新审视了两个评估范式：在第一个范式中，模型无法可靠区分针对其内部状态的干预与输入操纵；在第二个范式中，仅访问输入的分类器能达到与模型自身预测相当的性能，且引入的重新标记控制实验显示模型表现接近随机。这些结果表明，当前证据不足以确立LLM展现出真正的内省或元认知监控能力。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NSF-SciFy：从NSF奖项数据库中挖掘科学主张

NSF-SciFy是一个从美国国家科学基金会奖项摘要中提取的科学主张数据集，包含来自40万篇摘要的280万条主张，涵盖所有科学与数学学科。提供了两个子集：材料科学方向的11.4万条主张和跨五个部门的13.5万条主张。研究采用零样本提示联合提取科学主张与研究方案，并在非技术摘要生成、主张提取等三个下游任务上微调模型，获得显著提升，相对增益常超100%。代码与数据已开源。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CroCo：基于自生成响应的跨语言对比偏好调优

本研究提出CroCo方法，扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移，在包含14种高低资源语言的评估中，使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明，单语或多语配对设置均能提升多数任务性能，并防止监督微调导致的灾难性遗忘。具体而言，在结构化任务上，调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平；在开放式生成任务中，两个模型在全部11种评估语言上均优于基线。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

D^2-Monitor：一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法

针对扩散大语言模型（D-LLM）安全监控的空白，研究发现其中间隐藏状态反复接近探测器决策边界的“安全犹豫”信号最能预测轻量级监控器的失败。基于此，提出了D^2-Monitor双层架构：使用一个参数不超过0.85M的轻量探测器作为基础分类器，当犹豫水平超阈值时，动态激活一个更强的探测器。在WildguardMix等3个数据集和4个D-LLM上的评估显示，该架构以紧凑规模实现了效果与效率的最佳平衡。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考VLA初始化中的VLM表征

视觉-语言-动作（VLA）模型常以预训练视觉-语言模型（VLM）为骨干，但何种VLM表征适合作为初始化尚不明确。本研究将其视为表征设计问题，沿三个轴实验：具身VQA监督、参数更新策略和机器人数据预训练。发现原始预训练VLM表征是动作性能关键。具身VQA适应收益不一致，取决于下游瓶颈。LoRA比全量微调更可靠，表明过度重塑表征会削弱效果。机器人数据预训练可进一步提升，最优变体来自基于LoRA的分阶段训练。结论是有效适应应在注入动作相关信号的同时，保留预训练VLM中对动作学习有用的表征。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

激活预言机的置信度与校准研究

本研究调查了6种用于估计激活预言机置信度的方法，并评估其校准程度。实验针对Qwen3-8B和通义千问（Qwen3.6-27B）两个模型进行，每个预言机测试6000个样本。结果显示，引导模式频率是校准效果最佳的方法，其ECE在两个模型上分别为5.7%和10.3%，显著优于作为基线的答案词对数概率方法。此外，对数概率基线可作为一种低成本的快速筛选信号。

GitHub安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLaVA-OneVision-2：迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术，通过分析压缩视频的比特成本动态进行自适应分组，并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标，并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中，其 8B 版本达到 74.9 分的 mAP，显著超越 Qwen3-VL-8B（30.1 分），且在匹配 token 预算下，编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例，覆盖文本到音视频（T2AV）、图像到音视频（I2AV）和视频到音视频（V2AV）三种条件模态。该基准采用分类引导构建方法，并整合了统一评估框架。该框架结合了多模态大模型（MLLM）辅助评估与多种感知及多模态指标，例如 DINO-v2、ArcFace、CLIP 和 ImageBind，对超过 20 个细粒度维度进行评分，涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证，LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MobileGym：面向移动GUI智能体研究的可验证高度并行仿真平台

MobileGym是一个浏览器托管、轻量级且完全可控的移动端日常使用环境。它实现了基于结构化JSON状态的确定性状态判定，以提供可验证的结果信号，并通过低成本并行轮转实现可扩展的在线强化学习。其完整环境状态以JSON进行捕获与配置，单个服务器可托管数百个并行实例，单实例内存约400MB，冷启动约3秒。配套的MobileGym-Bench提供了覆盖28个应用的416个参数化任务模板。在Sim-to-Real案例研究中，使用GRPO对通义千问Qwen3-VL-4B-Instruct进行训练，在测试集上提升了+12.8个百分点，且真实设备执行保留了仿真端95.1%的训练增益。项目主页：https://mobilegym.github.io。

智能体arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

个性化先于存储：长期代理个性化记忆的基准测试与学习

现有基于大语言模型的记忆系统采用通用、静态策略，忽略了不同用户值得存储在记忆中的内容存在差异。为解决这一问题，研究引入 PerMemBench，首个用于评估个性化记忆系统的基准测试，并提出 session level storage gating 轻量级框架，通过选择性地为临时会话跳过记忆操作以实现记忆个性化。研究确认个性化在完美门控条件下能带来显著的记忆保留增益，但准确的门控仍是开放性挑战。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向鲁棒多视角3D重建的几何感知表征去噪

提出几何感知表征去噪（GARD）框架，用于解决真实退化条件下多视角3D重建的鲁棒性问题。该框架在前馈3D重建模型的特征空间中执行基于扩散的多视角修复，利用其几何感知表征恢复精确场景几何结构。同时，通过额外的RGB图像解码器，可同步恢复高质量RGB图像。在Depth Anything 3 (DA3)基准测试上的全面实验证明了该框架的有效性。

arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

看得越多，就懂得越多吗？单锚点优势归一化实现多源视觉推理

现有基于可验证奖励的强化学习（RLVR）视觉推理方法在处理多源输入时，常将其视为简单信息堆叠，缺乏机制区分融合带来的信息增益与噪声干扰，导致多源性能可能低于单源。为此，本文提出MARS框架，将每种视觉模态建模为独立信息源，并以单源奖励为动态锚点，将多源融合引入的信息增益显式纳入优势归一化过程，以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明，该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从多模态大语言模型中挖掘主体驱动生成能力

现有主体驱动生成方法因分别编码文本与参考图像，存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型（MLLMs）之上，并引入基于VAE的身份条件。通过设计双层聚合（DLA）模块汇聚多层次的MLLM特征，以及采用多阶段去噪策略，在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明，该方法能协调多模态理解与身份保留，缓解复制粘贴问题，并在人类偏好评估中取得优越性能。

图像生成多模态论文/研究

03:57

Hacker News 热门（buzzing.cc 中文翻译）

约束衰减：大型语言模型代理在后端代码生成中的脆弱性

论文研究了大型语言模型代理在后端代码生成任务中存在的脆弱性，特别是“约束衰减”现象。该研究揭示了这类智能体在处理复杂后端开发时，其生成代码的质量或遵循指定约束的能力会随任务难度或上下文变化而出现下降。

智能体arXiv编码论文/研究

5月24日

21:57

The Decoder：AI News（RSS）

字节跳动研究发现：向多模态大模型提问比转录文本更利于长文档训练

字节跳动 Seed 团队的研究表明，一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时，比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍，该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式，优于传统上对页面内容进行转录的训练方法。

多模态数据/训练论文/研究

17:06

MarkTechPost（RSS）

微软研究院推出Webwright终端原生浏览器代理框架

微软研究院近日发布了Webwright，这是一个终端原生的浏览器代理框架。它通过可复用的Playwright脚本取代传统点击追踪的网页自动化方式，基于包含三个模块的单一代理循环构建，代码量约1000行。由GPT-5.4驱动的Webwright在长周期Odysseys基准测试中取得60.1%的得分，较基线模型的33.5%提升近一倍；同时在Online-Mind2Web基准测试中达到86.7%，成为当前开源工具中自动评估得分最高的方案。

智能体Microsoft开源/仓库论文/研究

16:27

The Decoder：AI News（RSS）

研究人员让Claude Code发现人类可能不会设计的AI缩放算法

马里兰大学、谷歌、Meta等机构的研究人员利用AutoTTS框架，使Claude Code编码智能体自主发现了用于AI推理的控制算法。该算法将计算成本降低了约70%，同时保持了与标准自一致性方法相当的准确率。整个算法搜索过程耗时160分钟，成本仅为40美元。这项工作展示了AI智能体自主设计高效算法的可能性。

智能体推理论文/研究

12:00

公众号：腾讯混元

清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠，NPU推理提速4.1倍

在MLSys 2026 MoE模型推理优化竞赛中，清华联合腾讯混元获得冠军。针对MoE架构在异构芯片（NPU）上面临的推理性能挑战，其提出的优化方案在NPU上实现4.1倍推理速度提升。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

WorldCraft：从相机导航到物体操作的交互式视频世界模型

WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后，模型生成未来帧，使选定物体沿轨迹运动同时相机继续导航。其核心包括：Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影；Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力；Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制，保持相机保真度，并维持跨长自回归滚动的物体状态。

arXiv具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NITP：用于大语言模型预训练的下一隐式Token预测方法

标准的下一Token预测（NTP）仅使用输出logit空间的离散标签进行监督，这导致潜在表示空间约束不足。为解决此问题，本文提出了NITP方法，它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容，并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明，NITP能正则化优化过程，促进紧凑且结构化的表示几何。实验表明，在从0.5B到9B参数的密集与MoE模型上，NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上，NITP在MMLU-Pro上实现了5.7%的绝对提升，在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升，仅增加约2%的训练FLOPs且无额外推理成本。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CONF-KV：基于置信度的 KV 缓存驱逐与混合精度存储方案

CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数，以此动态分配每一步的缓存预算：在模型不确定时保留更多上下文，自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序，并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明，在生成长度达 4K 时，其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中，CONF-KV 达到 91.4% 的准确率，远高于滑动窗口（53.8%）和 H2O（80.6%）。在 75 个 VisualWebArena 任务中，它以 2.8 倍更低的峰值内存，保留了完整 KV 缓存 95.3% 的成功率。

arXiv推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead，一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型，无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块，通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖，以直接在3D表示中强制多视角一致性。同时，设计了一个SE(3)多视角评判器，在未观测真实多视角对的情况下，奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量，超越先前方法的纹理和几何一致性。此外，文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K，用于训练与评估。

arXiv图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

神经网络在宽度、深度与时间中的生长

该研究在循环卷积神经网络中，将宽度、深度和时间定义为可微分成本项，并与任务误差一同通过反向传播进行联合优化。通过施加不同压力，多样化的计算图在训练中自然涌现。研究发现，这三种资源可以相互权衡以达到特定准确率。网络规模随任务复杂度在三个维度上增长，并在输入被遮挡时自发增加循环步数。模型使用的时间与人类在物体识别任务中的反应时间存在相关性。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

现有指代分割模型通常假设用户查询精确无歧义，但在实际应用中这一假设难以成立。为此，本文提出IC-Seg，一个新颖的智能体框架，它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力，进一步引入Hi-GRPO分层优化策略，在轨迹、对话轮和步骤层级注入密集监督信号，以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS，实验证明IC-Seg在处理歧义查询上显著优于现有方法，并在标准推理分割基准上保持state-of-the-art性能。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

STREAM：一种从流媒体中挖掘高价值任务导向对话的数据中心框架

为解决垂直领域大语言模型缺乏复杂任务导向对话数据的瓶颈，STREAM框架提出一种从公开流媒体（直播与短视频）中规模化合成高质量服务对话的新方法。该框架从嘈杂的流媒体中挖掘真实交互信号，结合角色人物构建与对话蓝图设计，并利用检索增强生成（RAG）技术支持知识响应。基于此发布的StreamDial数据集覆盖汽车、餐饮与酒店三大领域，包含87,498个对话会话与1,497,320轮对话。评估表明，该数据集提升了对话内在质量，并在多个骨干模型上改善了对话状态跟踪性能；在Qwen3-8B上的多语言迁移实验也取得了积极结果。

arXiv检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在潜在空间中学习高频连续动作块

为解决机器人高频（如60Hz）动作控制中时序平滑性与空间一致性难以兼顾的问题，本研究将高频动作学习从动作空间转移到变分自编码器（VAE）的潜在空间，显著提升了控制质量。为进一步在异步推理下实现流畅执行，提出了“先复用后精炼”的块级策略，以增强相邻动作块间的连续性。实验表明，该方法使机器人能够更连贯地执行复杂的接触密集型任务，减少了停顿与抖动，动作完成更为平滑。代码与数据已开源。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DarkForest：智能体少交流，准确率更高

多智能体大语言模型系统通过组合多个智能体的输出来提升推理能力，但交互密集的方法易导致错误传播和高通信开销。本文提出一个名为DarkForest的可控通信协调框架。该框架首先让每个智能体独立生成答案，随后将原始响应解析为结构化候选记录，并依据代理可靠性等因素对语义等价的候选进行分组与校准，协调器仅从该信念分布中接收策略允许的证据。在六个推理基准测试上，DarkForest取得了领先的综合质量，其基准指标比最强基线提升高达30.7%，同时将token消耗降低至通信密集型基线的1/6.5。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

方向对齐缓解大语言模型强化学习中的奖励漏洞

奖励漏洞是大语言模型在强化学习中通过捷径优化代理奖励而非解决任务的问题。研究通过分析参数更新的奇异方向发现，漏洞运行相比正常运行呈现显著方向偏移。为此提出可信方向投影方法，将梯度约束在干净参考子空间内，在数学推理实验中有效延迟了捷径利用并保持任务性能。

arXiv安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

注入视觉概念：在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间，实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化（PNO）模块。实验表明，VCF 能从参考图像转移风格、构图和调色板等视觉属性，同时遵循文本提示。定量结果显示，其文本对齐度（CLIP 分数）与视觉相似度（LPIPS）之间存在权衡，但在参考保真度上优于基线方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SimuWoB：模拟真实移动应用以实现快速可靠的GUI智能体评测

SimuWoB是一个为移动GUI智能体设计的完全合成基准测试，包含120个跨越不同类型和难度等级的任务。它通过一个框架生成高保真任务和虚拟环境，并为每个任务自动提供有效奖励；环境以无后端的网页形式部署，可通过URL访问，以实现高效、可复现的评估。实验显示，在最先进的移动GUI智能体上，平均成功率仅为27.92%，长视野任务的成功率降至17.82%，揭示了当前智能体在复杂场景下的不足。与真实世界样本任务的评估结果对比表明，基于此合成环境的评估具有良好的泛化能力。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

忠实性指标并不测量忠实性：基于真实标注的元评估

针对大语言模型链式推理（CoT）是否忠实反映其内部计算的评估难题，研究构建了包含3,066个标注CoT的BonaFide基准，覆盖13个任务与10个模型。通过对主流忠实性指标的首次系统性评估发现，大多数指标的表现接近随机水平，存在预测偏差，且在长链推理上性能下降。最佳指标在CoT级别的AUROC仅为0.70，另一指标在步骤级别为0.59，两者均无法跨场景迁移且计算成本高昂。研究揭示了当前忠实性评估的根本性缺陷。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Macaron-A2UI：面向个人智能体的生成式UI模型

为突破个人智能体静态文本交互的瓶颈，生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型，旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作，用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库，引入A2UI-Bench评测基准，并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分，超越了全schema前沿基线。模型、基准与评测协议均已开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

针对图像描述生成强化学习中的奖励粒度不足问题，提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述，多模态评判器枚举两者间可验证的视觉声明差异，分配错误类型与严重程度，并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明，该框架在多个基准上改善了事实性与覆盖率的平衡，在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

你的嵌入模型，比你想象的更SMART

SMART是一个框架，旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互，实现即插即用的性能提升。研究表明，SMART能提升包括最先进模型在内的多模态检索性能，在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力，还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。

arXiv多模态开源生态搜索

08:00

HuggingFace Daily Papers（社区热门论文）

几何感知图像 Flow Matching

研究发现，自然图像的语义信息主要编码在方向分量中，其范数分量可由全局平均近似，表明图像数据本质上可建模于超球面。基于此，论文提出了两种几何感知方法：利用角距离的球形最优传输流匹配（SOT-CFM）与在流形上约束动力学的球形流匹配（SFM）。实验证明，这两种方法性能优于欧几里得基线，为基于黎曼流形的建模与自然图像生成之间建立了联系。

arXiv图像生成论文/研究

5月23日

18:35

MarkTechPost（RSS）

Nous Research 发布对比神经元归因（CNA）：无需SAE训练或权重修改的稀疏MLP电路引导

Nous Research 推出对比神经元归因（CNA）技术，通过识别并抑制稀疏MLP神经元电路来引导大语言模型的行为输出。该方法无需进行稀疏自编码器训练，也无需修改模型权重，同时能在引导行为的同时保持模型在通用能力基准测试上的性能不发生退化。这为控制LLM行为提供了一种更轻量、无侵入性的新途径。

安全/对齐论文/研究

10:57

Hacker News 热门（buzzing.cc 中文翻译）

CODA：将Transformer模块重写为GEMM-Epilogue程序

论文提出CODA技术，旨在优化Transformer架构的核心计算。其核心思想是将Transformer块中的复杂操作（如注意力机制、前馈网络）统一抽象并重写为“通用矩阵乘法（GEMM）+ 后续操作（Epilogue）”的程序化组合。这种方法能够更高效地映射到现代硬件（如GPU）上执行，通过融合计算、减少内存访问来提升整体效率。该成果已发布于arXiv，并在Hacker News社区获得关注（100点热度），反映了业界对大模型底层计算优化的持续探索。

论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

基于激活补丁技术的LLM知识遗忘深度测量

大语言模型的知识遗忘是实现隐私保护和AI安全的关键机制，但现有评估方法难以验证目标知识是否从模型内部被真正擦除。本文提出了一种新的度量指标UDS，用于量化遗忘的机制深度。该方法首先在保留模型上定位编码目标知识的层，然后在遗忘后模型上评估其擦除程度（0-1分）。在涵盖8种方法、150个遗忘模型的元评估中，UDS的可靠性与稳健性表现最佳。研究还揭示了不同白盒度量在层级评估上可能存在差异。代码与数据已开源。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

预测动力学能否存在于物理世界中？

预测性物理AI系统的输出（如状态预测、行动规划）即使误差低，也不一定物理可行。本研究提出了“物理可接受性”评估框架，将解码后的提案视为候选动力学，在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功，但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中，该完整验证门的AUC达0.957，残差过滤器能预防87-89%的无效提案，同时保持99.8%的任务正常进展。

arXiv具身智能论文/研究