AIHOT

全部动态论文 · 2150 条

全部一手资讯 X 论文

5月24日周日

5月23日周六

5月22日周五

5月24日

08:00

HuggingFace Daily Papers（社区热门论文）

NITP：用于大语言模型预训练的下一隐式Token预测方法

标准的下一Token预测（NTP）仅使用输出logit空间的离散标签进行监督，这导致潜在表示空间约束不足。为解决此问题，本文提出了NITP方法，它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容，并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明，NITP能正则化优化过程，促进紧凑且结构化的表示几何。实验表明，在从0.5B到9B参数的密集与MoE模型上，NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上，NITP在MMLU-Pro上实现了5.7%的绝对提升，在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升，仅增加约2%的训练FLOPs且无额外推理成本。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CONF-KV：基于置信度的 KV 缓存驱逐与混合精度存储方案

CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数，以此动态分配每一步的缓存预算：在模型不确定时保留更多上下文，自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序，并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明，在生成长度达 4K 时，其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中，CONF-KV 达到 91.4% 的准确率，远高于滑动窗口（53.8%）和 H2O（80.6%）。在 75 个 VisualWebArena 任务中，它以 2.8 倍更低的峰值内存，保留了完整 KV 缓存 95.3% 的成功率。

arXiv推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead，一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型，无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块，通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖，以直接在3D表示中强制多视角一致性。同时，设计了一个SE(3)多视角评判器，在未观测真实多视角对的情况下，奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量，超越先前方法的纹理和几何一致性。此外，文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K，用于训练与评估。

arXiv图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

神经网络在宽度、深度与时间中的生长

该研究在循环卷积神经网络中，将宽度、深度和时间定义为可微分成本项，并与任务误差一同通过反向传播进行联合优化。通过施加不同压力，多样化的计算图在训练中自然涌现。研究发现，这三种资源可以相互权衡以达到特定准确率。网络规模随任务复杂度在三个维度上增长，并在输入被遮挡时自发增加循环步数。模型使用的时间与人类在物体识别任务中的反应时间存在相关性。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

现有指代分割模型通常假设用户查询精确无歧义，但在实际应用中这一假设难以成立。为此，本文提出IC-Seg，一个新颖的智能体框架，它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力，进一步引入Hi-GRPO分层优化策略，在轨迹、对话轮和步骤层级注入密集监督信号，以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS，实验证明IC-Seg在处理歧义查询上显著优于现有方法，并在标准推理分割基准上保持state-of-the-art性能。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

STREAM：一种从流媒体中挖掘高价值任务导向对话的数据中心框架

为解决垂直领域大语言模型缺乏复杂任务导向对话数据的瓶颈，STREAM框架提出一种从公开流媒体（直播与短视频）中规模化合成高质量服务对话的新方法。该框架从嘈杂的流媒体中挖掘真实交互信号，结合角色人物构建与对话蓝图设计，并利用检索增强生成（RAG）技术支持知识响应。基于此发布的StreamDial数据集覆盖汽车、餐饮与酒店三大领域，包含87,498个对话会话与1,497,320轮对话。评估表明，该数据集提升了对话内在质量，并在多个骨干模型上改善了对话状态跟踪性能；在Qwen3-8B上的多语言迁移实验也取得了积极结果。

arXiv检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

在潜在空间中学习高频连续动作块

为解决机器人高频（如60Hz）动作控制中时序平滑性与空间一致性难以兼顾的问题，本研究将高频动作学习从动作空间转移到变分自编码器（VAE）的潜在空间，显著提升了控制质量。为进一步在异步推理下实现流畅执行，提出了“先复用后精炼”的块级策略，以增强相邻动作块间的连续性。实验表明，该方法使机器人能够更连贯地执行复杂的接触密集型任务，减少了停顿与抖动，动作完成更为平滑。代码与数据已开源。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DarkForest：智能体少交流，准确率更高

多智能体大语言模型系统通过组合多个智能体的输出来提升推理能力，但交互密集的方法易导致错误传播和高通信开销。本文提出一个名为DarkForest的可控通信协调框架。该框架首先让每个智能体独立生成答案，随后将原始响应解析为结构化候选记录，并依据代理可靠性等因素对语义等价的候选进行分组与校准，协调器仅从该信念分布中接收策略允许的证据。在六个推理基准测试上，DarkForest取得了领先的综合质量，其基准指标比最强基线提升高达30.7%，同时将token消耗降低至通信密集型基线的1/6.5。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

方向对齐缓解大语言模型强化学习中的奖励漏洞

奖励漏洞是大语言模型在强化学习中通过捷径优化代理奖励而非解决任务的问题。研究通过分析参数更新的奇异方向发现，漏洞运行相比正常运行呈现显著方向偏移。为此提出可信方向投影方法，将梯度约束在干净参考子空间内，在数学推理实验中有效延迟了捷径利用并保持任务性能。

arXiv安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

注入视觉概念：在推理时向文本条件扩散模型注入图像引导

Visual Concept Fusion (VCF) 是首个在推理阶段同时接受图像和文本提示、无需概念特定训练的方法。它通过将 CLIP 图像特征对齐到文本嵌入空间，实现视觉概念注入。VCF 包含一个轻量级对齐器、一种融合策略以及可选的提示噪声优化（PNO）模块。实验表明，VCF 能从参考图像转移风格、构图和调色板等视觉属性，同时遵循文本提示。定量结果显示，其文本对齐度（CLIP 分数）与视觉相似度（LPIPS）之间存在权衡，但在参考保真度上优于基线方法。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SimuWoB：模拟真实移动应用以实现快速可靠的GUI智能体评测

SimuWoB是一个为移动GUI智能体设计的完全合成基准测试，包含120个跨越不同类型和难度等级的任务。它通过一个框架生成高保真任务和虚拟环境，并为每个任务自动提供有效奖励；环境以无后端的网页形式部署，可通过URL访问，以实现高效、可复现的评估。实验显示，在最先进的移动GUI智能体上，平均成功率仅为27.92%，长视野任务的成功率降至17.82%，揭示了当前智能体在复杂场景下的不足。与真实世界样本任务的评估结果对比表明，基于此合成环境的评估具有良好的泛化能力。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

忠实性指标并不测量忠实性：基于真实标注的元评估

针对大语言模型链式推理（CoT）是否忠实反映其内部计算的评估难题，研究构建了包含3,066个标注CoT的BonaFide基准，覆盖13个任务与10个模型。通过对主流忠实性指标的首次系统性评估发现，大多数指标的表现接近随机水平，存在预测偏差，且在长链推理上性能下降。最佳指标在CoT级别的AUROC仅为0.70，另一指标在步骤级别为0.59，两者均无法跨场景迁移且计算成本高昂。研究揭示了当前忠实性评估的根本性缺陷。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Macaron-A2UI：面向个人智能体的生成式UI模型

为突破个人智能体静态文本交互的瓶颈，生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型，旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作，用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库，引入A2UI-Bench评测基准，并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分，超越了全schema前沿基线。模型、基准与评测协议均已开源。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

针对图像描述生成强化学习中的奖励粒度不足问题，提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述，多模态评判器枚举两者间可验证的视觉声明差异，分配错误类型与严重程度，并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明，该框架在多个基准上改善了事实性与覆盖率的平衡，在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

你的嵌入模型，比你想象的更SMART

SMART是一个框架，旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互，实现即插即用的性能提升。研究表明，SMART能提升包括最先进模型在内的多模态检索性能，在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力，还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。

arXiv多模态开源生态搜索

08:00

HuggingFace Daily Papers（社区热门论文）

几何感知图像 Flow Matching

研究发现，自然图像的语义信息主要编码在方向分量中，其范数分量可由全局平均近似，表明图像数据本质上可建模于超球面。基于此，论文提出了两种几何感知方法：利用角距离的球形最优传输流匹配（SOT-CFM）与在流形上约束动力学的球形流匹配（SFM）。实验证明，这两种方法性能优于欧几里得基线，为基于黎曼流形的建模与自然图像生成之间建立了联系。

arXiv图像生成论文/研究

5月23日

23:51

elvis@omarsar0

调整运行时接口而非模型，提升AI代理通用性

一项新研究提出通过改进包裹冻结LLM的运行时接口来优化AI代理性能，而非修改模型本身。该方法将反复出现的交互失败转化为对运行时层的可复用干预，在7个确定性环境、126个设置中取得平均88.5%的相对性能提升。关键发现是，从单一模型轨迹中学习到的运行时方法可成功迁移至18个不同模型骨架，证明其捕捉的是环境结构而非模型特异性模式。这为生产环境中部署AI代理提供了更高可移植性的解决方案。

智能体论文/研究部署/工程

21:27

Rohan Paul@rohanpaul_ai

研究揭示：AI代理的性能更依赖外部控制系统而非提示词本身

本研究指出，AI代理的实际性能更多取决于围绕模型的外部控制系统（即代理框架），而非单纯的提示词。当前许多代理看似单一模型，其行为实则由规划、工具调用、记忆管理等周边代码驱动，导致长任务易因状态丢失、验证漂移等环节失败。为此，论文提出“自然语言代理框架”理念，旨在将控制流程以结构化自然语言显式表达，使其可检查、可迁移且可测试。研究发现，虽然更复杂的框架能显著改变代理行为，但并未带来稳定的性能提升，这表明框架设计是保障可靠性的关键选择，而非一种立竿见影的万能方案。

智能体论文/研究

20:27

Rohan Paul@rohanpaul_ai

AI检测器为何容易失效：学生写作风格的多样性挑战

该研究指出，AI检测器频繁失效的根本原因在于学生写作风格的多样性，使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升，更在于许多真实学生的写作风格，在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯，因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器，都不可避免地会误判一部分真实学生，尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率，但无法根除基于“单次判断”模式所带来的结构性误判问题。

arXiv安全/对齐论文/研究

18:35

MarkTechPost（RSS）

Nous Research 发布对比神经元归因（CNA）：无需SAE训练或权重修改的稀疏MLP电路引导

Nous Research 推出对比神经元归因（CNA）技术，通过识别并抑制稀疏MLP神经元电路来引导大语言模型的行为输出。该方法无需进行稀疏自编码器训练，也无需修改模型权重，同时能在引导行为的同时保持模型在通用能力基准测试上的性能不发生退化。这为控制LLM行为提供了一种更轻量、无侵入性的新途径。

安全/对齐论文/研究

10:57

Hacker News 热门（buzzing.cc 中文翻译）

CODA：将Transformer模块重写为GEMM-Epilogue程序

论文提出CODA技术，旨在优化Transformer架构的核心计算。其核心思想是将Transformer块中的复杂操作（如注意力机制、前馈网络）统一抽象并重写为“通用矩阵乘法（GEMM）+ 后续操作（Epilogue）”的程序化组合。这种方法能够更高效地映射到现代硬件（如GPU）上执行，通过融合计算、减少内存访问来提升整体效率。该成果已发布于arXiv，并在Hacker News社区获得关注（100点热度），反映了业界对大模型底层计算优化的持续探索。

论文/研究部署/工程

08:27

Rohan Paul@rohanpaul_ai

谷歌新研究：AI学习生理模式提升可穿戴设备价值

谷歌研究院提出基础模型SensorFM，通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据，掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法，能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示，模型规模和数据量越大性能越强，且其学习到的数据表征在35项预测任务中的34项上，均优于基于工程特征的基线方法。

Google数据/训练端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于激活补丁技术的LLM知识遗忘深度测量

大语言模型的知识遗忘是实现隐私保护和AI安全的关键机制，但现有评估方法难以验证目标知识是否从模型内部被真正擦除。本文提出了一种新的度量指标UDS，用于量化遗忘的机制深度。该方法首先在保留模型上定位编码目标知识的层，然后在遗忘后模型上评估其擦除程度（0-1分）。在涵盖8种方法、150个遗忘模型的元评估中，UDS的可靠性与稳健性表现最佳。研究还揭示了不同白盒度量在层级评估上可能存在差异。代码与数据已开源。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

预测动力学能否存在于物理世界中？

预测性物理AI系统的输出（如状态预测、行动规划）即使误差低，也不一定物理可行。本研究提出了“物理可接受性”评估框架，将解码后的提案视为候选动力学，在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功，但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中，该完整验证门的AUC达0.957，残差过滤器能预防87-89%的无效提案，同时保持99.8%的任务正常进展。

arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向应用对地观测的组合图像检索基准评测

论文建立了针对遥感组合图像检索（RSCIR）的统一基准评测框架。研究在PatternCom数据集上，系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时，引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明，无需训练的组合方法可作为遥感图像检索强健且可扩展的基线；而以变化为中心的检索任务，因需保持场景身份不变，带来了与基于属性检索不同的挑战。

GitHub多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AgentFugue：通过集体推理实现长期任务的智能体扩展

现有长期智能体任务的研究主要聚焦于增强单个智能体。本研究则探索通过对等智能体的协作来扩展能力，提出了AgentFugue框架。该框架构建了一个共享推理中心，当多个对等智能体并行探索同一任务时，中心会记录每个智能体的发现、尝试与排除项，使其他智能体能够选择性复用这些中间推理成果，而无需集中式规划。训练后的该中心作为插件通信层，在长期任务测试中表现优于强基线。结果表明，集体推理可使对等智能体扩展成为一种独立的能力提升途径。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAM：面向长期推理智能体的状态自适应记忆

针对长期智能体推理中交互历史过长且关键信息分散的问题，SAM框架提出了一种状态自适应记忆方案。该方案将当前交互整合为紧凑的记忆线索，同时保留原始轨迹页面以支持意图驱动的召回，无需重新训练主干模型。SAM通过专家监督与强化学习优化记忆模块，使其与轨迹级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch和HLE等基准测试中，SAM在不同智能体骨架上均持续优于强基线。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ECHO：终端智能体免费学习世界模型

ECHO（环境交叉熵混合目标）是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上，增加了一个辅助损失项，训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明，在TerminalBench-2.0上，ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范，能使基础模型匹配专家SFT后GRPO的性能，并在部分场景下可能实现无验证器的自我改进。

智能体arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SEAL：智能体与学习环境的协同进化

针对大语言模型智能体自我进化中，策略与环境被单独优化导致的错位问题，本文提出SEAL框架。它构建了一个闭环协同进化系统：通过收集策略轨迹并诊断失败，将失败诊断作为共享信号，同时优化智能体的模型策略和训练环境。环境侧进化其学习接口，提供更明确的工具可用性提示；策略侧则利用诊断信息更新模型。实验表明，仅使用400个训练样本，SEAL在三种骨干网络上平均提升了8.25至26.25个点，并展现出跨领域迁移能力。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-MoE：通过混合 MoE 改进大语言模型的多语言机器翻译

Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力：先在单语语料上用混合专家进行后预训练，再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家，分别保留单语知识和学习翻译知识，并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明，该框架在多语言翻译任务上显著优于现有基线，有效缓解了参数干扰问题。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

06:57

Rohan Paul@rohanpaul_ai

精选79

AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

Google DeepMind提出了AlphaProof Nexus系统，它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中，不断读取Lean的编译错误并进行修正，还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码，从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中，系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。

arXivDeepMind推理论文/研究

推荐理由：DeepMind 把 AI 的'数学直觉'塞进 Lean 编译器里，每步都必须编译通过，结果解决 9 个 Erdős 问题，失败也暴露了隐藏错误。这篇论文重新定义了 AI 做数学的范式。

05:27

Hacker News 热门（buzzing.cc 中文翻译）

"玻璃翼"项目：初步进展报告

Anthropic发布了“玻璃翼”项目的初步进展报告。该项目详情尚待公开，相关链接已指向其官方研究页面。该报告目前已引起技术社区关注，在Hacker News上获得119个积分。

Anthropic安全/对齐论文/研究

关联讨论 4 条

04:16

HuggingFace Daily Papers（社区热门论文）

现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现，传统的分块外扩扩散流程在推理时效率较低。为此，提出了现场音乐扩散模型（LMDMs），通过引入分块KV缓存优化生成过程，显著提升了推理效率。同时，LMDMs采用ARC-Forcing范式实现稳定的后训练对齐，减少了误差累积，无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景，并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行，为音乐创作提供实时音色变换支持。

推理论文/研究部署/工程

03:57

Anthropic：Research（发表成果 · 网页）

Project Glasswing项目阶段性进展

上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下，通过使用Claude Mythos Preview模型，已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍，其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出，被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞，转向了如何快速验证、披露和修补海量漏洞。

智能体Anthropic安全/对齐开源生态

关联讨论 4 条

01:30

Apple Machine Learning Research（RSS）

精选66

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由：苹果搞了个实时视觉助手的评估基准，把离线评测拉到了流式场景，多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。

01:16

HuggingFace Daily Papers（社区热门论文）

评估人工智能预测科学进展的能力：CUSP基准研究

本研究引入CUSP基准，基于4760个科学事件评估AI预测进展的能力。测试发现，当前前沿模型存在系统性局限：虽然能从候选中识别合理方向，但无法可靠预测进展能否实现，且常错误估计时间。性能在不同领域差异显著，AI进展比其他学科更易预测。模型表现对训练截止时间不敏感，表明限制不仅源于训练知识。增加事前知识可提升性能，但无法达到完全信息状态。模型还表现出过度自信和响应偏差。总体而言，当前AI作为科学进展预测工具尚不成熟。

论文/研究

00:16

HuggingFace Daily Papers（社区热门论文）

通过自我调节的模拟规划实现高效智能体推理

针对当前自适应计算策略导致的推理冗长与低效问题，本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型，其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中，v1.0-30B以25.8%-95.3%更少的推理token，达到了与更大参数量系统相当的性能。引入强化学习后，模型规划深度提升22.8%，而频率仅增2.0%，表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。

智能体推理论文/研究部署/工程

5月22日

23:16

HuggingFace Daily Papers（社区热门论文）

AnyMo：一种设置无关的可穿戴IMU运动理解框架

针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置，难以跨设备迁移的挑战，本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真，在身体表面密集采样生成多样合成信号，用于预训练图编码器。随后，将多位置IMU信号转化为全身运动标记，并与大语言模型对齐以理解运动语义。实验表明，AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升，证明了其作为野外可穿戴运动理解通才模型的潜力。

具身智能多模态论文/研究