AIHOT

全部动态论文 · 2151 条

5月19日周二

5月18日周一

5月19日

08:00

HuggingFace Daily Papers（社区热门论文）

针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战，TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性，设计了基于间隔的专家刷新策略，以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题，TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明，在单GPU-CPU系统中，TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升，为现有基线方法带来显著加速。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Toto 2.0：时间序列预测进入规模扩展时代

时间序列基础模型Toto 2.0正式发布，这是一组五个开源权重的预测模型。研究表明，在400万至25亿参数范围内，采用统一训练方案的模型预测质量能持续可靠提升。该模型家族在三大预测基准测试中创下新纪录，包括其可观测性基准BOOM、通用基准GIFT-Eval以及抗污染的TIME基准。所有五个基础模型检查点均基于Apache 2.0协议开放发布。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLMEval-Logic：一个经求解器验证的中文逻辑推理LLM评估基准

LLMEval-Logic 是一个专注于中文逻辑推理的LLM评估基准，其数据来源于真实场景，并通过专家编写、审核及Z3验证器闭环验证以确保题目质量。基准包含两个子集：246项的Base子集（配有1400条评分标准）与190项的Hard子集（含938个多步骤子问题）。对14个前沿LLM的评估表明，当前模型在逻辑推理能力上仍有显著不足：最佳模型在Hard项目上的准确率仅为37.5%，即使结合参考符号，形式化得分最高也仅达60.16%。该基准已开源，旨在为模型逻辑推理能力的评估与提升提供可靠工具。

推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Mega-ASR：通过扩展真实世界声学模拟实现野外语音识别

Mega-ASR是一个应对真实环境噪声与失真的统一语音识别框架，旨在突破现有模型面临的声学鲁棒性瓶颈。该研究发布了新的大规模复合数据集Voices-in-the-Wild-2M，涵盖7种经典声学现象与54种符合物理规律的复合干扰场景。通过声学-语义渐进式监督微调与双粒度词错误率门控策略优化进行训练，Mega-ASR在多个基准测试中显著超越先前系统：在VOiCES测试集上词错误率从54.01%降至45.69%，在NOIZEUS上从29.34%降至21.49%。在复杂组合声学场景下，其词错误率相对强基线进一步降低超过30%，为构建稳健的实景语音识别系统确立了可扩展的技术范式。

arXiv论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

扩散对齐的拼接价值模型

StitchVM是一个用于扩散模型对齐的模型拼接框架。它解决了在噪声中间潜在值上评估奖励的挑战，通过将预训练的干净图像奖励模型（如CLIP ViT-L）与固定的扩散主干（如SD 3.5 Medium）轻量级地“拼接”起来。该框架的核心创新在于，使奖励模型能够直接处理噪声潜在值，从而避免了传统近似方法的计算成本或偏差问题。整个拼接与微调过程极为高效，仅需约10个GPU小时。实验表明，StitchVM显著提升了下游方法的效率，使DPS推理速度提升3.2倍、显存占用减半，并将DiffusionNFT加速2.3倍。

arXiv图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-Quant：面向代理型大语言模型的量化预填充与精确解码

针对代理型大语言模型推理中的计算瓶颈，研究团队提出Mix-Quant，一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节，但存在显著量化冗余，而解码阶段对量化更敏感。为此，Mix-Quant采用混合精度策略：对预填充阶段应用高吞吐的NVFP4量化以加速，对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中，能有效保持任务性能，同时将预填充阶段速度提升最高3倍。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

CutVerse：面向媒体后期编辑的组合式GUI智能体基准测试

研究团队发布了CutVerse基准测试，用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流，涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估，团队开发了一个轻量级解析器，可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示，现有智能体在此类任务上的成功率仅为36.0%，凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力，但在长程可靠性与领域特定规划上仍存在局限。

智能体arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MOCHA：多目标切比雪夫退火用于智能体技能优化

该研究针对大语言模型智能体技能优化中存在的多目标挑战——即需同时提升任务性能并满足平台字段长度等硬性限制——提出了MOCHA方法。该方法采用切比雪夫标量化以完整覆盖帕累托前沿（包括非凸区域），并结合指数退火策略平衡搜索过程。实验表明，在六项任务中，现有优化器有四项无法提升基线技能，而MOCHA均实现了突破，平均正确率较最强基线提升7.5%，并发现了两倍多的帕累托最优变体。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PanoWorld：一个用于生成一致全屋全景的生成式空间世界模型

针对从平面图和风格参考生成一致全屋VR漫游的难题，本文提出了PanoWorld。该模型将整屋合成任务转化为基于节点的360度全景图自回归生成，与真实VR产品的导航方式一致。其核心方法是使用基于平面图的3D壳体作为全局几何代理，并结合动态3D高斯溅射缓存作为可渲染的空间记忆。通过专门设计的全景LRM和房间感知组注意力机制，模型能够更新全景图并抑制跨房间特征干扰，在保持高质量2D细节的同时显著提升了跨节点间的布局与材质一致性。项目详见：https://jjrcn.github.io/PanoWorld-project-home/

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大型视觉语言模型胸部X光推理视觉归因的再思考

本研究针对大型视觉语言模型在医疗应用中面临的可信度挑战，指出其视觉归因方法常未能反映模型真实依据的视觉证据。为此，团队开发了因果评估框架，筛选出归因区域对预测具有因果性的样本进行测试。通过对11种归因方法、6个模型及两种输出模式的系统评估，发现现有方法普遍存在识别失效问题。为解决此问题，提出了基于概念的归因方法MedFocus，该方法利用非平衡最优传输定位临床相关区域，并通过定向干预量化其因果效应。实验证明，MedFocus在空间、概念及词元层面均显著优于现有方法，推动了更可靠的医疗视觉归因发展。

arXiv多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OScaR：面向LLM及其多模态扩展的极致KV缓存压缩框架

针对长上下文与多模态大语言模型中KV缓存内存占用高的瓶颈，本文提出了OScaR压缩框架。研究发现，传统逐通道量化在极端压缩下受限于“令牌范数不平衡”问题。OScaR通过“渠道化旋转”与“全令牌缩放”两项轻量技术，有效缓解了该不平衡带来的量化误差，无需复杂流程。在多种大模型上的实验表明，OScaR在INT2量化下可实现近乎无损的性能，相比基准解码速度提升最高达3.0倍，内存占用减少5.3倍，吞吐量增加4.1倍，为极致KV缓存压缩提供了高效通用方案。

GitHub开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

思维轨迹：理解真实世界LLM交互中的用户思维

本文发布了首个大规模数据集ThoughtTrace，该数据集首次将真实世界的人机多轮对话与用户的自述思维（即发送提示的原因和对助手回复的反应）进行配对。数据集包含来自20个语言模型的1058名用户、2155段对话及10174条思维标注。分析表明，这些思维捕捉了长周期、主题多样的交互，且与消息本身语义不同，前沿LLM难以从对话中准确推断。研究证实，思维数据可用于改进推理时的用户行为预测，并通过思维引导的改写为个性化助手训练提供细粒度对齐信号，为人机交互的深层认知研究与构建更懂用户的助手奠定了基础。

Hugging Face数据/训练论文/研究

07:45

IT之家（RSS）

小米斩获 CVPR 2026 NTIRE 赛事三项奖项

近日，小米在 CVPR 2026 NTIRE 图像恢复与增强赛事中获得三项大奖。小米玄戒多媒体算法团队凭借自研SPANV2方法，以综合得分4.43夺得高效超分辨率赛道冠军，实现了画质与速度的均衡提升。小米大模型应用团队通过双阶段级联框架与单步扩散技术，获得人像修复赛道冠军；并在反光消除赛道通过骨干网络升级与知识蒸馏等策略获得亚军，主观评分达4.31分，多项客观指标位列第一。

arXiv图像生成论文/研究

05:26

MarkTechPost（RSS）

Meet MemPrivacy：利用本地可逆假名化保护用户数据且不损害记忆效用的边云协同框架

为解决大型语言模型代理在生产环境中记忆功能与隐私保护的矛盾，MemTensor（上海）、HONOR Device与同济大学研究人员提出了MemPrivacy框架。该框架采用边云协同架构，核心是利用本地可逆假名化技术，在边缘设备上对用户数据进行处理。其特点在于既能通过云端记忆提升代理效用，又能确保原始敏感数据不出本地，在需要时可安全还原，从而在数据隐私保护和功能实用性之间取得平衡。

安全/对齐论文/研究

02:09

elvis@omarsar0

Meta新系统双代理协同，自动设计超越Llama 3.2的神经架构

Meta提出AIRA系统，通过分离策略与实现的双代理架构，实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索，AIRA-Design专注低级机制实现。该系统在24小时计算预算内，于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明，在复杂任务中分离规划代理与实现代理能提升效能，此思路同样适用于流水线组装、查询规划等其他AI代理场景。

智能体Meta数据/训练论文/研究

5月18日

18:18

公众号：腾讯混元

中国古文字识别评测基准 Chronicles-OCR 发布：业界首个覆盖"七体之变"

Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准，用于评估大模型对三千年汉字的识别能力。

多模态评测/基准

18:00

公众号：小红书技术（dots.llm）

小红书引擎架构团队ICDE 2026新成果：CCD感知编排突破多核CPU向量搜索性能天花板

小红书引擎架构团队在ICDE 2026提出一种面向多核CPU的CCD级负载感知和线程编排向量检索框架，通过感知CCD（Core Complex Die）层级负载并优化线程编排，突破多核CPU向量搜索的性能天花板。

搜索论文/研究部署/工程

13:03

Hacker News 热门（buzzing.cc 中文翻译）

自我提炼助力持续学习【PDF】

研究发现自我蒸馏技术能够有效提升机器学习模型的持续学习能力。该论文提出，通过模型自身的输出来指导其训练过程，可以在学习新任务时显著减轻对旧知识的遗忘问题。实验表明，这种方法在多个基准测试中提升了模型在连续任务序列上的性能稳定性。研究为解决机器学习中的灾难性遗忘问题提供了一种新的思路。

数据/训练论文/研究

08:54

Berryxia.AI@berryxia

Google Nexus框架革新时间序列预测逻辑

Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式，强调“事件上下文”的核心作用。该框架采用多智能体协作架构：分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击，最终通过合成器整合信息并校准误差。在Zillow数据集测试中，基于Claude的版本将平均预测误差（MAPE）大幅降低86.6%，实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理，为未来预测系统指明了新方向。

Rohan Paul: New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...

智能体arXivGoogle推理

08:00

HuggingFace Daily Papers（社区热门论文）

LatentUMM：用于统一多模态模型的双潜在对齐框架

LatentUMM 是一个旨在提升统一多模态模型（UMMs）跨模态一致性的框架。研究指出，模型在理解与生成功能间的不一致，根源并非缺乏共享表征，而是映射到和出潜在空间的变换缺乏显式对齐。该框架包含两个阶段：第一阶段进行双潜在对齐，在模态层面使用更强的嵌入模型施加跨模态语义约束，在容量层面强制双向一致性；第二阶段通过随机潜在展开和偏好优化来稳定潜在动态，以保留更好的语义一致性。实验表明，LatentUMM 在不同架构上均能持续提升多模态一致性。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

See What I Mean：对齐视觉与语言表示以实现视频细粒度对象理解

本文提出SWIM（See What I Mean）训练策略，旨在使模型仅通过文本提示即可实现细粒度对象理解，无需显式的视觉提示（如掩码或点）。研究分析发现，预训练多模态大语言模型（MLLMs）的跨模态注意力存在系统性偏差：属性词在视觉模态产生清晰、局部的激活，而物体名词的模式则较为弥散。为解决此问题，研究构建了NL-Refer数据集。SWIM通过提取物体名词的多层交叉注意力图并与真实掩码进行空间一致性约束。实验表明，该方法显著提升了文本-视觉对齐，在相关基准测试上优于基于视觉提示的方法。代码与数据已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HINT-SD：针对长期智能体的定向事后知识蒸馏

使用强化学习训练长期LLM智能体面临稀疏奖励挑战，现有反馈方法存在效率低或监督错位问题。本研究提出HINT-SD框架，通过全轨迹事后分析，仅针对导致失败的关键动作区间进行基于反馈的知识蒸馏。实验显示，该方法在BFCL v3和AppWorld基准上相比每轮密集反馈基线最高提升18.80%，同时将每步训练时间降低至1/2.26。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

使用代理指标预测大型语言模型的下游性能

本研究提出了一种通过聚合模型在专家解答上的token级统计量（如熵、top-k准确率、专家token排名）来构建代理指标的方法，旨在替代传统的交叉熵损失和昂贵的下游评估。该方法在三个核心任务中表现突出：在跨架构模型选择中，其性能排名与真实下游表现高度一致；在预训练数据选择中，能以极低的计算成本可靠评估大量候选语料库；在训练过程中，能以远低于现有方法的误差进行下游准确率的长期外推预测。这表明，分析模型对专家知识的token分布是评估其能力的有效信号，能贯穿模型开发全周期，实现可靠、高效的性能预测。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Lean Refactor：基于智能体策略搜索的多目标可控证明优化

现有LLM生成的Lean证明常面临正确但冗长、跨版本易错的问题，其重构是一个涉及证明长度、编译成本与版本兼容性的多目标优化难题。Lean Refactor提出一种插件式检索增强智能体框架，它利用一个标注了版本与预期编译成本降低率的多目标策略数据库，引导冻结的LLM进行重构。实验表明，该方法在竞赛基准上实现超70%的token压缩，编译时间减少高达60%，性能优于现有工作；版本过滤检索进一步提升了压缩率，且重构后的证明表现出更强的零样本版本迁移能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniPro：全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本，覆盖9个子任务、3个认知层级和6项基础能力，其中84%样本依赖语音或非语音音频信号，并标注模态隔离标签。该基准引入探测和在线双模式评估协议，以全面测试内容理解和主动能力。对11个模型的评估揭示：音频信号能提升性能但模型利用效率差异大；性能随时间下降，长程鲁棒性不足；非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

通过变分策略蒸馏从语言反馈中学习

针对强化学习从可验证奖励中面临探索瓶颈及现有自蒸馏方法依赖固定教师导致学习停滞的问题，研究提出了变分策略蒸馏框架。该框架将语言反馈学习形式化为变分期望最大化问题，实现教师与学生策略的协同进化：在E步通过自适应信任域更新动态改进教师策略，将文本反馈转化为目标令牌分布；在M步让学生策略内化该分布指导。在科学推理与代码生成任务上的实验表明，该方法在各类诊断性反馈下持续优于标准强化学习与现有自蒸馏基线。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

迷失在折中：交叉验证并非深度集成

本研究指出医学图像分割领域常将K折交叉验证（CV）集成误称为“深度集成”（DE），这种术语混淆影响了不确定性的正确解读。研究在三个模态数据集上对比了5折CV集成与5成员DE，发现DE在保持分割精度的同时，能提升模型校准性与故障检测能力；而CV集成则更能反映标注者间的变异性。因此，集成方法的选择应与目标匹配：追求可靠性的任务（如选择性转诊）宜用DE，对数据模糊性建模则适用CV集成。文章还提供了轻量级修改nnU-Net的方法以支持DE训练。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stable Audio 3

Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族，包含小、中、大三个版本，专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频，并支持修复功能，可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器，能将音频映射至紧凑潜在空间，在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练，模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练，在 H200 GPU 上生成音频耗时不足 2 秒，在 MacBook Pro M4 上仅需数秒。目前，官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。

arXiv多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大型音频语言模型：泛化、可信度与展望

本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出，其能力提升速度已远超可信框架的构建，通过端到端架构和连续声学信号整合，攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系，并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估，揭示了成熟攻击手段与不足防御之间的严重失衡。为此，报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径，以弥合性能与可信智能间的差距。相关项目已在GitHub公开。

arXiv多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

增强无训练无限帧生成以实现一致长视频

针对基础模型生成无限长视频时存在的训练-推理不匹配与长期一致性维持难题，研究提出了一种名为MIGA的无训练长视频生成方法。该方法通过两阶段对齐机制减少输入噪声跨度，有效弥合了训练与推理的差距；并创新性地引入双一致性增强机制，结合自反射修正与长距离帧引导，利用不同噪声水平的帧信息协同提升时序一致性。在VBench与NarrLV基准测试上，MIGA以较低的额外计算开销实现了当前最优的超长视频生成性能，项目主页已公开。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

有界自主训练控制治理层：面向稳定与高效的应力条件下有界自主训练

本文提出了一种名为LBW-Guard的有界自主训练控制治理层，它运行在优化器（如AdamW）之上，而非替代优化器。该层通过监控训练数据并施加有界控制，旨在解决大语言模型训练中在高学习率、大规模或运行时压力下出现的不稳定与计算资源浪费问题。基于Qwen2.5系列模型的评估表明，在标准设置下，LBW-Guard显著降低了困惑度并加速了训练；在强大的学习率压力测试中，当传统优化器失效时，它仍能维持稳定的训练性能，而梯度裁剪等基线方法无法复现此效果。研究证实了在优化器之上引入有界控制层对于提升压力环境下训练生产力的有效性。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

互补自蒸馏：实现大语言模型语境完整性的路径

随着大语言模型日益作为处理敏感任务的智能体，如何平衡隐私保护（遵循语境完整性）与任务性能成为核心难题。现有方法常难以兼顾二者。为此，本文提出SELFCI互补自蒸馏框架，它将信息抑制与任务求解过程解耦，通过联合优化两个独立的逆KL散度目标：一个保留任务所需信息以确保效用，另一个强制实现最小化且恰当的信息披露。该框架无需外部监督，实验表明其持续优于在线强化学习等基线方法，并在跨领域的智能体工作流中同样有效，为大语言模型对齐隐私规范提供了实用方案。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongMINT：长周期智能体系统中多目标干扰下的记忆评估

LongMINT是一个评估智能体在信息不断更新、存在大量干扰的长周期环境中记忆能力的新基准。它包含平均13.88万token（最长180万token）的长上下文，涵盖状态追踪、多轮对话、维基百科修订和GitHub提交四个领域，并设置了单目标检索与多目标聚合两类问题。对7个代表性系统的测试显示，平均准确率仅为27.9%，尤其在综合多证据推理的任务上表现差。分析表明，性能主要受限于检索和记忆构建能力，且系统难以有效处理后续信息对早期事实的更新与干扰。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

伦理超速（EHV）：一种可证明确定性的智能体系统治理感知即时编译器架构

针对自主智能体系统在监管关键基础设施中面临的治理延迟问题，EHV框架通过将策略执行点迁移至推理管道，采用冲突自由复制数据类型和可信执行环境内的基于周期的认证缓存技术，实现了亚毫秒级形式确定性。TLA+形式验证表明，不合规的智能体行为在系统的有界操作状态空间中是计算不可达的，从而将治理延迟从O(天)降至O(1)。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SENSE：基于卫星的能量合成促进可持续环境

针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题，本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型，联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制，并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明，SENSE生成的图像视觉保真度高，且符合物理标准。该模型能利用少量标注数据生成合成数据集，显著提升了下游预测任务的性能并降低了误差，为城市可持续规划提供了新方案。

GitHubHugging Face图像生成开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

交互式评估需要设计科学

AI评估正经历结构性变革，因大语言模型日益作为交互系统部署，但现有评估实践仍基于静态响应基准，难以适应持续交互新模式。本文主张交互式评估应被视为独立原则性范式，其证据来源从单一响应转变为交互生成轨迹，评估过程需涵盖流程性、可恢复性、协调性、鲁棒性和系统级表现。基于此定义，提出双轴分类法、设计原则和报告标准，通过典型案例分析揭示轨迹层面评估挑战，为构建系统化交互评估框架提供理论基础。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

开放书本良性重写：通过重写防御LLM数据投毒攻击

大语言模型易受基于触发器的数据投毒攻击，现有防御效果有限。本研究提出开放书本良性重写（OBBR）方法，利用良性示例指导重写，理论上保证其将有害内容转化为良性提示的概率高于传统闭书重写。实验在五种攻击和四种模型上进行，OBBR相较现有最佳防御平均提升安全性51%，较闭书重写提升25.7%。该方法计算高效，微调后不损害模型在自然语言任务上的性能，并能有效防御非触发式数据投毒攻击。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RT-Splatting：基于高斯溅射的联合反射与透射建模

针对3D高斯溅射难以真实渲染半透明镜面物体的反射模糊与透射遮挡问题，本研究提出了RT-Splatting框架。其核心在于将高斯球的几何占据与光学不透明度解耦，从而用同一组高斯基元统一表征场景的表面与体积。通过混合渲染器，既能捕捉高频反射，又能保留清晰透射。为稳定联合优化，框架引入了镜面感知梯度门控，以抑制高镜面区域对透射分支的干扰梯度。实验表明，该方法在复杂半透明场景中实现了实时的高保真渲染，达到最先进水平，并自然支持灵活的场景编辑。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于技能程序的LLM智能体框架

为提升LLM智能体处理复杂任务的能力，HASP框架将传统文本指导技能升级为可执行的程序函数。这些函数作为主动护栏，能在易错步骤直接干预动作或注入修正信息。该框架支持推理时直接干预、后训练监督及自我进化，模块化设计灵活。实验证明，HASP在网页搜索、数学推理等任务中显著优于现有方法，仅推理阶段干预即可大幅提升性能，并为技能内化与库进化提供了机制分析。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

语言切换触发器在模型内部的潜在迂回

研究发现，在8B参数语言模型中存在一个“语言切换后门”攻击电路。一个由三个拉丁词组成的触发序列，能将英语输出劫持为法语。该电路工作分为三阶段：早期层的注意力头将触发标记组合到序列末尾；中间层的信号沿着与模型自然语言-身份方向正交的子空间传播；最终层的MLP将潜在信号转换为法语对数概率。电路通过单一位置串行瓶颈流动，破坏该位置能消除触发效应但损害模型能力。这种正交编码意味着，检测中间表征中语言信号的现有防御方法可能无法发现此触发器。

安全/对齐论文/研究