AIHOT

全部动态论文 · 2150 条

全部一手资讯 X 论文

5月22日周五

5月22日

22:16

HuggingFace Daily Papers（社区热门论文）

39

FashionLens：基于任务自适应学习的通用时尚图像检索框架

为了解决现有时尚图像检索方法难以支持多样化查询与意图的问题，研究提出了统一框架FashionLens。首先构建了综合性基准数据集U-FIRE，整合并增强了现有数据以支持跨场景评估与泛化测试。在此基础上，基于多模态大语言模型，提出了两大核心模块：一是通过自适应球面插值将查询动态映射到任务对齐空间的查询校准器；二是根据学习难度与数据规模自动调整任务权重的自适应采样策略。实验表明，该方法在U-FIRE上取得了最先进性能，并能稳健泛化至未见任务。相关代码与数据已开源。

arXivGitHub多模态搜索

21:26

Rohan Paul@rohanpaul_ai

46

这个RAI研究所的机器人通过动态手部调整管理三球抛接。它处理视觉和接触信息以维持模式，无需外部辅助。

具身智能论文/研究

21:16

HuggingFace Daily Papers（社区热门论文）

58

SEGA：基于频谱-能量引导注意力的扩散 Transformer 分辨率外推方法

研究团队提出一种名为 SEGA 的无训练方法，用于解决扩散 Transformer 在生成超出训练分辨率图像时性能下降的问题。该方法根据去噪过程中潜变量的空间-频谱结构，对旋转位置编码的不同频率分量进行动态、自适应的注意力缩放，从而在提升图像全局结构连贯性的同时，更好地恢复细节保真度。实验表明，SEGA 在多种目标分辨率上均能稳定提升高分辨率图像合成质量，优于当前最先进的无训练基线方法。

图像生成论文/研究

18:16

HuggingFace Daily Papers（社区热门论文）

58

DecQ：用于增强表征自编码器重建与生成质量的细节凝练查询

表征自编码器（RAEs）使用冻结的视觉模型作为编码器，这在提供高质量生成的同时，限制了其空间重建能力。针对微调能改善重建但会损害生成质量这一权衡难题，本文提出了DecQ框架。该框架引入轻量级的“细节凝练查询”模块，从视觉模型的中间层提取细粒度信息，并将其融合到解码器和生成过程中。实验表明，仅增加8个查询和3.9%的计算量，DecQ就能将基于DINOv2的表征自编码器的峰值信噪比从19.13 dB显著提升至22.76 dB；在生成任务上，其收敛速度比原始框架快3.3倍，FID分数在无引导和有引导下分别达到1.41和1.05，有效兼顾了重建与生成性能。

图像生成编码论文/研究

16:15

HuggingFace Daily Papers（社区热门论文）

62

TransitLM：用于无地图公交路线生成的大规模数据集与基准测试

TransitLM是首个支持绕过地图依赖的公交路线规划数据集，包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练，也设立了三项互补的评估任务。实验表明，基于该数据集训练的大语言模型能高准确率地生成结构合理的路线，并能隐式地将GPS坐标匹配至站点，无需显式地图。这证明公交路线规划可完全从数据中学习，实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。

Hugging Face数据/训练论文/研究

15:56

Hacker News 热门（buzzing.cc 中文翻译）

61

多流大型语言模型：关于提示、推理和I/O并行化/分离的新论文

一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性，为构建更灵活、高效的AI系统提供了新的技术思路。

推理论文/研究部署/工程

15:14

HuggingFace Daily Papers（社区热门论文）

49

更多上下文、更大模型还是道德知识？政治文本中Schwartz价值观检测的系统研究

本研究探讨在句子级价值观检测中，上下文与显式道德知识的作用。通过对比句子、窗口和全文输入，以及有无检索增强（基于道德知识库）的设置，实验了监督式DeBERTa编码器与零样本大语言模型。结果发现：全文上下文能显著提升DeBERTa性能，但对零样本大模型并无稳定助益；而检索到的道德知识则能一致性地提升各类模型性能。模型规模的扩大并不保证性能增益。分析表明，上下文与检索对易混淆的价值观类别帮助最大。因此，价值观敏感的NLP应综合评估上下文、知识与模型，而非简单依赖更长输入或更大模型。

安全/对齐论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

64

基于运动、几何与语义自适应的复杂非线性视觉目标跟踪框架

传统视觉目标跟踪方法依赖特定任务的监督训练，泛化能力有限。近期以SAM 2为代表的基础模型虽具强大视频理解能力，但直接用于跟踪时缺乏对目标运动、几何一致性和语义偏移的显式建模。为此，本研究提出SAMOSA框架，通过引入轻量级非线性运动预测器建模目标动态，利用语义线索检测偏移并恢复跟踪，并结合几何约束提升稳定性，从而将SAM 2的通用先验适配到复杂跟踪任务。实验表明，SAMOSA在通用基准上优于现有SAM 2方法，并在反无人机等非线性运动场景中取得显著性能提升。

GitHub视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

57

一句一剧：基于多智能体系统的个性化短剧生成

针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足，本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件：多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外，系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明，该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。

智能体多模态视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

69

SpaceDG：视觉退化下的空间智能基准测试

SpaceDG是首个大规模退化感知空间理解数据集，包含约100万个问答对，源自近1000个室内场景。其核心是物理基础的退化合成引擎，能将退化过程嵌入3D高斯泼溅渲染，真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题，覆盖11类推理任务。对25个模型的评估揭示，视觉退化会严重损害空间推理能力。研究表明，在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性，性能甚至可超越人类，且不影响其在清晰图像上的表现。

arXiv多模态数据/训练论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

68

LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

当前多模态大语言模型在音视频联合推理中存在局限，因其将连续信号压缩为离散文本，损害了时序定位能力。为此，研究提出LatentOmni框架，构建统一的潜在空间以保留密集的感官信息，并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征，并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时，构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明，LatentOmni在多个基准测试中取得了开源模型的最佳性能，并优于显式文本链式推理基线。

多模态推理论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

48

SceneAligner：基于3D重建的平面图定位方法

SceneAligner是一种基于3D重建的平面图定位方法。针对现有技术对环境规模和地图格式的限制，该方法从无约束图像集合重建重力对齐的3D场景，并投影为2D密度图作为平面图代理。通过2D相似变换实现与输入平面图的对齐。为克服密度图与建筑平面图之间的视觉差异，引入跨模态学习机制，利用2D基础模型进行语义对齐，同时保持结构一致性。实验结果显示，该方法在多种场景中显著优于先前方法，特别是在极稀疏输入（如仅单张图像）时仍能有效工作。代码和数据将公开，以促进进一步研究。

多模态端侧论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

63

感知还是偏见：多模态大语言模型能否超越人格的第一印象？

多模态大语言模型在需要人格感知的人机交互中应用广泛，但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务，并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试，发现一个关键的“偏见鸿沟”：在所有模型中，有51%的正确评分并未基于检索到的行为线索，且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数，而非基于正确的推理依据，为未来提升模型的接地社交认知能力指明了方向。

arXiv多模态论文/研究评测/基准

11:14

HuggingFace Daily Papers（社区热门论文）

66

Maestro：基于强化学习的层级化模型-技能编排框架

Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略，动态组合冻结的专家模型与双层技能库，实现步骤级的实时决策：何时调用专家、选择何种模型-技能组合，以及何时终止。在十个代表性多模态基准测试中，仅4B参数的Maestro平均准确率达70.1%，超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能，无需重新训练；在扩展外部专家后，仍显著优于闭源基线，同时保持高效率和低延迟。代码已开源。

智能体MCP/工具多模态论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

66

通过结构化表发现实现多样化模型发现

针对现有模型搜索系统结果同质化的问题，本文提出 StructuredSemanticSearch 框架。该框架将语义基线与结构化表发现相结合，通过表格发现算子检索相关模型卡片表格，并控制预算以公平比较文本与表格检索效果。创新性地采用方向感知的表格集成技术，生成紧凑的集成视图。评估采用基于“要点”的可审计协议，在597个查询上的实验表明，该结构化感知方法相比纯语义基线，能显著提升证据覆盖率和结果多样性，为动态模型库的评估提供了可扩展的路径。

搜索论文/研究评测/基准

10:14

HuggingFace Daily Papers（社区热门论文）

63

智能体上下文编译：面向长上下文训练的轨迹编制方法

为解决智能体监督微调中存在的“监督空白”问题，即标准流程忽略了分散在多轮交互中回答问题所需的关键证据，本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹，转化为整合了原始问题与远距离工具响应的长上下文问答对，以此直接训练模型的长距离推理能力。实验表明，经ACC训练的轻量模型在长依赖任务上性能大幅提升，可比肩更大规模模型，同时保留通用能力，并展现出自适应的注意力重组与专家化特性。

推理数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

65

基于泰勒级数的时间突变帧选择算法

该研究提出Swift Sampling，一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制，将视频建模为视觉潜在空间中的可微轨迹，计算特征的速度与加速度，并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧，即“时间信息突变帧”，作为包含关键信息的帧进行采样。该方法极其轻量，仅增加0.02倍计算开销，比主流方法低30倍。在长视频问答的多个基准测试中，它均优于均匀采样等方法，在帧预算有限时尤为有效，准确率最高可提升12.5个百分点。

arXiv数据/训练视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

精选70

Gated DeltaNet-2：解耦线性注意力中的擦除与写入

线性注意力通过固定循环状态替代无界缓存，但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2，引入独立的通道级擦除门和写入门，实现了这两个操作的解耦，从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下，在语言建模、常识推理等任务中表现优异，尤其在长上下文RULER多键检索基准上优势显著。

推理论文/研究

推荐理由：把线性注意力里擦除和写入的解耦，像给模型装了独立刹车和油门，在长上下文检索上直接拉开差距，做架构的值得细读。

10:14

HuggingFace Daily Papers（社区热门论文）

61

Spreadsheet-RL：通过强化学习提升大语言模型在现实电子表格任务中的智能体能力

本文提出Spreadsheet-RL，一个用于在真实微软Excel环境中训练专业电子表格智能体的强化学习微调框架。该框架包含从网络论坛自动收集起始-目标电子表格数据对的流水线，并发布了涵盖金融、供应链等领域的Domain-Spreadsheet基准数据集。其核心的Spreadsheet Gym环境通过Python沙箱暴露丰富的Excel功能，并设计了专用工具集与路由规则。实验表明，Spreadsheet-RL显著提升了模型性能：Qwen3-4B模型在SpreadsheetBench上的Pass@1从12.0%提升至23.4%，在Domain-Spreadsheet上从8.4%提升至17.2%，展示了其在电子表格自动化及更广泛数据交互任务中的应用潜力。

智能体数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

64

TerminalWorld：在真实终端任务上评测智能体

研究团队发布了TerminalWorld，一个可扩展的数据引擎，能自动从大量真实终端录制中逆向工程生成高保真的评估任务。该引擎处理了80,870份录制，产出了涵盖18个类别、1,280个唯一命令的1,530个任务基准。其中包含一个经过人工复核的200个任务子集。测试显示，当前先进的模型与智能体在真实终端工作流上表现欠佳，最高通过率仅为62.5%。该基准衡量的能力与现有专家设计基准的相关性很弱（r=0.20），凸显其独特价值。引擎的自动化设计使其具备真实性与可扩展性，数据与代码已开源。

智能体开源/仓库论文/研究评测/基准

10:14

HuggingFace Daily Papers（社区热门论文）

60

伯尼尼：基于潜在语义规划的视频扩散模型

本文提出了Bernini，一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作：MLLM负责在ViT嵌入空间预测目标语义表示，扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入，模型引入了分段感知三维旋转位置编码，并结合思维链推理，显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化，在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face多模态视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

67

WorldKV：通过世界检索与压缩实现高效世界记忆

为解决自回归视频扩散模型在维持持久世界一致性时面临的内存与计算瓶颈，本文提出了WorldKV框架。该框架包含世界检索与压缩两个核心组件，无需额外训练。世界检索通过相机与动作对应关系，按需召回历史KV缓存块并插入当前窗口。世界压缩通过锚帧关键帧相似性剪枝，将缓存存储减半。实验表明，在保持生成保真度的同时，WorldKV将吞吐量提升了约2倍，性能可与需训练的记忆方法竞争。

论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

精选74

从推理链到可验证子问题：课程强化学习实现LLM推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题，本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题，并将最终子问题固定为原始问题，从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值，实现了更细粒度的信用分配。实验表明，SCRL显著提升了模型在多个数学推理基准上的性能，有效增强了在复杂问题上的探索与推理能力。

arXiv推理数据/训练论文/研究

推荐理由：SCRL 将推理链解构为可验证子问题课程，让 RL 在超难数学题上获得细粒度信用分配，AIME 提点显著，做推理 RL 的团队值得复现。

10:14

HuggingFace Daily Papers（社区热门论文）

60

Sensor2Sensor：面向自动驾驶的跨形态传感器数据转换

针对自动驾驶系统训练所需高保真、多样化数据不足的难题，研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频，转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格，从而解决缺乏配对训练数据的挑战，并结合扩散模型完成生成式转换。评估表明，该方法能将复杂的真实场景有效转化为可用数据，为自动驾驶开发解锁了海量的外部数据源。

多模态数据/训练论文/研究

10:09

IT之家（RSS）

精选80

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代AI可通过图灵测试。研究表明，在获得特定提示后，GPT-4.5在5至15分钟的对话中被误认为人类的概率高达73%，显著超过真人。LLaMa-3.1-405B的判定率（56%）与真人相当，而GPT-4o和ELIZA仅约20%。研究指出提示词至关重要，它使AI能模仿人类语气、幽默感甚至易错性等社会行为特征。这一发现迫使人们重新思考图灵测试的意义，并凸显了大语言模型在网络信任与安全方面构成的潜在挑战。

OpenAI安全/对齐论文/研究

推荐理由：这篇PNAS论文首次用严格实验证明现代AI能通过图灵测试，GPT-4.5装人比真人还像，但重点不是它多聪明，而是它多擅长说谎，线上身份信任被彻底动摇。

09:56

Chubby♨️@kimmonismus

54

东京大学研发超低功耗芯片，效率提升千倍但十年后才能商用

东京大学研发了一种新型芯片组件，其处理数据速度较传统方法提升1000倍，且不产生额外热量。关键突破在于功耗仅为现有技术的百分之一，这理论上能使一个谷歌规模的数据中心能耗降低至当前的百分之一，极大缓解AI行业的能源压力。然而，该芯片原型预计2030年才问世，商用化需更长时间，凸显了AI快速发展与突破性节能技术量产时间之间的差距。

论文/研究部署/工程

09:13

HuggingFace Daily Papers（社区热门论文）

精选70

RiT：在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现，尽管像素与DINOv2的内在维度相近，但DINOv2在几何统计特性（如有效秩、协方差条件等）上表现更优，使回归过程更稳定。基于此，我们提出了表示图像变换器（RiT），它使用冻结的DINOv2特征，通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上，RiT性能优于参数量更多的DiT^DH-XL模型，且生成的常微分方程仅需少量步骤即可高效求解。

arXiv图像生成论文/研究

推荐理由：这篇论文没发明新架构，但通过剖析DINOv2特征的统计属性，证明简单结构在表示空间也能做出SOTA，对做图像生成的人来说是个省钱省参数的好思路。

08:13

Berryxia.AI@berryxia

66

苹果数字人面部捕捉技术再突破，逼真度迈向新高

苹果Persona团队在WWDC26前发布新论文，展示了面部捕捉与动画技术的最新进展。从演示来看，其在眼部微表情、头部细微动作和皮肤质感等细节上实现了显著提升，使数字形象的真实感进一步增强，已超越简单“数字头像”，趋近于可信的“数字分身”。这类突破对AR/VR、游戏和远程协作等领域的沉浸式体验至关重要，能够有效打破虚拟交互中的“不真实感”。苹果持续重仓该技术赛道，相关论文与演示视频已公开。

Jonathan Cooper: Apple's Persona team continuing to do amazing work with face capture and animation. New paper released ahead of WWDC26 h...

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

SPACENUM：重新审视视觉语言模型的空间数值理解

SPACENUM 是一个统一框架，考察空间探索中的动态数值转换与空间推理中的静态布局两种设定。通过 Num2Space 和 Space2Num 双向任务，评估视觉语言模型（VLM）在视觉空间结构与语言数值表征之间的映射能力。实验表明，当前 VLM 在两种设定下均接近随机猜测，严重依赖浅层空间线索，无法建立稳定的坐标感知表征。显式推理仅带来边际提升，微调可部分改善空间数值理解。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

BrainCause：从激活到因果--发现人脑中的因果视觉表征

BrainCause 是一个自动化框架，结合生成模型与脑模型，通过合成受控刺激并进行因果测试来验证人脑中的神经表征。给定目标概念，框架构建由概念图像、去除目标概念的反事实编辑图像及相关干扰项组成的刺激集，利用图像到 fMRI 编码模型预测脑反应，识别对目标概念具有特异性的表征。该方法在预测和实测 fMRI 数据上成功复现已知功能定位，并发现数十个概念的新候选表征。关键结论：仅凭激活强度不足以证明表征存在，缺乏因果验证会导致大量假阳性定位。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

多智能体强化学习何时改善LLM工作流程：工作流程、规模与策略共享的权衡

本文研究了端到端强化学习训练多智能体大语言模型工作流程的两种策略：Shared-Policy（所有角色更新同一策略）和Isolated-Policy（每个角色拥有独立参数）。实验矩阵覆盖了Eval-Opt、Voting和Orch-Workers三种工作流程，数学与代码任务，以及0.6B、1.7B、4B三种模型规模。研究发现，多智能体强化学习通常能改善基模型性能，但增益取决于工作流程、任务和模型规模的共同作用。Isolated-Policy往往能达到更高峰值准确率，但更容易出现性能悬崖；Shared-Policy训练则会将失败模式重新分配为不同的模式。策略共享并非提供均匀稳定性，而是在不同渠道分配训练压力，是一种具有工作流程和任务条件性权衡的设计选择。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

One-Forcing：实现稳定的单步自回归视频生成

针对现有少步自回归视频生成方法在单步设置下面临的质量下降与训练不稳定问题，One-Forcing提出了一种将DMD目标与辅助GAN损失相结合的方法。该方法实现了高质量且高效的单步视频生成。在VBench评测中，它取得了83.76的总分，达到单步因果视频生成的最先进水平，并与强大的多步方法性能相当。研究表明，One-Forcing仅用chunkwise模型三分之一的训练成本，就能稳定实现单步帧级自回归生成。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

语音识别中面向低资源与口音鲁棒性的凸语言检测

全球语音多样性导致现有语音对话系统在处理方言和口音时易误识别语言，引发下游任务失败。为此，研究提出Convex Language Detection框架，将凸优化技术集成到系统中。该方法基于多GPU ADMM在JAX中高效实现，具有全局最优性保证和快速训练能力，并从理论上证明了其稳定性与鲁棒性。实验表明，在低资源场景下，该框架实现了97-98%的语言检测准确率，展现出高样本效率。相关开源工具包已发布。

开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

打破概率的枷锁：中立逻辑作为大语言模型认知不确定性建模的新框架

研究团队提出将中立逻辑应用于大语言模型（LLM）以建模认知不确定性。该框架将真、不确定、假视为三个独立维度，允许其值之和大于1。实验在OpenAI GPT模型家族上进行，测试了逻辑悖论等五种语言现象，并对比了三种提示策略。结果发现，中立逻辑方法在35%的评估中自发出现“超真理”状态，能更丰富地表示模型内部状态，有助于识别与量化模型冲突，为构建更透明、可靠的AI系统提供方法。

OpenAI推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛（SMC）虽能实现渐近精确采样，但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似，成为推理瓶颈。为此，本文提出对比分布匹配（CDM）框架，通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时，梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明，评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下，CDM性能优于现有基线，并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

FastKernels：面向生产环境的GPU内核生成基准测试

现有用于GPU内核生成的AI智能体测试基准与生产推理框架严重脱节。它们仅在单一GPU上使用合成输入评估内核，忽略了实际的编译技术栈，并奖励复现已知优化而非发现新方法。为此，我们提出FastKernels。它既是一个涵盖8个类别、46个代表性架构的内核基准（其内核覆盖了96.2%的HuggingFace Transformers架构），也是一个极简的生产级推理框架，性能与vLLM和SGLang等成熟系统相当。实验表明，最强的内核生成智能体在FastKernels上仅能实现0.94倍的整体加速，证实了基准与生产环境的错位是关键瓶颈。

开源生态推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

55

EvalVerse：面向专业电影视频生成的流程感知与专家校准基准测试

生成式视频模型正迈向专业电影合成，但现有评估主要关注“是否正确”，忽略了“是否优秀”的电影质感。为此，本文提出EvalVerse，一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程（前期、制作、后期）对齐；其次利用大规模人工标注数据集凝练专家判断；最后通过专家校准微调将知识注入视觉语言模型（VLM），使其能进行明确的思维链（CoT）推理。该框架在兼容基础“正确性”指标的同时，将评估显著扩展至“优秀度”，并覆盖多镜头序列与视听整合等复杂任务，为奖励模型等未来研究提供了基础。

视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

58

迈向评测工程：ML评测框架的野外实证研究

研究者对57个机器学习评测框架进行了实证分析，提出一个五阶段框架模型，并分类了16,560个操作问题。研究发现，大多数挑战集中在规范阶段，占问题的41.4%。未实现的功能、文档缺失和输入验证不足这三类根本原因，合计占已分类问题的61.7%。不同工作流阶段的根本原因各异：环境不兼容和外部依赖失效占配置阶段问题的36.2%；算法错误与验证缺失则是评估阶段的主导原因。

arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

60

CoSPlay：通过自生成代码与单元测试的测试时合作自博弈

CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架，其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为：探索多样化方案并识别潜在失败模式以生成有区分度的单元测试；利用代码-单元测试执行矩阵中的双向通过计数信号，迭代修剪或修复弱代码、刷新或替换不可靠测试，使两个候选池协同演进；最终从最大输出共识簇中选择代码，因为正确代码对相同输入的输出一致。在四个基准测试上，应用于Qwen2.5-7B-Instruct时，将平均BoN从22.1%提升至33.2%，单元测试准确率从14.6%提升至78.3%，性能匹配或超越RLVR模型CURE-7B；应用于CURE-7B时，可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力，且在可比的token预算下优于无GT数据的TTS基线，性能随预算增加持续提升。

推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

CRONOS：视频模型反事实物理一致性基准测试

CRONOS是一个基于干预的基准测试，旨在评估视频生成模型的反事实物理一致性，即模型能否对输入的受控视觉变化（如视角、场景、物体类别和外观）做出恰当响应。它在高保真度的 Unreal Engine 环境中构建，能够系统地对上述四个因素进行干预，同时保持物理事件（如碰撞、遮挡）不变。对近期开源视频生成模型的评估表明，它们在该测试上存在显著失败：同一物理事件的预测质量会受到物体外观、环境，尤其是视角变化的严重影响。该基准提供了一个可控且可复现的测试环境，用于诊断模型在不同干预条件下生成视频质量的变化。

视频论文/研究