AIHOT

全部动态资讯 · 1789 条

全部一手资讯 X 论文

5月29日周五

5月29日

16:30

HuggingFace Daily Papers（社区热门论文）

68

当云端智能体遇见设备端智能体：来自混合多智能体系统的启示

智能体AI推理的设计空间横跨两个极端：云端大语言模型性能强大但成本高，设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型，为平衡提供了可能，但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则，此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理，系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明，小语言模型确实能从大语言模型的辅助中获益，但最优架构高度依赖具体任务，且更多的前沿计算并不总能带来更好的性能。

智能体端侧论文/研究部署/工程

15:30

HuggingFace Daily Papers（社区热门论文）

62

UniSteer：基于文本引导的激活空间流匹配模型，用于通用大语言模型行为引导

UniSteer是一种文本引导的激活空间流匹配模型，旨在统一控制冻结的大语言模型推理时的内部行为。该模型不依赖固定方向，而是基于自然语言条件学习残差流激活分布的通用条件速度场。推理时，它通过流反转将部分源激活输运至潜状态，并在目标文本条件下重新生成后注入模型。该统一模型同样支持通过选择重建能量最低的文本标签进行激活空间分类。实验表明，UniSteer在行为控制、真实性引导、细粒度概念引导、多约束指令遵循及激活空间分类等任务上提供了统一的接口。

安全/对齐论文/研究

14:30

HuggingFace Daily Papers（社区热门论文）

精选74

彩色噪声扩散采样

扩散模型的生成轨迹具有频谱偏差，早期处理低频全局结构，后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声，能量分配效率低。本研究提出彩色噪声采样（CNS），一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度，更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明，CNS作为推理时的替换采样器显著提升了生成质量：在ImageNet-256上，无引导FID在SiT-XL/2上从8.26降至6.27，在JiT-B/16上从32.39降至26.69，在JiT-H/16上从11.88降至8.31，并且在使用无分类器引导时带来一致改进。

图像生成论文/研究

推荐理由：扩散模型采样时的白噪声注入一直很粗糙，这篇论文用动态调制的有色噪声把能量怼到未解析的频段，在多个模型上 FID 直接骨折，而且完全训练无关，拿来就能用。

14:30

HuggingFace Daily Papers（社区热门论文）

69

ChildVox：一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准

ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹，包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务，实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型，任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明，ChildVox提供了一套高性能模型，能够识别广泛的儿童声学信号，支持下游应用，如表征儿童语言水平和追踪语音发展。

论文/研究评测/基准语音

14:30

HuggingFace Daily Papers（社区热门论文）

65

面向可验证的多模态深度研究：一个用于交错式报告生成的多智能体框架

大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而，可验证的多模态深度研究仍面临挑战。为此，研究提出了Ptah，一个多智能体框架。它通过规划、研究和写作阶段，协调从用户查询到网页报告的生成全流程，其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明，Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。

智能体arXiv多模态论文/研究

14:30

HuggingFace Daily Papers（社区热门论文）

68

超越数学与代码的可验证奖励：面向事实性问答的轻量级基于语料库的过程监督

针对强化学习提升事实性问答准确度时的奖励设计难题，本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号，替代了昂贵且不可靠的神经验证器（如NLI或LLM判断器）。CorVer为每个句子分配信用值，并通过简单对齐映射到token级优势，仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中，CorVer使每个组合的性能均优于原始基线，其中TriviaQA平均提升+4.1个百分点。在可行配置下，它在20个组合中的18个超越了神经验证器基线，且训练速度快4.8至8.4倍。

arXiv检索增强推理论文/研究

14:30

HuggingFace Daily Papers（社区热门论文）

55

发现协作流水线：面向序列社会困境的自主研究

本研究构建了一个两层自主研究系统：外层AI智能体自主重新设计内层用于多智能体序列社会困境（SSDs）的大语言模型策略合成流水线。在Cleanup和Gathering两个游戏、两种福利目标（功利效率与最大化最小）下，该系统在性能上可靠地超越手工设计的基准，显著降低运行方差，并优于仅优化提示词的方法。研究发现，所发现的流水线具有目标依赖性：仅在最大化最小目标下，系统才会向合成器流水线注入显式的公平机制，这种机制在其自身的系统提示词和所有面向效率优化的流水线中均不存在，支持了信息设计理论的观点。

智能体推理论文/研究

13:30

HuggingFace Daily Papers（社区热门论文）

60

CausaLab：面向AI科学家的交互式因果发现可扩展环境

本文介绍了CausaLab，这是一个评估LLM智能体交互式因果发现能力的可扩展环境。该环境在一个合成实验室内评估两个维度：智能体能否利用因果证据解决问题，以及其答案是否基于忠实恢复的因果机制。每个实验中，智能体接收先验观测数据，对操纵晶体进行干预，并预测反应晶体的共振频率。隐藏的数据生成过程是随机采样的结构因果模型（SCM），成功要求恢复因果图和结构方程。实验表明预测与机制恢复之间存在差距：在6节点纯观测设置中，GPT-5.2-high的任务准确率达92%，但全边F1值仅为0.471。混合观测-干预策略能提升结构保真度，而纯干预对强智能体仍具挑战。研究发现过早停止是主要弱点，一致性验证能缓解该问题。CausaLab将预测成功与因果理解分离开来，揭示了当前LLM智能体作为实验因果推理者的局限。

智能体推理论文/研究

12:29

HuggingFace Daily Papers（社区热门论文）

65

YOCAUSAL：视频生成距世界模型有多远？一个因果关系的视角

本文提出YOCAUSAL，一个受认知科学“违反期望”范式启发的两层级基准测试，用于评估视频扩散模型（VDMs）的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本，引入“反转惊奇指数”（RSI）量化模型对时间箭头的感知。Level 2引入“因果认知指数”（CCI），利用视觉语言模型将数据集分层，以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明，感知时间箭头并不等同于理解因果关系，当前模型在因果认知方面与人类水平仍存在显著差距。

arXiv推理视频论文/研究

12:29

HuggingFace Daily Papers（社区热门论文）

66

LoRA适配器后门攻击中的Token级泛化：攻击刻画与行为检测

研究表明，可通过训练数据投毒为微调大语言模型的主流分发格式LoRA适配器植入后门，同时保持基线任务性能。在通义千问（Qwen）2.5 1.5B提示注入分类器上，少量投毒样本即可触发一个保持清洁准确率的饱和后门。该后门在Token特征层面而非结构模式层面泛化。研究表征了攻击在模型规模、LoRA rank和触发字符串上的特性，并评估了两种互补的检测方法：一种是基于探针电池统计量的行为检测器；另一种是无需运行模型的权重级统计量（归一化Frobenius范数的跨模块标准差）。因果定位将后门定位于中后层MLP模块的down_proj投影。

安全/对齐数据/训练

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face开源/仓库数据/训练端侧

关联讨论 1 条

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

11:29

HuggingFace Daily Papers（社区热门论文）

60

大语言模型的上下文信念管理

该研究指出大语言模型在长时程交互中需要管理累积信息，即上下文信念管理（CBM）。研究提出BeliefTrack基准进行精确评估，涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败，包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限，而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。

安全/对齐推理论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

精选70

Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模

Qwen-VLA是一个统一的具身基础模型，将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现，使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台，引入了感知载体感知的提示条件机制，并将操作、导航与轨迹预测统一到一个框架中。实验显示，Qwen-VLA-Instruct在多个基准上表现优异，例如在LIBERO达到97.9%，在真实世界ALOHA实验中平均分布外成功率为76.9%。

具身智能多模态论文/研究

推荐理由：Qwen-VLA 让一个模型同时搞定操作、导航和轨迹，在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段，但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通，做机器人的值得认真读。

11:29

HuggingFace Daily Papers（社区热门论文）

61

UI-KOBE：面向轻量级图谱引导 GUI 智能体的知识导向行为探索

为解决轻量级移动端GUI智能体在端到端规划上的不足，本文提出UI-KOBE框架。该框架通过自主探索移动应用，构建包含UI状态节点与转换边的应用知识图谱。运行时，轻量级智能体可利用该图谱作为外部引导，结合用户任务与当前屏幕截图，在多种候选动作中进行选择。此方法减轻了轻量级模型进行端到端规划的负担，使其能更有效地执行任务，并兼顾效率、可解释性与隐私保护。

智能体端侧论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

61

AdaState：用于流式视频生成的自我演化锚点

自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧，导致注意力缓存中的关键值表示占据特权位置，使生成的视频动态性不足、场景进展迟缓，呈现时间上的浅薄性。为此，AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量，模型在每个生成块中将其与内容一起去噪，但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点，使参考点随内容演化。这一设计将时间视为相对概念，为生成过程引入了循环性。实验证明，该自适应状态显著提升了视频动态性，能实现更丰富的运动和自然的场景进展。

多模态视频论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

63

超越3D视觉问答：将3D空间先验注入视觉语言模型以增强几何推理

视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调，导致过拟合；或集成专用3D编码器，显得笨重且不灵活。本研究提出GASP框架，直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据，通过一个小型对应头进行双目标训练：对比损失强化2D视角不变性，深度一致性监督解决3D几何歧义。分析表明，标准模型内部的对应匹配准确率极低（常低于5%）；GASP训练后，该指标峰值超过70%，且时间鲁棒性超过85%。这在下游基准测试中带来显著提升，包括在All-Angles Bench上提升+18.2%，在VSI-Bench上提升+29.0%，且无需任何3D VQA数据训练。

多模态推理论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

62

AgentDoG 1.5：一个轻量级且可扩展的AI智能体安全与安保对齐框架

AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法，构建了数据引擎，仅用约1k样本训练出0.8B至8B参数的模型变体，性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境，大幅降低部署开销，并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平，所有模型和数据集均已开源。

智能体安全/对齐开源/仓库论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

50

OmniRetrieval：跨异构知识源的统一检索

现实世界的信息需求需要访问结构多样的知识源，但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询，识别合适知识源，并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中，OmniRetrieval 的性能超越了单源基线，证明其可以作为异构知识源的通用接口，同时保留了每个源独特的结构优势。

arXiv搜索论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

63

神经物体运动学：NeuROK

当前数据驱动方法在静态3D物体重建上表现突出，但生成符合物理规律的4D动态形变仍具挑战，现有方法多依赖预定义物理模型与参数估计，局限于特定类别。该研究提出NeuROK，通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器，实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型，将动态生成简化为低维潜空间中的操作，从而能更高效地生成多类物体的逼真动态。

多模态数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

69

minWM：一个用于实时交互式视频世界模型的全栈开源框架

minWM 是一个开源全栈框架，能将现有的双向视频扩散基础模型（如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B）转换为支持相机控制、低延迟推演的少步自回归世界模型。它提供了模块化的端到端流程，包含可控微调、Causal Forcing++ 流水线与蒸馏步骤，并可适配如 HY-WorldPlay 等现有模型。项目已开源相关脚本、权重及代码。

开源生态视频论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

67

GenClaw：代码驱动的智能体图像生成

GenClaw提出一种代码驱动的智能体图像生成范式，让AI智能体像人类艺术家一样分步创作：先通过搜索与推理构建概念，再利用SVG、HTML、Three.js等代码渲染可执行的视觉草图，最后调用图像生成模型补充纹理、材质与真实感。该范式将代码作为连接语言推理与像素合成的可控中间画布，将图像生成从黑盒过程转变为类似人类创作的分步流程，迈向更高可控性与可解释性的视觉生成系统。

智能体arXiv图像生成论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

60

局部模态替换：实现更深度融合的视觉语言模型

现有视觉语言模型存在“载体敏感性”问题，即将文本问题替换为等义图像后性能会显著下降，原因在于训练数据中文本和图像的角色不对称。为此，研究者提出一种轻量级、架构无关的数据整理范式LoMo，其通过将单模态提示词动态重构为“文本、图像、文本”的交错多模态序列，来提供跨模态表征不变性的监督信号。在13个多模态基准测试上的实验表明，LoMo能有效提升模型的多模态推理能力，相比标准SFT，LLaVA-OneVision-1.5-8B提升2.67分，Qwen3.5-9B提升2.82分。

多模态论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

精选75

WorldMemArena：通过行动-世界交互循环评估多模态智能体记忆

针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段，研究提出了“行动-世界交互循环”记忆模型，并构建了WorldMemArena基准。该基准包含400个多会话多模态任务，涵盖“终身进化”和“智能体执行”两类场景，支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较，发现记忆写入与存储质量的提升不直接带来性能改善，且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。

智能体多模态论文/研究评测/基准

推荐理由：首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准，头对头比较长上下文、RAG 和自管理记忆，结论是写得好未必用得上，做 Agent 的值得认真看。

11:29

HuggingFace Daily Papers（社区热门论文）

65

大模型为何能学会更多：容量、干扰与罕见任务保持效应

本研究探讨了更大模型能学习小模型无法掌握任务的原因。通过合成数据实验发现，小模型因神经元资源有限，倾向于将其分配给高频或低复杂度任务，导致其在罕见复杂任务上表现不佳，即使存在可表达该任务的潜在解。大模型则通过一种减弱的干扰机制克服此瓶颈：它们能为常见任务分配足够资源，使得相关梯度更新变弱，从而让罕见任务特征得以缓慢积累而不被覆盖。使用OLMo模型（4M至4B参数）在新任务上的预训练验证了这一结论：只有更大的模型学会了不频繁且复杂的任务，且这些模型在表征中嵌入了更多任务特征，任务间的梯度干扰更少。

数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

69

PhoneWorld：可扩展的手机使用智能体环境

PhoneWorld 提出了一种可重用流程，能将真实的手机 GUI 轨迹和截图转化为可控的智能体环境、可执行任务及自动验证器。该系统覆盖了 16 个领域的 34 款应用。实验表明，在固定训练预算下，用 PhoneWorld 数据替代部分基准数据，可同步提升四个评测基准的得分。研究还发现，增加 PhoneWorld 监督数据或扩大应用覆盖范围能进一步提升性能，这标志着从构建单一基准转向规模化供应智能体环境的范式转变。

智能体端侧论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

57

用于生成的原生音视频对齐

针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题，本文提出了NAVA（原生音视频对齐）框架。该框架在专用交互空间建立音视频对应关系后，利用外部上下文条件化联合去噪过程。具体实现上，NAVA采用Align-then-Fuse MMDiT架构，并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明，NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。

arXiv多模态视频论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

57

LaRA：基于逐层表征分析的强化学习后训练数据污染检测

强化学习后训练能提升大语言模型的推理能力，但也可能引入数据污染，影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此，研究提出了LaRA框架，通过逐层分析模型表征来检测污染。该框架引入三个互补指标，分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现，污染会导致模型表征在各层出现渐进式几何偏差。基于此，研究开发了一种聚合各层与各指标表征偏差的检测协议，实验表明其性能优于现有的输出级基线方法。

arXiv推理数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

65

LoRA 如何记忆？大语言模型微调中的参数记忆定律

本研究使用 LoRA 作为控制探针，系统量化了大语言模型的精确参数记忆能力。提出了参数记忆定律，建立了损失减少量与有效参数及序列长度之间的稳健幂律关系。在 token 层面的分析揭示确定性相变，表明预测概率 p > 0.5 是贪心解码下实现逐字记忆的充分条件。基于此，设计了阈值引导的优化策略 MemFT，能动态重分配训练预算以提升记忆保真度与效率。代码将发布于 https://github.com/zjunlp/ParametricMemoryLaw。

GitHub开源生态数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

59

LiteCoder-Terminal：构建用于训练语言智能体的可扩展长周期终端环境

训练能够进行多步规划和动态适应的终端环境语言智能体，其瓶颈在于依赖外部爬取的仓库。研究团队提出了零依赖的合成管道LiteCoder-Terminal-Gen，可从领域规范自主生成可执行、可验证的终端环境。基于此构建了两个大规模资源：包含10个领域、11,255条专家轨迹的SFT数据集，以及拥有602个可验证环境用于轨迹偏好优化的RL环境。在SFT数据集上对通义千问（Qwen）系列模型进行微调后，智能体性能显著提升，其32B变体在Terminal Bench 1.0、2.0和Pro上分别取得29.06%、18.54%和34.00%的pass@1分数。应用Direct Multi-turn Preference Optimization（DMPO）可带来进一步性能提升。

智能体数据/训练论文/研究

09:39

公众号：蚂蚁百灵（Ling）

52

蚂蚁百灵团队提出 PowLU 激活函数，解决低精度训练中 SwiGLU 的异常值问题

SwiGLU 在大模型低精度训练中因输出近似二次增长导致异常值逐层放大，引发 Loss Spike。蚂蚁百灵（Ling）团队提出的 PowLU，在正半轴用幂函数替代指数衰减因子，使增长曲线更平缓。Scaling Law 实验（26M–368M 参数）显示 PowLU 与 SwiGLU 拟合曲线几乎重合；7.9B（600B token）和 124B（800B token）模型在 17 个基准上 PowLU 均优于或持平 SwiGLU。FP8 训练下 PowLU Loss 稳定在约 1.32，有效压缩数值动态范围，减少极端异常值。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

蒸馏LLM反馈用于Lean定理证明

针对推理模型后训练中GRPO存在的稀疏奖励、有限探索和模式坍缩问题，提出Feedback Distillation方法。该方法让模型在token级别匹配其自身分布（基于语言模型提供的特权反馈），提供token级监督并注入外部知识。在Lean4定理证明任务上，Feedback Distillation相比GRPO保持更高轨迹多样性，获得更高策略熵和更好的pass@k缩放。两种方法互补：从Feedback Distillation检查点初始化GRPO优于单独使用任一方法，为改进复杂推理后训练提供了有前景的方向。

arXiv推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

Send a SCOUT First：提示注入防御中自适应检测器分配的事前推理

SCOUT框架通过预测每个检测器对样本的可靠性与延迟，动态决定每个请求运行哪些检测器以及是否升级到GPT-4o judge，避免固定单检测器管线的盲区。在SCOUT-450基准上，安全导向操作点相比始终启用GPT-4o judge使攻击成功率降低46%、总时间降低40%，良性效用仅下降5.1点。该框架还能迁移到BIPIA、IPI和IHEval三个外部基准，改善安全-效用边界。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

人类心理测量问卷误判LLM行为

一项研究检验了人类心理测量问卷能否可靠描述和预测LLM在日常用户交互中的行为。研究者分析了8个开源大语言模型，对比了Likert自评问卷（PVQ-40/21和BFI-44/10）与基于用户日常查询生成概率得到的价值/人格画像。结果显示两种画像显著不同：问卷条目中的显性词汇线索让模型识别出目标构念并给出符合对齐、社会期望的回答，而真实用户查询无此类线索。此外，人口统计角色提示在问卷中能按人类模式改变模型回答，但在真实用户查询的生成概率中无此变化，表明其模拟目标人群行为的局限性。研究认为人类心理测量问卷不足以预测LLM行为，建议采用基于生成的画像作为更准确的度量。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

49

蒸馏博弈：自适应攻击与高效防御

蒸馏攻击使模型提供面临部署权衡：提升可用性的输出更易被模仿。研究通过效用受限教师与自适应学生的极小化极大博弈建模，得到学生侧自适应评估规则（重加权高价值样本）和教师侧防御模板。基于样本价值代理提出Product-of-Experts（PoE）防御——前向传播中结合教师与代理学生。实验表明，自适应评估揭示巨大被动-自适应差距；PoE与昂贵防御鲁棒性差距缩小，且成本更低、推理轨迹质量更高。结论：强蒸馏难以阻止，抗蒸馏进展应基于自适应学生评估。

arXiv安全/对齐论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

62

加法的形状：大语言模型中算术的几何结构

通过分析多操作数加法中的残差流几何结构，发现Iso-Raw-Sum Trajectory (IRST)几何结构，其中表征由语义数字锚定并被连续进位纤维调制。提出Noisy Quantization Model，将算术错误解释为内部神经噪声推动连续潜在进位势跨越量化阈值导致的Geometric Slippages。该几何框架阐明了Probe Versatility，即轻量探针如何从单次激活向量中分离共存潜在信号（如真实值与幻觉）。最后，通过几何一致性检验方法在推理中检测并纠正这些量化失败。代码已开源。

arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

MechVQA：全面机械图纸理解的多模态大语言模型基准与增强

MechVQA是一个面向机械工程图纸理解的全面数据集，通过半自动构建与质量控制流程生成，包含3.3k高密度图片和21K问答对，覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集，研究团队开发了MechVL模型，采用多阶段训练范式，在MechVQA总分上超越最强闭源基线7.57个百分点，显著提升机械图纸理解能力，为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。

arXiv多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

组合式合成：通过原子分解与重组扩展代码 RLVR 训练规模

针对可验证奖励强化学习（RLVR）中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题，提出原子分解与重组（ADR）框架。ADR 将代码任务分解为原子元素并受控重组，从而生成真正新颖且高难度的可验证代码任务。实验表明，ADR 在原创性、难度、多样性和测试质量上均优于现有基线，并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。

arXiv数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

函数注意力：从成对亲和性到函数对应

Functional Attention 将注意力机制重新解释为自适应基之间的函数对应，受几何函数映射启发，用结构化线性算子替代 softmax 亲和性，从而得到紧凑、可泛化且分辨率不变的表示，显式捕捉全局依赖。实验表明，该方法在求解 PDE、3D 分割和回归等算子学习任务中达到 SOTA 性能，并对不同离散化保持鲁棒。

arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

PaintBench：精确视觉编辑的确定性评估

PaintBench是一个动态可扩展的基准，涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件，并采用确定性像素级评估（mIoU）。在11个图像编辑模型上，当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难，且模型存在针对性专长。场景变化（如物体数量、背景复杂度、配色方案、编辑区域大小）会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证，PaintBench得分与应用任务表现存在强线性相关（R²=0.91，p<0.001）。

图像生成多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

56

SpatialAct：探测VLM智能体在3D场景中的空间推理至行动能力

SpatialAct是一个基于模拟器的基准，用于评测视觉语言模型（VLM）智能体在3D场景中的行动条件空间推理。基准从多轮交互改进任务出发，设计了单步错误检测与修复任务及五项基础空间能力任务。实验显示，当前VLM在孤立空间推理任务上表现良好，但在多轮反馈中难以维持一致的空间信念并产生可靠行动，表现显著低于人类。结果表明，即便底层控制被抽象，现有VLM智能体仍缺乏在行动导致环境变化下的鲁棒空间状态跟踪能力。

具身智能多模态论文/研究