AIHOT

全部动态论文 · 2151 条

5月20日周三

5月20日

18:07

HuggingFace Daily Papers（社区热门论文）

该框架针对3D高斯溅射训练中参数规模远超GPU内存的难题，提出了核外训练方案。它利用训练过程固有的稀疏性，将GPU内存作为工作集缓存，并通过SSD-CPU-GPU层级结构协同管理参数。关键技术包括虚拟化块几何以提升I/O局部性、异步分层流水线实现计算与I/O重叠、以及轨迹自适应差分流以高效传输增量数据。实验表明，TideGS仅需单张24GB显卡即可训练超过十亿高斯，并在大规模场景中达到了所评测单GPU基线中的最优质量，相比此前方法实现了数量级的规模突破。

数据/训练论文/研究部署/工程

17:07

HuggingFace Daily Papers（社区热门论文）

PixVerve：推进原生超高清图像生成至100MP

本文介绍了PixVerve-95K，一个高质量、开源的超高清（UHR）文生图数据集，包含95K张图像（每张至少100M像素）及七维注释。基于此，研究团队探索了三种训练方案，成功将现有文生图基础模型扩展至原生100MP图像生成。同时，提出了PixVerve-Bench评估基准，全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。

arXiv图像生成数据/训练论文/研究

17:07

HuggingFace Daily Papers（社区热门论文）

作者身份信号在编码器语言模型中的涌现位置

该研究发现，使用相同预训练编码器、数据和损失函数微调的作者归属模型，仅因评分机制不同，性能差异可达四倍。研究利用机械可解释性工具揭示了这一差距的来源：词长、标点密度、功能词频率等风格特征在所有模型的每一层中均等可得，因此差距并非源于表征质量差异。因果介入实验表明，评分器决定了编码器在哪个层次整合作者身份信号——均值池化迫使信号在早期至中期层整合，而晚期交互则将其推迟到更晚的层。这一差异源于各评分器的梯度结构不同。

arXiv论文/研究

15:07

HuggingFace Daily Papers（社区热门论文）

精选72

CopT：基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考（CoT）顺序的推理框架：先生成草稿答案，再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器，通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度，构建序列级反向KL估计器，以此评估答案的可靠性。当答案不可靠时，CopT会执行进一步思考，并利用第二个KL估计器动态控制草稿答案的可见性，在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下，该方法在数学、编程等任务上显著提升了准确率（最高达23%）并大幅减少了令牌消耗（高达57%）。

智能体GitHub推理论文/研究

推荐理由：CopT把推理流程反了过来，先草稿答案再自我反思，用连续嵌入对比验证可靠性，在数学/编码/Agent任务上提点23%省token57%，思路可能改写推理范式。

15:05

Rohan Paul@rohanpaul_ai

Anthropic研究：前沿AI需要多元领域参与塑造品格

Anthropic最新研究指出，前沿AI的行为日益涉及“品格”塑造，而非仅限于代码。研究认为，工程师在后期训练中实质上塑造了AI的“习惯”，而核心挑战在于确保其在压力下仍能保持道德稳定。为此，Anthropic与超过15个宗教及跨文化团体展开对话，探讨人类品格培养机制。其提出的解决方案包括开发“自我提醒”工具，帮助AI在执行关键任务前审视自身承诺，内测显示此举已显著降低行为错位。该研究旨在拓宽关于AI发展的社会讨论边界。

Anthropic: Over the past few months, we've been holding dialogues with scholars, philosophers, clergy, and ethicists on the questio...

Anthropic安全/对齐

13:05

HuggingFace Daily Papers（社区热门论文）

PEEK：面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题，本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射，并置于智能体提示中，以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明，在长上下文推理和信息聚合任务上，PEEK相比强基线提升6.3-34.0%，迭代次数减少93-145次，成本比ACE低1.7-5.8倍；在上下文学习任务中，解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%，成本降低1.4倍。这些成果在多种模型和智能体架构（包括OpenAI Codex）上均有效，证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究

12:05

HuggingFace Daily Papers（社区热门论文）

精选72

GoLongRL：面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案，聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法，公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类，涵盖9种任务类型，由真实文档生成的问答对构成；实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外，提出了TMN-Reweight多任务优化方法，通过任务级归一化和难度自适应加权，在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由：开源长上下文RL的配方直接放出来了，数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品，甚至摸到了DeepSeek-R1的水平，做长上下文的值得复现。