HuggingFace Daily Papers（社区热门论文）

高效预训练：令牌叠加训练法

2026-05-07 08:00·39天前

AI 摘要

研究团队提出令牌叠加训练法，这是一种即插即用的高效预训练方法。该方法无需改动模型架构、并行策略等核心组件，通过将连续令牌合并为包并进行多热交叉熵目标训练，随后恢复标准训练的两阶段设计，显著提升了数据吞吐效率。在2.7亿至100亿参数的不同模型规模上验证表明，该方法具有高度鲁棒性，能持续优于基线模型的损失表现与下游任务结果。在同等损失条件下，该方法在100亿参数规模上实现了预训练总时间最多减少2.5倍的成效。

该来源未收录可展示正文，站内仅提供摘要。

数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

高效预训练：令牌叠加训练法

2026-05-07 08:00·39天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

数据/训练论文/研究