HuggingFace Daily Papers(社区热门论文)
59
高效预训练:令牌叠加训练法
AI 摘要
研究团队提出令牌叠加训练法,这是一种即插即用的高效预训练方法。该方法无需改动模型架构、并行策略等核心组件,通过将连续令牌合并为包并进行多热交叉熵目标训练,随后恢复标准训练的两阶段设计,显著提升了数据吞吐效率。在2.7亿至100亿参数的不同模型规模上验证表明,该方法具有高度鲁棒性,能持续优于基线模型的损失表现与下游任务结果。在同等损失条件下,该方法在100亿参数规模上实现了预训练总时间最多减少2.5倍的成效。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org