58
AI 摘要
斯坦福团队研究发现,使用未过滤Common Crawl数据训练模型时,在计算量充足下效果可能优于清洗后数据,结论呈现模型规模依赖性:小模型(15M)上过滤数据全面领先,但大模型(330M、1B)未过滤数据在充分训练后反而超越过滤版本,原因是大模型参数容量足够大,可在训练中自行隔离噪声与有效信息。
今天读到斯坦福大学研究团队的一个论文,有点跟直觉不一样。
把没过滤的Common Crawl数据喂给大模型,发现计算量足够大时,不过滤数据效果反而比清洗后的数据效果好。
在 15M 小模型上,过滤数据全面领先,未过滤的很差。
但当模型规模达到 330M 和 1B 时,情况完全反转,未过滤的在充分训练后超越了所有过滤版本。
小模型怕垃圾,大模型不怕。
模型大,秩(参数量)多,就有足够空间把垃圾和有用信息隔离开。
论文解读和原始PDF见评论区