斯坦福团队研究：未过滤数据训练大模型，效果可能优于清洗数据 · AI HOT

斯坦福团队研究：未过滤数据训练大模型，效果可能优于清洗数据 · AI HOT

向阳乔木@vista8

58

2026-06-03 11:27·12天前

AI 摘要

斯坦福团队研究发现，使用未过滤Common Crawl数据训练模型时，在计算量充足下效果可能优于清洗后数据，结论呈现模型规模依赖性：小模型（15M）上过滤数据全面领先，但大模型（330M、1B）未过滤数据在充分训练后反而超越过滤版本，原因是大模型参数容量足够大，可在训练中自行隔离噪声与有效信息。

今天读到斯坦福大学研究团队的一个论文，有点跟直觉不一样。

把没过滤的Common Crawl数据喂给大模型，发现计算量足够大时，不过滤数据效果反而比清洗后的数据效果好。

在 15M 小模型上，过滤数据全面领先，未过滤的很差。

但当模型规模达到 330M 和 1B 时，情况完全反转，未过滤的在充分训练后超越了所有过滤版本。

小模型怕垃圾，大模型不怕。

模型大，秩（参数量）多，就有足够空间把垃圾和有用信息隔离开。

论文解读和原始PDF见评论区

数据/训练论文/研究

在 X 查看原推

向阳乔木@vista8 · X

58

2026-06-03 11:27·12天前

AI 摘要

斯坦福团队研究发现，使用未过滤Common Crawl数据训练模型时，在计算量充足下效果可能优于清洗后数据，结论呈现模型规模依赖性：小模型（15M）上过滤数据全面领先，但大模型（330M、1B）未过滤数据在充分训练后反而超越过滤版本，原因是大模型参数容量足够大，可在训练中自行隔离噪声与有效信息。

今天读到斯坦福大学研究团队的一个论文，有点跟直觉不一样。

把没过滤的Common Crawl数据喂给大模型，发现计算量足够大时，不过滤数据效果反而比清洗后的数据效果好。

在 15M 小模型上，过滤数据全面领先，未过滤的很差。

但当模型规模达到 330M 和 1B 时，情况完全反转，未过滤的在充分训练后超越了所有过滤版本。

小模型怕垃圾，大模型不怕。

模型大，秩（参数量）多，就有足够空间把垃圾和有用信息隔离开。

论文解读和原始PDF见评论区

数据/训练论文/研究

在 X 查看原推x.com