标准的下一Token预测(NTP)仅使用输出logit空间的离散标签进行监督,这导致潜在表示空间约束不足。为解决此问题,本文提出了NITP方法,它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容,并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明,NITP能正则化优化过程,促进紧凑且结构化的表示几何。实验表明,在从0.5B到9B参数的密集与MoE模型上,NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上,NITP在MMLU-Pro上实现了5.7%的绝对提升,在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升,仅增加约2%的训练FLOPs且无额外推理成本。