在线策略蒸馏(OPD)利用教师模型的token级监督,对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出,原始的KL分歧是一个粗糙指标,它混合了“可学习分歧”和“不相容分歧”。为此,研究提出了“Token可教学性”概念来衡量信号的实际可学习性,并据此设计了轻量级的TA-OPD方法,仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中,TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法,将选择性蒸馏重新定义为筛选可学习的教师信号。