长度价值模型(LenVM)是一个创新的令牌级框架,它将剩余生成长度预测转化为价值估计问题,通过为每个生成令牌分配恒定负奖励来获得密集、无偏且可扩展的监督信号。实验表明,LenVM能显著提升模型对生成长度的精确控制能力:在LIFEBench精确长度匹配任务中,它将一个7B模型的长度分数从30.9大幅提升至64.8,超越了前沿闭源模型。同时,该模型支持性能与效率的连续权衡,如在GSM8K上设定200令牌预算时,能保持63%的准确率,远超基线模型的6%。此外,LenVM能从提示开始预测总长度,并提供生成动态的可解释视图,展现了其作为通用长度建模框架的广泛潜力。