针对扩散大语言模型在混合专家架构下部署于资源受限设备的挑战,TIDE提出了一种无需模型训练的无损推理优化系统。该系统利用块内扩散过程中专家激活的时间稳定性,设计了基于间隔的专家刷新策略,以输入输出感知方式动态更新专家位置。通过将推理调度建模为数学规划问题,TIDE能够求解最优间隔以最小化输入输出流量和CPU计算开销。实验表明,在单GPU-CPU系统中,TIDE在LLaDA2.0-mini和LLaDA2.0-flash模型上分别实现了最高1.4倍和1.5倍的吞吐量提升,为现有基线方法带来显著加速。