HuggingFace Daily Papers(社区热门论文)
62
观点:应将大语言模型推理评估为"能量到Token的生产过程"
AI 摘要
当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org