观点：应将大语言模型推理评估为"能量到Token的生产过程"

2026-05-12 08:00·33天前

AI 摘要

当前大模型推理评估过于侧重准确性、延迟等软件指标，忽视了部署规模下的核心约束：在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程，并建立了统一的Token生产函数模型，其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下，KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此，呼吁未来研究与基准测试在报告传统指标时，应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。

该来源未收录可展示正文，站内仅提供摘要。

arXiv推理论文/研究部署/工程

HuggingFace Daily Papers（社区热门论文）

观点：应将大语言模型推理评估为"能量到Token的生产过程"

2026-05-12 08:00·33天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

arXiv推理论文/研究部署/工程