Latency,中文常译为“延迟”,是衡量系统响应时间的指标。在计算机科学中,它指数据输入与结果输出之间的时间间隔。该指标是计算机系统、网络通信及数据存储等领域评估性能的关键通用指标。在AI推理领域,通常通过首token时延和输出token时延进行量化;在存储领域,则指读写请求的处理时间。延迟受物理距离、硬件性能等多种因素影响。通过优化网络拓扑、推理引擎等方式可有效降低延迟。在系统架构层面,部署内...
新手任务