Image55 multi turn dialogue latency

测试日期 总测试用例数 并发数 是否开启Prefix Cache 是否开启Chunk加速 RAG chunk长度 RAG chunk召回数 RAG chunk命中数 是否开启TopK稀疏化 所有请求耗时(ms) E2E吞吐(tokens/s) 单请求平均吞吐(tokens/s) 首tokens时延P50(ms) 首tokens时延P90(ms) 首tokens时延P99(ms) 最大首tokens时延(ms) 平均首tokens时延(ms) 增量时延P50(ms) 增量时延P90(ms) 增量时延P99(ms) 最大增量时延(ms) 平均增量时延(ms) 平均准确度
2025-10-16-14-31-31 279 1 FALSE FALSE 3 1000 0 FALSE 465072.86 4.9 6.96 1151.86 2930.78 3429.74 3545.17 1452.4 41.47 69.7 105.57 11209.48 56.1 0.45091
2025-10-16-14-31-31 279 1 TRUE FALSE 3 1000 0 FALSE 155829.15 14.63 17.13 217.37 686.87 995.54 1149.71 353.46 32.15 40.1 46.24 58.37 30.34 0.44326
2025-10-16-14-31-31 279 1 TRUE FALSE 3 1000 0 TRUE 158653.1 14.36 16.79 218.61 700.11 981.06 1159.31 356.49 33.18 41.13 47.96 79.15 31.24 0.43334
2025-10-16-14-31-31 279 1 TRUE TRUE 3 1000 0 FALSE 368143.72 6.19 6.71 1307.98 1570.18 1825.02 2107.98 1164.96 42.03 61.49 75.46 116.13 40.64 0.47634
2025-10-16-14-31-31 279 1 TRUE TRUE 3 1000 3 FALSE 366629.04 6.22 6.74 1285.11 1581.82 1864.77 1898.59 1149.23 42.49 63.35 78.72 237.31 41.62 0.37617
2025-10-16-14-31-31 279 1 TRUE TRUE 3 1000 0 TRUE 373218.55 6.11 6.62 1314.76 1601.37 1834.68 2127.12 1167.98 43.4 64.82 79.64 140.89 42.62 0.44979

评论