AI 推理存储加速:把数据"喂饱"GPU
在 IO 受限场景下,有效 GPU 利用率常仅 30–50%; 一味加卡并不能解决 IO 瓶颈,存算分离全闪是更经济的提质增效路径。
问题
模型加载、KV Cache 切换、Checkpoint 读写是推理/训练中的常见 IO 热点。全国智算中心平均利用率不足 60%,存量提质增效是刚需。
解法:存算分离全闪
存储与计算解耦、独立扩展;通过 NVMe-oF over RoCE 让远端全闪接近本地盘时延,把数据通路打宽、打短, 有效 GPU 利用率可提升约 2–3×,综合成本约 -40%、扩容成本约 -60%。
证据
北京信息科技大学第三方实测:7 项关键指标中位降幅约 90.9%。
| 指标 | NFS 基线 | WS5000 | 提速 |
|---|---|---|---|
| DeepSeek-32B 模型加载 | 563.85 s | 6.62 s | 85.17× |
| DeepSeek-70B 模型加载 | 1284.66 s | 35.38 s | 36.31× |
| 训练 / Checkpoint 加载保存 | — | — | 5.3–12.5× |