AI 推理存储加速：把数据"喂饱"GPU

在 IO 受限场景下，有效 GPU 利用率常仅 30–50%；一味加卡并不能解决 IO 瓶颈，存算分离全闪是更经济的提质增效路径。

问题

模型加载、KV Cache 切换、Checkpoint 读写是推理/训练中的常见 IO 热点。全国智算中心平均利用率不足 60%，存量提质增效是刚需。

存储与计算解耦、独立扩展；通过 NVMe-oF over RoCE 让远端全闪接近本地盘时延，把数据通路打宽、打短，有效 GPU 利用率可提升约 2–3×，综合成本约 -40%、扩容成本约 -60%。

北京信息科技大学第三方实测：7 项关键指标中位降幅约 90.9%。

指标	NFS 基线	WS5000	提速
DeepSeek-32B 模型加载	563.85 s	6.62 s	85.17×
DeepSeek-70B 模型加载	1284.66 s	35.38 s	36.31×
训练 / Checkpoint 加载保存	—	—	5.3–12.5×

最近更新：2026-06-22