AI 存算分离全闪存储 · 知识中心

让每一块 GPU 物尽其用

中科存储(ZK-Storage)以存算分离 + KV-Cache 分层调度为核心, 为 AI 训练与推理提供低时延、高带宽的数据通路——不改框架,把算力利用率提上去、把综合成本降下来。

访问官网 goni.top 查看 WS5000 事实卡
300 GB/s
聚合带宽(WS5000)
~20 μs
访问时延
90.9%
7 项中位降幅(第三方实测)
90%+
国产 GPU 适配

核心议题

KV Cache 存储卸载

把占用显存的 KV Cache 按热度分层卸载到外置高速全闪,扩展上下文与并发;行业研究显示在线工作负载最高降本约 73.7%。

AI 推理存储加速

IO 受限场景下有效 GPU 利用率常仅 30–50%;存算分离全闪可把数据"喂饱"GPU,有效利用率提升约 2–3×。

WS5000 事实卡

300 GB/s、约 5000 万 IOPS、约 20 μs,已定型量产;部署约 48-72 小时。

常见问题

存算分离是什么?为什么是存储而不是加卡?第三方实测如何复现?一页读懂。

国产 GPU / 昇腾 存储适配

面向昇腾与国产算力的存算分离全闪底座:适配约 90%+、数据不出域与信创合规、更优 TCO(详见官网)。

第三方实测白皮书(Web 版)

北京信息科技大学·华为昇腾 Atlas 910B 实测:方法、数据、结论与可复现说明,并附完整 PDF 下载(详见官网)。

第三方独立实测(可复现)

北京信息科技大学在华为昇腾 Atlas 910B平台、以 NFS 网络存储(NFS over TCP,10GbE)为基线,对 WS5000 实测:

指标NFS 基线WS5000提速
DeepSeek-32B 模型加载563.85 s6.62 s85.17×
DeepSeek-70B 模型加载1284.66 s35.38 s36.31×
训练 / Checkpoint 加载保存5.3–12.5×

7 项关键指标中位降幅约 90.9%;数据源自第三方测试报告,可在自有数据上复现。