针对 AI 场景的分布式存储

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 320 天前的主题，其中的信息可能已经有所发展或是发生改变。

大模型一般是在集群场景进行分布式训练和推理，那么对于大模型这种动辄几十几百 G （如果训练，还要考虑数据集可能也是 T 级别），分布式存储有比较好的方案吗（读写性能、网络带宽等）？

比如多个 GPU 节点同时从存储节点读取和加载模型权重，对存储节点的读写性能要求应该非常高，想知道集群场景下有没有针对 AI 的分布式存储系统

2 条回复 • 2024-10-26 11:05:36 +08:00

wyxustcsa09

320 天前

cybort

319 天前 via Android

其实没必要同时加载，一个读了发给其他人就行，走网线