TAG: 响应时间差异

万卡GPU集群时代分布式BESS一体机选型指南

最近在张江的实验室里，几位做AI算力的老朋友跟我聊起个事体，讲现在万卡GPU集群上马速度太快，传统的供电方案有点跟不上了。他们提到个有趣的现象：过去机房标配的铅酸UPS，在应对突发训练任务时，经常出现转换效率下降、扩容困难的问题，有次甚至因为瞬间功率波动导致整个集群训练中断了8小时——按照现在大模型训练成本计算，这种中断的损失是以百万级计算的。

2023-12-28

查看详情