最近在张江的实验室里,几位做AI算力的老朋友跟我聊起个事体,讲现在万卡GPU集群上马速度太快,传统的供电方案有点跟不上了。他们提到个有趣的现象:过去机房标配的铅酸UPS,在应对突发训练任务时,经常出现转换效率下降、扩容困难的问题,有次甚至因为瞬间功率波动导致整个集群训练中断了8小时——按照现在大模型训练成本计算,这种中断的损失是以百万级计算的。