大模型训练一般都是用单机 8 卡 GPU 主机组成集群,机型包括 8*{A100,A800,H100,H800} 。下面一台典型 8*A100 GPU 的主机内硬件拓扑: 本节将基于这张图来介绍一些概念和术语,有基础的可直接跳过。 关于CPU、服务器和存储详细技术,请参考“下载提醒:服务器基础 ...