A100服务器使用过程的曲折
使用A100显卡跑程序时,当使用多张卡一起跑的时候就会出现程序卡住不动的情况,这是由于系统的BIOS里IO虚拟化默认启动了PCI访问控制服务(ACS)导致GPU间无法直接通过P2P方式通信
export NCCL_P2P_DISABLE=1
在代码程序前加上这个命令就能多卡运行了、
export NCCL_P2P_DISABLE=1
在代码程序前加上这个命令就能多卡运行了、