DGX系统快速上手的最佳攻略

如何用好DGX系统呢？首先要用好V100的混合精度计算性能，在前面我们已经介绍了Tensor Core，可以支持混合精度的计算，也就是上图左上角的混合精度矩阵的乘加计算。有很多用户反映，他们买了DGX-1后发现和相同数量GPU P100相比，性能也没有特别大的提升。后来发现他们用的是单精度做训练，也就是将P100上运行的代码直接拿到DGX-1上运行，而并没有做修改，这样一来还是单精度的训练，并不会自动使用混合精度。

为了用好V100的混合精度计算性能，我们需要在源代码上做一些小的修改。比如在做训练时，需要把有些权重副本、梯度或者激活值等变量改为半精度FP16，可以提高它的计算速度，还可以减小内存的占用。在更新权重时，我们把它强制转化为FP32的单精度，可以保证训练模型的精度不会下降，因此在采用了一些小的修改后，再去做一些训练的计算才会获得比较高的计算速度。

缩短数据读写的时间也是提高计算速度比较重要的一点。在训练时都需要从网络文件系统读写数据，通常延时会比较大，因此DGX-1会配置文件系统的缓存功能，将数据缓存到系统的本地，而这一点不需要用户考虑，系统会自动配置好。当然有些用户会自己把数据拷贝到本地，这也是一个不错的办法。另外，由于本地SSD配置为RAID 0，它的可靠性比较低，因此不建议将重要数据长期存放在缓存里面，这将会很不安全。

在搭建GPU集群的时候，网络不一定是InfiniBand类型，经常会遇到40Gb的以太网，这时我们可以将DGX-1的网络接口切换为以太网模式，这样就可以接入到40Gb的以太网络环境中。

充分利用NVLINK网络通信的功能也是用好DGX一个很重要的点。如果使用普通的MPI模式进行通信，GPU之间采用PCIe，它的通信效率会比较低。为了采用NVLink通信，我们可以使用NCCL库，在Horovod软件中集成了NVIDIA NCCL库，它是一个采用的如右边这张图的算法，这个算法是百度最先提出来的。

从左边图上我们可以看到普通的TensorFlow并行和Horovod相比，GPU卡越多性能差距越明显，因此我们建议，在做多GPU并行或者多节点并行时，使用NCCL库作为通讯方式。另外，我们在NGC平台上提供的深度学习框架的资源中也已经集成了NCCL库，因此建议大家尽量使用NGC中的深度学习框架资源。

NVIDIA DGX服务器和工作站是软硬一体的产品，而且软件和硬件都出自NVIDIA，可以给用户提供一个高性能、高可靠的系统，提供完善的软件和硬件服务，包括故障处理、性能调优、应用移植等。NVIDIA有强大的AI专家团队，也可以快速解决大家在使用过程中的问题，提供一些AI算法等层面的支持。这对大家节省时间、快速迭代、缩短产品研发周期也是非常有帮助的，这也是NVIDIA服务的优势。

上一篇国产CPU之4种架构和6大品牌下一篇AI超级计算机DGX系统详解