Benchmark for Distributed Training
项目:我们使用深度卷积神经网络ResNet-50。它有50个卷积层,用于图像分类。它需要3.8个GFLOPs来通过网络处理一张图像(尺寸为224x224)。输入的图像大小为224x224。
硬件方面:我们使用的是AWS的p2.8xlarge实例,每个实例有8个Nvidia Tesla K80 GPU,共96GB GPU内存,32个vCPU,488GB主内存,10Gbps网络带宽。
衡量标准:我们衡量不同数量worker的每次迭代时间,以评估SINGA的可扩展性。Batch-size固定为每个GPU32个。采用同步训练方案。因此,有效的batch-size是32N
,其中N是GPU的数量。我们与一个流行的开源系统进行比较,该系统采用参数服务器拓扑结构。选择第一个GPU作为服务器。
可扩展性测试。条形为吞吐量,折线形为通信成本。