Benchmark cho Distributed Training
Tải công việc: chúng tôi sử dụng Mạng nơ-ron tích chập sâu (deep convolutional neural network), ResNet-50 làm ứng dụng. ResNet-50 có 50 lớp tích chập (convolution layers) để phân loại hình ảnh. Nó đòi hỏi 3.8 GFLOPs để đưa vào một hình ảnh (kích thước ảnh 224x224) qua mạng lưới. Kích thước ảnh đầu vào là 224x224.
Phần cứng: chúng tôi sử dụng máy p2.8xlarge từ AWS, mỗi máy gồm 8 Nvidia Tesla K80 GPUs, bộ nhớ tổng cộng 96 GB GPU, 32 vCPU, 488 GB main memory, 10 Gbps network bandwidth.
Metric: chúng tôi tính thời gian mỗi bước cho mỗi workers để đánh giá khả năng mở rộng của SINGA. Kích thước của mỗi nhóm được cố định ở 32 mỗi GPU. Phương thức training đồng bộ (Synchronous training scheme) được áp dụng. Vì thế, kích thước nhóm hiệu quả là $32N$, trong đó N là số máy GPUs. Chúng tôi so sánh với một hệ thống mở được dùng phổ biến có sử dụng tham số server cấu trúc liên kết. Máy GPU đầu tiên được chọn làm server.
Kiểm tra khả năng mở rộng.
Bars được dùng cho thông lượng (throughput); lines dùng cho lượng kết nối
(communication cost).