TensorFlow的多平臺(tái)基準(zhǔn)測(cè)試

jk_v1 發(fā)布于2019-04-25 18:23 / 1547人閱讀

摘要：我們認(rèn)為，在基準(zhǔn)測(cè)試平臺(tái)中，包含真實(shí)數(shù)據(jù)的測(cè)量非常重要。其他結(jié)果訓(xùn)練合成數(shù)據(jù)訓(xùn)練真實(shí)數(shù)據(jù)詳情環(huán)境下表列出了用于測(cè)試的批量大小和優(yōu)化器。在給定平臺(tái)上，以缺省狀態(tài)運(yùn)行。

圖像分類模型的結(jié)果

InceptionV3[2]、ResNet-50[3]、ResNet-152[4]、VGG16[5] 和 AlexNet[6] 使用 ImageNet[7] 數(shù)據(jù)集進(jìn)行測(cè)試。測(cè)試環(huán)境為 Google Compute Engine、Elastic Compute Cloud (Amazon EC2) 和 NVIDIA? DGX-1?。大部分測(cè)試使用了合成數(shù)據(jù)和真實(shí)數(shù)據(jù)。使用合成數(shù)據(jù)進(jìn)行測(cè)試是通過一個(gè) tf.Variable 完成的，它被設(shè)置為與 ImageNet 的每個(gè)模型預(yù)期的數(shù)據(jù)相同的形狀。我們認(rèn)為，在基準(zhǔn)測(cè)試平臺(tái)中，包含真實(shí)數(shù)據(jù)的測(cè)量非常重要。這個(gè)負(fù)載測(cè)試底層硬件和框架，用來準(zhǔn)備實(shí)際訓(xùn)練的數(shù)據(jù)。我們從合成數(shù)據(jù)開始，將磁盤 I/O 作為一個(gè)變量移除，并設(shè)置一個(gè)基線。然后，用真實(shí)數(shù)據(jù)來驗(yàn)證 TensorFlow 輸入管道和底層磁盤 I/O 是否飽和的計(jì)算單元。

使用 NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 進(jìn)行訓(xùn)練

詳情和額外的結(jié)果請(qǐng)參閱“NVIDIA? DGX-1? (NVIDIA? Tesla? P100)”一節(jié)。

使用 NVIDIA? Tesla? K80 進(jìn)行訓(xùn)練

詳情和額外的結(jié)果請(qǐng)參閱“Google Compute Engine (NVIDIA? Tesla? K80)”一節(jié)和“Amazon EC2 (NVIDIA? Tesla? K80)”一節(jié)。

使用 NVIDIA? Tesla? K80 進(jìn)行分布式訓(xùn)練

詳情和額外的結(jié)果請(qǐng)參閱“Amazon EC2 Distributed (NVIDIA? Tesla? K80)”一節(jié)。

使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練的比較

NVIDIA? Tesla? P100

NVIDIA? Tesla? K80

NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 詳情

環(huán)境

Instance type: NVIDIA? DGX-1?

GPU: 8x NVIDIA? Tesla? P100

OS: Ubuntu 16.04 LTS with tests run via Docker

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: Local SSD

DataSet: ImageNet

Test Date: May 2017

每個(gè)模型所使用的批量大小及優(yōu)化器，如下表所示。除下表所列的批量大小外，InceptionV3、ResNet-50、ResNet-152 和 VGG16 使用批量大小為 32 進(jìn)行測(cè)試。這些結(jié)果在“其他結(jié)果”一節(jié)中。

用于每個(gè)模型的配置如下表：

結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

在上述圖標(biāo)和表格中，排除了在 8 個(gè) GPU 上使用真實(shí)數(shù)據(jù)訓(xùn)練的 AlexNet，因?yàn)樗鼘⑤斎牍芫€較大化了。

其他結(jié)果

下面的結(jié)果，都是批量大小為 32。

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

Google Compute Engine (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: n1-standard-32-k80x8

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1.7 TB Shared SSD persistent disk (800 MB/s)

DataSet: ImageNet

Test Date: May 2017

如下表所示，列出了每種模型使用的批量大小及優(yōu)化器。除去表中所列的批量之外，Inception V3 和 ResNet-50 的批量大小為 32。這些結(jié)果在“其他結(jié)果”一節(jié)。

用于每個(gè)模型的配置的variable_update、 parameter_server、local_parameter_device 和 cpu，它們是相等的。

結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

其他結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

Amazon EC2 (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: p2.8xlarge

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1TB Amazon EFS (burst 100 MiB/sec for 12 hours, continuous 50 MiB/sec)

DataSet: ImageNet

Test Date: May 2017

下標(biāo)列出了每種模型所使用的批量大小和優(yōu)化器。除去表中所列的批量大小外，InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果都在“其他結(jié)果”一節(jié)中。

用于每個(gè)模型的配置。

結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

由于我們的 EFS 設(shè)置未能提供足夠的吞吐量，因此在上述圖標(biāo)和表格中，排除了在 8 個(gè) GPU 上使用真實(shí)數(shù)據(jù)來訓(xùn)練 AlexNet。

其他結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

Amazon EC2 Distributed (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: p2.8xlarge

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1.0 TB EFS (burst 100 MB/sec for 12 hours, continuous 50 MB/sec)

DataSet: ImageNet

Test Date: May 2017

下表列出了用于測(cè)試的批量大小和優(yōu)化器。除去表中所列的批量大小之外，InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果包含在“其他結(jié)果”一節(jié)。

用于每個(gè)模型的配置。

為簡(jiǎn)化服務(wù)器設(shè)置，運(yùn)行工作服務(wù)器的 EC2 實(shí)例（p2.8xlarge）也運(yùn)行著參數(shù)服務(wù)器。使用相同數(shù)量的參數(shù)服務(wù)器和工作服務(wù)器，不同之處在于：

InceptionV3: 8 instances / 6 parameter servers

ResNet-50: (batch size 32) 8 instances / 4 parameter servers

ResNet-152: 8 instances / 4 parameter servers

結(jié)果

訓(xùn)練合成數(shù)據(jù)

其他結(jié)果

訓(xùn)練合成數(shù)據(jù)

方法

這個(gè)腳本 [8] 運(yùn)行在不同的平臺(tái)上，產(chǎn)生上述結(jié)果。高性能模型 [9] 詳細(xì)介紹了腳本中的技巧及如何執(zhí)行腳本的示例。

為了盡可能達(dá)到重復(fù)的結(jié)果，每個(gè)測(cè)試運(yùn)行五次，然后平均一下時(shí)間。GPU 在給定平臺(tái)上，以缺省狀態(tài)運(yùn)行。對(duì)于 NVIDIA?Tesla?K80，這意味著要離開 GPU Boost[10]。每次測(cè)試，都要完成 10 個(gè)預(yù)熱步驟，然后對(duì)接下來的 100 個(gè)步驟進(jìn)行平均。

參考鏈接：

[1] Benchmarks:

https://www.tensorflow.org/performance/benchmarks

[2] Rethinking the Inception Architecture for Computer Vision:

https://arxiv.org/abs/1512.00567

[3] Deep Residual Learning for Image Recognition:

https://arxiv.org/abs/1512.03385

[4] Deep Residual Learning for Image Recognition:

https://arxiv.org/abs/1512.03385

[5] Very Deep Convolutional Networks for Large-Scale Image Recognition:

https://arxiv.org/abs/1409.1556

[6] ImageNet Classification with Deep Convolutional Neural Networks:

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

[7] ImageNet:

http://www.image-net.org/

[8] tf_cnn_benchmarks: High performance benchmarks:

https://github.com/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks

[9] High-Performance Models:

https://www.tensorflow.org/performance/benchmarks

[10] Increase Performance with GPU Boost and K80 Autoboost:

https://devblogs.nvidia.com/parallelforall/increase-performance-gpu-boost-k80-autoboost/

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器基準(zhǔn)測(cè)試 linux 基準(zhǔn)測(cè)試 tensorflow測(cè)試 jsp基準(zhǔn)路徑

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/4707.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

jk_v1

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

騰訊云輕量應(yīng)用服務(wù)器和云服務(wù)器哪個(gè)好（雙11促銷3年低至144元）

閱讀 1970·2021-11-09 09:46
CSS繪制各種圖形的方法

閱讀 2552·2019-08-30 15:52
echarts花樣作死的坑

閱讀 2521·2019-08-30 15:47
web前端對(duì)文件的引用規(guī)則

閱讀 1391·2019-08-29 17:11
JS對(duì)象之封裝（二）

閱讀 1793·2019-08-29 15:24
es6常用數(shù)組操作及技巧匯總

閱讀 3561·2019-08-29 14:02
網(wǎng)頁設(shè)計(jì)中分欄布局的幾種實(shí)現(xiàn)方案

閱讀 2511·2019-08-29 13:27
Angular2入門系列（五）———— 路由參數(shù)設(shè)置

閱讀 1266·2019-08-29 12:32

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

TensorFlow的多平臺(tái)基準(zhǔn)測(cè)試

相關(guān)文章

基準(zhǔn)評(píng)測(cè)TensorFlow、Caffe等在三類流行深度神經(jīng)網(wǎng)絡(luò)上的表現(xiàn)

**深度學(xué)習(xí)三大硬件+四大學(xué)習(xí)庫基準(zhǔn)測(cè)試對(duì)比，指標(biāo)全面呈現(xiàn)**

MATLAB更新R2017b：轉(zhuǎn)換CUDA代碼極大提升推斷速度

**GPU訓(xùn)練機(jī)器學(xué)習(xí)模型哪家強(qiáng)？AWS、谷歌云、IBM等6大平臺(tái)對(duì)比**

Keras vs PyTorch：誰是「第一」深度學(xué)習(xí)框架？

發(fā)表評(píng)論

0條評(píng)論

jk_v1

男|高級(jí)講師

TA的文章

騰訊云輕量應(yīng)用服務(wù)器和云服務(wù)器哪個(gè)好（雙11促銷3年低至144元）

CSS繪制各種圖形的方法

echarts花樣作死的坑

web前端對(duì)文件的引用規(guī)則

JS對(duì)象之封裝（二）

es6常用數(shù)組操作及技巧匯總

網(wǎng)頁設(shè)計(jì)中分欄布局的幾種實(shí)現(xiàn)方案

Angular2入門系列（五）———— 路由參數(shù)設(shè)置

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

TensorFlow的多平臺(tái)基準(zhǔn)測(cè)試

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！