摘要:我們認(rèn)為,在基準(zhǔn)測(cè)試平臺(tái)中,包含真實(shí)數(shù)據(jù)的測(cè)量非常重要。其他結(jié)果訓(xùn)練合成數(shù)據(jù)訓(xùn)練真實(shí)數(shù)據(jù)詳情環(huán)境下表列出了用于測(cè)試的批量大小和優(yōu)化器。在給定平臺(tái)上,以缺省狀態(tài)運(yùn)行。
圖像分類模型的結(jié)果
InceptionV3[2]、ResNet-50[3]、ResNet-152[4]、VGG16[5] 和 AlexNet[6] 使用 ImageNet[7] 數(shù)據(jù)集進(jìn)行測(cè)試。測(cè)試環(huán)境為 Google Compute Engine、Elastic Compute Cloud (Amazon EC2) 和 NVIDIA? DGX-1?。大部分測(cè)試使用了合成數(shù)據(jù)和真實(shí)數(shù)據(jù)。使用合成數(shù)據(jù)進(jìn)行測(cè)試是通過一個(gè) tf.Variable 完成的,它被設(shè)置為與 ImageNet 的每個(gè)模型預(yù)期的數(shù)據(jù)相同的形狀。我們認(rèn)為,在基準(zhǔn)測(cè)試平臺(tái)中,包含真實(shí)數(shù)據(jù)的測(cè)量非常重要。這個(gè)負(fù)載測(cè)試底層硬件和框架,用來準(zhǔn)備實(shí)際訓(xùn)練的數(shù)據(jù)。我們從合成數(shù)據(jù)開始,將磁盤 I/O 作為一個(gè)變量移除,并設(shè)置一個(gè)基線。然后,用真實(shí)數(shù)據(jù)來驗(yàn)證 TensorFlow 輸入管道和底層磁盤 I/O 是否飽和的計(jì)算單元。
使用 NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 進(jìn)行訓(xùn)練
詳情和額外的結(jié)果請(qǐng)參閱“NVIDIA? DGX-1? (NVIDIA? Tesla? P100)”一節(jié)。
使用 NVIDIA? Tesla? K80 進(jìn)行訓(xùn)練
詳情和額外的結(jié)果請(qǐng)參閱“Google Compute Engine (NVIDIA? Tesla? K80)”一節(jié)和“Amazon EC2 (NVIDIA? Tesla? K80)”一節(jié)。
使用 NVIDIA? Tesla? K80 進(jìn)行分布式訓(xùn)練
詳情和額外的結(jié)果請(qǐng)參閱“Amazon EC2 Distributed (NVIDIA? Tesla? K80)”一節(jié)。
使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練的比較
NVIDIA? Tesla? P100
NVIDIA? Tesla? K80
NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 詳情
環(huán)境
Instance type: NVIDIA? DGX-1?
GPU: 8x NVIDIA? Tesla? P100
OS: Ubuntu 16.04 LTS with tests run via Docker
CUDA / cuDNN: 8.0 / 5.1
TensorFlow GitHub hash: b1e174e
Benchmark GitHub hash: 9165a70
Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package
Disk: Local SSD
DataSet: ImageNet
Test Date: May 2017
每個(gè)模型所使用的批量大小及優(yōu)化器,如下表所示。除下表所列的批量大小外,InceptionV3、ResNet-50、ResNet-152 和 VGG16 使用批量大小為 32 進(jìn)行測(cè)試。這些結(jié)果在“其他結(jié)果”一節(jié)中。
用于每個(gè)模型的配置如下表:
結(jié)果
訓(xùn)練合成數(shù)據(jù)
訓(xùn)練真實(shí)數(shù)據(jù)
在上述圖標(biāo)和表格中,排除了在 8 個(gè) GPU 上使用真實(shí)數(shù)據(jù)訓(xùn)練的 AlexNet,因?yàn)樗鼘⑤斎牍芫€較大化了。
其他結(jié)果
下面的結(jié)果,都是批量大小為 32。
訓(xùn)練合成數(shù)據(jù)
訓(xùn)練真實(shí)數(shù)據(jù)
Google Compute Engine (NVIDIA? Tesla? K80) 詳情
環(huán)境
Instance type: n1-standard-32-k80x8
GPU: 8x NVIDIA? Tesla? K80
OS: Ubuntu 16.04 LTS
CUDA / cuDNN: 8.0 / 5.1
TensorFlow GitHub hash: b1e174e
Benchmark GitHub hash: 9165a70
Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package
Disk: 1.7 TB Shared SSD persistent disk (800 MB/s)
DataSet: ImageNet
Test Date: May 2017
如下表所示,列出了每種模型使用的批量大小及優(yōu)化器。除去表中所列的批量之外,Inception V3 和 ResNet-50 的批量大小為 32。這些結(jié)果在“其他結(jié)果”一節(jié)。
用于每個(gè)模型的配置的variable_update、 parameter_server、local_parameter_device 和 cpu,它們是相等的。
結(jié)果
訓(xùn)練合成數(shù)據(jù)
訓(xùn)練真實(shí)數(shù)據(jù)
其他結(jié)果
訓(xùn)練合成數(shù)據(jù)
訓(xùn)練真實(shí)數(shù)據(jù)
Amazon EC2 (NVIDIA? Tesla? K80) 詳情
環(huán)境
Instance type: p2.8xlarge
GPU: 8x NVIDIA? Tesla? K80
OS: Ubuntu 16.04 LTS
CUDA / cuDNN: 8.0 / 5.1
TensorFlow GitHub hash: b1e174e
Benchmark GitHub hash: 9165a70
Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package
Disk: 1TB Amazon EFS (burst 100 MiB/sec for 12 hours, continuous 50 MiB/sec)
DataSet: ImageNet
Test Date: May 2017
下標(biāo)列出了每種模型所使用的批量大小和優(yōu)化器。除去表中所列的批量大小外,InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果都在“其他結(jié)果”一節(jié)中。
用于每個(gè)模型的配置。
結(jié)果
訓(xùn)練合成數(shù)據(jù)
訓(xùn)練真實(shí)數(shù)據(jù)
由于我們的 EFS 設(shè)置未能提供足夠的吞吐量,因此在上述圖標(biāo)和表格中,排除了在 8 個(gè) GPU 上使用真實(shí)數(shù)據(jù)來訓(xùn)練 AlexNet。
其他結(jié)果
訓(xùn)練合成數(shù)據(jù)
訓(xùn)練真實(shí)數(shù)據(jù)
Amazon EC2 Distributed (NVIDIA? Tesla? K80) 詳情
環(huán)境
Instance type: p2.8xlarge
GPU: 8x NVIDIA? Tesla? K80
OS: Ubuntu 16.04 LTS
CUDA / cuDNN: 8.0 / 5.1
TensorFlow GitHub hash: b1e174e
Benchmark GitHub hash: 9165a70
Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package
Disk: 1.0 TB EFS (burst 100 MB/sec for 12 hours, continuous 50 MB/sec)
DataSet: ImageNet
Test Date: May 2017
下表列出了用于測(cè)試的批量大小和優(yōu)化器。除去表中所列的批量大小之外,InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果包含在“其他結(jié)果”一節(jié)。
用于每個(gè)模型的配置。
為簡(jiǎn)化服務(wù)器設(shè)置,運(yùn)行工作服務(wù)器的 EC2 實(shí)例(p2.8xlarge)也運(yùn)行著參數(shù)服務(wù)器。使用相同數(shù)量的參數(shù)服務(wù)器和工作服務(wù)器,不同之處在于:
InceptionV3: 8 instances / 6 parameter servers
ResNet-50: (batch size 32) 8 instances / 4 parameter servers
ResNet-152: 8 instances / 4 parameter servers
結(jié)果
訓(xùn)練合成數(shù)據(jù)
其他結(jié)果
訓(xùn)練合成數(shù)據(jù)
方法
這個(gè)腳本 [8] 運(yùn)行在不同的平臺(tái)上,產(chǎn)生上述結(jié)果。高性能模型 [9] 詳細(xì)介紹了腳本中的技巧及如何執(zhí)行腳本的示例。
為了盡可能達(dá)到重復(fù)的結(jié)果,每個(gè)測(cè)試運(yùn)行五次,然后平均一下時(shí)間。GPU 在給定平臺(tái)上,以缺省狀態(tài)運(yùn)行。對(duì)于 NVIDIA?Tesla?K80,這意味著要離開 GPU Boost[10]。每次測(cè)試,都要完成 10 個(gè)預(yù)熱步驟,然后對(duì)接下來的 100 個(gè)步驟進(jìn)行平均。
參考鏈接:
[1] Benchmarks:
https://www.tensorflow.org/performance/benchmarks
[2] Rethinking the Inception Architecture for Computer Vision:
https://arxiv.org/abs/1512.00567
[3] Deep Residual Learning for Image Recognition:
https://arxiv.org/abs/1512.03385
[4] Deep Residual Learning for Image Recognition:
https://arxiv.org/abs/1512.03385
[5] Very Deep Convolutional Networks for Large-Scale Image Recognition:
https://arxiv.org/abs/1409.1556
[6] ImageNet Classification with Deep Convolutional Neural Networks:
http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
[7] ImageNet:
http://www.image-net.org/
[8] tf_cnn_benchmarks: High performance benchmarks:
https://github.com/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks
[9] High-Performance Models:
https://www.tensorflow.org/performance/benchmarks
[10] Increase Performance with GPU Boost and K80 Autoboost:
https://devblogs.nvidia.com/parallelforall/increase-performance-gpu-boost-k80-autoboost/
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4707.html
摘要:在兩個(gè)平臺(tái)三個(gè)平臺(tái)下,比較這五個(gè)深度學(xué)習(xí)庫在三類流行深度神經(jīng)網(wǎng)絡(luò)上的性能表現(xiàn)。深度學(xué)習(xí)的成功,歸因于許多層人工神經(jīng)元對(duì)輸入數(shù)據(jù)的高表征能力。在年月,官方報(bào)道了一個(gè)基準(zhǔn)性能測(cè)試結(jié)果,針對(duì)一個(gè)層全連接神經(jīng)網(wǎng)絡(luò),與和對(duì)比,速度要快上倍。 在2016年推出深度學(xué)習(xí)工具評(píng)測(cè)的褚曉文團(tuán)隊(duì),趕在猴年最后一天,在arXiv.org上發(fā)布了的評(píng)測(cè)版本。這份評(píng)測(cè)的初版,通過國(guó)內(nèi)AI自媒體的傳播,在國(guó)內(nèi)業(yè)界影響很...
摘要:基準(zhǔn)測(cè)試我們比較了和三款,使用的深度學(xué)習(xí)庫是和,深度學(xué)習(xí)網(wǎng)絡(luò)是和。深度學(xué)習(xí)庫基準(zhǔn)測(cè)試同樣,所有基準(zhǔn)測(cè)試都使用位系統(tǒng),每個(gè)結(jié)果是次迭代計(jì)算的平均時(shí)間。 購買用于運(yùn)行深度學(xué)習(xí)算法的硬件時(shí),我們常常找不到任何有用的基準(zhǔn),的選擇是買一個(gè)GPU然后用它來測(cè)試?,F(xiàn)在市面上性能較好的GPU幾乎都來自英偉達(dá),但其中也有很多選擇:是買一個(gè)新出的TITAN X Pascal還是便宜些的TITAN X Maxwe...
摘要:陳建平說訓(xùn)練是十分重要的,尤其是對(duì)關(guān)注算法本身的研究者。代碼生成其實(shí)在中也十分簡(jiǎn)單,陳建平不僅利用車道線識(shí)別模型向我們演示了如何使用生成高效的代碼,同時(shí)還展示了在脫離環(huán)境下運(yùn)行代碼進(jìn)行推斷的效果。 近日,Mathworks 推出了包含 MATLAB 和 Simulink 產(chǎn)品系列的 Release 2017b(R2017b),該版本大大加強(qiáng)了 MATLAB 對(duì)深度學(xué)習(xí)的支持,并簡(jiǎn)化了工程師、...
摘要:在低端領(lǐng)域,在上訓(xùn)練模型的價(jià)格比便宜兩倍。硬件定價(jià)價(jià)格變化頻繁,但目前提供的實(shí)例起價(jià)為美元小時(shí),以秒為增量計(jì)費(fèi),而更強(qiáng)大且性能更高的實(shí)例起價(jià)為美元小時(shí)。 隨著越來越多的現(xiàn)代機(jī)器學(xué)習(xí)任務(wù)都需要使用GPU,了解不同GPU供應(yīng)商的成本和性能trade-off變得至關(guān)重要。初創(chuàng)公司Rare Technologies最近發(fā)布了一個(gè)超大規(guī)模機(jī)器學(xué)習(xí)基準(zhǔn),聚焦GPU,比較了幾家受歡迎的硬件提供商,在機(jī)器學(xué)...
摘要:第一個(gè)深度學(xué)習(xí)框架該怎么選對(duì)于初學(xué)者而言一直是個(gè)頭疼的問題。簡(jiǎn)介和是頗受數(shù)據(jù)科學(xué)家歡迎的深度學(xué)習(xí)開源框架。就訓(xùn)練速度而言,勝過對(duì)比總結(jié)和都是深度學(xué)習(xí)框架初學(xué)者非常棒的選擇。 「第一個(gè)深度學(xué)習(xí)框架該怎么選」對(duì)于初學(xué)者而言一直是個(gè)頭疼的問題。本文中,來自 deepsense.ai 的研究員給出了他們?cè)诟呒?jí)框架上的答案。在 Keras 與 PyTorch 的對(duì)比中,作者還給出了相同神經(jīng)網(wǎng)絡(luò)在不同框...
閱讀 1970·2021-11-09 09:46
閱讀 2552·2019-08-30 15:52
閱讀 2521·2019-08-30 15:47
閱讀 1391·2019-08-29 17:11
閱讀 1793·2019-08-29 15:24
閱讀 3561·2019-08-29 14:02
閱讀 2511·2019-08-29 13:27
閱讀 1266·2019-08-29 12:32