亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

TensorFlow的多平臺(tái)基準(zhǔn)測(cè)試

jk_v1 / 1547人閱讀

摘要:我們認(rèn)為,在基準(zhǔn)測(cè)試平臺(tái)中,包含真實(shí)數(shù)據(jù)的測(cè)量非常重要。其他結(jié)果訓(xùn)練合成數(shù)據(jù)訓(xùn)練真實(shí)數(shù)據(jù)詳情環(huán)境下表列出了用于測(cè)試的批量大小和優(yōu)化器。在給定平臺(tái)上,以缺省狀態(tài)運(yùn)行。

圖像分類模型的結(jié)果

InceptionV3[2]、ResNet-50[3]、ResNet-152[4]、VGG16[5] 和 AlexNet[6] 使用 ImageNet[7] 數(shù)據(jù)集進(jìn)行測(cè)試。測(cè)試環(huán)境為 Google Compute Engine、Elastic Compute Cloud (Amazon EC2) 和 NVIDIA? DGX-1?。大部分測(cè)試使用了合成數(shù)據(jù)和真實(shí)數(shù)據(jù)。使用合成數(shù)據(jù)進(jìn)行測(cè)試是通過一個(gè) tf.Variable 完成的,它被設(shè)置為與 ImageNet 的每個(gè)模型預(yù)期的數(shù)據(jù)相同的形狀。我們認(rèn)為,在基準(zhǔn)測(cè)試平臺(tái)中,包含真實(shí)數(shù)據(jù)的測(cè)量非常重要。這個(gè)負(fù)載測(cè)試底層硬件和框架,用來準(zhǔn)備實(shí)際訓(xùn)練的數(shù)據(jù)。我們從合成數(shù)據(jù)開始,將磁盤 I/O 作為一個(gè)變量移除,并設(shè)置一個(gè)基線。然后,用真實(shí)數(shù)據(jù)來驗(yàn)證 TensorFlow 輸入管道和底層磁盤 I/O 是否飽和的計(jì)算單元。

使用 NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 進(jìn)行訓(xùn)練

詳情和額外的結(jié)果請(qǐng)參閱“NVIDIA? DGX-1? (NVIDIA? Tesla? P100)”一節(jié)。

使用 NVIDIA? Tesla? K80 進(jìn)行訓(xùn)練

詳情和額外的結(jié)果請(qǐng)參閱“Google Compute Engine (NVIDIA? Tesla? K80)”一節(jié)和“Amazon EC2 (NVIDIA? Tesla? K80)”一節(jié)。

使用 NVIDIA? Tesla? K80 進(jìn)行分布式訓(xùn)練

詳情和額外的結(jié)果請(qǐng)參閱“Amazon EC2 Distributed (NVIDIA? Tesla? K80)”一節(jié)。

使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練的比較

NVIDIA? Tesla? P100

NVIDIA? Tesla? K80

NVIDIA? DGX-1? (NVIDIA? Tesla? P100) 詳情

環(huán)境

Instance type: NVIDIA? DGX-1?

GPU: 8x NVIDIA? Tesla? P100

OS: Ubuntu 16.04 LTS with tests run via Docker

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: Local SSD

DataSet: ImageNet

Test Date: May 2017

每個(gè)模型所使用的批量大小及優(yōu)化器,如下表所示。除下表所列的批量大小外,InceptionV3、ResNet-50、ResNet-152 和 VGG16 使用批量大小為 32 進(jìn)行測(cè)試。這些結(jié)果在“其他結(jié)果”一節(jié)中。

用于每個(gè)模型的配置如下表:

結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

在上述圖標(biāo)和表格中,排除了在 8 個(gè) GPU 上使用真實(shí)數(shù)據(jù)訓(xùn)練的 AlexNet,因?yàn)樗鼘⑤斎牍芫€較大化了。

其他結(jié)果

下面的結(jié)果,都是批量大小為 32。

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

Google Compute Engine (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: n1-standard-32-k80x8

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1.7 TB Shared SSD persistent disk (800 MB/s)

DataSet: ImageNet

Test Date: May 2017

如下表所示,列出了每種模型使用的批量大小及優(yōu)化器。除去表中所列的批量之外,Inception V3 和 ResNet-50 的批量大小為 32。這些結(jié)果在“其他結(jié)果”一節(jié)。

用于每個(gè)模型的配置的variable_update、 parameter_server、local_parameter_device 和 cpu,它們是相等的。

結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

其他結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

Amazon EC2 (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: p2.8xlarge

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1TB Amazon EFS (burst 100 MiB/sec for 12 hours, continuous 50 MiB/sec)

DataSet: ImageNet

Test Date: May 2017

下標(biāo)列出了每種模型所使用的批量大小和優(yōu)化器。除去表中所列的批量大小外,InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果都在“其他結(jié)果”一節(jié)中。

用于每個(gè)模型的配置。

結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

由于我們的 EFS 設(shè)置未能提供足夠的吞吐量,因此在上述圖標(biāo)和表格中,排除了在 8 個(gè) GPU 上使用真實(shí)數(shù)據(jù)來訓(xùn)練 AlexNet。

其他結(jié)果

訓(xùn)練合成數(shù)據(jù)

訓(xùn)練真實(shí)數(shù)據(jù)

Amazon EC2 Distributed (NVIDIA? Tesla? K80) 詳情

環(huán)境

Instance type: p2.8xlarge

GPU: 8x NVIDIA? Tesla? K80

OS: Ubuntu 16.04 LTS

CUDA / cuDNN: 8.0 / 5.1

TensorFlow GitHub hash: b1e174e

Benchmark GitHub hash: 9165a70

Build Command:bazel build -c opt --copt=-march="haswell" --config=cuda //tensorflow/tools/pip_package:build_pip_package

Disk: 1.0 TB EFS (burst 100 MB/sec for 12 hours, continuous 50 MB/sec)

DataSet: ImageNet

Test Date: May 2017

下表列出了用于測(cè)試的批量大小和優(yōu)化器。除去表中所列的批量大小之外,InceptionV3 和 ResNet-50 的批量大小為 32。這些結(jié)果包含在“其他結(jié)果”一節(jié)。

用于每個(gè)模型的配置。

為簡(jiǎn)化服務(wù)器設(shè)置,運(yùn)行工作服務(wù)器的 EC2 實(shí)例(p2.8xlarge)也運(yùn)行著參數(shù)服務(wù)器。使用相同數(shù)量的參數(shù)服務(wù)器和工作服務(wù)器,不同之處在于:

InceptionV3: 8 instances / 6 parameter servers

ResNet-50: (batch size 32) 8 instances / 4 parameter servers

ResNet-152: 8 instances / 4 parameter servers

結(jié)果

訓(xùn)練合成數(shù)據(jù)

其他結(jié)果

訓(xùn)練合成數(shù)據(jù)

方法

這個(gè)腳本 [8] 運(yùn)行在不同的平臺(tái)上,產(chǎn)生上述結(jié)果。高性能模型 [9] 詳細(xì)介紹了腳本中的技巧及如何執(zhí)行腳本的示例。

為了盡可能達(dá)到重復(fù)的結(jié)果,每個(gè)測(cè)試運(yùn)行五次,然后平均一下時(shí)間。GPU 在給定平臺(tái)上,以缺省狀態(tài)運(yùn)行。對(duì)于 NVIDIA?Tesla?K80,這意味著要離開 GPU Boost[10]。每次測(cè)試,都要完成 10 個(gè)預(yù)熱步驟,然后對(duì)接下來的 100 個(gè)步驟進(jìn)行平均。

參考鏈接:

[1] Benchmarks:

https://www.tensorflow.org/performance/benchmarks

[2] Rethinking the Inception Architecture for Computer Vision:

https://arxiv.org/abs/1512.00567

[3] Deep Residual Learning for Image Recognition:

https://arxiv.org/abs/1512.03385

[4] Deep Residual Learning for Image Recognition:

https://arxiv.org/abs/1512.03385

[5] Very Deep Convolutional Networks for Large-Scale Image Recognition:

https://arxiv.org/abs/1409.1556

[6] ImageNet Classification with Deep Convolutional Neural Networks:

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

[7] ImageNet:

http://www.image-net.org/

[8] tf_cnn_benchmarks: High performance benchmarks:

https://github.com/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks

[9] High-Performance Models:

https://www.tensorflow.org/performance/benchmarks

[10] Increase Performance with GPU Boost and K80 Autoboost:

https://devblogs.nvidia.com/parallelforall/increase-performance-gpu-boost-k80-autoboost/

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4707.html

相關(guān)文章

  • 基準(zhǔn)評(píng)測(cè)TensorFlow、Caffe等在三類流行深度神經(jīng)網(wǎng)絡(luò)上的表現(xiàn)

    摘要:在兩個(gè)平臺(tái)三個(gè)平臺(tái)下,比較這五個(gè)深度學(xué)習(xí)庫在三類流行深度神經(jīng)網(wǎng)絡(luò)上的性能表現(xiàn)。深度學(xué)習(xí)的成功,歸因于許多層人工神經(jīng)元對(duì)輸入數(shù)據(jù)的高表征能力。在年月,官方報(bào)道了一個(gè)基準(zhǔn)性能測(cè)試結(jié)果,針對(duì)一個(gè)層全連接神經(jīng)網(wǎng)絡(luò),與和對(duì)比,速度要快上倍。 在2016年推出深度學(xué)習(xí)工具評(píng)測(cè)的褚曉文團(tuán)隊(duì),趕在猴年最后一天,在arXiv.org上發(fā)布了的評(píng)測(cè)版本。這份評(píng)測(cè)的初版,通過國(guó)內(nèi)AI自媒體的傳播,在國(guó)內(nèi)業(yè)界影響很...

    canopus4u 評(píng)論0 收藏0
  • 深度學(xué)習(xí)三大硬件+四大學(xué)習(xí)庫基準(zhǔn)測(cè)試對(duì)比,指標(biāo)全面呈現(xiàn)

    摘要:基準(zhǔn)測(cè)試我們比較了和三款,使用的深度學(xué)習(xí)庫是和,深度學(xué)習(xí)網(wǎng)絡(luò)是和。深度學(xué)習(xí)庫基準(zhǔn)測(cè)試同樣,所有基準(zhǔn)測(cè)試都使用位系統(tǒng),每個(gè)結(jié)果是次迭代計(jì)算的平均時(shí)間。 購買用于運(yùn)行深度學(xué)習(xí)算法的硬件時(shí),我們常常找不到任何有用的基準(zhǔn),的選擇是買一個(gè)GPU然后用它來測(cè)試?,F(xiàn)在市面上性能較好的GPU幾乎都來自英偉達(dá),但其中也有很多選擇:是買一個(gè)新出的TITAN X Pascal還是便宜些的TITAN X Maxwe...

    YacaToy 評(píng)論0 收藏0
  • MATLAB更新R2017b:轉(zhuǎn)換CUDA代碼極大提升推斷速度

    摘要:陳建平說訓(xùn)練是十分重要的,尤其是對(duì)關(guān)注算法本身的研究者。代碼生成其實(shí)在中也十分簡(jiǎn)單,陳建平不僅利用車道線識(shí)別模型向我們演示了如何使用生成高效的代碼,同時(shí)還展示了在脫離環(huán)境下運(yùn)行代碼進(jìn)行推斷的效果。 近日,Mathworks 推出了包含 MATLAB 和 Simulink 產(chǎn)品系列的 Release 2017b(R2017b),該版本大大加強(qiáng)了 MATLAB 對(duì)深度學(xué)習(xí)的支持,并簡(jiǎn)化了工程師、...

    Corwien 評(píng)論0 收藏0
  • GPU訓(xùn)練機(jī)器學(xué)習(xí)模型哪家強(qiáng)?AWS、谷歌云、IBM等6大平臺(tái)對(duì)比

    摘要:在低端領(lǐng)域,在上訓(xùn)練模型的價(jià)格比便宜兩倍。硬件定價(jià)價(jià)格變化頻繁,但目前提供的實(shí)例起價(jià)為美元小時(shí),以秒為增量計(jì)費(fèi),而更強(qiáng)大且性能更高的實(shí)例起價(jià)為美元小時(shí)。 隨著越來越多的現(xiàn)代機(jī)器學(xué)習(xí)任務(wù)都需要使用GPU,了解不同GPU供應(yīng)商的成本和性能trade-off變得至關(guān)重要。初創(chuàng)公司Rare Technologies最近發(fā)布了一個(gè)超大規(guī)模機(jī)器學(xué)習(xí)基準(zhǔn),聚焦GPU,比較了幾家受歡迎的硬件提供商,在機(jī)器學(xué)...

    史占廣 評(píng)論0 收藏0
  • Keras vs PyTorch:誰是「第一」深度學(xué)習(xí)框架?

    摘要:第一個(gè)深度學(xué)習(xí)框架該怎么選對(duì)于初學(xué)者而言一直是個(gè)頭疼的問題。簡(jiǎn)介和是頗受數(shù)據(jù)科學(xué)家歡迎的深度學(xué)習(xí)開源框架。就訓(xùn)練速度而言,勝過對(duì)比總結(jié)和都是深度學(xué)習(xí)框架初學(xué)者非常棒的選擇。 「第一個(gè)深度學(xué)習(xí)框架該怎么選」對(duì)于初學(xué)者而言一直是個(gè)頭疼的問題。本文中,來自 deepsense.ai 的研究員給出了他們?cè)诟呒?jí)框架上的答案。在 Keras 與 PyTorch 的對(duì)比中,作者還給出了相同神經(jīng)網(wǎng)絡(luò)在不同框...

    _DangJin 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<