摘要:最近,等人對(duì)于英偉達(dá)的四種在四種不同深度學(xué)習(xí)框架下的性能進(jìn)行了評(píng)測(cè)。本次評(píng)測(cè)共使用了種用于圖像識(shí)別的深度學(xué)習(xí)模型。深度學(xué)習(xí)框架和不同網(wǎng)絡(luò)之間的對(duì)比我們使用七種不同框架對(duì)四種不同進(jìn)行,包括推理正向和訓(xùn)練正向和反向。一直是深度學(xué)習(xí)方面最暢銷(xiāo)的。
最近,Pedro Gusm?o 等人對(duì)于英偉達(dá)的四種 GPU 在四種不同深度學(xué)習(xí)框架下的性能進(jìn)行了評(píng)測(cè)。本次評(píng)測(cè)共使用了 7 種用于圖像識(shí)別的深度學(xué)習(xí)模型。
第一個(gè)評(píng)測(cè)對(duì)比不同 GPU 在不同神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)框架下的表現(xiàn)。這是一個(gè)標(biāo)準(zhǔn)測(cè)試,可以在給定 GPU 和架構(gòu)的情況下幫助我們選擇合適的框架。
第二個(gè)測(cè)試則對(duì)比每個(gè) GPU 在不同深度學(xué)習(xí)框架訓(xùn)練時(shí)的 mini-batch 效率。根據(jù)以往經(jīng)驗(yàn),更大的 mini-batch 意味著更高的模型訓(xùn)練效率,盡管有時(shí)會(huì)出現(xiàn)例外。在本文的最后我們會(huì)對(duì)整個(gè)評(píng)測(cè)進(jìn)行簡(jiǎn)要總結(jié),對(duì)涉及到的 GPU 和深度學(xué)習(xí)架構(gòu)的表現(xiàn)進(jìn)行評(píng)價(jià)。
GPU、深度學(xué)習(xí)框架和不同網(wǎng)絡(luò)之間的對(duì)比
我們使用七種不同框架對(duì)四種不同 GPU 進(jìn)行,包括推理(正向)和訓(xùn)練(正向和反向)。這對(duì)于構(gòu)建深度學(xué)習(xí)機(jī)器和選擇合適的框架非常有意義。我們發(fā)現(xiàn)目前在網(wǎng)絡(luò)中缺乏對(duì)于此類(lèi)研究的對(duì)比。
這是首次針對(duì)不同 GPU(Tesla K40,Titan-X Maxwell,GTX 1080 和 Titan-X Pascal)與不同網(wǎng)絡(luò)(AlexNet,Overfeat,Oxford VGG,GoogLeNet,ResNet-50,ResNet-101 和 ResNet-52)在不同深度學(xué)習(xí)框架下(Torch,Caffe,TensorFlow 和 Neon)的評(píng)測(cè)。在評(píng)測(cè)中,除了 Neon,所有框架都使用了英偉達(dá) cuDNN 5.1。我們?cè)诿總€(gè) minibatch 里使用了 64 個(gè)取樣,每次進(jìn)行超過(guò) 100 次推理和訓(xùn)練。圖表中缺失的數(shù)據(jù)意味著該次測(cè)試遭遇內(nèi)存不足。
用于 TensorFlow 的 Minibatch 效率
訓(xùn)練深度學(xué)習(xí)框架時(shí)知道每個(gè) minibatch 中的樣本數(shù)量將會(huì)加快訓(xùn)練。在第二個(gè)測(cè)評(píng)中,我們分析了 minibatch 尺寸與訓(xùn)練效率的對(duì)比。由于 TensorFlow 1.0.0 極少出現(xiàn)內(nèi)存不足的情況,我們只使用它進(jìn)行這項(xiàng)評(píng)測(cè)。這次實(shí)驗(yàn)中我們重新評(píng)估了 100 次運(yùn)行中的平均正向通過(guò)時(shí)間和和正向+反向通過(guò)時(shí)間。
測(cè)評(píng)分析
關(guān)于第一個(gè)測(cè)評(píng),我們注意到,Neon 幾乎總是能為 Titans 和 GTX 1080 導(dǎo)出較好的結(jié)果,而對(duì) K40 的優(yōu)化最差。這是因?yàn)?Neon 針對(duì) Maxwell 和 Pascal 架構(gòu)做了優(yōu)化。Tesla K40,作為一個(gè) Kepler GPU,缺少這樣低層級(jí)的優(yōu)化。Torch 在所有架構(gòu)中都可以輸出好結(jié)果,除了被用在現(xiàn)代 GPU 和更深的模型時(shí)。這又一次成了 Neon 發(fā)揮作用的時(shí)候。最后,我們指出 TensorFlow 是一個(gè)可以訓(xùn)練所有網(wǎng)絡(luò)的框架,并且不會(huì)出現(xiàn)內(nèi)存不足的情況,這是我們繼續(xù)使用它作為第二個(gè)測(cè)評(píng)的框架的原因。
關(guān)于第二個(gè)測(cè)評(píng),一般來(lái)說(shuō)更大的 minibatch 可以減少每個(gè)樣本的運(yùn)行時(shí)間繼而減少每個(gè) epoch 的訓(xùn)練時(shí)間。正如我們?cè)谏蠄D看到的,當(dāng)使用 VGG 網(wǎng)絡(luò)時(shí),GTX 1080 需要 420.28 毫秒為一個(gè) 64 樣本的 minibatch 運(yùn)行正反向通過(guò);相同的配置訓(xùn)練 128 個(gè)樣本需要 899.86 毫秒,是前者的兩倍還要再多出 60 毫秒。此外,我們注意到對(duì)于所有大小為 8 的 minibatch 中的網(wǎng)絡(luò),Tesla K40 有一個(gè)下凹曲率; Titan X Pascal 在使用相同 batch 大小的更淺架構(gòu)上(例如 AlexNet 和 Overfeat)表現(xiàn)出上凹曲率。下凹曲率表明有效率在下降而上凹曲率則相反。更有趣的是 minibatch 大小的特殊取值也意味著更明顯的效率。分析兩個(gè) GPU 將有助于解釋這為什么會(huì)發(fā)生。
附錄
以下是對(duì)測(cè)評(píng)中使用的 GPU 還有架構(gòu)和框架版本的扼要介紹。
GPU
1.Tesla K40:
K40 具有 2880 個(gè) cuda 內(nèi)核,745MHz 的基本頻率和可達(dá) 288GB/s 的內(nèi)存寬帶的 12G GDDR5 RAM。這是一個(gè)基于 Kepler 架構(gòu)的服務(wù)器 GPU,具備 3.5Tflops 的計(jì)算能力。K40 已經(jīng)停產(chǎn),但仍被廣泛用于很多數(shù)據(jù)中心,了解其性能對(duì)于我們將來(lái)是否要購(gòu)買(mǎi)新硬件很有幫助。
2.Titan X Maxwell:
Titan X 是具有 5.1Tflops 計(jì)算能力、用于 Maxwell 架構(gòu)的旗艦消費(fèi)級(jí) GPU。它具有 3072 cuda 內(nèi)核,1000MHz 的基本頻率,傳送速率為 336.5GB/s 的 12G GDDR5??紤]到其硬件規(guī)格和大多數(shù)深度學(xué)習(xí)應(yīng)用僅依靠于單精度浮點(diǎn)運(yùn)算,Titan X Maxwell 目前能用 750 美元左右買(mǎi)到,被認(rèn)為是基于起始價(jià)格為 1000 美元的 GPU 的服務(wù)器的較佳替換方案。
3.GTX 1080:
GTX 1080 是英偉達(dá)目前生產(chǎn)的高端游戲 GPU,售價(jià) 599 美元。它具備 2560 個(gè) cuda 內(nèi)核,1607MHz 的基本頻率,提供 320GB/s 寬帶的 8GB GDDR5X。先進(jìn)的 Pascal 架構(gòu)為其帶來(lái)了 6.1Tflops 的計(jì)算能力。
4.Titan X Pascal:
Titan X Pascal 一直是深度學(xué)習(xí)方面最暢銷(xiāo)的 GPU。它具備 3584 cuda 內(nèi)核,1417MHz 的基本頻率,提供 480GB/s 內(nèi)存寬帶的 12GB GDDR5X。它比 GTX 1080 有更強(qiáng)大的計(jì)算能力(約 11Tflops),目前標(biāo)價(jià) 1200 美元。盡管消費(fèi)者趨之若鶩,英偉達(dá)目前在官方網(wǎng)站上直銷(xiāo) Titan X Pascal,每個(gè)消費(fèi)者限購(gòu) 2 塊。
此外,在 3 月 10 日售價(jià) 699 美元,計(jì)算能力 11.34Tflops 的 GeForce GTX 1080Ti 推出以后,消費(fèi)者擁有了 Titan X 以外的另一個(gè)選擇。
神經(jīng)網(wǎng)絡(luò)
1.AlexNet:
2012 年,Alex Krizhevsky 使用五層卷積、三層完全連接層的 CNN 網(wǎng)絡(luò)贏得了 ImageNet 競(jìng)賽(ILSVRC)。AlexNet 證明了 CNN 在分類(lèi)問(wèn)題上的有效性(15.3% 錯(cuò)誤率),而此前的圖片識(shí)別錯(cuò)誤率高達(dá) 25%。這一網(wǎng)絡(luò)的出現(xiàn)對(duì)于計(jì)算機(jī)視覺(jué)在深度學(xué)習(xí)上的應(yīng)用具有里程碑意義。
2.Overfeat:
2013 年,Overfeat 通過(guò)降低第一層的步幅改進(jìn)了 AlexNet 的架構(gòu),讓圖片識(shí)別錯(cuò)誤率降低至 14.2%。這一方法證明了卷積神經(jīng)網(wǎng)絡(luò)使用同步分類(lèi)、本地化和圖片中對(duì)象檢測(cè)的方式可以增加圖片識(shí)別任務(wù)的準(zhǔn)確度。
3.VGG Network:
2014 年,牛津大學(xué)的研究人員通過(guò)訓(xùn)練 11 到 19 層的卷積神經(jīng)網(wǎng)絡(luò)證明了深度對(duì)于圖像識(shí)別任務(wù)的重要性。他們的工作表明,使用 3×3 空間內(nèi)核的兩個(gè)連續(xù)卷積層比使用單個(gè) 5×5 卷積層具有更高的準(zhǔn)確性,同時(shí)這一優(yōu)勢(shì)也能為非線性層帶來(lái)幫助。此外,作者證明 19 層 CNN 輸出的結(jié)果與 16 層網(wǎng)絡(luò)具有相似的精度,這暴露了當(dāng)時(shí)技術(shù)訓(xùn)練深度 CNN 的困難。最后,VGG Net 進(jìn)一步將 ILSVRC-2014 分類(lèi)任務(wù)中的錯(cuò)誤率減少到了 7.3%。
4.GoogLeNet:
該方式由谷歌研究人員于 2014 年推出,它是由 22 層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的模型,它被稱(chēng)為 Inception,是由并行和串行的網(wǎng)絡(luò)進(jìn)行的級(jí)聯(lián)。網(wǎng)絡(luò)分類(lèi)器的誤差為 6.67%。
5.殘差網(wǎng)絡(luò):
在 2015 年,微軟研究院的學(xué)者提出了一種新的 CNN 架構(gòu)——?dú)埐罹W(wǎng)絡(luò)(ResNet)。在殘差網(wǎng)絡(luò)中,殘差塊的任務(wù)是學(xué)習(xí)連續(xù)輸出的表示差異。這一方法通過(guò) 110 層模型在 ImageNet 競(jìng)賽時(shí)達(dá)到了 3.57% 的誤差率。
本次評(píng)測(cè)中使用的深度學(xué)習(xí)架構(gòu)版本:
Caffe: commit 746a77e6d55cf16d9b2d4ccd71e49774604e86f6
Torch7: commit d03a42834bb1b674495b0c42de1716b66cc388f1
Nervana Neon: 1.8.1
TensorFlow: 1.0.0?
原文地址:http://add-for.com/blog/nvidia-dgx-1-supercomputer-join-our-community-based-deep-learning-benchmark/
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4472.html
摘要:在兩個(gè)平臺(tái)三個(gè)平臺(tái)下,比較這五個(gè)深度學(xué)習(xí)庫(kù)在三類(lèi)流行深度神經(jīng)網(wǎng)絡(luò)上的性能表現(xiàn)。深度學(xué)習(xí)的成功,歸因于許多層人工神經(jīng)元對(duì)輸入數(shù)據(jù)的高表征能力。在年月,官方報(bào)道了一個(gè)基準(zhǔn)性能測(cè)試結(jié)果,針對(duì)一個(gè)層全連接神經(jīng)網(wǎng)絡(luò),與和對(duì)比,速度要快上倍。 在2016年推出深度學(xué)習(xí)工具評(píng)測(cè)的褚曉文團(tuán)隊(duì),趕在猴年最后一天,在arXiv.org上發(fā)布了的評(píng)測(cè)版本。這份評(píng)測(cè)的初版,通過(guò)國(guó)內(nèi)AI自媒體的傳播,在國(guó)內(nèi)業(yè)界影響很...
摘要:但年月,宣布將在年終止的開(kāi)發(fā)和維護(hù)。性能并非最優(yōu),為何如此受歡迎粉絲團(tuán)在過(guò)去的幾年里,出現(xiàn)了不同的開(kāi)源深度學(xué)習(xí)框架,就屬于其中典型,由谷歌開(kāi)發(fā)和支持,自然引發(fā)了很大的關(guān)注。 Keras作者Fran?ois Chollet剛剛在Twitter貼出一張圖片,是近三個(gè)月來(lái)arXiv上提到的深度學(xué)習(xí)開(kāi)源框架排行:TensorFlow排名第一,這個(gè)或許并不出意外,Keras排名第二,隨后是Caffe、...
閱讀 1991·2021-11-09 09:46
閱讀 2568·2019-08-30 15:52
閱讀 2590·2019-08-30 15:47
閱讀 1453·2019-08-29 17:11
閱讀 1808·2019-08-29 15:24
閱讀 3585·2019-08-29 14:02
閱讀 2537·2019-08-29 13:27
閱讀 1283·2019-08-29 12:32