摘要:然而,盡管訓(xùn)練技術(shù)有了進(jìn)步,深度學(xué)習(xí)的規(guī)模還是存在問(wèn)題。這種更具擴(kuò)展性的深度網(wǎng)絡(luò)使百度得以實(shí)施一種端對(duì)端的語(yǔ)音識(shí)別系統(tǒng),它被稱之為。研究人員試圖用分布式處理來(lái)構(gòu)建更廣泛的深度學(xué)習(xí)網(wǎng)絡(luò),以便能處理更大的數(shù)據(jù)集。
隨著理論和硬件的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)已經(jīng)成為了在線服務(wù)(比如微軟的必應(yīng))的核心部件,推動(dòng)著它們圖像搜索和語(yǔ)音識(shí)別系統(tǒng)的發(fā)展。這些公司仰賴于這項(xiàng)技術(shù)來(lái)驅(qū)動(dòng)未來(lái)更先進(jìn)的服務(wù),所以他們擴(kuò)大了神經(jīng)網(wǎng)絡(luò)的規(guī)模,用來(lái)處理更加復(fù)雜的問(wèn)題。
算起來(lái),神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展了很多年,從50年前的最初構(gòu)想,到現(xiàn)在已經(jīng)成為信息技術(shù)應(yīng)用不可或缺的部分。20世紀(jì)90年代,神經(jīng)網(wǎng)絡(luò)曾引起了一陣熱潮。但那之后,為了克服它們?cè)趥鹘y(tǒng)計(jì)算機(jī)上的慘淡性能,高度專業(yè)化的集成電路逐步發(fā)展起來(lái)了,神經(jīng)網(wǎng)絡(luò)慢慢被其他算法所超越,比如圖像處理中的支持向量機(jī)和語(yǔ)音識(shí)別中的高斯模型。
在過(guò)去,人們使用的神經(jīng)網(wǎng)絡(luò)都很簡(jiǎn)單,最多只有三層,包括一個(gè)輸入層、一個(gè)中間的「隱藏」層,還有一個(gè)輸出層??鐚拥纳窠?jīng)元之間聯(lián)系得非常緊密。每個(gè)神經(jīng)元都將它的輸出灌輸給下一層神經(jīng)元。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法是反復(fù)地調(diào)整每個(gè)神經(jīng)元應(yīng)用在輸入數(shù)據(jù)上的權(quán)重,以便將整個(gè)網(wǎng)絡(luò)的輸出結(jié)果與理想值之間的誤差減少到最小。
盡管神經(jīng)科學(xué)告訴我們,人腦擁有更加復(fù)雜深邃的結(jié)構(gòu),包含著許多隱藏層,但早期的此類深層網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果卻比淺層網(wǎng)絡(luò)還糟糕。2006年,深層網(wǎng)絡(luò)終于取得了重要的進(jìn)展,這要?dú)w功于多倫多大學(xué)的Geoffrey Hinton和Ruslan Salakhutdinov。他們改進(jìn)了訓(xùn)練技術(shù),對(duì)包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)尤其有效。其中一個(gè)技術(shù)是「預(yù)訓(xùn)練」(pre-training),即在優(yōu)化整個(gè)網(wǎng)絡(luò)的輸出之前,先分別獨(dú)立地調(diào)整每層的輸出。這種方法使得較上層可以抽象出高層特征,較下層的隱藏層就可以更有效地運(yùn)用這些特征來(lái)對(duì)數(shù)據(jù)進(jìn)行分類。
然而,盡管訓(xùn)練技術(shù)有了進(jìn)步,深度學(xué)習(xí)的規(guī)模還是存在問(wèn)題。神經(jīng)元之間需要完全地相互連接,尤其是在較上層,這需要強(qiáng)大的計(jì)算能力。一個(gè)圖像處理應(yīng)用的首層就可能需要分析上百萬(wàn)個(gè)像素。而對(duì)深度網(wǎng)絡(luò)來(lái)說(shuō),多層神經(jīng)元之間的相連會(huì)產(chǎn)生數(shù)量級(jí)的增長(zhǎng)。瑞士Dalle Molle人工智能研究所(IDSIA)的Dan Cire?an說(shuō):「每張圖片都需要處理幾十億,甚至幾千億個(gè)連接?!顾€補(bǔ)充道,訓(xùn)練如此巨大規(guī)模的神經(jīng)網(wǎng)絡(luò),需要一千萬(wàn)億個(gè)浮點(diǎn)運(yùn)算。
一些研究人員,諸如Cire?an,發(fā)現(xiàn)可以使用另類的計(jì)算機(jī)結(jié)構(gòu)來(lái)大量地提升處理速度。AMD及年Vidia出產(chǎn)的圖形處理器(GPU,也就是顯卡的處理器)為研究人員提供了足以并行處理上百個(gè)浮點(diǎn)運(yùn)算的計(jì)算能力。此前,神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的提速研究主要都圍繞相對(duì)于比較好編程,但是相對(duì)較慢的計(jì)算機(jī)集群而展開(kāi)。在一項(xiàng)深度學(xué)習(xí)網(wǎng)絡(luò)被訓(xùn)練尋找生物細(xì)胞分裂的視覺(jué)特征的實(shí)驗(yàn)中,Cire?an表示整個(gè)訓(xùn)練過(guò)程在傳統(tǒng)的CPU上將花費(fèi)5個(gè)月的時(shí)間;「然而在GPU上只需要3天?!?/p>
Facebook人工智能研究主管、紐約大學(xué)數(shù)據(jù)科學(xué)中心創(chuàng)始人Yann LeCun說(shuō):「過(guò)去,神經(jīng)網(wǎng)絡(luò)并沒(méi)能在持續(xù)語(yǔ)音識(shí)別方面得到什么突破;這是因?yàn)樗麄儯ㄟ^(guò)去使用的神經(jīng)網(wǎng)絡(luò))不夠大。當(dāng)人們開(kāi)始嘗試使用深度神經(jīng)網(wǎng)絡(luò)代替高斯模型的時(shí)候,錯(cuò)誤率大大地下降了?!?/p>
使用深度神經(jīng)網(wǎng)絡(luò)表現(xiàn)出超過(guò)三分之一的提高,將語(yǔ)音識(shí)別的錯(cuò)誤率從35%降低到低于25%。在此基礎(chǔ)上對(duì)其進(jìn)行優(yōu)化,還可以帶來(lái)的更多的提高空間。
這種形式的學(xué)習(xí)依然有一定的局限性。DeepMind —— 一家在2014年初被谷歌以4億美金收購(gòu),位于英國(guó)倫敦的公司 —— 使用電子游戲來(lái)評(píng)估深度神經(jīng)網(wǎng)絡(luò)解決各種不同類型問(wèn)題的能力。谷哥研究員Volodymyr Mnih說(shuō)這種系統(tǒng)無(wú)法處理尋找迷宮出口這類需要完成多個(gè)階段才能獲得獎(jiǎng)勵(lì)的游戲。這種情況下,神經(jīng)網(wǎng)絡(luò)基本無(wú)法從隨機(jī)開(kāi)始的失敗嘗試中學(xué)到什么東西。深度學(xué)習(xí)網(wǎng)絡(luò)在類似Breakout和Virtual Pinball這類游戲中表現(xiàn)還是不錯(cuò)的,雖然成功或許會(huì)來(lái)得比較慢,但是還是可以從隨機(jī)的嘗試結(jié)果中學(xué)到些什么。
在深度學(xué)習(xí)的商業(yè)化應(yīng)用方面,研究團(tuán)隊(duì)都將目光集中于使用現(xiàn)場(chǎng)可編程門陣列(FPGA,一種可以被編程改變自身結(jié)構(gòu)的硬件——譯者注)設(shè)計(jì)的定制計(jì)算硬件。這些定制的電路設(shè)計(jì)結(jié)合了可編程邏輯查找表,為優(yōu)化數(shù)字型號(hào)處理優(yōu)化的特別設(shè)計(jì)的計(jì)算邏輯元件,以及一矩陣的用于定義這些部分之間是怎么連接起來(lái)的內(nèi)存條。
目前國(guó)內(nèi)的百度正使用深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行語(yǔ)音識(shí)別和圖像搜索,從而優(yōu)化基于上下文內(nèi)容的廣告。百度此前決定在成品服務(wù)器中使用現(xiàn)場(chǎng)可編程門陣列(FPGA,一種可以被編程改變自身結(jié)構(gòu)的硬件——譯者注)而非圖像處理器群(GPUs)。百度高級(jí)架構(gòu)師Jian Ouyang表示,雖然單個(gè)的圖像處理器群在百度使用的深度神經(jīng)網(wǎng)絡(luò)中能夠提供較高峰值的浮點(diǎn)運(yùn)算表現(xiàn),但現(xiàn)場(chǎng)可編程門陣列在同樣表現(xiàn)下需要的功率更低,因?yàn)槟軌虬惭b在刀鋒服務(wù)器上,依靠主板上的串行總線連接就能供電?,F(xiàn)場(chǎng)可編程門陣列的核心優(yōu)勢(shì)在于,因?yàn)樯弦淮蔚挠?jì)算結(jié)果能夠直接供給下一次計(jì)算,而不需要保存在主存儲(chǔ)器中,因此,所需要的存儲(chǔ)帶寬要遠(yuǎn)低于使用GPU或者CPU。
「使用現(xiàn)場(chǎng)可編程門陣列,我們不需要對(duì)服務(wù)器設(shè)計(jì)和環(huán)境進(jìn)行修改,從而易于配置在大規(guī)模服務(wù)器上。同時(shí),我們也需要在現(xiàn)場(chǎng)可編程門陣列上配置很多得到支持的功能。但它們的可重構(gòu)性可以幫助我們根據(jù)實(shí)際需求來(lái)選擇將它們移入或移出現(xiàn)場(chǎng)可編程門陣列。重新配置的時(shí)間少于10微秒。」Ouyang說(shuō)。
他進(jìn)一步談到:「百度團(tuán)隊(duì)在使用了一種簡(jiǎn)化過(guò)的浮點(diǎn)運(yùn)算引擎后,進(jìn)一步節(jié)約了空間。處理器提供的標(biāo)準(zhǔn)浮點(diǎn)運(yùn)算實(shí)現(xiàn)能夠處理所有可能的意外。更何況在我們的情況下,我們不需要處理IEEE標(biāo)準(zhǔn)下的所有意外?!?/p>
除了想方設(shè)法使用更有效的處理器,研究者還在嘗試使用分布式處理方式來(lái)構(gòu)造更大的深度神經(jīng)網(wǎng)絡(luò),它們能夠應(yīng)對(duì)更加龐大的數(shù)據(jù)集。深度網(wǎng)絡(luò)中的轉(zhuǎn)移延遲會(huì)對(duì)訓(xùn)練速度產(chǎn)生嚴(yán)重影響。但是,用無(wú)限帶寬技術(shù)來(lái)取代以太網(wǎng)就可以對(duì)訓(xùn)練算法進(jìn)行重排,這會(huì)降低延遲,2013年,一支來(lái)自斯坦福的團(tuán)隊(duì)就是借助這種方法使多重并行GPUs幾乎達(dá)到了線性加速。微軟在近期研究中用CPUs群取代GPUs群,開(kāi)發(fā)了一種對(duì)訓(xùn)練的同步需求進(jìn)行放松的方法,從而可以交叉在幾千臺(tái)機(jī)器中執(zhí)行。
這種更具擴(kuò)展性的深度網(wǎng)絡(luò)使百度得以實(shí)施一種「端對(duì)端」的語(yǔ)音識(shí)別系統(tǒng),它被稱之為Deep Speech。該系統(tǒng)不依賴于傳統(tǒng)語(yǔ)音處理算法的輸出,例如使用隱馬爾科夫模型來(lái)提高輸入較為嘈雜時(shí)的表現(xiàn)水平。針對(duì)嘈雜環(huán)境下的數(shù)據(jù)集,Deep Speech將詞匯識(shí)別的錯(cuò)誤率降低到了19%,相比之下,2014年底較好的商用系統(tǒng)的錯(cuò)誤率為30.5%。
但是,通過(guò)多個(gè)更小規(guī)模的網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)預(yù)處理和結(jié)果匯總將比完全依靠神經(jīng)網(wǎng)絡(luò)更加有效。Cire?an已經(jīng)借助于圖像失真的借口結(jié)合和較小網(wǎng)絡(luò)的「委員會(huì)」(即將多個(gè)較小網(wǎng)絡(luò)整合在一起)來(lái)降低錯(cuò)誤率,效果要優(yōu)于多帶帶一個(gè)更大的深度學(xué)習(xí)網(wǎng)絡(luò)。在一次交通信號(hào)識(shí)別測(cè)試中,多種技術(shù)的結(jié)合取得了比人類觀察者更好的表現(xiàn)。
研究人員試圖用分布式處理來(lái)構(gòu)建更廣泛的深度學(xué)習(xí)網(wǎng)絡(luò),以便能處理更大的數(shù)據(jù)集。
決定使用哪種變形來(lái)針對(duì)某一類模式是需要人為干預(yù)的。Ciresan稱,讓網(wǎng)絡(luò)自己學(xué)習(xí)較佳的變形組合是非常困難的 ,但對(duì)建立系統(tǒng)的人來(lái)說(shuō)卻很容易。
一個(gè)傳統(tǒng)深入學(xué)習(xí)的潛在問(wèn)題是對(duì)數(shù)據(jù)的訪問(wèn),Neil Lawrence是謝菲爾德大學(xué)計(jì)算機(jī)科學(xué)系機(jī)器學(xué)習(xí)領(lǐng)域的教授,他認(rèn)為,深入學(xué)習(xí)模型在數(shù)據(jù)集被妥當(dāng)歸類,和模型能以大量妥善標(biāo)注的數(shù)據(jù)訓(xùn)練的情況下表現(xiàn)的很好。「但是,臨床數(shù)據(jù),作為激起我興趣的一個(gè)領(lǐng)域,并非是這種情況。臨床數(shù)據(jù)中,在多數(shù)情況下,很多人沒(méi)有得到廣泛的臨床測(cè)試。另外,臨床測(cè)試在不斷變遷,影響病人的疾病也在不斷進(jìn)化。這是一個(gè)『缺乏大量數(shù)據(jù)』的例子?!?/p>
Lawrence和其他人建議在神經(jīng)網(wǎng)絡(luò)中使用涉及概率論的高斯處理,用以提高對(duì)較小數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)表現(xiàn)不佳的應(yīng)用領(lǐng)域的學(xué)習(xí)聊率, 比如在健康領(lǐng)域,其數(shù)據(jù)和不同數(shù)據(jù)集有相互關(guān)聯(lián)。所選定的數(shù)據(jù)可能不在某些數(shù)據(jù)集里,對(duì)此類情況,概率模型比傳統(tǒng)的機(jī)器學(xué)習(xí)能夠有更好的表現(xiàn)。這項(xiàng)研究的進(jìn)展落后于對(duì)神經(jīng)網(wǎng)絡(luò)的的研究,但研究人員已開(kāi)始研究有效的訓(xùn)練方法,并采用多GPU系統(tǒng)來(lái)擴(kuò)大處理的規(guī)模。
Lawrence說(shuō):「算法是個(gè)額外的負(fù)擔(dān)。它使得網(wǎng)絡(luò)中產(chǎn)生不確定性,這就是算法問(wèn)題所在,但是也我們突破最多的地方?!?/p>
在Lawrence看來(lái),基于高斯處理的深入學(xué)習(xí)系統(tǒng)往往需要更多的計(jì)算能力,但系統(tǒng)能自動(dòng)決定網(wǎng)絡(luò)需要幾層高斯處理?;谏窠?jīng)網(wǎng)絡(luò)的系統(tǒng)目前還做不到這點(diǎn)?!高@種結(jié)構(gòu)式的學(xué)習(xí)很令人興奮,也是讓我們考慮這類模型的最初動(dòng)機(jī)之一?!?/p>
針對(duì)目前更被熟知的神經(jīng)網(wǎng)絡(luò)系統(tǒng),cirensan表示,他們?cè)谘芯砍綐O限去建造更大更有效的模型,「但是我們更想做的事是:更好地了解深入學(xué)習(xí)為何會(huì)有效?!?/p>
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4305.html
摘要:深度學(xué)習(xí)較其他機(jī)器學(xué)習(xí)方法在各類任務(wù)中都表現(xiàn)優(yōu)異,各個(gè)機(jī)構(gòu)或院校也花了巨大的精力和時(shí)間投入到深度學(xué)習(xí),并取得了令人驚嘆的成就。因此本文力圖闡述深度學(xué)習(xí)的局限性,引發(fā)更多對(duì)深度學(xué)習(xí)的思考。 深度學(xué)習(xí)較其他機(jī)器學(xué)習(xí)方法在各類任務(wù)中都表現(xiàn)優(yōu)異,各個(gè)機(jī)構(gòu)或院校也花了巨大的精力和時(shí)間投入到深度學(xué)習(xí),并取得了令人驚嘆的成就。但深度學(xué)習(xí)近來(lái)也暴露出其內(nèi)在缺陷,很多學(xué)界領(lǐng)軍人物都在積極探討解決辦法和替代方案...
摘要:作為工程師的我們,怎樣才能確保在網(wǎng)絡(luò)訓(xùn)練過(guò)程中不存在偏見(jiàn)和種族歧視深度神經(jīng)網(wǎng)絡(luò)很難用來(lái)解決邏輯問(wèn)題。深度神經(jīng)網(wǎng)絡(luò)在處理大維度的特征數(shù)據(jù)方面效果不佳。 認(rèn)臉、翻譯、合成語(yǔ)音……深度學(xué)習(xí)在很多問(wèn)題上都取得了非常好的成績(jī)。那么,還有什么問(wèn)題不能用深度學(xué)習(xí)來(lái)解決呢?斯坦福大學(xué)在讀博士Bharath Ramsundar列出了以下15個(gè)方面,希望能對(duì)今后的算法開(kāi)發(fā)有所幫助。以下為譯文:1. 眾所周知,深...
摘要:相反深度學(xué)習(xí)的對(duì)抗樣本是由于模型的線性特征。所以通過(guò)對(duì)抗訓(xùn)練能夠提高深度學(xué)習(xí)的對(duì)于對(duì)抗樣本的抗干擾能力。此外,指出,人類并不會(huì)像現(xiàn)代機(jī)器學(xué)習(xí)算法那樣被對(duì)抗樣本所影響。 2006 年,Geoffrey Hinton 提出了深度學(xué)習(xí)。受益于大數(shù)據(jù)的出現(xiàn)和大規(guī)模計(jì)算能力的提升,深度學(xué)習(xí)已然成為最活躍的計(jì)算機(jī)研究領(lǐng)域之一。深度學(xué)習(xí)的多層非線性結(jié)構(gòu)使其具備強(qiáng)大的特征表達(dá)能力和對(duì)復(fù)雜任務(wù)的建模能力。最近...
摘要:在與李世石比賽期間,谷歌天才工程師在漢城校區(qū)做了一次關(guān)于智能計(jì)算機(jī)系統(tǒng)的大規(guī)模深度學(xué)習(xí)的演講。而這些任務(wù)完成后,谷歌已經(jīng)開(kāi)始進(jìn)行下一項(xiàng)挑戰(zhàn)了。谷歌深度神經(jīng)網(wǎng)絡(luò)小歷史谷歌大腦計(jì)劃于年啟動(dòng),聚焦于真正推動(dòng)神經(jīng)網(wǎng)絡(luò)科學(xué)能達(dá)到的較先進(jìn)的技術(shù)。 在AlphaGo與李世石比賽期間,谷歌天才工程師Jeff Dean在Google Campus漢城校區(qū)做了一次關(guān)于智能計(jì)算機(jī)系統(tǒng)的大規(guī)模深度學(xué)習(xí)(Large-...
摘要:對(duì)深度學(xué)習(xí)模型而言,水就是海量的數(shù)據(jù)。就拿機(jī)器識(shí)別物體這樣的任務(wù)來(lái)說(shuō),通過(guò)數(shù)百萬(wàn)副圖片的訓(xùn)練,深度學(xué)習(xí)模型甚至可以超過(guò)人的肉眼的識(shí)別能力,這確實(shí)是人工智能在感知類問(wèn)題上重要的里程碑。關(guān)于深度學(xué)習(xí),還有一個(gè)有趣的現(xiàn)象。 說(shuō)到人工智能和機(jī)器人,上點(diǎn)兒歲數(shù)的碼農(nóng)們可能對(duì)封面這張圖有點(diǎn)印象。不明就里的朋友,可以回去補(bǔ)習(xí)一下《編輯部的故事》。我是個(gè)二手的人工智能表演藝術(shù)家:從博士畢業(yè)開(kāi)始,就在MSRA...
閱讀 3464·2021-11-24 10:30
閱讀 3334·2021-11-22 15:29
閱讀 3771·2021-10-28 09:32
閱讀 1396·2021-09-07 10:22
閱讀 3408·2019-08-30 15:55
閱讀 3687·2019-08-30 15:54
閱讀 3567·2019-08-30 15:54
閱讀 2896·2019-08-30 15:44