亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

文章總結(jié):Distilling the Knowledge in a Neural Network(

happen / 2124人閱讀

摘要:通常,應(yīng)盡量反映任務(wù)的真實(shí)目標(biāo)。在訓(xùn)練時(shí),促使盡可能進(jìn)行正確分類的同時(shí),讓其盡可能接近通過獲得的。在中,每個(gè)都會(huì)貢獻(xiàn)在某一方向的梯度,對(duì)應(yīng)于的每個(gè),。因此,在過小時(shí)將無法捕獲中所有的知識(shí)。

原文地址:https://arxiv.org/abs/1503.02...

Abstract:

在機(jī)器學(xué)習(xí)領(lǐng)域,ensemble learning是一種普遍適用的用來提升模型表現(xiàn)的方法, 將通過ensemble learning訓(xùn)練出的模型稱為cubersome model, 但在這種情況下,模型通常很大(即參數(shù)較多,復(fù)雜度較高),以至于在模型部署階段所需要的計(jì)算資源極為昂貴,尤其是對(duì)于一些以大型神經(jīng)網(wǎng)絡(luò)作為子學(xué)習(xí)器的集成模型。

其中一種潛在的解決方法是,將cubersome model中的信息(knowledge)壓縮到一個(gè)多帶帶的模型(single model),將此過程稱為distilling(蒸餾)。

1 Introduction

對(duì)于目標(biāo)檢測或語音識(shí)別等任務(wù),模型訓(xùn)練所花費(fèi)的大部分時(shí)間及計(jì)算資源是可以接受的,但當(dāng)模型部署到生產(chǎn)環(huán)境中,對(duì)模型所需資源的要求則會(huì)嚴(yán)格很多??梢酝ㄟ^distilling(蒸餾)來提取cubersome model中的knowledge從而使模型更易部署。對(duì)于實(shí)現(xiàn)distilling(蒸餾)的阻礙之一在于,knowledge是一個(gè)比較抽象的概念,可以認(rèn)為cubersome modelknowledge體現(xiàn)或者隱藏在cubersome model中的模型參數(shù)中,以至于很難在改變模型結(jié)構(gòu)或參數(shù)的同時(shí)保留knowledge。

cubersome model學(xué)習(xí)處理多分類任務(wù)時(shí),普遍使用最大似然函數(shù)(最大化對(duì)數(shù)概率log probability)來作為目標(biāo)函數(shù), 這么做的一個(gè)副作用是,當(dāng)使用softmax作為神經(jīng)網(wǎng)絡(luò)的輸出層時(shí),模型會(huì)賦值給一些非正確的類別(的概率),即使這些值很小,但在這些非正確分類的類別的概率值中,其中一些會(huì)相對(duì)更顯著,這些relative probalities of incorrect answers是很重要的信息,因?yàn)樗[含了cubersome model如何泛化generalize的信息(how the cumbersome model tends to generalize)。

通常,object function應(yīng)盡量反映任務(wù)的真實(shí)目標(biāo)。若希望模型具有較好的泛化generalize能力,則需要information about the correct way to generalize, 通常此信息是unavailable的。我們可以用使cubersome model獲得較強(qiáng)泛化能力的相同的方式來訓(xùn)練small model,即集成一些small model,盡管這種方式訓(xùn)練出的模型比多帶帶的small model要強(qiáng),但相比cubersome model很難保證性能接近。

一種直觀的轉(zhuǎn)移cubersome model泛化能力的方法(transfer the generalization ability)是,將cubersome models生成的類別概率向量(class probilities produces by the cubersome model)作為訓(xùn)練small model的soft targets,此時(shí)可以使用原始的training set或者transfer set。當(dāng)soft targets具有較高的熵(entropy)時(shí),其相對(duì)于hard target可以對(duì)每種分類場景提供更大的信息量,這使得在訓(xùn)練small model的時(shí)候可以使用更小的數(shù)據(jù)量、更大的學(xué)習(xí)率、(以及也許更簡單的結(jié)構(gòu))。

以MNIST數(shù)據(jù)集為例,檔分類的真實(shí)值為2時(shí),hard target為(0, 1, 0, ... , 0),模型的分類結(jié)果可能在數(shù)字3和7所對(duì)應(yīng)的類別向量的位置的值分別為pow(10, -6)和pow(10, -9),這表示通常數(shù)字2的形態(tài),相對(duì)于數(shù)字7,更接近數(shù)字3, 這是valuable information,它揭示了關(guān)于樣本數(shù)據(jù)的相似結(jié)構(gòu)(相似度)的信息,在此處,可以理解為此信息可以揭示哪些數(shù)字2的樣本更像數(shù)字3,哪些數(shù)字2的樣本更像數(shù)字7。但問題在于,非正確類別在類別向量中所對(duì)應(yīng)的值為0或一個(gè)很小的實(shí)數(shù)對(duì)transfer stage時(shí)的cross-entropy的值影響很小。關(guān)于此問題的一個(gè)解法為,使用logits(the inputs to the final softmax)而不是類別向量probabilities vector(probabilities produced by the softmax)作為訓(xùn)練small model時(shí)的targets。訓(xùn)練時(shí)的object是最小化cubersome model的logits和small model的logits之間MSE。一個(gè)更通用的解法,叫做distillation,它會(huì)用到temperature of the final softmax,通過調(diào)整temperature,可以使cubersome model產(chǎn)生一個(gè)suitably soft set of targets,此target可以在cross entropy的值的層面上對(duì)于one-hot vector和probabilities vector有一個(gè)較好的區(qū)分,從而使small model得以繼續(xù)訓(xùn)練。

用來訓(xùn)練small model的transfer set可以由unlabeled data或original training set組成。在訓(xùn)練small model時(shí),促使small model盡可能進(jìn)行正確分類的同時(shí),讓其logits盡可能接近通過cubersome model獲得的soft targets。

2 Distillation

在神經(jīng)網(wǎng)絡(luò)模型中,softmax function將logits, $z_i$轉(zhuǎn)化為class probabilities vector, 記為($q_1$, $q_2$, ... , $q_n$)。每類所對(duì)應(yīng)的概率記為$q_i$, 計(jì)算方法為:

$q_i = exp(z_i/T) / (sum_{j}exp(z_j/T))$

其中$T$為Temperature,常用取值為1。當(dāng)使用更大的T時(shí),會(huì)生成softer probability distribution over classes。

最簡單的distillation的形式是,使cubersome model以較大的temperature值計(jì)算probability distribution,并以此作為transfer set中的soft target來訓(xùn)練small model,通過這種方式來轉(zhuǎn)移cubersome model中的knowledge到distilled model(small model),在訓(xùn)練distilled model時(shí)需要使用相同的temperature值,但在完成訓(xùn)練之后,應(yīng)在預(yù)測階段使用tmeperature=1。

在將correct labels加入transfer set后可以進(jìn)一步提升distilled model的表現(xiàn)。此時(shí),訓(xùn)練時(shí)的objective function實(shí)質(zhì)兩部分的加權(quán)平均,第一部分為distilled model和cubersome model在soft targets(使用較高temperature計(jì)算的probability distribution vector)的交叉熵(cross entropy),第二部分為二者關(guān)于correct label(hard targets)的交叉熵。

通常,把objective function的第二部分權(quán)重設(shè)置的相對(duì)較低可以得到更好的結(jié)果,這是因?yàn)?,上文提到的的objective function的第一部分在求梯度之后會(huì)帶有$1/T^2$項(xiàng),此時(shí)objective function的第一部分與第二部分在量級(jí)(magnitudes)上是不同的,故首先要確保時(shí)objective function的第一部分與第二部分對(duì)objective function的相對(duì)貢獻(xiàn)(relative contribution)幾乎不變(即控制此變量),方式是首先用$T^2$乘以objective function的第一部分,然后計(jì)算兩項(xiàng)的加權(quán)平均值。

2.1 Matching logits is a special case of distillation

在transfer set中,每個(gè)case(unit)都會(huì)貢獻(xiàn)在某一方向的梯度$dC/dz_i$,對(duì)應(yīng)于distilled model的每個(gè)logit,$z_i$。若cubersome model的logits,$v_i$對(duì)應(yīng)其計(jì)算的soft target probilities $p_i$(的分子部分),且使transfer learning時(shí)temperature的值為$T$,此時(shí)對(duì)應(yīng)$z_i$的梯度為:

$partial C / partial z_i = (q_i - p_i) / T = (e^{z_i/T}/sum_je^{z_j/T} - e^{v_i/T}/sum_je^{v_j/T})/T$

當(dāng)temperature的值$T$相對(duì)logits的量級(jí)較大時(shí),由$e^x$的泰勒展開可得:

$partial C / partial z_i approx ((1+z_i/T)/(N+sum_j{z_j/T}) - (1+v_i/T)/(N+sum_j{v_j/T}))$

若假設(shè)logits對(duì)于每個(gè)transfer case是零均值的(即假設(shè)會(huì)對(duì)logits所對(duì)應(yīng)的layer做normalization),即$sum_j{z_j} = sum_j{v_j} = 0$,此次上式變形為:

$partial C / partial z_i approx (z_i - v_i) / (NT^2)$

因此,當(dāng)限定temperature取較大的值時(shí)且logits layer為0均值時(shí),distillation在logit,$z_i$上可以等價(jià)為最小化$1 / 2(z_i - v_i)^2$(此時(shí)可最大化$C$在$z_i$上的梯度)。

當(dāng)temperature的值相對(duì)較小時(shí),梯度會(huì)相對(duì)大,這是很好的現(xiàn)象,因?yàn)榧词?z_i$與$v_i$很接近,依然可以得到相對(duì)顯著的梯度,但同時(shí)distillation將不會(huì)重點(diǎn)關(guān)注logits間的matching問題。另一方面,當(dāng)logit很負(fù)(very negative)時(shí),計(jì)算probability distribution vector時(shí)其所對(duì)應(yīng)項(xiàng)的分子,$exp(z_i/T)$會(huì)很小,這也是對(duì)distillation很有價(jià)值的信息,若distillation將不會(huì)重點(diǎn)關(guān)注logits,則此部分信息很容易丟失。因此,在temperature過小時(shí)distillation momdel將無法捕獲cubersome model中所有的知識(shí)。

綜上,temperature的值較大時(shí)有助于幫助distillation model捕獲cubersome model中更多的知識(shí),temperature的值較小時(shí)可以使logits對(duì)應(yīng)的梯度相對(duì)顯著,因子temperature應(yīng)取intermediate value。

3 Preliminary experiments on MNIST

實(shí)驗(yàn)中使用的是兩個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)模型,每層1200個(gè)結(jié)點(diǎn),激活函數(shù)為RELU,訓(xùn)練樣本空間為60000,使用dropout和weight-constraints正則化。在驗(yàn)證集上,這個(gè)網(wǎng)絡(luò)有67個(gè)分類誤差,小一些的且沒做dropout的網(wǎng)絡(luò)(800個(gè)結(jié)點(diǎn))有146個(gè)分類誤差。在采用distilling的方式訓(xùn)練small model后,small model在驗(yàn)證集上的分類誤差數(shù)降低到74個(gè)。當(dāng)進(jìn)一步簡化small model時(shí)(降低到300個(gè)節(jié)點(diǎn)), 仍然可以得到相似的表現(xiàn)。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/19772.html

相關(guān)文章

  • 128篇論文,21大領(lǐng)域,深度學(xué)習(xí)最值得看的資源全在這了

    摘要:對(duì)于大多數(shù)想上手深度學(xué)習(xí)的小伙伴來說,我應(yīng)當(dāng)從那篇論文開始讀起這是一個(gè)亙古不變的話題。接下來的論文將帶你深入理解深度學(xué)習(xí)方法深度學(xué)習(xí)在前沿領(lǐng)域的不同應(yīng)用。 對(duì)于大多數(shù)想上手深度學(xué)習(xí)的小伙伴來說,我應(yīng)當(dāng)從那篇論文開始讀起?這是一個(gè)亙古不變的話題。而對(duì)那些已經(jīng)入門的同學(xué)來說,了解一下不同方向的論文,也是不時(shí)之需。有沒有一份完整的深度學(xué)習(xí)論文導(dǎo)引,讓所有人都可以在里面找到想要的內(nèi)容呢?有!今天就給...

    tracymac7 評(píng)論0 收藏0
  • Jeff Dean「Hot Chips 2017」演講:AI對(duì)計(jì)算機(jī)系統(tǒng)設(shè)計(jì)的影響

    摘要:谷歌也不例外,在大會(huì)中介紹了人工智能近期的發(fā)展及其對(duì)計(jì)算機(jī)系統(tǒng)設(shè)計(jì)的影響,同時(shí)他也對(duì)進(jìn)行了詳細(xì)介紹。表示,在谷歌產(chǎn)品中的應(yīng)用已經(jīng)超過了個(gè)月,用于搜索神經(jīng)機(jī)器翻譯的系統(tǒng)等。此外,學(xué)習(xí)優(yōu)化更新規(guī)則也是自動(dòng)機(jī)器學(xué)習(xí)趨勢中的一個(gè)信號(hào)。 在剛剛結(jié)束的 2017 年國際高性能微處理器研討會(huì)(Hot Chips 2017)上,微軟、百度、英特爾等公司都發(fā)布了一系列硬件方面的新信息,比如微軟的 Projec...

    explorer_ddf 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<