摘要:信息瓶頸理論由耶路撒冷希伯來大學(xué)的計算機(jī)與神經(jīng)科學(xué)家等人提出。與我取得聯(lián)系并分享了一篇已提交盲審的論文,論文作者對信息瓶頸理論的一些發(fā)現(xiàn)作了批判性分析。這是一個重要更新,指出了信息瓶頸理論的一些局限性。
「信息瓶頸」(Information Bottleneck)理論由耶路撒冷希伯來大學(xué)的計算機(jī)與神經(jīng)科學(xué)家 Naftali Tishby 等人提出。該研究有望最終打開深度學(xué)習(xí)的黑箱,并解釋人腦的工作原理(參見:揭開深度學(xué)習(xí)黑箱:希伯來大學(xué)計算機(jī)科學(xué)教授提出「信息瓶頸」)。Geoffrey Hinton 曾對此研究評論道:「信息瓶頸極其有趣,估計要再聽 10000 遍才能真正理解它,當(dāng)今能聽到如此原創(chuàng)的想法非常難得,或許它就是解開謎題的那把鑰匙?!?/p>
目前,一篇有關(guān)深度學(xué)習(xí)中信息瓶頸理論的論文《On the information bottleneck theory of deep learning》已提交 ICLR 2018 大會盲審,然而這篇論文的內(nèi)容主要是指出信息瓶頸理論的局限。該論文已經(jīng)引起了很多人的關(guān)注,有學(xué)者甚至在社交網(wǎng)絡(luò)上評論道:這篇論文「戳穿了一個巨大的泡沫」。本文作者 Adrian Colyer 將對這一工作進(jìn)行解讀。
上周,我們研究了 Schwartz-Viz 和 Tishby 的深度學(xué)習(xí)論文《Opening the Black Box of Deep Neural Networks via Information》,其思想令人贊嘆,從一種新視角展示了深度神經(jīng)網(wǎng)絡(luò)內(nèi)部發(fā)生的一切。Sathiya Keerthi 與我取得聯(lián)系并分享了一篇已提交 ICLR 2018 盲審的論文——《On the information bottleneck theory of deep learning》,論文作者對信息瓶頸理論的一些發(fā)現(xiàn)作了批判性分析。這是一個重要更新,指出了信息瓶頸理論的一些局限性。
在這篇論文中,作者首先從再現(xiàn) Schwartz-Viz 和 Tishby 論文中的「信息平面動態(tài)」(information plane dynamics)開始,接著展開進(jìn)一步實驗:使用 ReLU 替代激活函數(shù) tanh,觀察有何影響;探索泛化與壓縮之間的聯(lián)系;研究訓(xùn)練期間隨機(jī)性對壓縮是否重要;以及研究在何種程度上與任務(wù)不相關(guān)的信息也被壓縮。
簡單來說,該論文發(fā)現(xiàn) Schwartz-Viz 和 Tishby 論文中的結(jié)果無法很好地泛化到其他網(wǎng)絡(luò)架構(gòu):訓(xùn)練期間的兩個階段依賴于激活函數(shù)的選擇;無法證明壓縮與泛化之間存在因果關(guān)系;當(dāng)壓縮確實發(fā)生時,它不一定依賴于來自隨機(jī)梯度下降(SGD)的隨機(jī)性。
我們的結(jié)果強(qiáng)調(diào)在應(yīng)用信息理論分析深度學(xué)習(xí)系統(tǒng)時噪聲假設(shè)的重要性,并且通過展示表征壓縮與泛化性能存在分歧的實例來復(fù)雜化深度學(xué)習(xí)的信息瓶頸理論。
下面我們來更深入地理解
激活函數(shù)選擇的影響
我們的分析起點是發(fā)現(xiàn)改變激活函數(shù)能顯著地改變信息平面中的網(wǎng)絡(luò)軌跡。
作者借助 Schwartz-Vis 和 Tishby 提供的代碼首次再現(xiàn)了我們上周看到的結(jié)果(見下圖 1A),接著改變網(wǎng)絡(luò)以使用 ReLU——修正線性激活函數(shù),最終獲得的信息平面動態(tài)請見圖 1B。
我們看到 tanh 激活函數(shù)的相移消失了!
輸入的互信息在所有的 ReLu 層中單調(diào)遞增,沒有明顯的壓縮階段。因此,非線性函數(shù)的選擇實質(zhì)上影響了信息平面的動態(tài)。
作者使用一個非常簡單的三神經(jīng)元網(wǎng)絡(luò)進(jìn)一步探討了這一現(xiàn)象。標(biāo)量高斯輸入分布通過標(biāo)量第一層權(quán)重 w1 饋送,并通過神經(jīng)非線性函數(shù) f(·) 傳輸以獲取隱藏單元活動。
為了計算互信息,隱藏單元活動被離散化至 30 個統(tǒng)一的分箱(bin)中,以獲得離散變量。
使用 tanh 非線性函數(shù),互信息先增后降。使用 ReLU 非線性函數(shù),互信息一直呈上升趨勢。
tanh 函數(shù)權(quán)重較大,飽和時會下降,以接近 1 比特的輸入(即分散變量集中于 1 和 -1 周圍的 bin)提供互信息。而使用 ReLU 函數(shù),一半輸入是負(fù)的,聚集在 0 周圍的 bin,而另一半呈高斯分布,熵隨權(quán)重的變化而單調(diào)遞增。因此,tanh 的雙面飽和特性是原始結(jié)果的關(guān)鍵。
……隨著隱藏單元進(jìn)入飽和態(tài),由于用于計算互信息的分箱(binning)步驟,雙飽和非線性(double-saturating nonlinearities)導(dǎo)致輸入信息的壓縮。我們注意到分箱可以看作是暗中向隱藏層活動中添加噪聲:多個 X 映射至一個 bin,這樣 X 和 T 之間的映射不再是完美可逆的。
分箱對信息理論分析非常關(guān)鍵,「但是,實踐中噪聲沒有添加至這些神經(jīng)網(wǎng)絡(luò)的訓(xùn)練或測試過程中?!?/p>
tanh 的飽和說明互信息下降時出現(xiàn)了壓縮階段,以及 tanh 網(wǎng)絡(luò)進(jìn)入壓縮階段后訓(xùn)練過程變慢的原因:部分輸入使非線性函數(shù)出現(xiàn)飽和,減少了反向傳播的誤差梯度。
獨立于壓縮的泛化
隨后,作者使用信息平面鏡頭進(jìn)一步研究了壓縮和泛化之間的關(guān)系。
……我們利用 student-teacher 設(shè)置(Seung et al.,1992;Advani & Saxe, 2017)下訓(xùn)練的簡單線性網(wǎng)絡(luò)探索泛化動態(tài)的最近結(jié)果。該設(shè)置可以讓我們較精確地計算網(wǎng)絡(luò)泛化性能和表征的互信息(未經(jīng)分箱),以及直接對比線性高斯問題已知的信息瓶頸邊界。
在信息平面中(上圖 D)我們沒有觀察到壓縮,盡管網(wǎng)絡(luò)確實學(xué)習(xí)了一個可以很好地泛化至任務(wù)的路線圖,并顯示了最小的過度訓(xùn)練。在實驗中執(zhí)行不同程度的過擬合表明,信息平面中具有相似行為的網(wǎng)絡(luò)可能具有不同的泛化性能。
這就建立了信息平面中行為與泛化動態(tài)之間的分離:壓縮的網(wǎng)絡(luò)可能會也可能不會很好地泛化,未壓縮的網(wǎng)絡(luò)也是如此。
隨機(jī)有助于壓縮嗎?
接下來,作者首先研究了導(dǎo)致壓縮的因素,分析了隨機(jī)梯度下降(SGD)和批量梯度下降(BGD)的區(qū)別。SGD 從數(shù)據(jù)集中拿出一個樣本,并計算相關(guān)的誤差梯度,而批量梯度下降使用所有樣本的整體誤差:「關(guān)鍵是,在更新中沒有隨機(jī)或擴(kuò)散性的行為?!?/p>
使用 SGD 和 BGD 對 tanh 和線性網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練,信息平面動態(tài)如下:
我們發(fā)現(xiàn)二者的信息動態(tài)大體一致,tanh 網(wǎng)絡(luò)對于兩種方法都有較魯棒的壓縮。因此訓(xùn)練過程中的隨機(jī)性似乎對輸入信息的壓縮貢獻(xiàn)不大。該發(fā)現(xiàn)與「壓縮主要原因是雙飽和非線性」的觀點一致。
對任務(wù)不相關(guān)信息進(jìn)行壓縮
最后的實驗將輸入 X 分割成任務(wù)相關(guān)的輸入和任務(wù)不相關(guān)的輸入。前者貢獻(xiàn)信號,后者貢獻(xiàn)噪聲。因此好的泛化似乎需要忽略噪聲。論文作者發(fā)現(xiàn)當(dāng)任務(wù)相關(guān)的信息發(fā)生擬合時,任務(wù)不相關(guān)的信息發(fā)生壓縮,盡管整體看來沒有觀察到輸入出現(xiàn)壓縮階段。
結(jié)果
我們的結(jié)果表明信息平臺中的壓縮動態(tài)不是深層網(wǎng)絡(luò)的普遍特征,但是網(wǎng)絡(luò)使用的非線性函數(shù)對此有很大影響……信息壓縮可以與尖銳最小值(sharp minima)同時出現(xiàn);盡管實驗證明在特定設(shè)置中泛化誤差和架構(gòu)有關(guān)系,進(jìn)一步的理論分析證明尖銳最小值也可以實現(xiàn)很好的泛化效果。
論文:On the Information Bottleneck Theory of Deep Learning
論文鏈接:https://openreview.net/forum?id=ry_WPG-A-
摘要:深度神經(jīng)網(wǎng)絡(luò)的理論與實踐成果并不匹配,理論無法解釋深度神經(jīng)網(wǎng)絡(luò)的行為。本論文研究了深度學(xué)習(xí)的信息瓶頸理論(IB),該理論有三個主要觀點:(1)深度網(wǎng)絡(luò)需要兩個階段:初始擬合階段和后續(xù)壓縮階段;(2)壓縮階段和深度網(wǎng)絡(luò)卓越的泛化性能之間存在因果關(guān)系;(3)壓縮階段由于隨機(jī)梯度下降的擴(kuò)散行為才會出現(xiàn)。本文中,我們證明了這些觀點通常情況下是錯誤的。通過分析結(jié)果和模擬,我們展示了信息平面軌跡主要使用了一種神經(jīng)非線性函數(shù):雙飽和非線性(double-sided saturating nonlinearities)函數(shù),如 tanh 函數(shù),當(dāng)神經(jīng)激活函數(shù)進(jìn)入飽和態(tài)時,深度網(wǎng)絡(luò)進(jìn)入壓縮階段;而線性激活函數(shù)和單飽和非線性函數(shù),如廣泛使用的 ReLU 就不是這樣。線性神經(jīng)網(wǎng)絡(luò)的泛化誤差動態(tài)的近期結(jié)果表明壓縮和泛化之間不存在因果關(guān)系:沒有壓縮的網(wǎng)絡(luò)也能夠泛化,反之亦然。通過使用全批量梯度下降代替隨機(jī)梯度下降來復(fù)現(xiàn)瓶頸理論,我們還證明了壓縮階段不需要訓(xùn)練過程中的隨機(jī)性。最后,我們證明當(dāng)輸入域包含任務(wù)相關(guān)或不相關(guān)信息的子集時,隱藏的表征(hidden representation)對任務(wù)不相關(guān)的信息進(jìn)行壓縮,盡管輸入的整體信息隨著訓(xùn)練時間而單調(diào)遞增,壓縮與擬合過程并行發(fā)生,而不是在后續(xù)的壓縮階段中出現(xiàn)。
一言以蔽之,我們驗證了深度學(xué)習(xí)信息瓶頸理論中的多個觀點在一般情況下并不正確。
爭議
值得一提的是,在 Open Review 論文平臺上,「信息瓶頸」理論的提出者 Naftali Tishby 等人也與論文作者展開了交鋒。Tishby 表示,這篇新論文重復(fù)和驗證了「信息瓶頸」理論先前研究的實驗,證實并強(qiáng)化了這一理論,但同時又忽略了許多理論和實驗結(jié)果,在許多方面都是有缺陷和誤導(dǎo)性的。?
相關(guān)鏈接
Ravid Shwartz-Ziv 與 Naftali Tishby 2017 年提交的論文《Opening the Black Box of Deep Neural Networks via Information》:https://arxiv.org/abs/1703.00810
原文鏈接:https://blog.acolyer.org/2017/11/24/on-the-information-bottleneck-theory-of-deep-learning/
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/4692.html
摘要:我們稱之為啤酒泡沫。是什么讓牛頓這樣的智者也變得如此瘋狂第一,錢多路窄。這些發(fā)生在區(qū)塊鏈領(lǐng)域的監(jiān)管并不是壞事。 不知道大家有沒有過倒啤酒的經(jīng)驗,當(dāng)我們往杯中倒啤酒時,倒得越快,產(chǎn)生的泡沫就越多。這些泡沫很快會溢出杯外,而杯中的啤酒則會因泡沫的溢出迅速減少,甚至只留下不到一半。我們稱之為啤酒泡沫。 showImg(https://segmentfault.com/img/bVbggjL?...
摘要:認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)根據(jù)一種被稱為信息瓶頸的過程在學(xué)習(xí),他和兩位合作者最早在年對這一過程進(jìn)行了純理論方面的描述。另外一些研究人員則持懷疑態(tài)度,認(rèn)為信息瓶頸理論不能完全解釋深學(xué)習(xí)的成功。 利用深度神經(jīng)網(wǎng)絡(luò)的機(jī)器已經(jīng)學(xué)會了交談、開車,在玩視頻游戲和下圍棋時擊敗了世界冠軍,還能做夢、畫畫,幫助進(jìn)行科學(xué)發(fā)現(xiàn),但同時它們也深深地讓其發(fā)明者困惑,誰也沒有料到所謂的深度學(xué)習(xí)算法能做得這么好。沒有基本的原則指...
摘要:耶路撒冷希伯來大學(xué)的計算機(jī)與神經(jīng)科學(xué)家提出了一項名為信息瓶頸的新理論,有望最終打開深度學(xué)習(xí)的黑箱,以及解釋人腦的工作原理。 耶路撒冷希伯來大學(xué)的計算機(jī)與神經(jīng)科學(xué)家 Naftali Tishby 提出了一項名為「信息瓶頸」(Information Bottleneck)的新理論,有望最終打開深度學(xué)習(xí)的黑箱,以及解釋人腦的工作原理。這一想法是指神經(jīng)網(wǎng)絡(luò)就像把信息擠進(jìn)瓶頸一樣,只留下與一般概念更為...
摘要:創(chuàng)新萌芽期望最頂點下調(diào)預(yù)期至低點回歸理想生產(chǎn)率平臺。而大數(shù)據(jù)已從頂峰滑落,和云計算接近谷底。對于迅速成長的中國市場,大公司也意味著大數(shù)據(jù)。三家對大數(shù)據(jù)的投入都是不惜余力的。 非商業(yè)轉(zhuǎn)載請注明作譯者、出處,并保留本文的原始鏈接:http://www.ituring.com.cn/article/177529 董飛,Coursera數(shù)據(jù)工程師。曾先后在創(chuàng)業(yè)公司酷迅,百度基礎(chǔ)架構(gòu)組...
閱讀 3218·2021-08-03 14:05
閱讀 2231·2019-08-29 15:35
閱讀 751·2019-08-29 13:30
閱讀 3257·2019-08-29 13:20
閱讀 2617·2019-08-23 18:15
閱讀 1879·2019-08-23 14:57
閱讀 2301·2019-08-23 13:57
閱讀 1422·2019-08-23 12:10