深度學習的難點

liangdas 發(fā)布于2019-04-25 18:08 / 1045人閱讀

摘要：深度學習的核心問題就是一個非常難的優(yōu)化問題。所以在神經(jīng)網(wǎng)絡(luò)引入后的幾十年間，深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題的困難性是阻礙它們成為主流的一個重要因素。因此我們對機器學習研究人員嘗試找到可證明地解決深度神經(jīng)網(wǎng)絡(luò)優(yōu)化問題的算法不抱有太大的希望。

深度學習的核心問題就是一個非常難的優(yōu)化問題。所以在神經(jīng)網(wǎng)絡(luò)引入后的幾十年間，深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題的困難性是阻礙它們成為主流的一個重要因素。并導致了它們在20世紀90年代到21世紀初期間的衰落。不過現(xiàn)在已經(jīng)基本解決了這個問題。在本篇博文中，我會探討優(yōu)化神經(jīng)網(wǎng)絡(luò)的“困難性”，以及理論上是怎么解釋這個問題的。簡而言之：神經(jīng)網(wǎng)絡(luò)變得越深，優(yōu)化問題就會變得越難。

最簡單的神經(jīng)網(wǎng)絡(luò)是單節(jié)點感知器，其優(yōu)化問題是凸問題。凸優(yōu)化問題的好處是所有的局部最小值也是全局最小值。存在各種各樣的優(yōu)化算法來解決凸優(yōu)化問題，并且每隔幾年就會發(fā)現(xiàn)更好的用于凸優(yōu)化的多項式時間的算法。使用凸優(yōu)化算法可以輕松地優(yōu)化單個神經(jīng)元的權(quán)重（參見下圖）。下面讓我們看看擴展一個單神經(jīng)元后會發(fā)生什么。

圖1 左圖：一個凸函數(shù)。右圖：一個非凸函數(shù)。凸函數(shù)比非凸函數(shù)更容易找到函數(shù)曲面的底部（來源：Reza Zadeh）

下一步自然就是在保持單層神經(jīng)網(wǎng)絡(luò)的情況下添加更多的神經(jīng)元。對于單層n節(jié)點感知器的神經(jīng)網(wǎng)絡(luò)，如果存在邊權(quán)重可以使得神經(jīng)網(wǎng)絡(luò)能正確地對訓練集進行分類，那么這樣的邊權(quán)重是可以通過線性規(guī)劃在多項式時間O(n)內(nèi)找到。線性規(guī)劃也是凸優(yōu)化的一種特殊情況。這時一個問題應(yīng)運而生：我們可以對更深的多層神經(jīng)網(wǎng)絡(luò)做出這種類似的保證么？不幸的是，不能。

為了可證明地解決兩層或多層的一般神經(jīng)網(wǎng)絡(luò)的優(yōu)化問題，需要的算法將會遇到某些計算機科學中較大的未解問題。因此我們對機器學習研究人員嘗試找到可證明地解決深度神經(jīng)網(wǎng)絡(luò)優(yōu)化問題的算法不抱有太大的希望。因為這個優(yōu)化問題是NP-hard問題，這意味著如果在多項式時間內(nèi)可證明地解決這個問題，那么也可以解決那些幾十年來尚未被解決的成千上萬的問題。事實上，J. Stephen Judd在1988年就發(fā)現(xiàn)下面這個問題是NP-hard問題：

給定一個一般的神經(jīng)網(wǎng)絡(luò)和一組訓練樣本，是否存在一組網(wǎng)絡(luò)邊權(quán)重使得神經(jīng)網(wǎng)絡(luò)能為所有的訓練樣本產(chǎn)生正確的輸出？

Judd的研究還表明：即使要求一個神經(jīng)網(wǎng)絡(luò)只為三分之二的訓練樣本產(chǎn)生正確的輸出仍然是一個NP-hard問題。這意味著即使在最壞的情況下，近似訓練一個神經(jīng)網(wǎng)絡(luò)在本質(zhì)上還是困難的。1993年Blum和Rivest發(fā)現(xiàn)的事實更糟：即使一個只有兩層和三個節(jié)點的簡單神經(jīng)網(wǎng)絡(luò)的訓練優(yōu)化問題仍然是NP-hard問題。

理論上，深度學習與機器學習中的很多相對簡單的模型（例如支持向量機和邏輯回歸模型）的區(qū)別在于，這些簡單模型可以數(shù)學證明地在多項式時間內(nèi)完成模型優(yōu)化。對于這些相對簡單的模型，我們可以保證即使用運行時間比多項式時間更長的優(yōu)化算法也都不能找到更好的模型。但是現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法并不能提供這樣的保證。在你訓練完一個深度神經(jīng)網(wǎng)絡(luò)模型之后，你并不知道這個網(wǎng)絡(luò)模型是否是在你的當前配置下能找到的最優(yōu)的一個模型。所以你會存有疑慮，如果繼續(xù)訓練模型的話是否可以得到一個更好的模型。

幸運的是我們在實踐中可以非常高效地接近這些最優(yōu)結(jié)果：通過運行經(jīng)典的梯度下降優(yōu)化方法就可以得到足夠好的局部最小值，從而可以使我們在許多常見問題上取得巨大進步，例如圖像識別、語音識別和機器翻譯。我們簡單地忽略最優(yōu)結(jié)果，并在時間允許的情況下盡可能多地進行梯度下降迭代。

似乎傳統(tǒng)的優(yōu)化理論結(jié)果是殘酷的，但我們可以通過工程方法和數(shù)學技巧來盡量規(guī)避這些問題，例如啟發(fā)式方法、增加更多的機器和使用新的硬件（如GPU）。一些研究工作正在積極地探索為什么理論結(jié)果很殘酷，但這些經(jīng)典的優(yōu)化算法卻工作得這么好。

深度學習能成功的因素遠遠不只克服優(yōu)化問題。神經(jīng)網(wǎng)絡(luò)的架構(gòu)、訓練數(shù)據(jù)的數(shù)量、損失函數(shù)和正則化等都對于能在機器學習任務(wù)中獲得高質(zhì)量的結(jié)果起著關(guān)鍵作用。在后續(xù)的博文中，我將會討論涵蓋這些方面的的理論成果，來解釋為什么神經(jīng)網(wǎng)絡(luò)在各種任務(wù)上工作得如此好。

Reza Zadeh

Reza Zadeh是斯坦福大學的兼職教授、Matroid創(chuàng)始人和首席執(zhí)行官。他的工作主要關(guān)注于機器學習、分布式計算和離散應(yīng)用數(shù)學。他曾在Miscrosoft和Databricks的技術(shù)顧問委員會任職。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器深度學習的深度深度學習的學習學習深度學習的深度學習的深度指

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/4455.html

發(fā)表評論

登陸后可評論

0條評論

liangdas

男|高級講師

我要關(guān)注我要私信

TA的文章

Python爬蟲案例50篇-第1篇-csdn開源廣場的cookie登錄

閱讀 3354·2021-10-13 09:39
pandas索引函數(shù)loc和iloc的區(qū)別

閱讀 2091·2021-09-27 13:36
虛擬主機怎么創(chuàng)服務(wù)器-我想在服務(wù)器建立虛擬主機，該怎么做？

閱讀 3144·2021-09-22 16:02
小鵬發(fā)布可騎乘智能機器馬

閱讀 2654·2021-09-10 10:51
003-CSS核心屬性

閱讀 1647·2019-08-29 17:15
HTML

閱讀 1588·2019-08-29 16:14
小程序自定義分享事件及回調(diào)函數(shù)

閱讀 3649·2019-08-26 11:55
關(guān)于一個折疊滾屏的js插件

閱讀 2615·2019-08-26 11:50

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

深度學習的難點

相關(guān)文章

自然語言理解-從規(guī)則到深度學習

守護城市安全：時空數(shù)據(jù)+深度學習

Vue 動態(tài)數(shù)據(jù)綁定三大難點

華為云EI ModelArts，從0到1開發(fā)訓練AI模型，通過“極快”和“極簡”實現(xiàn)普惠AI

JavasScript重難點知識

發(fā)表評論

0條評論

liangdas

男|高級講師

TA的文章

Python爬蟲案例50篇-第1篇-csdn開源廣場的cookie登錄

pandas索引函數(shù)loc和iloc的區(qū)別

虛擬主機怎么創(chuàng)服務(wù)器-我想在服務(wù)器建立虛擬主機，該怎么做？

小鵬發(fā)布可騎乘智能機器馬

003-CSS核心屬性

HTML

小程序自定義分享事件及回調(diào)函數(shù)

關(guān)于一個折疊滾屏的js插件

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

深度學習的難點

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！