【精品】12條核心知識(shí)帶你了解機(jī)器學(xué)習(xí)

AndroidTraveler 發(fā)布于2019-07-30 15:36 / 1670人閱讀

摘要：機(jī)器學(xué)習(xí)初學(xué)者中最常見(jiàn)的錯(cuò)誤就是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試并自以為大獲成功。綜上來(lái)看，機(jī)器學(xué)習(xí)需要知識(shí)這點(diǎn)并不奇怪。機(jī)器學(xué)習(xí)更像是種田，讓大自然完成大部分的工作。這個(gè)問(wèn)題被稱(chēng)為過(guò)擬合，是機(jī)器學(xué)習(xí)中的難題。

機(jī)器學(xué)習(xí)算法可以通過(guò)學(xué)習(xí)就可以弄清楚如何去執(zhí)行一些重要的任務(wù)。在手動(dòng)編程不可行的情況下，這種方法通常既可行又經(jīng)濟(jì)有效。隨著可獲取的數(shù)據(jù)在逐步增多，越來(lái)越多更加復(fù)雜的問(wèn)題可以用機(jī)器學(xué)習(xí)來(lái)解決。事實(shí)上，機(jī)器學(xué)習(xí)已經(jīng)被廣泛的運(yùn)用到計(jì)算機(jī)以及一些其他領(lǐng)域。然而，開(kāi)發(fā)出成功的機(jī)器學(xué)習(xí)應(yīng)用需要大量的“black art”，這些內(nèi)容是很難在教科書(shū)中找到的。

我最近讀了華盛頓大學(xué)的Pedro Domingos教授的一篇十分驚艷的技術(shù)論文，題是“A Few Useful Things to Know about Machine Learning”。它總結(jié)了機(jī)器學(xué)習(xí)研究人員和實(shí)踐者所學(xué)到的12個(gè)關(guān)鍵的經(jīng)驗(yàn)及教訓(xùn)，包括要避免的陷阱，需要關(guān)注的重點(diǎn)問(wèn)題以及常見(jiàn)問(wèn)題的答案。我想在本文中分享這些十分寶貴的經(jīng)驗(yàn)教訓(xùn)，因?yàn)楫?dāng)你思考解決下一個(gè)機(jī)器學(xué)習(xí)問(wèn)題時(shí)，這些經(jīng)驗(yàn)會(huì)對(duì)你十分有用。

1.學(xué)習(xí) = 表示 + 評(píng)估 + 優(yōu)化

所有的機(jī)器學(xué)習(xí)算法通常由3個(gè)部分組成：

表示：分類(lèi)器必須用計(jì)算機(jī)能處理的某種形式語(yǔ)言來(lái)表示。反過(guò)來(lái)講，為學(xué)習(xí)器選擇一種表示就等于選擇它可能學(xué)習(xí)的一組分類(lèi)器集合。這個(gè)集合被稱(chēng)為學(xué)習(xí)器的假設(shè)空間。如果某個(gè)分類(lèi)器不在假設(shè)空間中，那么就不能被學(xué)習(xí)到。與此相關(guān)的一個(gè)問(wèn)題是如何表示輸入，也就是說(shuō)要用哪些特征，本文稍后介紹。

評(píng)估：需要一個(gè)評(píng)估函數(shù)來(lái)區(qū)分好的分類(lèi)器和壞的分類(lèi)器。機(jī)器學(xué)習(xí)算法內(nèi)部使用的評(píng)估函數(shù)可能與我們希望分類(lèi)器優(yōu)化的外部評(píng)估函數(shù)有所不同，為了更好的優(yōu)化，接下來(lái)會(huì)進(jìn)一步討論。

優(yōu)化：最后，我們需要一種方法可以在假設(shè)空間中找到評(píng)價(jià)函數(shù)得分最高的那個(gè)分類(lèi)器。優(yōu)化技術(shù)的選擇對(duì)于學(xué)習(xí)器的效率至關(guān)重要，并且當(dāng)評(píng)估函數(shù)有多個(gè)最優(yōu)值時(shí)，優(yōu)化技術(shù)也有助于確定所產(chǎn)生的分類(lèi)器。初學(xué)者開(kāi)始使用現(xiàn)成的優(yōu)化器是很常見(jiàn)的，之后這些方法會(huì)被定制設(shè)計(jì)的優(yōu)化器所取代。

2.泛化才是關(guān)鍵

機(jī)器學(xué)習(xí)的最終目的是將訓(xùn)練模型應(yīng)用在除訓(xùn)練樣本之外的其他數(shù)據(jù)中。因?yàn)闊o(wú)論我們訓(xùn)練時(shí)有多少數(shù)據(jù)，在測(cè)試的時(shí)候我們都不太可能再次遇到與這些訓(xùn)練時(shí)的詳細(xì)數(shù)據(jù)完全相同的情況。在訓(xùn)練集上獲得好的結(jié)果很容易。機(jī)器學(xué)習(xí)初學(xué)者中最常見(jiàn)的錯(cuò)誤就是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試并自以為大獲成功。如果選擇的分類(lèi)器在全新的數(shù)據(jù)上進(jìn)行測(cè)試，它們通常表現(xiàn)的還不如隨機(jī)猜測(cè)所得的結(jié)果好。所以，如果你要雇傭某人來(lái)構(gòu)建分類(lèi)器，一定要保留一些數(shù)據(jù)給你自己，之后再用這些數(shù)據(jù)來(lái)測(cè)試他們給你的分類(lèi)器。反過(guò)來(lái)講，如果你被雇來(lái)構(gòu)建分類(lèi)器，從一開(kāi)始就劃分出一些數(shù)據(jù)用作之后的測(cè)試，在你用全部數(shù)據(jù)進(jìn)行訓(xùn)練并得到您的分類(lèi)器過(guò)后，再用這部分?jǐn)?shù)據(jù)來(lái)測(cè)試你最終選擇的分類(lèi)器。

3.只有數(shù)據(jù)是不夠的

將泛化作為目標(biāo)還有另一個(gè)主要的問(wèn)題：只有數(shù)據(jù)是不夠的，不管你有多少數(shù)據(jù)。

這似乎是個(gè)相當(dāng)令人沮喪的消息。那么我們還怎么希望學(xué)到所有東西呢？幸運(yùn)的是，在現(xiàn)實(shí)世界中我們想學(xué)習(xí)的函數(shù)并不是均勻的來(lái)自所有可能函數(shù)的！事實(shí)上，許多通用的假設(shè)往往會(huì)起很大的作用 ——像平滑性、相似的示例有相似的分類(lèi)、有限的相關(guān)性、或有限的復(fù)雜性等，這也是機(jī)器學(xué)習(xí)會(huì)取得成功的很大一部分原因。與演繹法一樣，歸納法是一種知識(shí)杠桿：將少量的知識(shí)輸入轉(zhuǎn)化成大量的知識(shí)輸出。歸納是一個(gè)比演繹更強(qiáng)大的杠桿，需要更少的知識(shí)輸入來(lái)獲取有用的結(jié)果，但是，它終究還是不能在沒(méi)有知識(shí)輸入的情況下工作。而且，正如杠桿一樣，我們投入的越多，我們可以獲取的知識(shí)就越多。

綜上來(lái)看，機(jī)器學(xué)習(xí)需要知識(shí)這點(diǎn)并不奇怪。機(jī)器學(xué)習(xí)不是魔術(shù)，它并不能做到從無(wú)到有。它可以做到的是從少變多。像所有的工程技術(shù)一樣，編程有很多工作要做：我們必須從抓取開(kāi)始構(gòu)建所有的東西。機(jī)器學(xué)習(xí)更像是種田，讓大自然完成大部分的工作。農(nóng)民將種子與營(yíng)養(yǎng)物質(zhì)結(jié)合起來(lái)種植莊稼。而機(jī)器學(xué)習(xí)則是將知識(shí)與數(shù)據(jù)結(jié)合起來(lái)，來(lái)構(gòu)建模型。

4.過(guò)擬合有多張面孔

如果我們的知識(shí)和數(shù)據(jù)不足以完全學(xué)習(xí)出正確的分類(lèi)器怎么辦？那么我們就冒著得到一個(gè)幻想中的分類(lèi)器的風(fēng)險(xiǎn)來(lái)構(gòu)建，這些分類(lèi)器可能與實(shí)際情況相差甚遠(yuǎn)，它簡(jiǎn)單的將數(shù)據(jù)中的巧合當(dāng)做了一般情況。這個(gè)問(wèn)題被稱(chēng)為“過(guò)擬合”，是機(jī)器學(xué)習(xí)中的難題。當(dāng)你的學(xué)習(xí)器輸出的分類(lèi)器在訓(xùn)練數(shù)據(jù)上有100％的準(zhǔn)確率，但在測(cè)試數(shù)據(jù)上只有50％的準(zhǔn)確率的時(shí)候，這就是過(guò)擬合。在正常情況下，無(wú)論在訓(xùn)練集還是在測(cè)試集它的準(zhǔn)確率都應(yīng)該為75%。

在機(jī)器學(xué)習(xí)中，每個(gè)人都知道過(guò)擬合，但它有很多形式，有些并不會(huì)馬上顯現(xiàn)出來(lái)。理解過(guò)擬合的一種方法是將泛化誤差分解為偏差和方差。偏差是學(xué)習(xí)器有不斷學(xué)習(xí)同樣錯(cuò)誤的傾向。方差是學(xué)習(xí)器傾向于去學(xué)習(xí)隨機(jī)事物，不考慮真實(shí)信號(hào)是如何。線(xiàn)性學(xué)習(xí)器有很高的偏差，因?yàn)楫?dāng)兩個(gè)類(lèi)的交界不是一個(gè)超平面時(shí)，線(xiàn)性學(xué)習(xí)器就無(wú)法進(jìn)行歸納。決策樹(shù)就不存在這個(gè)問(wèn)題，因?yàn)樗鼈兛梢员硎救我獠紶柡瘮?shù)，但在另一方面，決策樹(shù)有較大的方差：決策樹(shù)在同一現(xiàn)象產(chǎn)生的不同訓(xùn)練集上學(xué)習(xí)，所便顯出的結(jié)果是完全不同的，但理論上它們的結(jié)果應(yīng)該是相同的。

交叉驗(yàn)證有助于減弱過(guò)擬合，例如通過(guò)使用交叉驗(yàn)證來(lái)選擇決策樹(shù)的最佳尺寸來(lái)學(xué)習(xí)。但這不是萬(wàn)能的，因?yàn)槿绻覀兪褂昧诉^(guò)多的參數(shù)，那模型本身就已經(jīng)開(kāi)始過(guò)擬合了。

除了交叉驗(yàn)證之外，還有很多方法可以預(yù)防過(guò)擬合的問(wèn)題。最常用的方法就是給評(píng)估函數(shù)添加一個(gè)正則項(xiàng)。這樣做可以懲罰許多較為復(fù)雜的模型，從而有利于產(chǎn)生較為簡(jiǎn)單的模型。另一種方法是在添加新的結(jié)構(gòu)之前，通過(guò)像卡方檢驗(yàn)來(lái)測(cè)試統(tǒng)計(jì)顯著性，以確定加入這種結(jié)構(gòu)是否會(huì)有幫助。當(dāng)數(shù)據(jù)十分稀少時(shí)，這些技術(shù)特別有用。盡管如此，你還是應(yīng)該對(duì)存在某種技術(shù)可以“解決”過(guò)擬合問(wèn)題這樣的說(shuō)法持懷疑態(tài)度，這十分容易就會(huì)讓過(guò)擬合變?yōu)榍窋M合。想要同時(shí)避免這兩種情況需訓(xùn)練出一個(gè)完美的分類(lèi)器，根據(jù)天下沒(méi)有免費(fèi)的午餐原理，如果事先并沒(méi)有足夠的知識(shí)，不會(huì)有任何一種單一技術(shù)可以一直表現(xiàn)最好。

5.高維度下直覺(jué)失效

在過(guò)擬合之后，機(jī)器學(xué)習(xí)中最大的問(wèn)題就是維度災(zāi)難。這個(gè)表達(dá)式是由Bellman在1961年提出的，指出了一個(gè)事實(shí)：當(dāng)輸入是高維度時(shí)，許多在低維度上工作正常的算法效果變得很差。但是在機(jī)器學(xué)習(xí)領(lǐng)域，維度災(zāi)難這個(gè)詞還有更多的含義。隨著示例數(shù)據(jù)的維數(shù)（特征數(shù)量）的升高，正確地泛化的難度在以指數(shù)增加，因?yàn)楣潭ù笮〉挠?xùn)練集只覆蓋了輸入空間的一小部分。

高維空間中比較普遍的問(wèn)題是我們直覺(jué)失效，我們來(lái)自三維世界的直覺(jué)通常不適用于高維空間。在高維空間中，多元高斯分布的大部分質(zhì)量并不接近平均值，而是在逐漸遠(yuǎn)離均值的一層“殼”上;打個(gè)比方，一個(gè)高維度的橙子的大部分質(zhì)量都在皮上，而不在瓤里。如果恒定數(shù)量的示例在高維超立方體中均勻分布，那么超出某個(gè)維度后，大多數(shù)示例將更接近于超立方體的一個(gè)面。如果我們?cè)诔⒎襟w內(nèi)內(nèi)接一個(gè)超球面，那么在高維度下，超立方體的幾乎所有質(zhì)量都將分布在超球面之外。這對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)是個(gè)壞消息，因?yàn)闄C(jī)器學(xué)習(xí)經(jīng)常用一種類(lèi)型的形狀來(lái)近似另一種類(lèi)型的形狀。

在二維或三維空間內(nèi)建立分類(lèi)器是很容易的;我們可以通過(guò)肉眼觀察找出不同類(lèi)別的示例之間合理的分界線(xiàn)。但是在高維度空間中我們很難理解正在發(fā)生什么。反過(guò)來(lái)說(shuō)這讓設(shè)計(jì)一個(gè)好的分類(lèi)器變得很難。人們可能會(huì)天真的認(rèn)為收集更多的特征并不會(huì)有什么害處，因?yàn)樵谧顗牡那闆r下，它們也只不過(guò)不提供關(guān)于類(lèi)別的新信息而已，但在實(shí)際情況下，這樣做的好處可能遠(yuǎn)小于維度災(zāi)難所帶來(lái)的問(wèn)題。

6.理論擔(dān)保與實(shí)際看上去并不一樣

機(jī)器學(xué)習(xí)論文中充滿(mǎn)了理論的擔(dān)保。最常見(jiàn)的類(lèi)型是可以確保良好泛化所需要的示例數(shù)據(jù)的界限。你應(yīng)該如何理解這些擔(dān)保呢？首先，需要注意它們是否可行。歸納傳統(tǒng)上與演繹是相反的：在演繹中你可以保證結(jié)論是正確的;在歸納中這些都不好說(shuō)?；蛘哒f(shuō)這是許多世紀(jì)以來(lái)留下的傳統(tǒng)觀點(diǎn)。近幾十年來(lái)的一個(gè)顯著的提升是，我們認(rèn)識(shí)到在實(shí)際情況中我們可以對(duì)歸納的結(jié)果的正確性有所保證，特別是如果我們?cè)敢饨邮芨怕蕮?dān)保。

我們必須小心邊界所包含的意義。例如，邊界并不意味著，如果你的學(xué)習(xí)器返回了一個(gè)與特定訓(xùn)練集上相一致的假設(shè)，那么這個(gè)假設(shè)可能泛化的很好。邊界的意思是，給定一個(gè)足夠大的訓(xùn)練集，很有可能你的學(xué)習(xí)器要么可以返回一個(gè)泛化良好的假設(shè)，要么無(wú)法找到一個(gè)保持正確的假設(shè)。這個(gè)邊界也無(wú)法告訴我們?nèi)绾稳ミx擇一個(gè)好的假設(shè)空間。它只告訴我們，如果假設(shè)空間包含了真實(shí)的分類(lèi)器，那么學(xué)習(xí)器輸出一個(gè)不好的分類(lèi)器的概率會(huì)隨著訓(xùn)練數(shù)據(jù)的增加而減少。如果我們縮小假設(shè)空間，邊界就會(huì)有所改善，但是假設(shè)空間包含真實(shí)分類(lèi)器的幾率也會(huì)降低。

另一種常用的理論擔(dān)保是漸近：給定無(wú)限的數(shù)據(jù)，可以保證學(xué)習(xí)器輸出正確的分類(lèi)器。這個(gè)保證讓人欣慰，但僅僅因?yàn)闈u進(jìn)的保證而確定一個(gè)學(xué)習(xí)器是十分草率的。在實(shí)踐中，我們很少處于漸近狀態(tài)。而且，由于上文討論的偏差 - 方差的權(quán)衡，在無(wú)限數(shù)據(jù)下，如果學(xué)習(xí)器A比學(xué)習(xí)器B表現(xiàn)好，則在有限數(shù)據(jù)中，學(xué)習(xí)器B往往比學(xué)習(xí)器A表現(xiàn)的要好。

機(jī)器學(xué)習(xí)中理論保證的主要作用不是作為實(shí)踐中決策的標(biāo)準(zhǔn)，而是在算法設(shè)計(jì)中作為理解和驅(qū)動(dòng)的來(lái)源。在這方面，他們是相當(dāng)有用的;事實(shí)上，理論與實(shí)踐的密切配合是機(jī)器學(xué)習(xí)多年來(lái)取得如此巨大進(jìn)步的主要原因之一。但要注意：學(xué)習(xí)是一個(gè)復(fù)雜的現(xiàn)象，因?yàn)閷W(xué)習(xí)器既有理論證實(shí)，并且可實(shí)際應(yīng)用，但這并不意味著前者是后者的依據(jù)。

7.特征工程是關(guān)鍵

在一天結(jié)束時(shí)，總有一些機(jī)器學(xué)習(xí)項(xiàng)目會(huì)成功，而一些會(huì)失敗。是什么造成了它們之間的差異？顯然最重要的影響因素是特征的使用。如果你有許多獨(dú)立的特征，這些特征類(lèi)別都有很好的關(guān)聯(lián)，那么學(xué)習(xí)起來(lái)就很容易。另一方面，如果這個(gè)類(lèi)別與特征的關(guān)系十分復(fù)雜，那么你可能就無(wú)法學(xué)習(xí)它。通常情況下，原始數(shù)據(jù)不可直接用來(lái)學(xué)習(xí)，但是可以從中構(gòu)建特征。這通常是機(jī)器學(xué)習(xí)項(xiàng)目中主要工作所在。它往往也是機(jī)器學(xué)習(xí)中最有趣的一部分，直覺(jué)，創(chuàng)造力和“black art”與技術(shù)一樣重要。

初學(xué)者常常驚訝于機(jī)器學(xué)習(xí)項(xiàng)目中真正用于學(xué)習(xí)的時(shí)間太少。但是，如果你考慮了在數(shù)據(jù)收集，整合，清理和預(yù)處理上所花費(fèi)的時(shí)間，以及在特征設(shè)計(jì)中進(jìn)行的無(wú)數(shù)次試驗(yàn)與失敗，這些就都說(shuō)得通了。另外，機(jī)器學(xué)習(xí)不是建立數(shù)據(jù)集和運(yùn)行學(xué)習(xí)器的一個(gè)一次性過(guò)程，而是一個(gè)運(yùn)行學(xué)習(xí)器，分析結(jié)果，修改數(shù)據(jù)和/或?qū)W習(xí)器等不斷重復(fù)，反復(fù)迭代過(guò)程。真正的學(xué)習(xí)通常是這些內(nèi)容中最快的一部分，這是因?yàn)槲覀円呀?jīng)非常精通它了！特征工程更加困難，因?yàn)樗且粋€(gè)特定領(lǐng)域的，而學(xué)習(xí)器在很大程度上是通用的。但是，這兩者之間沒(méi)有明確的界限，這也是最有用的學(xué)習(xí)器往往是那些可以促進(jìn)知識(shí)整合的學(xué)習(xí)器的另一個(gè)原因。

8.更多的數(shù)據(jù)勝過(guò)更聰明的算法

在大多數(shù)計(jì)算機(jī)科學(xué)中，有兩種主要資源是有限的：時(shí)間和內(nèi)存。在機(jī)器學(xué)習(xí)中，還有第三種：訓(xùn)練數(shù)據(jù)。其中哪一個(gè)資源會(huì)成為瓶頸是隨著時(shí)間而改變的。在八十年代，瓶頸往往是數(shù)據(jù)。當(dāng)今通常是時(shí)間。現(xiàn)在大量的可用數(shù)據(jù)，但并沒(méi)有足夠的時(shí)間來(lái)處理它們，所以這些數(shù)據(jù)常常被棄用。這就造成了一個(gè)悖論：即使原則上更多的數(shù)據(jù)意味著我們可以學(xué)習(xí)更復(fù)雜的分類(lèi)器，而實(shí)際上我們通常會(huì)使用簡(jiǎn)單的分類(lèi)器，因?yàn)閺?fù)雜的分類(lèi)器需要很長(zhǎng)的時(shí)間去學(xué)習(xí)。

使用更聰明的算法取得的回報(bào)要比你預(yù)期的更少，一部分原因是，機(jī)器學(xué)習(xí)的工作機(jī)制都十分的相似。這個(gè)結(jié)論也許令你十分吃驚，特別是當(dāng)你考慮到規(guī)則集和神經(jīng)網(wǎng)絡(luò)的表示方法差異是很明顯時(shí)。但事實(shí)上，命題規(guī)則可以很容易被編碼為神經(jīng)網(wǎng)絡(luò)，并且其他表示之間也存在類(lèi)似的關(guān)系。所有學(xué)習(xí)器本質(zhì)上都是通過(guò)將附近的示例分到同一類(lèi)內(nèi)來(lái)工作；關(guān)鍵的區(qū)別在于對(duì)“附近”的定義。對(duì)于非均勻分布的數(shù)據(jù)，不同的學(xué)習(xí)器可以產(chǎn)生廣泛不同的邊界，同時(shí)在重要領(lǐng)域（即具有大量訓(xùn)練示例，并且測(cè)試示例也有很大概率出現(xiàn)的領(lǐng)域）仍能做出相同的預(yù)測(cè)。這也有助于解釋為什么強(qiáng)大的學(xué)習(xí)器雖然不穩(wěn)定，但仍然準(zhǔn)確。

通常，首先嘗試最簡(jiǎn)單的學(xué)習(xí)器是值得的（例如，在邏輯回歸之前先嘗試樸素貝葉斯，在支持向量機(jī)之前先嘗試近鄰）。更復(fù)雜的學(xué)習(xí)器固然誘人，但他們通常來(lái)說(shuō)更難使用，因?yàn)樗鼈冃枰{(diào)節(jié)更多的參數(shù)才能獲得好的結(jié)果，并且他們的內(nèi)部機(jī)制更不透明）。
學(xué)習(xí)器可以分為兩大類(lèi)：一類(lèi)的表示具有固定大小的，比如線(xiàn)性分類(lèi)器，另一類(lèi)的表示可以隨著數(shù)據(jù)一起增長(zhǎng)，如決策樹(shù)。固定大小的學(xué)習(xí)器只能利用有限的數(shù)據(jù)。原則上可變大小的學(xué)習(xí)器可以利用給定的充足數(shù)據(jù)學(xué)習(xí)任何函數(shù)，但實(shí)際上由于算法和計(jì)算成本的限制，這些通常是無(wú)法做到的。而且，由于維度災(zāi)難，不存在會(huì)被認(rèn)為充足的數(shù)據(jù)量。正是因?yàn)檫@些原因，只要你愿意付出努力，聰明的算法（那些充分利用數(shù)據(jù)和計(jì)算資源的算法）往往最終會(huì)得到回報(bào)。設(shè)計(jì)學(xué)習(xí)器和學(xué)習(xí)分類(lèi)器之間沒(méi)有明確的界限;相反，任何給定的知識(shí)都可以在學(xué)習(xí)器中編碼或從數(shù)據(jù)中學(xué)習(xí)。所以機(jī)器學(xué)習(xí)項(xiàng)目往往會(huì)有學(xué)習(xí)器設(shè)計(jì)這一重要組成部分，機(jī)器學(xué)習(xí)實(shí)踐者需要在這方面具備一定的專(zhuān)業(yè)知識(shí)。

9.要學(xué)習(xí)許多模型，不僅僅是一個(gè)

在機(jī)器學(xué)習(xí)的早期，每個(gè)人都有自己喜歡的學(xué)習(xí)器，并有一些先入為主的觀念堅(jiān)信它的優(yōu)越性。人們付出大量的努力去嘗試它的多種變化，并選擇其中最好的一個(gè)。之后，通過(guò)系統(tǒng)的實(shí)踐比較表明，最好的學(xué)習(xí)器是隨著應(yīng)用的改變而有所不同的，因此包含許多不同學(xué)習(xí)器的系統(tǒng)開(kāi)始出現(xiàn)?，F(xiàn)在，努力嘗試許多學(xué)習(xí)器的不同變化，仍然是為了選擇最好的那一個(gè)。但隨后研究人員注意到，如果不是只選最好的那一個(gè)，而是將多種情況進(jìn)行結(jié)合，結(jié)果會(huì)更好——通常要好得多——而且對(duì)用戶(hù)來(lái)說(shuō)幾乎不需花費(fèi)額外的努力。

現(xiàn)在創(chuàng)建這樣的模型集成已經(jīng)實(shí)現(xiàn)標(biāo)準(zhǔn)化。最簡(jiǎn)單的集成技術(shù)稱(chēng)為bagging，我們通過(guò)重采樣簡(jiǎn)單地隨機(jī)生成不同的訓(xùn)練集，每個(gè)集合上分別學(xué)習(xí)一個(gè)分類(lèi)器，并通過(guò)投票的方式將結(jié)果進(jìn)行合并。這是有效的，因?yàn)樗蟠蠼档土朔讲睿皇巧晕⒃黾恿似?。在boosting方法中，每個(gè)訓(xùn)練樣本都有權(quán)重，而且這些都是不同的，以至于每個(gè)新的分類(lèi)器都集中在前面那些往往會(huì)出錯(cuò)的例子上。在stacking方法中，單個(gè)分類(lèi)器的輸出會(huì)成為“高級(jí)”學(xué)習(xí)器的輸入，這個(gè)學(xué)習(xí)器可以計(jì)算出如何最好地組合這些來(lái)自“低層”的輸出。
還存在許多其他技術(shù)，現(xiàn)在的趨勢(shì)是越來(lái)越大的集成。在Netflix大獎(jiǎng)中，來(lái)自世界各地的團(tuán)隊(duì)爭(zhēng)相構(gòu)建最佳視頻推薦系統(tǒng)。隨著比賽的進(jìn)行，團(tuán)隊(duì)們發(fā)現(xiàn)通過(guò)將他們的學(xué)習(xí)器與其他團(tuán)隊(duì)的學(xué)習(xí)器進(jìn)行合并，會(huì)取得了最好的結(jié)果，并且可以合并為越來(lái)越大的團(tuán)隊(duì)。冠軍和亞軍都合并超過(guò)了100個(gè)學(xué)習(xí)器，并且這兩者集成后又進(jìn)一步提升了效果。毫無(wú)疑問(wèn)，我們將來(lái)會(huì)看到更大的集成學(xué)習(xí)器。

10.簡(jiǎn)單并不意味著準(zhǔn)確

著名的奧卡姆剃刀原理稱(chēng)，如果沒(méi)有必要就不要增加實(shí)體。在機(jī)器學(xué)習(xí)中，這通常意味著，給定兩個(gè)具有相同訓(xùn)練誤差的分類(lèi)器，兩者中較簡(jiǎn)單的那個(gè)可能具有最低的測(cè)試誤差。有關(guān)這一說(shuō)法的證明在文獻(xiàn)中經(jīng)常出現(xiàn)，但實(shí)際上有很多反例，并且“沒(méi)有免費(fèi)的午餐”定理也暗示它不可能是真實(shí)的。

我們?cè)谇耙还?jié)已經(jīng)看到一個(gè)反例：模型集成。集成模型的泛化誤差會(huì)隨著添加分類(lèi)器而不斷的改進(jìn)。因此，與直覺(jué)相反，一個(gè)模型的參數(shù)的數(shù)量與其過(guò)擬合之間并沒(méi)有必然的聯(lián)系。

相反，一個(gè)更成熟的觀點(diǎn)是將復(fù)雜性等同于假設(shè)空間的大小，基于以下事實(shí)，較小的假設(shè)空間允許由較短的代碼表示。像上面的理?yè)?dān)保證那節(jié)提到的邊界可能被視為在暗示更短的假設(shè)泛化的更好。這還可以通過(guò)給有一些先驗(yàn)偏好空間中的假設(shè)分配更短的代碼做進(jìn)一步改善。但是，如果把這看作準(zhǔn)確性和簡(jiǎn)單性之間權(quán)衡的“證明”，這就是是循環(huán)論證了：我們更喜歡簡(jiǎn)單的假設(shè)，如果它們是準(zhǔn)確的，那是因?yàn)槲覀兊钠檬菧?zhǔn)確的，而并不是因?yàn)檫@些假設(shè)在我們選擇的表述中是“簡(jiǎn)單”。

11.可表示并不意味著可學(xué)習(xí)

本質(zhì)上，用于大小可變的學(xué)習(xí)器的所有表示都具有形式為“每個(gè)函數(shù)都可以被表示，或者以無(wú)限接近的方式近似被表示”的相關(guān)定理。正因如此，某種表示方法的忠實(shí)使用者經(jīng)常忽視所有其他的方法。然而，僅僅因?yàn)橐粋€(gè)函數(shù)可以被表示并不意味著它是可以被學(xué)習(xí)的。例如，標(biāo)準(zhǔn)的決策樹(shù)學(xué)習(xí)器并不能學(xué)習(xí)出比其訓(xùn)練樣本更多的葉子節(jié)點(diǎn)。在連續(xù)空間中，使用一組固定的基元來(lái)表示很簡(jiǎn)單的函數(shù)通常都需要無(wú)限數(shù)量的項(xiàng)來(lái)表示。

而且，如果假設(shè)空間具有許多評(píng)價(jià)函數(shù)的局部最優(yōu)值，那么往往是這樣，學(xué)習(xí)器即使可以表示，也很可能找不到真正的函數(shù)。對(duì)于有限的數(shù)據(jù)，時(shí)間和內(nèi)存，標(biāo)準(zhǔn)學(xué)習(xí)器只能學(xué)習(xí)所有可能函數(shù)的很小一部分子集，這些子集對(duì)于學(xué)習(xí)器來(lái)說(shuō)會(huì)隨著表示方法的不同而改變。因此，關(guān)鍵問(wèn)題不是“它能否被表示”，答案往往是無(wú)關(guān)緊要的，而是“它能否被學(xué)習(xí)？”而且這讓我們?nèi)L試不同的學(xué)習(xí)器（也可能是把它們結(jié)合起來(lái)）是值得的。

12.相關(guān)并不意味著因果

相關(guān)并不意味著因果這一點(diǎn)經(jīng)常被提起，就不值得在這里做過(guò)多地說(shuō)明了。但是，盡管我們所討論的那種學(xué)習(xí)器只能學(xué)習(xí)相關(guān)性，但他們的結(jié)果往往被視為代表因果關(guān)系。這么做是錯(cuò)的嗎？如果是，那么人們?yōu)槭裁炊歼@樣做呢？

往往學(xué)習(xí)預(yù)測(cè)模型的目標(biāo)是用它們作為行動(dòng)的指南。如果我們發(fā)現(xiàn)啤酒和尿布經(jīng)常在超市中被一起購(gòu)買(mǎi)，那么也許把啤酒放在尿布旁邊就會(huì)增加銷(xiāo)量。但除非真正的做實(shí)驗(yàn)，否則很難說(shuō)明這一點(diǎn)。機(jī)器學(xué)習(xí)通常被應(yīng)用在觀測(cè)數(shù)據(jù)上。一些學(xué)習(xí)算法可以潛在地從觀測(cè)數(shù)據(jù)中提取因果信息，但是它們的適用性相當(dāng)有限。另一方面，相關(guān)性是一個(gè)潛在的因果關(guān)系的標(biāo)志，我們可以用它作為進(jìn)一步考察的指導(dǎo)。

結(jié)論

像任何學(xué)科一樣，機(jī)器學(xué)習(xí)有許多“民間智慧”在書(shū)本上很難了解到，但這些知識(shí)對(duì)成功運(yùn)用機(jī)器學(xué)習(xí)來(lái)說(shuō)至關(guān)重要。多明戈斯教授的論文總結(jié)了其中幾條最重要的內(nèi)容。

原文下載鏈接：12條核心知識(shí)帶你了解機(jī)器學(xué)習(xí)

本文由BigQuant《量化研究每周精選》原創(chuàng)推出，版權(quán)歸BigQuant所有，轉(zhuǎn)載請(qǐng)注明出處。

更多精彩文章歡迎前往 BigQuant社區(qū) 查看并參與討論：BigQuant人工智能量化社區(qū)

BigQuant是一個(gè)可拖曳無(wú)需編程的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)量化研究和投資平臺(tái)，完全免費(fèi)，開(kāi)放注冊(cè)。用戶(hù)在這里可以無(wú)門(mén)檻的使用最領(lǐng)先的人工智能技術(shù)，開(kāi)發(fā)出更好的投資策略。

云服務(wù)器 GPU云服務(wù)器機(jī)器學(xué)習(xí)核心機(jī)器學(xué)習(xí)核心技術(shù) 機(jī)器學(xué)習(xí)技術(shù)的核心機(jī)器學(xué)習(xí)的技術(shù)核心

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/41355.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

AndroidTraveler

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

python2.7

閱讀 1424·2023-04-25 23:42
nacos啟動(dòng)遇到的錯(cuò)誤，日志報(bào)錯(cuò)because dumpservice bean construc

閱讀 3132·2021-11-19 09:40
PacificRack舊套餐下架,新套餐首付5折首月2.5美元起

閱讀 3620·2021-10-19 11:44
[1054]Airtest的探索使用

閱讀 3825·2021-10-14 09:42
商城系統(tǒng)的可行性與需求

閱讀 2030·2021-10-13 09:39
如何部署在云主機(jī)-云主機(jī)怎么使用？

閱讀 3955·2021-09-22 15:43
css不常見(jiàn)屬性之pointer-events

閱讀 743·2019-08-30 15:54
動(dòng)手寫(xiě) js 沙箱

閱讀 1527·2019-08-26 13:32

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

【精品】12條核心知識(shí)帶你了解機(jī)器學(xué)習(xí)

相關(guān)文章

分享AI有道干貨 | 126 篇 AI 原創(chuàng)文章精選（ML、DL、資源、教程）

raksmart，圣何塞獨(dú)立服務(wù)器測(cè)評(píng)，帶你了解下這個(gè)服務(wù)器怎么樣

SegmentFault 技術(shù)周刊 Vol.23 - AlphaGo 兩連勝柯潔：“狗” 來(lái)了！

發(fā)表評(píng)論

0條評(píng)論

AndroidTraveler

男|高級(jí)講師

TA的文章

python2.7

nacos啟動(dòng)遇到的錯(cuò)誤，日志報(bào)錯(cuò)because dumpservice bean construc

PacificRack舊套餐下架,新套餐首付5折首月2.5美元起

[1054]Airtest的探索使用

商城系統(tǒng)的可行性與需求

如何部署在云主機(jī)-云主機(jī)怎么使用？

css不常見(jiàn)屬性之pointer-events

動(dòng)手寫(xiě) js 沙箱

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

【精品】12條核心知識(shí)帶你了解機(jī)器學(xué)習(xí)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！