亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

【精品】12條核心知識(shí)帶你了解機(jī)器學(xué)習(xí)

AndroidTraveler / 1670人閱讀

摘要:機(jī)器學(xué)習(xí)初學(xué)者中最常見(jiàn)的錯(cuò)誤就是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試并自以為大獲成功。綜上來(lái)看,機(jī)器學(xué)習(xí)需要知識(shí)這點(diǎn)并不奇怪。機(jī)器學(xué)習(xí)更像是種田,讓大自然完成大部分的工作。這個(gè)問(wèn)題被稱(chēng)為過(guò)擬合,是機(jī)器學(xué)習(xí)中的難題。

機(jī)器學(xué)習(xí)算法可以通過(guò)學(xué)習(xí)就可以弄清楚如何去執(zhí)行一些重要的任務(wù)。在手動(dòng)編程不可行的情況下,這種方法通常既可行又經(jīng)濟(jì)有效。隨著可獲取的數(shù)據(jù)在逐步增多,越來(lái)越多更加復(fù)雜的問(wèn)題可以用機(jī)器學(xué)習(xí)來(lái)解決。事實(shí)上,機(jī)器學(xué)習(xí)已經(jīng)被廣泛的運(yùn)用到計(jì)算機(jī)以及一些其他領(lǐng)域。然而,開(kāi)發(fā)出成功的機(jī)器學(xué)習(xí)應(yīng)用需要大量的“black art”,這些內(nèi)容是很難在教科書(shū)中找到的。

我最近讀了華盛頓大學(xué)的Pedro Domingos教授的一篇十分驚艷的技術(shù)論文,題是“A Few Useful Things to Know about Machine Learning”。 它總結(jié)了機(jī)器學(xué)習(xí)研究人員和實(shí)踐者所學(xué)到的12個(gè)關(guān)鍵的經(jīng)驗(yàn)及教訓(xùn),包括要避免的陷阱,需要關(guān)注的重點(diǎn)問(wèn)題以及常見(jiàn)問(wèn)題的答案。我想在本文中分享這些十分寶貴的經(jīng)驗(yàn)教訓(xùn),因?yàn)楫?dāng)你思考解決下一個(gè)機(jī)器學(xué)習(xí)問(wèn)題時(shí),這些經(jīng)驗(yàn)會(huì)對(duì)你十分有用。

1.學(xué)習(xí) = 表示 + 評(píng)估 + 優(yōu)化

所有的機(jī)器學(xué)習(xí)算法通常由3個(gè)部分組成:

表示:分類(lèi)器必須用計(jì)算機(jī)能處理的某種形式語(yǔ)言來(lái)表示。 反過(guò)來(lái)講,為學(xué)習(xí)器選擇一種表示就等于選擇它可能學(xué)習(xí)的一組分類(lèi)器集合。這個(gè)集合被稱(chēng)為學(xué)習(xí)器的假設(shè)空間。如果某個(gè)分類(lèi)器不在假設(shè)空間中,那么就不能被學(xué)習(xí)到。與此相關(guān)的一個(gè)問(wèn)題是如何表示輸入,也就是說(shuō)要用哪些特征,本文稍后介紹。

評(píng)估:需要一個(gè)評(píng)估函數(shù)來(lái)區(qū)分好的分類(lèi)器和壞的分類(lèi)器。機(jī)器學(xué)習(xí)算法內(nèi)部使用的評(píng)估函數(shù)可能與我們希望分類(lèi)器優(yōu)化的外部評(píng)估函數(shù)有所不同,為了更好的優(yōu)化,接下來(lái)會(huì)進(jìn)一步討論。

優(yōu)化:最后,我們需要一種方法可以在假設(shè)空間中找到評(píng)價(jià)函數(shù)得分最高的那個(gè)分類(lèi)器。優(yōu)化技術(shù)的選擇對(duì)于學(xué)習(xí)器的效率至關(guān)重要,并且當(dāng)評(píng)估函數(shù)有多個(gè)最優(yōu)值時(shí),優(yōu)化技術(shù)也有助于確定所產(chǎn)生的分類(lèi)器。 初學(xué)者開(kāi)始使用現(xiàn)成的優(yōu)化器是很常見(jiàn)的,之后這些方法會(huì)被定制設(shè)計(jì)的優(yōu)化器所取代。

2.泛化才是關(guān)鍵

機(jī)器學(xué)習(xí)的最終目的是將訓(xùn)練模型應(yīng)用在除訓(xùn)練樣本之外的其他數(shù)據(jù)中。因?yàn)闊o(wú)論我們訓(xùn)練時(shí)有多少數(shù)據(jù),在測(cè)試的時(shí)候我們都不太可能再次遇到與這些訓(xùn)練時(shí)的詳細(xì)數(shù)據(jù)完全相同的情況。在訓(xùn)練集上獲得好的結(jié)果很容易。機(jī)器學(xué)習(xí)初學(xué)者中最常見(jiàn)的錯(cuò)誤就是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試并自以為大獲成功。如果選擇的分類(lèi)器在全新的數(shù)據(jù)上進(jìn)行測(cè)試,它們通常表現(xiàn)的還不如隨機(jī)猜測(cè)所得的結(jié)果好。所以,如果你要雇傭某人來(lái)構(gòu)建分類(lèi)器,一定要保留一些數(shù)據(jù)給你自己,之后再用這些數(shù)據(jù)來(lái)測(cè)試他們給你的分類(lèi)器。反過(guò)來(lái)講,如果你被雇來(lái)構(gòu)建分類(lèi)器,從一開(kāi)始就劃分出一些數(shù)據(jù)用作之后的測(cè)試,在你用全部數(shù)據(jù)進(jìn)行訓(xùn)練并得到您的分類(lèi)器過(guò)后,再用這部分?jǐn)?shù)據(jù)來(lái)測(cè)試你最終選擇的分類(lèi)器。

3.只有數(shù)據(jù)是不夠的

將泛化作為目標(biāo)還有另一個(gè)主要的問(wèn)題:只有數(shù)據(jù)是不夠的,不管你有多少數(shù)據(jù)。

這似乎是個(gè)相當(dāng)令人沮喪的消息。那么我們還怎么希望學(xué)到所有東西呢?幸運(yùn)的是,在現(xiàn)實(shí)世界中我們想學(xué)習(xí)的函數(shù)并不是均勻的來(lái)自所有可能函數(shù)的!事實(shí)上,許多通用的假設(shè)往往會(huì)起很大的作用 ——像平滑性、相似的示例有相似的分類(lèi)、有限的相關(guān)性、或有限的復(fù)雜性等,這也是機(jī)器學(xué)習(xí)會(huì)取得成功的很大一部分原因。與演繹法一樣,歸納法是一種知識(shí)杠桿:將少量的知識(shí)輸入轉(zhuǎn)化成大量的知識(shí)輸出。歸納是一個(gè)比演繹更強(qiáng)大的杠桿,需要更少的知識(shí)輸入來(lái)獲取有用的結(jié)果,但是,它終究還是不能在沒(méi)有知識(shí)輸入的情況下工作。而且,正如杠桿一樣,我們投入的越多,我們可以獲取的知識(shí)就越多。

綜上來(lái)看,機(jī)器學(xué)習(xí)需要知識(shí)這點(diǎn)并不奇怪。機(jī)器學(xué)習(xí)不是魔術(shù), 它并不能做到從無(wú)到有。它可以做到的是從少變多。像所有的工程技術(shù)一樣,編程有很多工作要做:我們必須從抓取開(kāi)始構(gòu)建所有的東西。機(jī)器學(xué)習(xí)更像是種田,讓大自然完成大部分的工作。農(nóng)民將種子與營(yíng)養(yǎng)物質(zhì)結(jié)合起來(lái)種植莊稼。而機(jī)器學(xué)習(xí)則是將知識(shí)與數(shù)據(jù)結(jié)合起來(lái),來(lái)構(gòu)建模型。

4.過(guò)擬合有多張面孔

如果我們的知識(shí)和數(shù)據(jù)不足以完全學(xué)習(xí)出正確的分類(lèi)器怎么辦?那么我們就冒著得到一個(gè)幻想中的分類(lèi)器的風(fēng)險(xiǎn)來(lái)構(gòu)建,這些分類(lèi)器可能與實(shí)際情況相差甚遠(yuǎn),它簡(jiǎn)單的將數(shù)據(jù)中的巧合當(dāng)做了一般情況。這個(gè)問(wèn)題被稱(chēng)為“過(guò)擬合”,是機(jī)器學(xué)習(xí)中的難題。當(dāng)你的學(xué)習(xí)器輸出的分類(lèi)器在訓(xùn)練數(shù)據(jù)上有100%的準(zhǔn)確率,但在測(cè)試數(shù)據(jù)上只有50%的準(zhǔn)確率的時(shí)候,這就是過(guò)擬合。在正常情況下,無(wú)論在訓(xùn)練集還是在測(cè)試集它的準(zhǔn)確率都應(yīng)該為75%。

在機(jī)器學(xué)習(xí)中,每個(gè)人都知道過(guò)擬合,但它有很多形式,有些并不會(huì)馬上顯現(xiàn)出來(lái)。理解過(guò)擬合的一種方法是將泛化誤差分解為偏差和方差。偏差是學(xué)習(xí)器有不斷學(xué)習(xí)同樣錯(cuò)誤的傾向。方差是學(xué)習(xí)器傾向于去學(xué)習(xí)隨機(jī)事物,不考慮真實(shí)信號(hào)是如何。線(xiàn)性學(xué)習(xí)器有很高的偏差,因?yàn)楫?dāng)兩個(gè)類(lèi)的交界不是一個(gè)超平面時(shí),線(xiàn)性學(xué)習(xí)器就無(wú)法進(jìn)行歸納。決策樹(shù)就不存在這個(gè)問(wèn)題,因?yàn)樗鼈兛梢员硎救我獠紶柡瘮?shù),但在另一方面,決策樹(shù)有較大的方差:決策樹(shù)在同一現(xiàn)象產(chǎn)生的不同訓(xùn)練集上學(xué)習(xí),所便顯出的結(jié)果是完全不同的,但理論上它們的結(jié)果應(yīng)該是相同的。

交叉驗(yàn)證有助于減弱過(guò)擬合,例如通過(guò)使用交叉驗(yàn)證來(lái)選擇決策樹(shù)的最佳尺寸來(lái)學(xué)習(xí)。但這不是萬(wàn)能的,因?yàn)槿绻覀兪褂昧诉^(guò)多的參數(shù),那模型本身就已經(jīng)開(kāi)始過(guò)擬合了。

除了交叉驗(yàn)證之外,還有很多方法可以預(yù)防過(guò)擬合的問(wèn)題。最常用的方法就是給評(píng)估函數(shù)添加一個(gè)正則項(xiàng)。這樣做可以懲罰許多較為復(fù)雜的模型,從而有利于產(chǎn)生較為簡(jiǎn)單的模型。另一種方法是在添加新的結(jié)構(gòu)之前,通過(guò)像卡方檢驗(yàn)來(lái)測(cè)試統(tǒng)計(jì)顯著性,以確定加入這種結(jié)構(gòu)是否會(huì)有幫助。當(dāng)數(shù)據(jù)十分稀少時(shí),這些技術(shù)特別有用。盡管如此,你還是應(yīng)該對(duì)存在某種技術(shù)可以“解決”過(guò)擬合問(wèn)題這樣的說(shuō)法持懷疑態(tài)度,這十分容易就會(huì)讓過(guò)擬合變?yōu)榍窋M合。想要同時(shí)避免這兩種情況需訓(xùn)練出一個(gè)完美的分類(lèi)器,根據(jù)天下沒(méi)有免費(fèi)的午餐原理,如果事先并沒(méi)有足夠的知識(shí),不會(huì)有任何一種單一技術(shù)可以一直表現(xiàn)最好。

5.高維度下直覺(jué)失效

在過(guò)擬合之后,機(jī)器學(xué)習(xí)中最大的問(wèn)題就是維度災(zāi)難。 這個(gè)表達(dá)式是由Bellman在1961年提出的,指出了一個(gè)事實(shí):當(dāng)輸入是高維度時(shí),許多在低維度上工作正常的算法效果變得很差。 但是在機(jī)器學(xué)習(xí)領(lǐng)域,維度災(zāi)難這個(gè)詞還有更多的含義。隨著示例數(shù)據(jù)的維數(shù)(特征數(shù)量)的升高,正確地泛化的難度在以指數(shù)增加,因?yàn)楣潭ù笮〉挠?xùn)練集只覆蓋了輸入空間的一小部分。

高維空間中比較普遍的問(wèn)題是我們直覺(jué)失效,我們來(lái)自三維世界的直覺(jué)通常不適用于高維空間。在高維空間中,多元高斯分布的大部分質(zhì)量并不接近平均值,而是在逐漸遠(yuǎn)離均值的一層“殼”上;打個(gè)比方,一個(gè)高維度的橙子的大部分質(zhì)量都在皮上,而不在瓤里。如果恒定數(shù)量的示例在高維超立方體中均勻分布,那么超出某個(gè)維度后,大多數(shù)示例將更接近于超立方體的一個(gè)面。如果我們?cè)诔⒎襟w內(nèi)內(nèi)接一個(gè)超球面,那么在高維度下,超立方體的幾乎所有質(zhì)量都將分布在超球面之外。這對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō)是個(gè)壞消息,因?yàn)闄C(jī)器學(xué)習(xí)經(jīng)常用一種類(lèi)型的形狀來(lái)近似另一種類(lèi)型的形狀。

在二維或三維空間內(nèi)建立分類(lèi)器是很容易的;我們可以通過(guò)肉眼觀察找出不同類(lèi)別的示例之間合理的分界線(xiàn)。但是在高維度空間中我們很難理解正在發(fā)生什么。反過(guò)來(lái)說(shuō)這讓設(shè)計(jì)一個(gè)好的分類(lèi)器變得很難。人們可能會(huì)天真的認(rèn)為收集更多的特征并不會(huì)有什么害處,因?yàn)樵谧顗牡那闆r下,它們也只不過(guò)不提供關(guān)于類(lèi)別的新信息而已,但在實(shí)際情況下,這樣做的好處可能遠(yuǎn)小于維度災(zāi)難所帶來(lái)的問(wèn)題。

6.理論擔(dān)保與實(shí)際看上去并不一樣

機(jī)器學(xué)習(xí)論文中充滿(mǎn)了理論的擔(dān)保。最常見(jiàn)的類(lèi)型是可以確保良好泛化所需要的示例數(shù)據(jù)的界限。你應(yīng)該如何理解這些擔(dān)保呢?首先,需要注意它們是否可行。歸納傳統(tǒng)上與演繹是相反的:在演繹中你可以保證結(jié)論是正確的;在歸納中這些都不好說(shuō)?;蛘哒f(shuō)這是許多世紀(jì)以來(lái)留下的傳統(tǒng)觀點(diǎn)。近幾十年來(lái)的一個(gè)顯著的提升是,我們認(rèn)識(shí)到在實(shí)際情況中我們可以對(duì)歸納的結(jié)果的正確性有所保證,特別是如果我們?cè)敢饨邮芨怕蕮?dān)保。

我們必須小心邊界所包含的意義。例如,邊界并不意味著,如果你的學(xué)習(xí)器返回了一個(gè)與特定訓(xùn)練集上相一致的假設(shè),那么這個(gè)假設(shè)可能泛化的很好。邊界的意思是,給定一個(gè)足夠大的訓(xùn)練集,很有可能你的學(xué)習(xí)器要么可以返回一個(gè)泛化良好的假設(shè),要么無(wú)法找到一個(gè)保持正確的假設(shè)。這個(gè)邊界也無(wú)法告訴我們?nèi)绾稳ミx擇一個(gè)好的假設(shè)空間。它只告訴我們,如果假設(shè)空間包含了真實(shí)的分類(lèi)器,那么學(xué)習(xí)器輸出一個(gè)不好的分類(lèi)器的概率會(huì)隨著訓(xùn)練數(shù)據(jù)的增加而減少。如果我們縮小假設(shè)空間,邊界就會(huì)有所改善,但是假設(shè)空間包含真實(shí)分類(lèi)器的幾率也會(huì)降低。

另一種常用的理論擔(dān)保是漸近:給定無(wú)限的數(shù)據(jù),可以保證學(xué)習(xí)器輸出正確的分類(lèi)器。這個(gè)保證讓人欣慰,但僅僅因?yàn)闈u進(jìn)的保證而確定一個(gè)學(xué)習(xí)器是十分草率的。在實(shí)踐中,我們很少處于漸近狀態(tài)。而且,由于上文討論的偏差 - 方差的權(quán)衡,在無(wú)限數(shù)據(jù)下,如果學(xué)習(xí)器A比學(xué)習(xí)器B表現(xiàn)好,則在有限數(shù)據(jù)中,學(xué)習(xí)器B往往比學(xué)習(xí)器A表現(xiàn)的要好。

機(jī)器學(xué)習(xí)中理論保證的主要作用不是作為實(shí)踐中決策的標(biāo)準(zhǔn),而是在算法設(shè)計(jì)中作為理解和驅(qū)動(dòng)的來(lái)源。在這方面,他們是相當(dāng)有用的;事實(shí)上,理論與實(shí)踐的密切配合是機(jī)器學(xué)習(xí)多年來(lái)取得如此巨大進(jìn)步的主要原因之一。但要注意:學(xué)習(xí)是一個(gè)復(fù)雜的現(xiàn)象,因?yàn)閷W(xué)習(xí)器既有理論證實(shí),并且可實(shí)際應(yīng)用,但這并不意味著前者是后者的依據(jù)。

7.特征工程是關(guān)鍵

在一天結(jié)束時(shí),總有一些機(jī)器學(xué)習(xí)項(xiàng)目會(huì)成功,而一些會(huì)失敗。是什么造成了它們之間的差異?顯然最重要的影響因素是特征的使用。如果你有許多獨(dú)立的特征, 這些特征類(lèi)別都有很好的關(guān)聯(lián),那么學(xué)習(xí)起來(lái)就很容易。另一方面,如果這個(gè)類(lèi)別與特征的關(guān)系十分復(fù)雜,那么你可能就無(wú)法學(xué)習(xí)它。通常情況下,原始數(shù)據(jù)不可直接用來(lái)學(xué)習(xí),但是可以從中構(gòu)建特征。這通常是機(jī)器學(xué)習(xí)項(xiàng)目中主要工作所在。它往往也是機(jī)器學(xué)習(xí)中最有趣的一部分,直覺(jué),創(chuàng)造力和“black art”與技術(shù)一樣重要。

初學(xué)者常常驚訝于機(jī)器學(xué)習(xí)項(xiàng)目中真正用于學(xué)習(xí)的時(shí)間太少。但是,如果你考慮了在數(shù)據(jù)收集,整合,清理和預(yù)處理上所花費(fèi)的時(shí)間,以及在特征設(shè)計(jì)中進(jìn)行的無(wú)數(shù)次試驗(yàn)與失敗,這些就都說(shuō)得通了。另外,機(jī)器學(xué)習(xí)不是建立數(shù)據(jù)集和運(yùn)行學(xué)習(xí)器的一個(gè)一次性過(guò)程,而是一個(gè)運(yùn)行學(xué)習(xí)器,分析結(jié)果,修改數(shù)據(jù)和/或?qū)W習(xí)器等不斷重復(fù),反復(fù)迭代過(guò)程。真正的學(xué)習(xí)通常是這些內(nèi)容中最快的一部分,這是因?yàn)槲覀円呀?jīng)非常精通它了!特征工程更加困難,因?yàn)樗且粋€(gè)特定領(lǐng)域的,而學(xué)習(xí)器在很大程度上是通用的。但是,這兩者之間沒(méi)有明確的界限,這也是最有用的學(xué)習(xí)器往往是那些可以促進(jìn)知識(shí)整合的學(xué)習(xí)器的另一個(gè)原因。

8.更多的數(shù)據(jù)勝過(guò)更聰明的算法

在大多數(shù)計(jì)算機(jī)科學(xué)中,有兩種主要資源是有限的:時(shí)間和內(nèi)存。在機(jī)器學(xué)習(xí)中,還有第三種:訓(xùn)練數(shù)據(jù)。其中哪一個(gè)資源會(huì)成為瓶頸是隨著時(shí)間而改變的。在八十年代,瓶頸往往是數(shù)據(jù)。當(dāng)今通常是時(shí)間。現(xiàn)在大量的可用數(shù)據(jù),但并沒(méi)有足夠的時(shí)間來(lái)處理它們,所以這些數(shù)據(jù)常常被棄用。這就造成了一個(gè)悖論:即使原則上更多的數(shù)據(jù)意味著我們可以學(xué)習(xí)更復(fù)雜的分類(lèi)器,而實(shí)際上我們通常會(huì)使用簡(jiǎn)單的分類(lèi)器,因?yàn)閺?fù)雜的分類(lèi)器需要很長(zhǎng)的時(shí)間去學(xué)習(xí)。

使用更聰明的算法取得的回報(bào)要比你預(yù)期的更少,一部分原因是,機(jī)器學(xué)習(xí)的工作機(jī)制都十分的相似。這個(gè)結(jié)論也許令你十分吃驚,特別是當(dāng)你考慮到規(guī)則集和神經(jīng)網(wǎng)絡(luò)的表示方法差異是很明顯時(shí)。但事實(shí)上,命題規(guī)則可以很容易被編碼為神經(jīng)網(wǎng)絡(luò),并且其他表示之間也存在類(lèi)似的關(guān)系。所有學(xué)習(xí)器本質(zhì)上都是通過(guò)將附近的示例分到同一類(lèi)內(nèi)來(lái)工作;關(guān)鍵的區(qū)別在于對(duì)“附近”的定義。對(duì)于非均勻分布的數(shù)據(jù),不同的學(xué)習(xí)器可以產(chǎn)生廣泛不同的邊界,同時(shí)在重要領(lǐng)域(即具有大量訓(xùn)練示例,并且測(cè)試示例也有很大概率出現(xiàn)的領(lǐng)域)仍能做出相同的預(yù)測(cè)。這也有助于解釋為什么強(qiáng)大的學(xué)習(xí)器雖然不穩(wěn)定,但仍然準(zhǔn)確。

通常,首先嘗試最簡(jiǎn)單的學(xué)習(xí)器是值得的(例如,在邏輯回歸之前先嘗試樸素貝葉斯,在支持向量機(jī)之前先嘗試近鄰)。更復(fù)雜的學(xué)習(xí)器固然誘人,但他們通常來(lái)說(shuō)更難使用,因?yàn)樗鼈冃枰{(diào)節(jié)更多的參數(shù)才能獲得好的結(jié)果,并且他們的內(nèi)部機(jī)制更不透明)。
學(xué)習(xí)器可以分為兩大類(lèi):一類(lèi)的表示具有固定大小的,比如線(xiàn)性分類(lèi)器,另一類(lèi)的表示可以隨著數(shù)據(jù)一起增長(zhǎng),如決策樹(shù)。固定大小的學(xué)習(xí)器只能利用有限的數(shù)據(jù)。原則上可變大小的學(xué)習(xí)器可以利用給定的充足數(shù)據(jù)學(xué)習(xí)任何函數(shù),但實(shí)際上由于算法和計(jì)算成本的限制,這些通常是無(wú)法做到的。而且,由于維度災(zāi)難,不存在會(huì)被認(rèn)為充足的數(shù)據(jù)量。正是因?yàn)檫@些原因,只要你愿意付出努力,聰明的算法(那些充分利用數(shù)據(jù)和計(jì)算資源的算法)往往最終會(huì)得到回報(bào)。設(shè)計(jì)學(xué)習(xí)器和學(xué)習(xí)分類(lèi)器之間沒(méi)有明確的界限;相反,任何給定的知識(shí)都可以在學(xué)習(xí)器中編碼或從數(shù)據(jù)中學(xué)習(xí)。所以機(jī)器學(xué)習(xí)項(xiàng)目往往會(huì)有學(xué)習(xí)器設(shè)計(jì)這一重要組成部分,機(jī)器學(xué)習(xí)實(shí)踐者需要在這方面具備一定的專(zhuān)業(yè)知識(shí)。

9.要學(xué)習(xí)許多模型,不僅僅是一個(gè)

在機(jī)器學(xué)習(xí)的早期,每個(gè)人都有自己喜歡的學(xué)習(xí)器,并有一些先入為主的觀念堅(jiān)信它的優(yōu)越性。人們付出大量的努力去嘗試它的多種變化,并選擇其中最好的一個(gè)。之后,通過(guò)系統(tǒng)的實(shí)踐比較表明,最好的學(xué)習(xí)器是隨著應(yīng)用的改變而有所不同的,因此包含許多不同學(xué)習(xí)器的系統(tǒng)開(kāi)始出現(xiàn)?,F(xiàn)在,努力嘗試許多學(xué)習(xí)器的不同變化,仍然是為了選擇最好的那一個(gè)。但隨后研究人員注意到,如果不是只選最好的那一個(gè),而是將多種情況進(jìn)行結(jié)合,結(jié)果會(huì)更好——通常要好得多——而且對(duì)用戶(hù)來(lái)說(shuō)幾乎不需花費(fèi)額外的努力。

現(xiàn)在創(chuàng)建這樣的模型集成已經(jīng)實(shí)現(xiàn)標(biāo)準(zhǔn)化。最簡(jiǎn)單的集成技術(shù)稱(chēng)為bagging,我們通過(guò)重采樣簡(jiǎn)單地隨機(jī)生成不同的訓(xùn)練集,每個(gè)集合上分別學(xué)習(xí)一個(gè)分類(lèi)器,并通過(guò)投票的方式將結(jié)果進(jìn)行合并。這是有效的,因?yàn)樗蟠蠼档土朔讲睿皇巧晕⒃黾恿似?。在boosting方法中,每個(gè)訓(xùn)練樣本都有權(quán)重,而且這些都是不同的,以至于每個(gè)新的分類(lèi)器都集中在前面那些往往會(huì)出錯(cuò)的例子上。在stacking方法中,單個(gè)分類(lèi)器的輸出會(huì)成為“高級(jí)”學(xué)習(xí)器的輸入,這個(gè)學(xué)習(xí)器可以計(jì)算出如何最好地組合這些來(lái)自“低層”的輸出。
還存在許多其他技術(shù),現(xiàn)在的趨勢(shì)是越來(lái)越大的集成。在Netflix大獎(jiǎng)中,來(lái)自世界各地的團(tuán)隊(duì)爭(zhēng)相構(gòu)建最佳視頻推薦系統(tǒng)。隨著比賽的進(jìn)行,團(tuán)隊(duì)們發(fā)現(xiàn)通過(guò)將他們的學(xué)習(xí)器與其他團(tuán)隊(duì)的學(xué)習(xí)器進(jìn)行合并,會(huì)取得了最好的結(jié)果,并且可以合并為越來(lái)越大的團(tuán)隊(duì)。冠軍和亞軍都合并超過(guò)了100個(gè)學(xué)習(xí)器,并且這兩者集成后又進(jìn)一步提升了效果。毫無(wú)疑問(wèn),我們將來(lái)會(huì)看到更大的集成學(xué)習(xí)器。

10.簡(jiǎn)單并不意味著準(zhǔn)確

著名的奧卡姆剃刀原理稱(chēng),如果沒(méi)有必要就不要增加實(shí)體。在機(jī)器學(xué)習(xí)中,這通常意味著,給定兩個(gè)具有相同訓(xùn)練誤差的分類(lèi)器,兩者中較簡(jiǎn)單的那個(gè)可能具有最低的測(cè)試誤差。有關(guān)這一說(shuō)法的證明在文獻(xiàn)中經(jīng)常出現(xiàn),但實(shí)際上有很多反例,并且“沒(méi)有免費(fèi)的午餐”定理也暗示它不可能是真實(shí)的。

我們?cè)谇耙还?jié)已經(jīng)看到一個(gè)反例:模型集成。集成模型的泛化誤差會(huì)隨著添加分類(lèi)器而不斷的改進(jìn)。因此,與直覺(jué)相反,一個(gè)模型的參數(shù)的數(shù)量與其過(guò)擬合之間并沒(méi)有必然的聯(lián)系。

相反,一個(gè)更成熟的觀點(diǎn)是將復(fù)雜性等同于假設(shè)空間的大小,基于以下事實(shí),較小的假設(shè)空間允許由較短的代碼表示。像上面的理?yè)?dān)保證那節(jié)提到的邊界可能被視為在暗示更短的假設(shè)泛化的更好。這還可以通過(guò)給有一些先驗(yàn)偏好空間中的假設(shè)分配更短的代碼做進(jìn)一步改善。但是,如果把這看作準(zhǔn)確性和簡(jiǎn)單性之間權(quán)衡的“證明”,這就是是循環(huán)論證了:我們更喜歡簡(jiǎn)單的假設(shè),如果它們是準(zhǔn)確的,那是因?yàn)槲覀兊钠檬菧?zhǔn)確的,而并不是因?yàn)檫@些假設(shè)在我們選擇的表述中是“簡(jiǎn)單”。

11.可表示并不意味著可學(xué)習(xí)

本質(zhì)上,用于大小可變的學(xué)習(xí)器的所有表示都具有形式為“每個(gè)函數(shù)都可以被表示,或者以無(wú)限接近的方式近似被表示”的相關(guān)定理。正因如此,某種表示方法的忠實(shí)使用者經(jīng)常忽視所有其他的方法。然而,僅僅因?yàn)橐粋€(gè)函數(shù)可以被表示并不意味著它是可以被學(xué)習(xí)的。例如,標(biāo)準(zhǔn)的決策樹(shù)學(xué)習(xí)器并不能學(xué)習(xí)出比其訓(xùn)練樣本更多的葉子節(jié)點(diǎn)。 在連續(xù)空間中,使用一組固定的基元來(lái)表示很簡(jiǎn)單的函數(shù)通常都需要無(wú)限數(shù)量的項(xiàng)來(lái)表示。

而且,如果假設(shè)空間具有許多評(píng)價(jià)函數(shù)的局部最優(yōu)值,那么往往是這樣,學(xué)習(xí)器即使可以表示,也很可能找不到真正的函數(shù)。對(duì)于有限的數(shù)據(jù),時(shí)間和內(nèi)存,標(biāo)準(zhǔn)學(xué)習(xí)器只能學(xué)習(xí)所有可能函數(shù)的很小一部分子集,這些子集對(duì)于學(xué)習(xí)器來(lái)說(shuō)會(huì)隨著表示方法的不同而改變。 因此,關(guān)鍵問(wèn)題不是“它能否被表示”,答案往往是無(wú)關(guān)緊要的,而是“它能否被學(xué)習(xí)?”而且這讓我們?nèi)L試不同的學(xué)習(xí)器(也可能是把它們結(jié)合起來(lái))是值得的。

12.相關(guān)并不意味著因果

相關(guān)并不意味著因果這一點(diǎn)經(jīng)常被提起,就不值得在這里做過(guò)多地說(shuō)明了。但是,盡管我們所討論的那種學(xué)習(xí)器只能學(xué)習(xí)相關(guān)性,但他們的結(jié)果往往被視為代表因果關(guān)系。這么做是錯(cuò)的嗎?如果是,那么人們?yōu)槭裁炊歼@樣做呢?

往往學(xué)習(xí)預(yù)測(cè)模型的目標(biāo)是用它們作為行動(dòng)的指南。 如果我們發(fā)現(xiàn)啤酒和尿布經(jīng)常在超市中被一起購(gòu)買(mǎi),那么也許把啤酒放在尿布旁邊就會(huì)增加銷(xiāo)量。但除非真正的做實(shí)驗(yàn),否則很難說(shuō)明這一點(diǎn)。機(jī)器學(xué)習(xí)通常被應(yīng)用在觀測(cè)數(shù)據(jù)上。 一些學(xué)習(xí)算法可以潛在地從觀測(cè)數(shù)據(jù)中提取因果信息,但是它們的適用性相當(dāng)有限。另一方面,相關(guān)性是一個(gè)潛在的因果關(guān)系的標(biāo)志,我們可以用它作為進(jìn)一步考察的指導(dǎo)。

結(jié)論

像任何學(xué)科一樣,機(jī)器學(xué)習(xí)有許多“民間智慧”在書(shū)本上很難了解到,但這些知識(shí)對(duì)成功運(yùn)用機(jī)器學(xué)習(xí)來(lái)說(shuō)至關(guān)重要。多明戈斯教授的論文總結(jié)了其中幾條最重要的內(nèi)容。

原文下載鏈接:12條核心知識(shí)帶你了解機(jī)器學(xué)習(xí)


本文由BigQuant《量化研究每周精選》原創(chuàng)推出,版權(quán)歸BigQuant所有,轉(zhuǎn)載請(qǐng)注明出處。

更多精彩文章歡迎前往 BigQuant社區(qū) 查看并參與討論:BigQuant人工智能量化社區(qū)

BigQuant是一個(gè)可拖曳無(wú)需編程的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)量化研究和投資平臺(tái),完全免費(fèi),開(kāi)放注冊(cè)。用戶(hù)在這里可以無(wú)門(mén)檻的使用最領(lǐng)先的人工智能技術(shù),開(kāi)發(fā)出更好的投資策略。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/41355.html

相關(guān)文章

  • 分享AI有道干貨 | 126 篇 AI 原創(chuàng)文章精選(ML、DL、資源、教程)

    摘要:值得一提的是每篇文章都是我用心整理的,編者一貫堅(jiān)持使用通俗形象的語(yǔ)言給我的讀者朋友們講解機(jī)器學(xué)習(xí)深度學(xué)習(xí)的各個(gè)知識(shí)點(diǎn)。今天,紅色石頭特此將以前所有的原創(chuàng)文章整理出來(lái),組成一個(gè)比較合理完整的機(jī)器學(xué)習(xí)深度學(xué)習(xí)的學(xué)習(xí)路線(xiàn)圖,希望能夠幫助到大家。 一年多來(lái),公眾號(hào)【AI有道】已經(jīng)發(fā)布了 140+ 的原創(chuàng)文章了。內(nèi)容涉及林軒田機(jī)器學(xué)習(xí)課程筆記、吳恩達(dá) deeplearning.ai 課程筆記、機(jī)...

    jimhs 評(píng)論0 收藏0
  • raksmart,圣何塞獨(dú)立服務(wù)器測(cè)評(píng),帶你了解下這個(gè)服務(wù)器怎么樣

    摘要:測(cè)評(píng)教程,圣何塞服務(wù)器測(cè)評(píng),洛杉磯服務(wù)器測(cè)評(píng),中國(guó)香港服務(wù)器測(cè)評(píng),韓國(guó)獨(dú)立服務(wù)器測(cè)評(píng),日本獨(dú)立服務(wù)器測(cè)評(píng)云服務(wù)器之精品線(xiàn)路測(cè)評(píng)云服務(wù)器之大陸優(yōu)化線(xiàn)路測(cè)評(píng),云服務(wù)器之線(xiàn)路測(cè)評(píng)raksmart的圣何塞服務(wù)器線(xiàn)路比較豐富,可選大陸優(yōu)化,精品網(wǎng),國(guó)際BGP,cn2這4種線(xiàn)路。默認(rèn)帶10G DDOS,本次測(cè)評(píng)的是大陸優(yōu)化的獨(dú)服,默認(rèn)帶寬是100M,不限流量,感興趣的小伙伴來(lái)圍觀吧, 1、...

    KnewOne 評(píng)論0 收藏0
  • SegmentFault 技術(shù)周刊 Vol.23 - AlphaGo 兩連勝柯潔:“狗” 來(lái)了!

    摘要:的前世今生去年月,橫空出世,戰(zhàn)勝了韓國(guó)棋手李世石,贏下了人機(jī)對(duì)弈的第一戰(zhàn)。當(dāng)然,隨著技術(shù)的不斷發(fā)展,人工智能有望在所有領(lǐng)域完全超越人類(lèi),成為超人類(lèi)智能,為人類(lèi)文明的發(fā)展做出更大的貢獻(xiàn)。 showImg(https://segmentfault.com/img/bVOgwC?w=900&h=385); AlphaGo 的前世今生 去年 3 月,AlphaGo 橫空出世,4:1 戰(zhàn)勝了韓國(guó)...

    anquan 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<