機(jī)器學(xué)習(xí) 面試常見(jiàn)問(wèn)題&答案 ②

gself 發(fā)布于2019-06-26 18:44 / 2958人閱讀

摘要：出現(xiàn)方差是正常的，但方差過(guò)高表明模型無(wú)法將其預(yù)測(cè)結(jié)果泛化到從中抽取訓(xùn)練樣本的較大母體。機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線(xiàn)是一種可視化圖形，能根據(jù)一系列訓(xùn)練實(shí)例中的訓(xùn)練和測(cè)試數(shù)據(jù)比較模型的指標(biāo)性能。

欠擬合（通常代表高偏差）

精度

如前所述如果模型具有足夠的數(shù)據(jù)，但因不夠復(fù)雜而無(wú)法捕捉基本關(guān)系，則會(huì)出現(xiàn)偏差。這樣一來(lái)，模型一直會(huì)系統(tǒng)地錯(cuò)誤表示數(shù)據(jù)，從而導(dǎo)致預(yù)測(cè)精度低。這種現(xiàn)象叫做欠擬合（underfitting）。

簡(jiǎn)單來(lái)說(shuō)，如果模型不適當(dāng)，就會(huì)出現(xiàn)偏差。舉個(gè)例子：如果對(duì)象是按顏色和形狀分類(lèi)的，但模型只能按顏色來(lái)區(qū)分對(duì)象和將對(duì)象分類(lèi)（模型過(guò)度簡(jiǎn)化），因而一直會(huì)錯(cuò)誤地分類(lèi)對(duì)象。

或者，我們可能有本質(zhì)上是多項(xiàng)式的連續(xù)數(shù)據(jù)，但模型只能表示線(xiàn)性關(guān)系。在此情況下，我們向模型提供多少數(shù)據(jù)并不重要，因?yàn)槟Ｐ透緹o(wú)法表示其中的基本關(guān)系，我們需要更復(fù)雜的模型。

過(guò)擬合（通常代表高方差）

過(guò)擬合又可以稱(chēng)之為維度災(zāi)難。

機(jī)器學(xué)習(xí)中的維度災(zāi)難 -
紅色石頭的專(zhuān)欄 - CSDN博客 https://blog.csdn.net/red_stone1/article/details/71692444

過(guò)少的數(shù)據(jù)樣本與有效特征，過(guò)高的維度，會(huì)導(dǎo)致模型學(xué)到噪聲和不必要的無(wú)效特征，這個(gè)概念叫做過(guò)擬合，是維度災(zāi)難的一個(gè)直接后果。

在訓(xùn)練模型時(shí)，通常使用來(lái)自較大母體（訓(xùn)練集）的有限數(shù)量樣本。如果利用選擇的數(shù)據(jù)子集反復(fù)訓(xùn)練模型，可以預(yù)料它的預(yù)測(cè)結(jié)果會(huì)因提供給它的具體樣本而異。在這里，方差（variance）用來(lái)測(cè)量預(yù)測(cè)結(jié)果對(duì)于任何給定的測(cè)試樣本會(huì)出現(xiàn)多大的變化。

出現(xiàn)方差是正常的，但方差過(guò)高表明模型無(wú)法將其預(yù)測(cè)結(jié)果泛化到從中抽取訓(xùn)練樣本的較大母體。對(duì)訓(xùn)練集高度敏感也稱(chēng)為過(guò)擬合（overfitting），而且通常出現(xiàn)在模型過(guò)于復(fù)雜或我們沒(méi)有足夠的數(shù)據(jù)支持它時(shí)。

通常，可以利用更多數(shù)據(jù)進(jìn)行訓(xùn)練，以降低模型預(yù)測(cè)結(jié)果的方差并提高精度。

如何改進(jìn)模型的有效性

我們可以看到，在給定一組固定數(shù)據(jù)時(shí)，模型不能過(guò)于簡(jiǎn)單或復(fù)雜。如果過(guò)于簡(jiǎn)單，模型無(wú)法了解數(shù)據(jù)并會(huì)錯(cuò)誤地表示數(shù)據(jù)。但是，如果建立非常復(fù)雜的模型，則需要更多數(shù)據(jù)才能了解基本關(guān)系，否則十分常見(jiàn)的是，模型會(huì)推斷出在數(shù)據(jù)中實(shí)際上并不存在的關(guān)系。

關(guān)鍵在于，通過(guò)找出正確的模型復(fù)雜度來(lái)找到最大限度降低偏差和方差的最有效點(diǎn)。當(dāng)然，數(shù)據(jù)越多，模型隨著時(shí)間推移會(huì)變得越好。 ?

要詳細(xì)了解偏差和方差，建議閱讀 Scott Fortmann-Roe
撰寫(xiě)的這篇文章。http://scott.fortmann-roe.com...

除了選定用來(lái)訓(xùn)練模型的數(shù)據(jù)子集外，您使用的哪些來(lái)自給定數(shù)據(jù)集的特征也會(huì)顯著影響模型的偏差和方差。

聊一下模型訓(xùn)練過(guò)程中的學(xué)習(xí)曲線(xiàn)

我們根據(jù)模型通過(guò)可視化圖形從數(shù)據(jù)中學(xué)習(xí)的能力來(lái)探討偏差與方差之間的關(guān)系。機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線(xiàn)是一種可視化圖形，能根據(jù)一系列訓(xùn)練實(shí)例中的訓(xùn)練和測(cè)試數(shù)據(jù)比較模型的指標(biāo)性能。在查看數(shù)據(jù)與誤差之間的關(guān)系時(shí)，我們通常會(huì)看到，隨著訓(xùn)練點(diǎn)數(shù)量的增加，誤差會(huì)趨于下降。由于我們嘗試構(gòu)建從經(jīng)驗(yàn)中學(xué)習(xí)的模型，因此這很有意義。我們將訓(xùn)練集和測(cè)試集分隔開(kāi)，以便更好地了解能否將模型泛化到未見(jiàn)過(guò)的數(shù)據(jù)而不是擬合到剛見(jiàn)過(guò)的數(shù)據(jù)。在學(xué)習(xí)曲線(xiàn)中，當(dāng)訓(xùn)練曲線(xiàn)和測(cè)試曲線(xiàn)均達(dá)到穩(wěn)定階段，并且兩者之間的差距不再變化時(shí)，則可以確認(rèn)模型已盡其所能地了解數(shù)據(jù)。

偏差

在訓(xùn)練誤差和測(cè)試誤差收斂并且相當(dāng)高時(shí)，這實(shí)質(zhì)上表示模型具有偏差。無(wú)論我們向其提供多少數(shù)據(jù)，模型都無(wú)法表示基本關(guān)系，因而出現(xiàn)系統(tǒng)性的高誤差。

方差

如果訓(xùn)練誤差與測(cè)試誤差之間的差距很大，這實(shí)質(zhì)上表示模型具有高方差。與偏差模型不同的是，如果有更多可供學(xué)習(xí)的數(shù)據(jù)，或者能簡(jiǎn)化表示數(shù)據(jù)的最重要特征的模型，則通常可以改進(jìn)具有方差的模型。

理想的學(xué)習(xí)曲線(xiàn)

模型的最終目標(biāo)是，誤差小并能很好地泛化到未見(jiàn)過(guò)的數(shù)據(jù)（測(cè)試數(shù)據(jù)）。如果測(cè)試曲線(xiàn)和訓(xùn)練曲線(xiàn)均收斂，并且誤差極低，就能看到這種模型。這種模型能根據(jù)未見(jiàn)過(guò)的數(shù)據(jù)非常準(zhǔn)確地進(jìn)行預(yù)測(cè)。

說(shuō)一下你理解的信息增益(Information gain)

熵：表示變量的不確定性。

條件熵：在一個(gè)條件下，變量的不確定性。

信息增益：熵 - 條件熵

在一個(gè)條件下，信息不確定性減少的程度！

例子：原來(lái)明天下雨例如信息熵是2，條件熵是0.01（因?yàn)槿绻顷幪炀拖掠甑母怕屎艽?，信息就少了），這樣相減后為1.99，在獲得陰天這個(gè)信息后，下雨信息不確定性減少了1.99！是很多的！所以信息增益大！也就是說(shuō)，陰天這個(gè)信息對(duì)下雨來(lái)說(shuō)是很重要的！

所以在特征選擇的時(shí)候常常用信息增益，如果IG（信息增益大）的話(huà)那么這個(gè)特征對(duì)于分類(lèi)來(lái)說(shuō)很關(guān)鍵~~

決策樹(shù)就是這樣來(lái)找特征的。

說(shuō)一下分類(lèi)和回歸的區(qū)別？

兩者追到本質(zhì)是一樣。

分類(lèi)模型和回歸模型本質(zhì)一樣，分類(lèi)模型可將回歸模型的輸出離散化，回歸模型也可將分類(lèi)模型的輸出連續(xù)化，舉幾個(gè)例子:

Logistic Regression 和 Linear Regression：

Linear Regression：輸出一個(gè)標(biāo)量
wx+b，這個(gè)值是連續(xù)值，所以可以用來(lái)處理回歸問(wèn)題

Logistic Regression：把上面的 wx+b 通過(guò) sigmoid
函數(shù)映射到(0,1)上，并劃分一個(gè)閾值，大于閾值的分為一類(lèi)，小于等于分為另一類(lèi)，可以用來(lái)處理二分類(lèi)問(wèn)題

更進(jìn)一步：對(duì)于N分類(lèi)問(wèn)題，則是先得到N組w值不同的
wx+b，然后歸一化，比如用 softmax
函數(shù)，最后變成N個(gè)類(lèi)上的概率，可以處理多分類(lèi)問(wèn)題

Support Vector Regression 和 Support Vector Machine:

SVR：輸出
wx+b，即某個(gè)樣本點(diǎn)到分類(lèi)面的距離，是連續(xù)值，所以是回歸模型

SVM：把這個(gè)距離用 sign(·)
函數(shù)作用，距離為正(在超平面一側(cè))的樣本點(diǎn)是一類(lèi)，為負(fù)的是另一類(lèi)，所以是分類(lèi)模型

Naive Bayes?用于分類(lèi) 和回歸:

用于分類(lèi)：y是離散的類(lèi)別，所以得到離散的 p(y|x)，給定 x
，輸出每個(gè)類(lèi)上的概率

用于回歸：對(duì)上面離散的 p(y|x)求期望
ΣyP(y|x)，就得到連續(xù)值。但因?yàn)榇藭r(shí)y本身是連續(xù)的值，所以最地道的做法是，得到連續(xù)的概率密度函數(shù)p(y|x)，然后再對(duì)y求期望。參考?http://www.cs.waikato.ac.nz/~eibe/pubs/nbr.pdf

前饋神經(jīng)網(wǎng)絡(luò)(如 CNN 系列)?用于分類(lèi) 和回歸:

用于回歸：最后一層有m個(gè)神經(jīng)元，每個(gè)神經(jīng)元輸出一個(gè)標(biāo)量，m個(gè)神經(jīng)元的輸出可以看做向量
v，現(xiàn)全部連到一個(gè)神經(jīng)元上，則這個(gè)神經(jīng)元輸出
wv+b，是一個(gè)連續(xù)值，可以處理回歸問(wèn)題，跟上面 Linear Regression
思想一樣

用于N分類(lèi)：現(xiàn)在這m個(gè)神經(jīng)元最后連接到 N 個(gè)神經(jīng)元，就有 N
組w值不同的 wv+b，同理可以歸一化（比如用 softmax ）變成
N個(gè)類(lèi)上的概率（補(bǔ)充一下，如果不用 softmax，而是每個(gè) wx+b
用一個(gè)
sigmoid，就變成多標(biāo)簽問(wèn)題，跟多分類(lèi)的區(qū)別在于，樣本可以被打上多個(gè)標(biāo)簽）

循環(huán)神經(jīng)網(wǎng)絡(luò)(如 RNN 系列)?用于分類(lèi) 和回歸：

用于回歸和分類(lèi)：跟 CNN 類(lèi)似，輸出層的值 y =
wv+b，可做分類(lèi)可做回歸，只不過(guò)區(qū)別在于，RNN
的輸出跟時(shí)間有關(guān)，即輸出的是 {y(t),
y(t+1),...}序列（關(guān)于時(shí)間序列，見(jiàn)下面的更新）

上面的例子其實(shí)都是從 prediction 的角度舉例的，如果從 training 角度來(lái)看，分類(lèi)模型和回歸模型的目標(biāo)函數(shù)不同，分類(lèi)常見(jiàn)的是 log loss,hinge loss, 而回歸是 square loss

?
?
??
?

如文章你已看懂，點(diǎn)個(gè)「喜歡」即可。
如若錯(cuò)誤以及不清晰的地方，隨時(shí)提出。
歡迎掃一掃上面二維碼加入我的個(gè)人微信號(hào)進(jìn)行技術(shù)交流。
?
?
?
?

GPU云服務(wù)器云服務(wù)器常見(jiàn)機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)常見(jiàn)算法大數(shù)據(jù)面試題及答案 java面試題及答案

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/19897.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

gself

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow2.9.1

閱讀 3558·2023-04-26 00:39
Kali Linux安全測(cè)試（177講全）安全牛苑房宏

閱讀 4785·2021-09-22 10:02
CloudCone：美國(guó)洛杉磯CN2 GIA服務(wù)器/E3-1220/16G/1 TB HDD/15

閱讀 2610·2021-08-09 13:46
jQuery 實(shí)現(xiàn)一個(gè)文章閱讀進(jìn)度條功能

閱讀 1175·2019-08-29 18:40
淘寶css初始化代碼

閱讀 1496·2019-08-29 18:33
深入理解盒模型與BFC

閱讀 825·2019-08-29 17:14
Hybird-App離線(xiàn)緩存系統(tǒng)

閱讀 1569·2019-08-29 12:40
文字垂直居中

閱讀 3088·2019-08-28 18:07

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

機(jī)器學(xué)習(xí) 面試常見(jiàn)問(wèn)題&答案 ②

相關(guān)文章

機(jī)器學(xué)習(xí) 面試常見(jiàn)問(wèn)題&答案 ①

發(fā)表評(píng)論

0條評(píng)論

gself

男|高級(jí)講師

TA的文章

tensorflow2.9.1

Kali Linux安全測(cè)試（177講全）安全牛苑房宏

CloudCone：美國(guó)洛杉磯CN2 GIA服務(wù)器/E3-1220/16G/1 TB HDD/15

jQuery 實(shí)現(xiàn)一個(gè)文章閱讀進(jìn)度條功能

淘寶css初始化代碼

深入理解盒模型與BFC

Hybird-App離線(xiàn)緩存系統(tǒng)

文字垂直居中

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

機(jī)器學(xué)習(xí) 面試常見(jiàn)問(wèn)題&答案 ②

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！