亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

【學(xué)習(xí)摘錄】機(jī)器學(xué)習(xí)特征選擇

lyning / 3046人閱讀

摘要:應(yīng)用過機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)挖掘的同學(xué)應(yīng)該都知道特征選擇對模型表現(xiàn)的重要性。本文基于網(wǎng)上經(jīng)典特征選擇相關(guān)文章整理出干貨常用方法分類以及調(diào)包俠該如何用快速上手,供大家參考。

應(yīng)用過機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)挖掘的同學(xué)應(yīng)該都知道特征選擇對模型表現(xiàn)的重要性。本文基于網(wǎng)上經(jīng)典特征選擇相關(guān)文章整理出干貨:常用方法分類以及調(diào)包俠該如何用sklearn快速上手,供大家參考。 (一)預(yù)處理: 1 無量綱化:
1.1 區(qū)間縮放
from sklearn.preprocessing 
import MinMaxScaler #區(qū)間縮放,返回值為縮放到[0, 1]區(qū)間的數(shù)據(jù)
MinMaxScaler().fit_transform(iris.data)
1.2 標(biāo)準(zhǔn)化(特征值服需從正態(tài)分布)
from sklearn.preprocessing import StandardScaler #標(biāo)準(zhǔn)化,返回值為標(biāo)準(zhǔn)化后的數(shù)據(jù)
StandardScaler().fit_transform(iris.data)
2 特征二值化:定量特征二值化的核心在于設(shè)定一個閾值,大于閾值的賦值為1,小于等于閾值的賦值為0 3 特征啞變量 4 缺失值計算:一般以均值填充 5 數(shù)據(jù)變換:常見的數(shù)據(jù)變換有基于多項式的、基于指數(shù)函數(shù)的、基于對數(shù)函數(shù)的 (二)特征選擇 1 過濾
1.1 基于方差
from sklearn.feature_selection
import VarianceThreshold
#方差選擇法,返回值為特征選擇后的數(shù)據(jù) #參數(shù)threshold為方差的閾值
VarianceThreshold(threshold=3).fit_transform(iris.data)
1.2 相關(guān)系數(shù)
from sklearn.feature_selection 
import SelectKBest
from scipy.stats import pearsonr
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
1.3 卡方檢驗
from sklearn.feature_selection
import SelectKBest
from sklearn.feature_selection import chi2#選擇K個最好的特征,返回選擇特征后的數(shù)據(jù)
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)
1.4 互信息
2 遞歸特征消除:遞歸消除特征法使用一個基模型來進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,消除若干權(quán)值系數(shù)的特征,再基于新的特征集進(jìn)行下一輪訓(xùn)練 3 嵌入法
3.1 基于懲罰項的特征選擇法
3.2 樹模型中GBDT也可用來作為基模型進(jìn)行特征選擇,使用feature_selection庫的SelectFromModel類結(jié)合GBDT模型,來選擇特征的代碼如下:
from sklearn.feature_selection 
import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier  
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)
(四)降維 1 主成分分析
from sklearn.decomposition 
import PCA2 3 #主成分分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為主成分?jǐn)?shù)目 PCA(n_components=2).fit_transform(iris.data)
2 線性判別分析
from sklearn.lda 
import LDA2 3 #線性判別分析法,返回降維后的數(shù)據(jù) #參數(shù)n_components為降維后的維數(shù) LDA(n_components=2).fit_transform(iris.data, iris.target)

參考:

http://note.youdao.com/notesh...(收藏自公眾號數(shù)據(jù)挖掘入門與實戰(zhàn))

https://www.zhihu.com/questio...

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/38502.html

相關(guān)文章

  • arXiv上五篇頂尖深度學(xué)習(xí)論文都講了些什么?

    摘要:自從年深秋,他開始在上撰寫并公開分享他感興趣的機(jī)器學(xué)習(xí)論文。本文選取了上篇閱讀注釋的機(jī)器學(xué)習(xí)論文筆記。希望知名專家注釋的深度學(xué)習(xí)論文能使一些很復(fù)雜的概念更易于理解。主要講述的是奧德賽因為激怒了海神波賽多而招致災(zāi)禍。 Hugo Larochelle博士是一名謝布克大學(xué)機(jī)器學(xué)習(xí)的教授,社交媒體研究科學(xué)家、知名的神經(jīng)網(wǎng)絡(luò)研究人員以及深度學(xué)習(xí)狂熱愛好者。自從2015年深秋,他開始在arXiv上撰寫并...

    WilsonLiu95 評論0 收藏0
  • 原創(chuàng)翻譯 | 10個音頻處理任務(wù)讓你開始使用深度學(xué)習(xí)應(yīng)用

    摘要:這是機(jī)器學(xué)習(xí)課程中的一個典型例子,他把演講者的聲音和背景音樂分開。雖然用于啟動檢測的技術(shù)主要依賴于音頻特征工程和機(jī)器學(xué)習(xí),但在這里可以很容易地使用深度學(xué)習(xí)來優(yōu)化結(jié)果。 介紹 想象一個能理解你想要什么,且當(dāng)你打電話給客戶服務(wù)中心時能理解你的感受的機(jī)器--如果你對某件事感到不高興,你可以很快地和一個人交談。如果您正在尋找特定的信息,您可能不需要與某人交談(除非您愿意!)。 ...

    notebin 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<