100天搞定機(jī)器學(xué)習(xí)|Day1數(shù)據(jù)預(yù)處理

xeblog 發(fā)布于2019-07-31 11:30 / 2636人閱讀

摘要：導(dǎo)入庫(kù)導(dǎo)入數(shù)據(jù)集這一步的目的是將自變量和因變量拆成一個(gè)矩陣和一個(gè)向量。

數(shù)據(jù)預(yù)處理是機(jī)器學(xué)習(xí)中最基礎(chǔ)也最麻煩的一部分內(nèi)容
在我們把精力撲倒各種算法的推導(dǎo)之前，最應(yīng)該做的就是把數(shù)據(jù)預(yù)處理先搞定
在之后的每個(gè)算法實(shí)現(xiàn)和案例練手過(guò)程中，這一步都必不可少
同學(xué)們也不要嫌麻煩，動(dòng)起手來(lái)吧
基礎(chǔ)比較好的同學(xué)也可以溫故知新，再練習(xí)一下哈

閑言少敘，下面我們六步完成數(shù)據(jù)預(yù)處理
其實(shí)我感覺(jué)這里少了一步：觀察數(shù)據(jù)
此處輸入圖片的描述

這是十組國(guó)籍、年齡、收入、是否已購(gòu)買(mǎi)的數(shù)據(jù)

有分類(lèi)數(shù)據(jù)，有數(shù)值型數(shù)據(jù)，還有一些缺失值

看起來(lái)是一個(gè)分類(lèi)預(yù)測(cè)問(wèn)題

根據(jù)國(guó)籍、年齡、收入來(lái)預(yù)測(cè)是夠會(huì)購(gòu)買(mǎi)

OK，有了大體的認(rèn)識(shí)，開(kāi)始表演。

Step 1：導(dǎo)入庫(kù)

import numpy as np

import pandas as pd

Step 2：導(dǎo)入數(shù)據(jù)集

dataset = pd.read_csv("Data.csv")

X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values
print("X")
print(X)
print("Y")
print(Y)

這一步的目的是將自變量和因變量拆成一個(gè)矩陣和一個(gè)向量。
結(jié)果如下

X
[["France" 44.0 72000.0]
 ["Spain" 27.0 48000.0]
 ["Germany" 30.0 54000.0]
 ["Spain" 38.0 61000.0]
 ["Germany" 40.0 nan]
 ["France" 35.0 58000.0]
 ["Spain" nan 52000.0]
 ["France" 48.0 79000.0]
 ["Germany" 50.0 83000.0]
 ["France" 37.0 67000.0]]
Y
["No" "Yes" "No" "No" "Yes" "Yes" "No" "Yes" "No" "Yes"]

Step 3：處理缺失數(shù)據(jù)

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

Imputer類(lèi)具體用法移步

http://scikit-learn.org/stabl...

本例中我們用的是均值替代法填充缺失值

運(yùn)行結(jié)果如下

Step 3: Handling the missing data
step2
X
[["France" 44.0 72000.0]
 ["Spain" 27.0 48000.0]
 ["Germany" 30.0 54000.0]
 ["Spain" 38.0 61000.0]
 ["Germany" 40.0 63777.77777777778]
 ["France" 35.0 58000.0]
 ["Spain" 38.77777777777778 52000.0]
 ["France" 48.0 79000.0]
 ["Germany" 50.0 83000.0]
 ["France" 37.0 67000.0]]

Step 4：把分類(lèi)數(shù)據(jù)轉(zhuǎn)換為數(shù)字

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)
print("X")
print(X)

print("Y")
print(Y)

LabelEncoder用法請(qǐng)移步

http://scikit-learn.org/stabl...

X
[[1.00000000e+00 0.00000000e+00 0.00000000e+00 4.40000000e+01
  7.20000000e+04]
 [0.00000000e+00 0.00000000e+00 1.00000000e+00 2.70000000e+01
  4.80000000e+04]
 [0.00000000e+00 1.00000000e+00 0.00000000e+00 3.00000000e+01
  5.40000000e+04]
 [0.00000000e+00 0.00000000e+00 1.00000000e+00 3.80000000e+01
  6.10000000e+04]
 [0.00000000e+00 1.00000000e+00 0.00000000e+00 4.00000000e+01
  6.37777778e+04]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 3.50000000e+01
  5.80000000e+04]
 [0.00000000e+00 0.00000000e+00 1.00000000e+00 3.87777778e+01
  5.20000000e+04]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 4.80000000e+01
  7.90000000e+04]
 [0.00000000e+00 1.00000000e+00 0.00000000e+00 5.00000000e+01
  8.30000000e+04]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 3.70000000e+01
  6.70000000e+04]]
Y
[0 1 0 0 1 1 0 1 0 1]

Step 5：將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

X_train
[[0.00000000e+00 1.00000000e+00 0.00000000e+00 4.00000000e+01
  6.37777778e+04]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 3.70000000e+01
  6.70000000e+04]
 [0.00000000e+00 0.00000000e+00 1.00000000e+00 2.70000000e+01
  4.80000000e+04]
 [0.00000000e+00 0.00000000e+00 1.00000000e+00 3.87777778e+01
  5.20000000e+04]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 4.80000000e+01
  7.90000000e+04]
 [0.00000000e+00 0.00000000e+00 1.00000000e+00 3.80000000e+01
  6.10000000e+04]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 4.40000000e+01
  7.20000000e+04]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 3.50000000e+01
  5.80000000e+04]]
X_test
[[0.0e+00 1.0e+00 0.0e+00 3.0e+01 5.4e+04]
 [0.0e+00 1.0e+00 0.0e+00 5.0e+01 8.3e+04]]
step2
Y_train
[1 1 1 0 1 0 0 1]
Y_test
[0 0]

Step 6：特征縮放

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

大多數(shù)機(jī)器學(xué)習(xí)算法在計(jì)算中使用兩個(gè)數(shù)據(jù)點(diǎn)之間的歐氏距離

特征在幅度、單位和范圍上很大的變化,這引起了問(wèn)題

高數(shù)值特征在距離計(jì)算中的權(quán)重大于低數(shù)值特征

通過(guò)特征標(biāo)準(zhǔn)化或Z分?jǐn)?shù)歸一化來(lái)完成

導(dǎo)入sklearn.preprocessing 庫(kù)中的StandardScala

用法：http://scikit-learn.org/stabl...

X_train
[[-1.          2.64575131 -0.77459667  0.26306757  0.12381479]
 [ 1.         -0.37796447 -0.77459667 -0.25350148  0.46175632]
 [-1.         -0.37796447  1.29099445 -1.97539832 -1.53093341]
 [-1.         -0.37796447  1.29099445  0.05261351 -1.11141978]
 [ 1.         -0.37796447 -0.77459667  1.64058505  1.7202972 ]
 [-1.         -0.37796447  1.29099445 -0.0813118  -0.16751412]
 [ 1.         -0.37796447 -0.77459667  0.95182631  0.98614835]
 [ 1.         -0.37796447 -0.77459667 -0.59788085 -0.48214934]]
X_test
[[-1.          2.64575131 -0.77459667 -1.45882927 -0.90166297]
 [-1.          2.64575131 -0.77459667  1.98496442  2.13981082]]

GPU云服務(wù)器云服務(wù)器機(jī)器學(xué)習(xí)數(shù)據(jù)預(yù)處理機(jī)器學(xué)習(xí)圖像處理大數(shù)據(jù)處理技術(shù)學(xué)習(xí) 數(shù)據(jù)機(jī)器學(xué)習(xí)學(xué)習(xí)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/45242.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xeblog

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

不會(huì)做動(dòng)畫(huà)的程序猿不是好的動(dòng)畫(huà)師（如何用css3動(dòng)畫(huà)做動(dòng)畫(huà)）

閱讀 2184·2021-11-11 16:55
程序員的算法趣題Q50: 完美洗牌

閱讀 3249·2021-10-11 10:58
歐盟委員會(huì)發(fā)布《在歐盟經(jīng)濟(jì)中開(kāi)源軟硬件對(duì)技術(shù)獨(dú)立、競(jìng)爭(zhēng)力和創(chuàng)新的影響研究報(bào)告》

閱讀 3207·2021-09-13 10:28
騰訊云服務(wù)器秒殺：新用戶(hù)2核4G、6M獨(dú)享、1499元/3年，企業(yè)用戶(hù)2核4G、5M獨(dú)享、1200元

閱讀 4144·2021-07-26 23:57
Node.js 配合 express 框架、mongodb 實(shí)踐 && [使用 T

閱讀 1143·2019-08-30 15:56
深入理解ES6之《ES7》

閱讀 1409·2019-08-29 13:15
中斷數(shù)組（every、some方法）

閱讀 1336·2019-08-26 18:18
VUE Error:if there's nested data,rowKey is re

閱讀 1360·2019-08-26 13:44

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

100天搞定機(jī)器學(xué)習(xí)|Day1數(shù)據(jù)預(yù)處理

相關(guān)文章

**SRECon Day1 | 比起干貨滿(mǎn)滿(mǎn)，更吸引我的是畫(huà)風(fēng)清奇**

**SRECon Day1 | 比起干貨滿(mǎn)滿(mǎn)，更吸引我的是畫(huà)風(fēng)清奇**

100天搞定機(jī)器學(xué)習(xí)|Day4-6 邏輯回歸

**vue+nuxt+koa+mongodb寫(xiě)一個(gè)博客(Day1)**

javascript常用工具函數(shù)總結(jié)(不定期補(bǔ)充)未指定標(biāo)題的文章

發(fā)表評(píng)論

0條評(píng)論

xeblog

男|高級(jí)講師

TA的文章

不會(huì)做動(dòng)畫(huà)的程序猿不是好的動(dòng)畫(huà)師（如何用css3動(dòng)畫(huà)做動(dòng)畫(huà)）

程序員的算法趣題Q50: 完美洗牌

歐盟委員會(huì)發(fā)布《在歐盟經(jīng)濟(jì)中開(kāi)源軟硬件對(duì)技術(shù)獨(dú)立、競(jìng)爭(zhēng)力和創(chuàng)新的影響研究報(bào)告》

騰訊云服務(wù)器秒殺：新用戶(hù)2核4G、6M獨(dú)享、1499元/3年，企業(yè)用戶(hù)2核4G、5M獨(dú)享、1200元

Node.js 配合 express 框架、mongodb 實(shí)踐 && [使用 T

深入理解ES6之《ES7》

中斷數(shù)組（every、some方法）

VUE Error:if there's nested data,rowKey is re

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

100天搞定機(jī)器學(xué)習(xí)|Day1數(shù)據(jù)預(yù)處理

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！