摘要:和準(zhǔn)確率不同,曲線對(duì)分類比例不平衡的數(shù)據(jù)集不敏感,曲線顯示的是對(duì)超過(guò)限定閾值的所有預(yù)測(cè)結(jié)果的分類器效果。曲線畫(huà)的是分類器的召回率與誤警率的曲線。
Logistics regression
from sklearn.linear_model import LogisticRegression clf = LogisticRegression() clf.fit(x_train, y_train)準(zhǔn)確率與召回率
準(zhǔn)確率:scikit-learn提供了accuracy_score來(lái)計(jì)算:LogisticRegression.score()
準(zhǔn)確率是分類器預(yù)測(cè)正確性的比例,但是并不能分辨出假陽(yáng)性錯(cuò)誤和假陰性錯(cuò)誤
精確率是指分類器預(yù)測(cè)出的垃圾短信中真的是垃圾短信的比例,P=TP/(TP+FP)
召回率在醫(yī)學(xué)上也叫做靈敏度,在本例中知所有真的垃圾短信被分類器正確找出來(lái)的比例,R=TP/(TP+FN)
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score predictions = clf.predict(x_test) print("準(zhǔn)確率:", accuracy_score(y_test, predictions)) print("精確率:", precision_score(y_test, predictions)) print("召回率:", recall_score(y_test, predictions)) print("F1-Score:", f1_score(y_test, predictions)) from sklearn.metrics import classification_report, accuracy_score, confusion_matrix predictions = clf.predict(x_test) print("準(zhǔn)確率:", accuracy_score(y_test, predictions)) print("混淆矩陣:", confusion_matrix(y_test, predictions)) print("分類報(bào)告:", classification_report(y_test, predictions))ROC AUC
ROC曲線(Receiver Operating Characteristic,ROC curve)可以用來(lái)可視化分類器的效果。和準(zhǔn)確率不同,ROC曲線對(duì)分類比例不平衡的數(shù)據(jù)集不敏感,ROC曲線顯示的是對(duì)超過(guò)限定閾值的所有預(yù)測(cè)結(jié)果的分類器效果。ROC曲線畫(huà)的是分類器的召回率與誤警率(fall-out)的曲線。誤警率也稱假陽(yáng)性率,是所有陰性樣本中分類器識(shí)別為陽(yáng)性的樣本所占比例:
F=FP/(TN+FP) AUC是ROC曲線下方的面積,它把ROC曲線變成一個(gè)值,表示分類器隨機(jī)預(yù)測(cè)的效果.
from sklearn.metrics import roc_curve, auc predictions = clf.predict_proba(x_test) false_positive_rate, recall, thresholds = roc_curve(y_test, predictions[:, 1]) roc_auc = auc(false_positive_rate, recall) plt.title("Receiver Operating Characteristic") plt.plot(false_positive_rate, recall, "b", label="AUC = %0.2f" % roc_auc) plt.legend(loc="lower right") plt.plot([0, 1], [0, 1], "r--") plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.0]) plt.ylabel("Recall") plt.xlabel("Fall-out") plt.show()模型原理
http://blog.csdn.net/sergeyca...
http://blog.csdn.net/zjuPeco/...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/44571.html
摘要:前言本文使用訓(xùn)練邏輯回歸模型,并將其與做比較。對(duì)數(shù)極大似然估計(jì)方法的目標(biāo)函數(shù)是最大化所有樣本的發(fā)生概率機(jī)器學(xué)習(xí)習(xí)慣將目標(biāo)函數(shù)稱為損失,所以將損失定義為對(duì)數(shù)似然的相反數(shù),以轉(zhuǎn)化為極小值問(wèn)題。 前言 本文使用tensorflow訓(xùn)練邏輯回歸模型,并將其與scikit-learn做比較。數(shù)據(jù)集來(lái)自Andrew Ng的網(wǎng)上公開(kāi)課程Deep Learning 代碼 #!/usr/bin/env ...
摘要:出現(xiàn)方差是正常的,但方差過(guò)高表明模型無(wú)法將其預(yù)測(cè)結(jié)果泛化到從中抽取訓(xùn)練樣本的較大母體。機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線是一種可視化圖形,能根據(jù)一系列訓(xùn)練實(shí)例中的訓(xùn)練和測(cè)試數(shù)據(jù)比較模型的指標(biāo)性能。 欠擬合(通常代表高偏差) 精度 如前所述如果模型具有足夠的數(shù)據(jù),但因不夠復(fù)雜而無(wú)法捕捉基本關(guān)系,則會(huì)出現(xiàn)偏差。這樣一來(lái),模型一直會(huì)系統(tǒng)地錯(cuò)誤表示數(shù)據(jù),從而導(dǎo)致預(yù)測(cè)精度低。這種現(xiàn)象叫做欠擬合(und...
閱讀 3783·2021-10-18 13:34
閱讀 2494·2021-08-11 11:15
閱讀 1305·2019-08-30 15:44
閱讀 784·2019-08-26 10:32
閱讀 1054·2019-08-26 10:13
閱讀 2133·2019-08-23 18:36
閱讀 1844·2019-08-23 18:35
閱讀 591·2019-08-23 17:10