聚類分析——Kmeans

Scholer 發(fā)布于2019-07-31 11:04 / 1903人閱讀

摘要：導(dǎo)入數(shù)據(jù)預(yù)處理計(jì)算值從到對(duì)應(yīng)的平均畸變程度用求解距離平均畸變程度用肘部法則來(lái)確定最佳的值建模

導(dǎo)入數(shù)據(jù)

cus_general = customer[["wm_poi_id","city_type","pre_book","aor_type","is_selfpick_poi","is_selfpick_trade_poi"]]
cus_ord = customer[["wm_poi_id","month_original_price","month_order_cnt","service_fee_30day","abnor_rate_30day"]]
cus = customer[["wm_poi_id","comment_1star","comment_5star","pic_comment_cnt"]]
cus = customer[["wm_poi_id","waybill_received_ratio","waybill_delivered_ratio","waybill_ontime_ratio","waybill_normal_arrived_delivery_total_interval_avg","waybill_normal_poi_push_interval_avg","waybill_normal_receive_interval_avg","waybill_normal_fetch_interval_avg","waybill_normal_delivery_interval_avg","waybill_delivery_ontime_ratio","loss_amt"]]
cus_all = customer[["wm_poi_id","c5","ol_time","primary_first_tag_id","city_level",
                    "month_original_price","month_order_cnt","service_fee_30day","abnor_cnt_30day",
                    "comment_1star","comment_5star","pic_comment_cnt",
                    "area_30day","waybill_grab_5mins_ratio","waybill_delivered_ratio","waybill_normal_arrived_delivery_total_interval_avg","waybill_normal_receive_interval_avg",
                    "call.call_cnt","call.call_cnt_ord","call.call_cnt_poi","call.call_cnt_oth"]]

預(yù)處理

from sklearn import preprocessing
cus = pd.DataFrame(preprocessing.scale(cus_general.iloc[:,1:6]))
cus = pd.DataFrame(preprocessing.scale(cus_ord.iloc[:,1:5]))
cus = pd.DataFrame(preprocessing.scale(cus_all.iloc[:,1:21]))
cus.columns = ["city_type","pre_book","aor_type","is_selfpick_poi","is_selfpick_trade_poi"]
cus.columns = ["month_original_price","month_order_cnt","service_fee_30day","abnor_rate_30day"]
cus.columns = ["comment_1star","comment_5star","pic_comment_cnt"]
cus.columns = ["waybill_push_ratio","waybill_delivered_ratio","waybill_ontime_ratio","waybill_normal_arrived_delivery_total_interval_avg","waybill_normal_poi_push_interval_avg","waybill_normal_receive_interval_avg","waybill_normal_fetch_interval_avg","waybill_normal_delivery_interval_avg","waybill_delivery_ontime_ratio","loss_amt"]
cus.columns = ["c5","ol_time","primary_first_tag_id","city_level",
               "month_original_price","month_order_cnt","service_fee_30day","abnor_cnt_30day",
               "comment_1star","comment_5star","pic_comment_cnt",
               "area_30day","waybill_grab_5mins_ratio","waybill_delivered_ratio","waybill_normal_arrived_delivery_total_interval_avg","waybill_normal_receive_interval_avg",
               "call.call_cnt","call.call_cnt_ord","call.call_cnt_poi","call.call_cnt_oth"]

計(jì)算K值從1到10對(duì)應(yīng)的平均畸變程度：用scipy求解距離

from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
K=range(1,15)
meandistortions=[]
for k in K:
    kmeans=KMeans(n_clusters=k)
    kmeans.fit(cus)
    meandistortions.append(sum(np.min(cdist(cus,kmeans.cluster_centers_,"euclidean"),axis=1)))
plt.plot(K,meandistortions,"bx-")
plt.xlabel("k")
plt.ylabel(u"平均畸變程度")
plt.title(u"用肘部法則來(lái)確定最佳的K值")

Kmean建模

from sklearn.cluster import KMeans
clf = KMeans(n_clusters=12)
clf.fit(cus)
pd.Series(pd.Series(clf.labels_).value_counts())

centres = pd.DataFrame(clf.cluster_centers_)
centres.columns = cus_all.iloc[:,1:21].columns
centres.plot(kind="bar", subplots=True, figsize=(6,15))
clf.inertia_

cus_general = pd.concat([cus_general, pd.DataFrame(clf.fit_predict(cus))], axis=0)
cus_general = cus_general.rename(columns={0:"general"})
cus_ord = pd.concat([cus_ord, pd.DataFrame(clf.fit_predict(cus))], axis=0)
cus_ord = cus_ord.rename(columns={0:"order"})
cus_all = pd.concat([cus_all, pd.DataFrame(clf.fit_predict(cus))], axis=0)
cus_all = cus_all.rename(columns={0:"cluster"})

centres = cus_all.groupby(["cluster"]).mean()

cus_all.to_csv("cluster.csv")

result = cus_all[cus_all["cluster"]==2]

云服務(wù)器 GPU云服務(wù)器聚類分析大數(shù)據(jù)聚類分析 Kmeans 超大數(shù)據(jù) kmeans

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/44576.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Scholer

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

判斷電信網(wǎng)絡(luò)普通163骨干網(wǎng)/cn2 gt/cn2 gia線路的區(qū)別

閱讀 4243·2021-09-27 14:02
網(wǎng)頁(yè)設(shè)計(jì)的垂直居中

閱讀 1939·2019-08-30 15:56
續(xù)命之移動(dòng)適配

閱讀 1883·2019-08-29 18:44
前端秋招面試總結(jié)

閱讀 3426·2019-08-29 17:21
單頁(yè)面網(wǎng)站禁用瀏覽器后退鍵

閱讀 618·2019-08-26 17:15
javascript深入理解-從作用域鏈理解閉包

閱讀 1306·2019-08-26 13:57
精讀《Function Component 入門(mén)》

閱讀 1394·2019-08-26 13:56
前端文檔匯總（覺(jué)得對(duì)您有用的話，別忘了給點(diǎn)個(gè)贊哦 ^_^ ?。?/a>

閱讀 3033·2019-08-26 11:30

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

聚類分析——Kmeans

相關(guān)文章

**用戶地理位置的聚類算法實(shí)現(xiàn)—基于DBSCAN和Kmeans的混合算法**

**Python使用Numpy實(shí)現(xiàn)Kmeans算法**

opencv python K-Means聚類

發(fā)表評(píng)論

0條評(píng)論

Scholer

男|高級(jí)講師

TA的文章

判斷電信網(wǎng)絡(luò)普通163骨干網(wǎng)/cn2 gt/cn2 gia線路的區(qū)別

網(wǎng)頁(yè)設(shè)計(jì)的垂直居中

續(xù)命之移動(dòng)適配

前端秋招面試總結(jié)

單頁(yè)面網(wǎng)站禁用瀏覽器后退鍵

javascript深入理解-從作用域鏈理解閉包

精讀《Function Component 入門(mén)》

前端文檔匯總（覺(jué)得對(duì)您有用的話，別忘了給點(diǎn)個(gè)贊哦 ^_^ ?。?/a>

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

聚類分析——Kmeans

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！