摘要:按類型去分析數(shù)據(jù)并沒(méi)有得到規(guī)律性的東西。我們?cè)賮?lái)看看元數(shù)據(jù)。按年月日格式化時(shí)間,按進(jìn)行分類,我們得到每日發(fā)生的案件統(tǒng)計(jì)走勢(shì)圖。按警區(qū)劃分案件,然后統(tǒng)計(jì)每個(gè)警區(qū)的案件走勢(shì)。如類型但案件時(shí)逐年降低的。
還是有點(diǎn)懶,本應(yīng)早點(diǎn)寫第二集。按類型去分析數(shù)據(jù)并沒(méi)有得到規(guī)律性的東西。我們?cè)賮?lái)看看元數(shù)據(jù)。
Dates是案件發(fā)生的時(shí)間,案件是否具有時(shí)間規(guī)律,隨著時(shí)間在增長(zhǎng)或者減少呢?
基于這個(gè)思路,創(chuàng)建以時(shí)間為index的DataFrame,其中index選用數(shù)據(jù)中的"Dates"列作為index,為方便按時(shí)間操作,將"Dates"列轉(zhuǎn)換為DatetimeIndex類型。
按年月日格式化時(shí)間key,按key進(jìn)行分類,我們得到每日發(fā)生的案件統(tǒng)計(jì)走勢(shì)圖。
# -*- coding: utf-8 -*- __author__ = "longtaiye" import pandas as pd import numpy as np import matplotlib.pyplot as plt #讀取數(shù)據(jù) df = pd.read_csv("/Users/longtaiye/Documents/ml-learn/train.csv") #設(shè)置pandas打印格式 pd.set_option("display.width", 300) #以日期為index創(chuàng)建新的DataFrame dateDF = pd.DataFrame(np.asarray(df), index=pd.to_datetime(df["Dates"]), columns=df.columns) #按年月日統(tǒng)計(jì)案件發(fā)生規(guī)律 key1 = lambda x:x.strftime("%Y-%m-%d") dateDF["Category"].groupby(key1).count().plot(figsize=(26, 10)) plt.show()
依照相同的方法可以得到時(shí)走勢(shì)、日走勢(shì)、月走勢(shì)、年走勢(shì)圖,從圖上看并沒(méi)有什么規(guī)律性。
時(shí)走勢(shì)圖
日走勢(shì)圖
月走勢(shì)圖
年走勢(shì)圖
上面的分析表明,單純的時(shí)間趨勢(shì)并不存在,那么在限定其它因素情況下的時(shí)間走勢(shì)關(guān)系是否存在呢?
我們先從警區(qū)入手。按警區(qū)劃分案件,然后統(tǒng)計(jì)每個(gè)警區(qū)的案件走勢(shì)。
# -*- coding: utf-8 -*- __author__ = "longtaiye" import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.read_csv("/Users/longtaiye/Documents/ml-learn/train.csv") pd.set_option("display.width", 300) dateDF = pd.DataFrame(np.asarray(df), index=pd.to_datetime(df["Dates"]), columns=df.columns) #按警區(qū)劃分 groups = dateDF.groupby("PdDistrict") ii = 1 key = lambda x:x.strftime("%Y") plt.figure(figsize=(20, 12)) for name, group in groups: subplot = plt.subplot(4, 4, ii) subplot.plot(group.groupby(key).count()) plt.title(name) ii+=1 plt.show()
按警區(qū)按年的案件走勢(shì)
按星期幾按年的案件走勢(shì)
這兩張圖也并沒(méi)有太多的規(guī)律,但下面這張圖讓我們看到了一絲希望。如BAD CHECK類型但案件時(shí)逐年降低的。
按類型按年的案件走勢(shì)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/37773.html
摘要:最近在學(xué)習(xí)用處理數(shù)據(jù),的易用性真的讓人很爽,想找點(diǎn)數(shù)據(jù)玩一下,同事說(shuō)上的數(shù)據(jù)很多,值得玩耍。初步分析排除數(shù)值列,對(duì)字符串列進(jìn)行分析,可以知道數(shù)據(jù)值類型數(shù)量最多類型。如果想更精細(xì)的控制圖的顯示,建議直接使用,當(dāng)然的函數(shù)最終也是直接調(diào)用。 最近在學(xué)習(xí)用pandas處理數(shù)據(jù),pandas的易用性真的讓人很爽,想找點(diǎn)數(shù)據(jù)玩一下,同事說(shuō)kaggle上的數(shù)據(jù)很多,值得玩耍。 數(shù)據(jù) 我處理的數(shù)據(jù)是從...
摘要:訓(xùn)練集是用來(lái)訓(xùn)練你的機(jī)器學(xué)習(xí)模型的。但機(jī)器學(xué)習(xí),你也要教它一些事實(shí),比如長(zhǎng)得像圖片的就是狗,長(zhǎng)得像圖片的就是貓。好了,這樣我們整體的一個(gè)機(jī)器學(xué)習(xí)的簡(jiǎn)單項(xiàng)目就完成,但我們還是要看一下效果。 最近寫了Kaggle的一個(gè)playground項(xiàng)目——預(yù)測(cè)科比投籃是否命中https://www.kaggle.com/c/kobe...,主要使用python的pandas和sklearn包。 這里...
摘要:去吧,參加一個(gè)在上正在舉辦的實(shí)時(shí)比賽吧試試你所學(xué)到的全部知識(shí)微軟雅黑深度學(xué)習(xí)終于看到這個(gè),興奮吧現(xiàn)在,你已經(jīng)學(xué)到了絕大多數(shù)關(guān)于機(jī)器學(xué)習(xí)的技術(shù),是時(shí)候試試深度學(xué)習(xí)了。微軟雅黑對(duì)于深度學(xué)習(xí),我也是個(gè)新手,就請(qǐng)把這些建議當(dāng)作參考吧。 如果你想做一個(gè)數(shù)據(jù)科學(xué)家,或者作為一個(gè)數(shù)據(jù)科學(xué)家你想擴(kuò)展自己的工具和知識(shí)庫(kù),那么,你來(lái)對(duì)地方了。這篇文章的目的,是給剛開(kāi)始使用Python進(jìn)行數(shù)據(jù)分析的人,指明一條全...
showImg(https://segmentfault.com/img/bVbkB4E?w=800&h=400); 背景 關(guān)于 Kaggle https://www.kaggle.com/ 這是一個(gè)為你提供完美數(shù)據(jù),為你提供實(shí)際應(yīng)用場(chǎng)景,可以與小伙伴在數(shù)據(jù)挖掘領(lǐng)域 high 的不要不要的的地方?。。?! Kaggle 是一個(gè)用來(lái)學(xué)習(xí)、分享和競(jìng)賽的線上數(shù)據(jù)實(shí)驗(yàn)平臺(tái),有點(diǎn)類似 KDD—CUP(國(guó)際...
閱讀 3042·2023-04-26 01:32
閱讀 1638·2021-09-13 10:37
閱讀 2377·2019-08-30 15:56
閱讀 1759·2019-08-30 14:00
閱讀 3194·2019-08-30 12:44
閱讀 2031·2019-08-26 12:20
閱讀 1259·2019-08-23 16:29
閱讀 3308·2019-08-23 14:44