摘要:使用文件分析數(shù)據(jù)遇到的問題有時(shí)候到手的數(shù)據(jù)基本是固定分隔符分隔的幾個(gè)文件,需要重里面做一些數(shù)據(jù)統(tǒng)計(jì),比如去重,計(jì)算某一列的和,兩個(gè)文件的并集等等,如果能夠像一樣操作文件就好了,這就是帶來的好處如何加載文件示例文件數(shù)據(jù)安裝好在文件目錄中運(yùn)行在
使用txt文件分析數(shù)據(jù)遇到的問題
有時(shí)候到手的數(shù)據(jù)基本是固定分隔符分隔的幾個(gè)文件,需要重里面做一些數(shù)據(jù)統(tǒng)計(jì),比如去重,計(jì)算某一列的和,兩個(gè)文件的并集等等,如果能夠像sql一樣操作txt文件就好了,這就是pandas帶來的好處
如何加載txt文件?示例文件數(shù)據(jù) papa.txt
paxi_id grade 1 50 2 50 3 100 4 200 3 100 5 100
安裝好jupyter ,在文件目錄中運(yùn)行jupyter notebook,在打開的瀏覽器界面上,選擇python運(yùn)行
在打開的界面上,運(yùn)行加載的命令
import pandas #引入pandas papa=pandas.read_csv("papa.txt",sep=" ") #加載papa.txt,指定它的分隔符是 papa.head() #顯示數(shù)據(jù)的前幾行
可以看到加載的結(jié)果直觀的用表格展示
如何知道剛加載的數(shù)據(jù)有幾行?有幾列?運(yùn)行指令如下
rowNum=papa.shape[0] #不包括表頭 colNum=papa.columns.size
結(jié)果為
如何根據(jù)一列對整個(gè)數(shù)據(jù)進(jìn)行去重?運(yùn)行指令如下
uPapa=papa.drop_duplicates(["paxi_id"])
結(jié)果如下
運(yùn)行指令如下
uPaxiId=papa["paxi_id"].unique() print("uPaxiId:",uPaxiId) totalUPaxiIdNum=uPaxiId.size print("num:",totalUPaxiIdNum)
運(yùn)行結(jié)果如下
如何計(jì)算一列的和?運(yùn)行指令如下
papa["grade"].sum()
結(jié)果如下
如何過濾特定的值的行?運(yùn)行指令如下
papa[ ( papa["grade"] == 50 ) | ( papa["grade"] == 100 ) ]
結(jié)果如下
如何計(jì)算某一列各個(gè)取值的個(gè)數(shù)?運(yùn)行指令如下
gPapa=papa.groupby("grade").size()
結(jié)果如下
如何計(jì)算其中兩個(gè)或者所有的和?運(yùn)行指令如下
v=gPapa[50]+gPapa[100] print("兩個(gè)的和:",v) print("總和:",gPapa.sum())
結(jié)果如下
如何用圖形表示各個(gè)值?運(yùn)行指令如下
import matplotlib.pyplot as plt fig=plt.figure() gPapa.plot(kind="bar",grid=True) #bar 和 barh 能切換x軸,y軸 plt.show() #在需要顯示的時(shí)候調(diào)用,會(huì)一次把所有的圖都畫出來
結(jié)果如下
如何對兩個(gè)txt的文件根據(jù)一列做join?另一個(gè)文件為xixi.txt
paxi_id type 1 3 2 4 3 3 4 4 5 3
執(zhí)行指令如下
xixi=pandas.read_csv("xixi.txt",sep=" ") uXixi=xixi.drop_duplicates(["paxi_id"]) pandas.merge(uPapa,uXixi,on=["paxi_id"]) #join
結(jié)果如下
https://pandas.pydata.org/pan... 有教程~
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/41892.html
摘要:三個(gè)常用的虛擬環(huán)境配置來匯總,如有不適之處,還望各位大佬指正。一個(gè)項(xiàng)目對應(yīng)一個(gè),支持開發(fā)環(huán)境與正式環(huán)境區(qū)分。其使用創(chuàng)建環(huán)境,以便分隔使用不同版本和不同程序包的項(xiàng)目。 前言 和其他大多數(shù)現(xiàn)代編程語言一樣,Python對包和 模塊的下載、存儲(chǔ)以及管理有其自己的一套方法。但是當(dāng)我們同時(shí)開發(fā)多個(gè)項(xiàng)目工程的時(shí)候,不同的項(xiàng)目會(huì)將第三方的包存放在相同的路徑下。這就意味著,如果有兩個(gè)工程依賴同一個(gè)包,但是所...
摘要:網(wǎng)址庫的安裝和使用自帶了等深度學(xué)習(xí)基礎(chǔ)庫。遍歷目錄列出根目錄的所有文件查詢條件教程詳見可以看到控制臺(tái)打印結(jié)果測試其中是接下來的教程獲取文件的唯一標(biāo)識(shí)。該示例演示的是對健康科技設(shè)計(jì)三個(gè)類別的標(biāo)題進(jìn)行分類。 showImg(https://segmentfault.com/img/remote/1460000012731670); 原文鏈接 https://jinkey.ai/post/t...
摘要:大多數(shù)模板實(shí)現(xiàn)原理基本一致模板字符串首先通過各種手段剝離出普通字符串和模板語法字符串生成抽象語法樹然后針對模板語法片段進(jìn)行編譯,期間模板變量均去引擎輸入的變量中查找模板語法片段生成出普通片段,與原始普通字符串進(jìn)行拼接輸出。 前端模板的發(fā)展 模板可以說是前端開發(fā)最常接觸的工具之一。將頁面固定不變的內(nèi)容抽出成模板,服務(wù)端返回的動(dòng)態(tài)數(shù)據(jù)裝填到模板中預(yù)留的坑位,最后組裝成完整的頁面html字符...
閱讀 2858·2021-11-02 14:42
閱讀 3227·2021-10-08 10:04
閱讀 1254·2019-08-30 15:55
閱讀 1088·2019-08-30 15:54
閱讀 2383·2019-08-30 15:43
閱讀 1741·2019-08-29 15:18
閱讀 929·2019-08-29 11:11
閱讀 2432·2019-08-26 13:52