PYTHON PANDAS之?dāng)?shù)據(jù)重塑（Data Reshaping)

stefan 發(fā)布于2019-07-30 15:43 / 1548人閱讀

摘要：實(shí)際遇到的問題在文件當(dāng)中或者數(shù)據(jù)庫當(dāng)?shù)臄?shù)據(jù)通常以長格式或者堆疊格式存儲，特別是金融數(shù)據(jù)中出現(xiàn)的時(shí)間序列數(shù)據(jù)，例如那怎么才能變成以作為列名，同時(shí)日期為索引的呢特別需要對同時(shí)進(jìn)行時(shí)間序列分析時(shí)，這個(gè)需求特別強(qiáng)烈。

實(shí)際遇到的問題：

在CSV文件當(dāng)中或者數(shù)據(jù)庫當(dāng)?shù)臄?shù)據(jù)通常以長格式或者（stacked)堆疊格式存儲，特別是金融數(shù)據(jù)中出現(xiàn)的時(shí)間序列數(shù)據(jù)，例如：

In [1]: df
Out[1]: 
         date variable     value
0  2000-01-03        A  0.469112
1  2000-01-04        A -0.282863
2  2000-01-05        A -1.509059
3  2000-01-03        B -1.135632
4  2000-01-04        B  1.212112
5  2000-01-05        B -0.173215
6  2000-01-03        C  0.119209
7  2000-01-04        C -1.044236
8  2000-01-05        C -0.861849
9  2000-01-03        D -2.104569
10 2000-01-04        D -0.494929
11 2000-01-05        D  1.071804

那怎么才能變成以A,B,C,D作為列名，同時(shí)日期為索引的dataframe呢？特別需要對A,B,C,D同時(shí)進(jìn)行時(shí)間序列分析時(shí)，這個(gè)需求特別強(qiáng)烈。

解決方案：
這里引出一個(gè)重要的概念，data reshaping,即數(shù)據(jù)重塑，

選出變量A的所有數(shù)據(jù)我們只需要如下操作，然后分別選出B,C,D，然后再再水平方向進(jìn)行concat操作，這樣當(dāng)然也可以得到指定的數(shù)據(jù)框，但這樣無疑編寫、執(zhí)行效率都有點(diǎn)低：

In [2]: df[df["variable"] == "A"]
Out[2]: 
        date variable     value
0 2000-01-03        A  0.469112
1 2000-01-04        A -0.282863
2 2000-01-05        A -1.509059

但是如果我們希望對變量進(jìn)行時(shí)間序列操作，那么我們可能將需要將每個(gè)變量多帶帶作為一列來表示，因此需要使用pivot()函數(shù)對數(shù)據(jù)進(jìn)行reshape操作：

In [3]: df.pivot(index="date", columns="variable", values="value")
Out[3]: 
variable           A         B         C         D
date                                              
2000-01-03  0.469112 -1.135632  0.119209 -2.104569
2000-01-04 -0.282863  1.212112 -1.044236 -0.494929
2000-01-05 -1.509059 -0.173215 -0.861849  1.071804

如果上述函數(shù)當(dāng)中的values參數(shù)被省略，得到的dataframe就會有帶有層次化的列，列的頂層是帶每個(gè)值列的列名，假如我們現(xiàn)在有value1,value2兩列：

In [4]: df["value2"] = df["value"] * 2

In [5]: pivoted = df.pivot("date", "variable")

In [6]: pivoted
Out[6]: 
               value                                  value2            
variable           A         B         C         D         A         B   
date                                                                     
2000-01-03  0.469112 -1.135632  0.119209 -2.104569  0.938225 -2.271265   
2000-01-04 -0.282863  1.212112 -1.044236 -0.494929 -0.565727  2.424224   
2000-01-05 -1.509059 -0.173215 -0.861849  1.071804 -3.018117 -0.346429   

                                
variable           C         D  
date                            
2000-01-03  0.238417 -4.209138  
2000-01-04 -2.088472 -0.989859  
2000-01-05 -1.723698  2.143608

對于以上多層次列數(shù)據(jù)框，此時(shí)也可以只顯示value2這一列:

In [7]: pivoted["value2"]
Out[7]: 
variable           A         B         C         D
date                                              
2000-01-03  0.938225 -2.271265  0.238417 -4.209138
2000-01-04 -0.565727  2.424224 -2.088472 -0.989859
2000-01-05 -3.018117 -0.346429 -1.723698  2.143608

可見pivot()函數(shù)是一個(gè)非常實(shí)用的，用來實(shí)現(xiàn)數(shù)據(jù)重塑的方法。

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/41429.html

發(fā)表評論

登陸后可評論

0條評論

stefan

男|高級講師

我要關(guān)注我要私信

TA的文章

#yyds干貨盤點(diǎn)#vspherer快照導(dǎo)致磁盤文件丟失，通過快照文件恢復(fù)

閱讀 1915·2021-11-25 09:43
開課吧Python全棧工程師培養(yǎng)計(jì)劃

閱讀 1421·2021-11-22 15:08
Windows環(huán)境下使用Python設(shè)計(jì)應(yīng)用軟件——【6】pyqt通過勾選框選擇對TableWidg

閱讀 3869·2021-11-22 09:34
進(jìn)入阿里做測試員遙不可及？這里或許有你想要的答案

閱讀 3289·2021-09-04 16:40
深度學(xué)習(xí)、機(jī)器學(xué)習(xí)畢業(yè)設(shè)計(jì) - 選題建議

閱讀 3398·2021-09-04 16:40
【學(xué)習(xí)筆記】CSS深入理解之margin

閱讀 606·2019-08-30 15:54
WebSocket網(wǎng)絡(luò)通信協(xié)議

閱讀 1397·2019-08-29 17:19
純CSS實(shí)現(xiàn)頁簽切換效果

閱讀 1817·2019-08-28 18:13

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

PYTHON PANDAS之?dāng)?shù)據(jù)重塑（Data Reshaping)

相關(guān)文章

【數(shù)據(jù)科學(xué)系統(tǒng)學(xué)習(xí)】Python # 數(shù)據(jù)分析基本操作[四] 數(shù)據(jù)規(guī)整化和數(shù)據(jù)聚合與分組運(yùn)算

Python 數(shù)據(jù)分析之 pandas 進(jìn)階(二)

Pandas庫基礎(chǔ)分析——數(shù)據(jù)規(guī)整化處理

【數(shù)據(jù)科學(xué)系統(tǒng)學(xué)習(xí)】Python # 數(shù)據(jù)分析基本操作[二] pandas

Python 實(shí)現(xiàn)最小二乘法擬合直線

發(fā)表評論

0條評論

stefan

男|高級講師

TA的文章

#yyds干貨盤點(diǎn)#vspherer快照導(dǎo)致磁盤文件丟失，通過快照文件恢復(fù)

開課吧Python全棧工程師培養(yǎng)計(jì)劃

Windows環(huán)境下使用Python設(shè)計(jì)應(yīng)用軟件——【6】pyqt通過勾選框選擇對TableWidg

進(jìn)入阿里做測試員遙不可及？這里或許有你想要的答案

深度學(xué)習(xí)、機(jī)器學(xué)習(xí)畢業(yè)設(shè)計(jì) - 選題建議

【學(xué)習(xí)筆記】CSS深入理解之margin

WebSocket網(wǎng)絡(luò)通信協(xié)議

純CSS實(shí)現(xiàn)頁簽切換效果

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

PYTHON PANDAS之?dāng)?shù)據(jù)重塑（Data Reshaping)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！