數(shù)據(jù)分析面試題之Pandas中的groupby

ThinkSNS 發(fā)布于2019-07-30 18:32 / 1817人閱讀

摘要：昨天晚上，筆者有幸參加了一場面試，有一個環(huán)節(jié)就是現(xiàn)場編程題目如下示例數(shù)據(jù)如下，求每名學生對應的成績最高的那門科目與，用實現(xiàn)這個題目看上去很簡單，其實，并不簡單。

??昨天晚上，筆者有幸參加了一場面試，有一個環(huán)節(jié)就是現(xiàn)場編程！題目如下：
??示例數(shù)據(jù)如下，求每名學生（ID）對應的成績（score）最高的那門科目（class）與ID，用Python實現(xiàn)：

這個題目看上去很簡單，其實，并不簡單。即要求輸出形式如下：

??當然，我們一開始能先到的是利用Pandas中的groupby，按ID做groupby，按score取最大值，可是之后的過程就難辦了，是將得到的結(jié)果與原表做join，還是再想其他辦法？
??怎么辦？答案就是Pandas中g(shù)roupby的官方文檔說明，網(wǎng)址為：http://pandas.pydata.org/pand...。截圖如下：

本文將會用到其中的三個函數(shù)： idxmax(), idxmin(), rank().
??其實，讓我們來解決一開始提出的問題，Python代碼如下：

import pandas as pd

df = pd.read_csv("E://score.csv")
new_df = df.groupby("ID")["score"].idxmax()
for i in new_df:
    print(df.iloc[i, :].tolist()[0:2])

分析代碼，df.groupby("ID")["score"].idxmax()是對原數(shù)據(jù)按ID做groupby，然后取score列，用idxmax(）取出成績最好的行。然后取出這些行即可。
??當然，上述代碼存在兩個衍生問題：

每名學生（ID）對應的成績（score）最低的那門科目（class）與ID；

若有學生他的某些科目的成績是一樣的，求每名學生對應的成績最高的那些科目與ID。

??第一個問題，很好解決，在原先的代碼中，將idxmax()替換為idxmin()即可，輸出的結(jié)果如下：

[1, "C"]
[2, "A"]
[3, "C"]
[4, "A"]

??第二個問題，如果有學生他的某些科目的成績是一樣的，如下面的示例數(shù)據(jù)：

在上面數(shù)據(jù)中，第1,3名學生的最高成績存在重復。這是，我們需要用到rank()函數(shù)，Python代碼如下:

import pandas as pd
import numpy as np

df = pd.read_csv("E://score.csv")
df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64)
#print(df)
print(df[df["rank"] == 1][["ID", "class"]])

輸出結(jié)果如下：

    ID class
0    1     A
1    1     B
5    2     C
7    3     B
8    3     C
11   4     C

可以看到，我們得到的df這個數(shù)據(jù)框添加了一列rank,就是每名學生的科目的成績排名，得到的df如下：

    ID class  score  rank
0    1     A     90     1
1    1     B     90     1
2    1     C     70     3
3    2     A     60     3
4    2     B     80     2
5    2     C    100     1
6    3     A     90     3
7    3     B    100     1
8    3     C    100     1
9    4     A     70     3
10   4     B     80     2
11   4     C     90     1

然后按需要取出數(shù)據(jù)即可。

??本次分享到此結(jié)束，歡迎大家交流~~

注意：本人現(xiàn)已開通微信公眾號： Python爬蟲與算法（微信號為：easy_web_scrape），歡迎大家關(guān)注哦~~

GPU云服務(wù)器云服務(wù)器 groupby groupby性能 pandas pandas python

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/42637.html

發(fā)表評論

登陸后可評論

0條評論

ThinkSNS

男|高級講師

我要關(guān)注我要私信

TA的文章

開源負載均衡器HAProxy嚴重安全漏洞易受關(guān)鍵HTTP請求走私攻擊

閱讀 1128·2021-09-13 10:29
【周刊-1】三年大廠面試官-面試題精選及答案

閱讀 3446·2019-08-29 18:31
WEB基礎(chǔ)之HTML的各個標簽的默認樣式

閱讀 2715·2019-08-29 11:15
vue的指令

閱讀 3070·2019-08-26 13:25
G6 2.0 開源發(fā)布 -- 裂變·聚變

閱讀 1451·2019-08-26 12:00
SCORM標準應用編程接口（API）和數(shù)據(jù)模型（Data Model）學習及總結(jié)

閱讀 2468·2019-08-26 11:41
[打怪升級]小程序評論回復和發(fā)帖功能實戰(zhàn)（二）

閱讀 3555·2019-08-26 10:31
@vue/cli+webpack搭建多頁面應用

閱讀 1556·2019-08-26 10:25

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

數(shù)據(jù)分析面試題之Pandas中的groupby

相關(guān)文章

**??僅剩20分鐘挑戰(zhàn)一道Pandas面試題??生死競速??簡直刺激?**

**python處理數(shù)據(jù)的風騷操作[pandas 之 groupby&agg]**

**【數(shù)據(jù)科學系統(tǒng)學習】Python # 數(shù)據(jù)分析基本操作[四] 數(shù)據(jù)規(guī)整化和數(shù)據(jù)聚合與分組運算**

Pandas使用DataFrame進行數(shù)據(jù)分析比賽進階之路（一）

發(fā)表評論

0條評論

ThinkSNS

男|高級講師

TA的文章

開源負載均衡器HAProxy嚴重安全漏洞易受關(guān)鍵HTTP請求走私攻擊

【周刊-1】三年大廠面試官-面試題精選及答案

WEB基礎(chǔ)之HTML的各個標簽的默認樣式

vue的指令

G6 2.0 開源發(fā)布 -- 裂變·聚變

SCORM標準應用編程接口（API）和數(shù)據(jù)模型（Data Model）學習及總結(jié)

[打怪升級]小程序評論回復和發(fā)帖功能實戰(zhàn)（二）

@vue/cli+webpack搭建多頁面應用

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

數(shù)據(jù)分析面試題之Pandas中的groupby

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！