亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

Python中運(yùn)用Winsorize縮尾解決操作工作經(jīng)驗(yàn)

89542767 / 1076人閱讀

  縮尾解決等同于對(duì)信息進(jìn)行掐頭(尾)去尾,之后再依照相應(yīng)的方式彌補(bǔ)被剪掉相關(guān)數(shù)據(jù),接下來本文主要是給為大家介紹了有關(guān)Python中運(yùn)用Winsorize縮尾解決的資料,必須的小伙伴可以參考一下


  近期搞數(shù)據(jù)信息的時(shí)候發(fā)現(xiàn),縮尾時(shí)原來是空字符或是失效系數(shù)的地區(qū)被彌補(bǔ)了數(shù)據(jù)信息。傳統(tǒng)促進(jìn)會(huì)將空字符去除之后再進(jìn)行縮尾,但是一些不用去除空字符的數(shù)據(jù)必須去除極端值,因此不可以忽略縮尾。結(jié)合自身的操作工作經(jīng)驗(yàn)做一些記錄:


  以儲(chǔ)存在Excel中相關(guān)數(shù)據(jù)舉例:


  from scipy.stats.mstats import winsorize
  import pandas as pd
  df=pd.read_excel('Excel.xlsx',engine='openpyxl',header=0)
  df_list=["a","b","c"]#需要進(jìn)行縮尾的列名


  1:直接應(yīng)用Winsorize,不考慮空值和無效值,縮尾結(jié)果可能導(dǎo)致部分空值被填充數(shù)據(jù)


  for i in df_list():
  df<i>=winsorize(df<i>,limits=[0.01,0.01])#對(duì)指定列中的連續(xù)數(shù)據(jù)進(jìn)行1%和99%的縮尾(Winsorize)處理


  2.1:屏蔽空值和無效值,僅對(duì)其他值進(jìn)行Winsorize處理,縮尾結(jié)果不改變?cè)瓉淼目罩岛蜔o效值


  for i in df_list():
  df<i>=np.where(df<i>.isnull(),np.nan,winsorize(np.ma.masked_invalid(df<i>),limits=(0.01,0.01)))
  #np.where(condition,x,y),滿足condition是x,否則y
  #此處判斷是否空值,是的話為空,否的話進(jìn)行屏蔽空值和無效值的1%和99%縮尾處理


  2.2:winsorize提供的參數(shù),但這個(gè)方法我沒有成功…僅供參考


  for i in df_list():
  df<i>=winsorize(df<i>,limits=[0.01,0.01],nan_policy='omit')

  

01.png

      3:屏蔽空值和無效值,對(duì)所有值進(jìn)行Winsorize處理,縮尾結(jié)果不改變?cè)瓉淼目罩岛蜔o效值,與方法2的區(qū)別在于方法3沒有改變需要縮尾的數(shù)據(jù)長(zhǎng)度


  for i in df_list():
  mask=df<i>.notna()
  df.loc[mask,i]=winsorize(df<i>.loc[mask],limits=[0.01,0.01])
  #這個(gè)mask就是一個(gè)bool index,指示哪些位置上是nan
  #比如一列數(shù)據(jù)是[1,NaN,2],如果用df['A'].isnan()得到的就是一個(gè)[False,True,False]的數(shù)組
  #這個(gè)數(shù)組就是所謂的mask,它可以把dataframe中的特定數(shù)據(jù)挑出來


  我碰到后續(xù)描述性統(tǒng)計(jì)有負(fù)無窮值的問題,因而將其替換為空值


  #如果需要將無窮值換為空值
  df=df.replace(-np.Inf,np.NaN)


  總結(jié)


  到此這篇關(guān)于Python中應(yīng)用Winsorize縮尾處理的文章就介紹到這了,希望可以給大家?guī)硪欢ǖ膸椭?/p>

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/128688.html

相關(guān)文章

  • “樂高式松耦合”架構(gòu)實(shí)戰(zhàn)

    摘要:二樂高式松耦合架構(gòu)落地快速實(shí)現(xiàn)需求與需求實(shí)現(xiàn)越來越慢的矛盾如何解決最終白山的產(chǎn)品架構(gòu)聚焦在解耦上,方便平臺(tái)快速迭代,減少系統(tǒng)間依賴程度,打通無關(guān)聯(lián)項(xiàng)目,為運(yùn)營(yíng)互動(dòng)提供高效支持,確保服務(wù)質(zhì)量。 作者:王康 白山聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁。 王康先生主要負(fù)責(zé)產(chǎn)品的完善與升級(jí)、產(chǎn)品開發(fā)流程把控及進(jìn)度協(xié)調(diào)、產(chǎn)品設(shè)計(jì)改進(jìn)及定期優(yōu)化、產(chǎn)品全生命周期管理等工作。他帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)白山首款產(chǎn)品CDN-X的多項(xiàng)...

    xiaochao 評(píng)論0 收藏0
  • “樂高式松耦合”架構(gòu)實(shí)戰(zhàn)

    摘要:二樂高式松耦合架構(gòu)落地快速實(shí)現(xiàn)需求與需求實(shí)現(xiàn)越來越慢的矛盾如何解決最終白山的產(chǎn)品架構(gòu)聚焦在解耦上,方便平臺(tái)快速迭代,減少系統(tǒng)間依賴程度,打通無關(guān)聯(lián)項(xiàng)目,為運(yùn)營(yíng)互動(dòng)提供高效支持,確保服務(wù)質(zhì)量。 作者:王康 白山聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁。 王康先生主要負(fù)責(zé)產(chǎn)品的完善與升級(jí)、產(chǎn)品開發(fā)流程把控及進(jìn)度協(xié)調(diào)、產(chǎn)品設(shè)計(jì)改進(jìn)及定期優(yōu)化、產(chǎn)品全生命周期管理等工作。他帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)白山首款產(chǎn)品CDN-X的多項(xiàng)...

    Pikachu 評(píng)論0 收藏0
  • 入行數(shù)據(jù)科學(xué)一定要有研究生學(xué)歷嗎?

    摘要:如果你的目標(biāo)是成為數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)工程師研究員,那么有博士學(xué)位會(huì)給你加分不少。當(dāng)然,有些人更喜歡學(xué)術(shù)研究,而不是在行業(yè)中運(yùn)用數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)。二碩士學(xué)位入行數(shù)據(jù)科學(xué)需要碩士學(xué)位嗎視情況而定。 showImg(https://segmentfault.com/img/bVbm5Mw?w=850&h=566);作者 | Jeremie Harris翻譯 | MikaCDA 數(shù)據(jù)分析師...

    DrizzleX 評(píng)論0 收藏0
  • 蠎周刊 2015 年度最贊

    摘要:蠎周刊年度最贊親俺們又來回顧又一個(gè)偉大的年份兒包去年最受歡迎的文章和項(xiàng)目如果你錯(cuò)過了幾期就這一期不會(huì)丟失最好的嗯哼還為你和你的準(zhǔn)備了一批紀(jì)念裇從這兒獲取任何時(shí)候如果想分享好物給大家在這兒提交喜歡我們收集的任何意見建議通過來吧原文 Title: 蠎周刊 2015 年度最贊Date: 2016-01-09 Tags: Weekly,Pycoder,Zh Slug: issue-198-to...

    young.li 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<