亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

python簡(jiǎn)單的分析文本

_ipo / 3407人閱讀

摘要:讀取文件內(nèi)容,正則去除非中英文字符,正則去除非中英文字符篩選出所有英文單詞篩選出所有英文單詞篩選出所有的中文篩選出所有的中文如果參數(shù)為空,則按照從高頻到低頻依次全部打印打印頻率最高的五個(gè)字符反序輸出打印大于等于小于指定值的轉(zhuǎn)化成取得

import collections
import re


#讀取tips.txt文件內(nèi)容,type(mytips)=str
with open("tips.txt","r",encoding="utf-8") as tip:
    
    mytips=tip.read().lower()

#正則去除非中英文字符,
strip_file=re.sub(r"W+","",mytips)
print("正則去除非中英文字符:
{}".format(strip_file))
print()

#篩選出所有英文單詞
only_enlish=re.findall(r"[a-z]+",mytips)
print("篩選出所有英文單詞:
{}".format(only_enlish))

#篩選出所有的中文
only_chinese=re.sub(r"[a-z1-9W]+","",mytips)
only_chinese_split=[c for c in only_chinese]
print("篩選出所有的中文
{}".format(only_chinese_split))

#如果most_common()參數(shù)為空,則按照從高頻到低頻依次全部打印
most_comm_word=collections.Counter(only_enlish).most_common(5)
print("打印頻率最高的五個(gè)字符{}".format(most_comm_word))


#sorted(iterable,key,reverse=False)
low_comm_word=sorted(most_comm_word,key=lambda item:item[1])
print("反序輸出most_comm_word{}".format(low_comm_word))

#filter(function,iterable)
specified_most_comm_word=list(filter(lambda item: True if item[1]<5 and item[1]>=3 else False,most_comm_word))
print("打印(大于等于3小于4)指定值的most_comm_word{}".format(specified_most_comm_word))

#轉(zhuǎn)化成list取得word元素列表
dict_most_comm_word=dict(most_comm_word)
print("轉(zhuǎn)化成字典:{}".format(dict_most_comm_word))

#zip在python3中是惰性計(jì)算,需要轉(zhuǎn)化成list
word,count=list(zip(*most_comm_word))
print("多帶帶打印word:{}".format(word))
print("多帶帶打印count:{}".format(count))

#defaultdict簡(jiǎn)單應(yīng)用
#分析單詞出現(xiàn)的位置列表
enlish_dict=collections.defaultdict(list)
for k,v in enumerate(only_enlish):
    enlish_dict[v].append(k)
print("統(tǒng)計(jì)每個(gè)單詞出現(xiàn)的位置:{}".format(enlish_dict))


#orderdict簡(jiǎn)單應(yīng)用
#單詞從a-z進(jìn)行排序
order_english_dict=collections.OrderedDict(sorted(enlish_dict.items(), key=lambda i :i[0]) )
print("單詞從a-z進(jìn)行排序:
{}".format(order_english_dict))

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/44558.html

相關(guān)文章

  • Python文本分析:2016年政府工作報(bào)告有哪些高頻詞?

    摘要:據(jù)小編簡(jiǎn)單了解,已知對(duì)工作報(bào)告高頻詞匯進(jìn)行梳理的媒體包括法制日?qǐng)?bào)和新華網(wǎng)。高頻詞詞頻年以來(lái)政府工作報(bào)告中的提及總數(shù)發(fā)展經(jīng)濟(jì)改革建設(shè)社會(huì)推進(jìn)創(chuàng)新政策企業(yè)加強(qiáng)下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計(jì)的高頻詞匯。 本文首發(fā)于微信公眾號(hào)號(hào)編程派。微信搜索編程派,獲取更多Python編程一手教程及優(yōu)質(zhì)資源吧。 上周六,總理在大會(huì)堂作政府工作報(bào)告,全球媒體矚目。每年都會(huì)有媒體對(duì)報(bào)告中的高頻詞匯進(jìn)行梳理,我們也可...

    CntChen 評(píng)論0 收藏0
  • 【正經(jīng)AI on Python入門系列】1.2 斗圖工具優(yōu)化——文本寬度自適應(yīng)(來(lái)做點(diǎn)小數(shù)據(jù)分析

    摘要:在上一篇文章圖工具的優(yōu)化實(shí)現(xiàn)文本居中中,我們已經(jīng)實(shí)現(xiàn)了對(duì)插入字體的左中右對(duì)齊顯示,那因?yàn)樯掀谖恼禄爝M(jìn)去了不少語(yǔ)法講解,所以后面的內(nèi)容就順延到這啦,哈哈哈。 showImg(https://segmentfault.com/img/bVbeIu4?w=250&h=250); 在上一篇文章【圖工具的優(yōu)化——實(shí)現(xiàn)文本居中】中,我們已經(jīng)實(shí)現(xiàn)了對(duì)插入字體的左中右對(duì)齊顯示,那因?yàn)樯掀谖恼禄爝M(jìn)去了不...

    fireflow 評(píng)論0 收藏0
  • Python 提取《釜山行》人物關(guān)系

    摘要:項(xiàng)目代碼下載地址基于共現(xiàn)提取釜山行人物關(guān)系更多經(jīng)典項(xiàng)目全部項(xiàng)目 項(xiàng)目簡(jiǎn)介:本項(xiàng)目將帶大家使用 Python 提取《釜山行》人物關(guān)系,對(duì)于給定的劇本文本,通過(guò)分析文本中人物的共現(xiàn)關(guān)系,提取整個(gè)文本表示的人物關(guān)系,并將人物關(guān)系可視化表示。本項(xiàng)目教程由Forec發(fā)布在實(shí)驗(yàn)樓。 一、項(xiàng)目介紹 1. 內(nèi)容簡(jiǎn)介 《釜山行》是一部喪尸災(zāi)難片,其人物少、關(guān)系簡(jiǎn)單,非常適合我們學(xué)習(xí)文本處理。這個(gè)項(xiàng)目將介...

    hoohack 評(píng)論0 收藏0
  • Python——基本數(shù)據(jù)類型(模塊2: time庫(kù)使用)(實(shí)例3:文本進(jìn)度條)

    摘要:前言本篇主要介紹基本數(shù)據(jù)類型,以文本進(jìn)度條為例,介紹庫(kù)的使用。 前言 本篇主要介紹基本數(shù)據(jù)類型,以文本進(jìn)度條為例,介紹time庫(kù)的使用。 并在最后對(duì)蟒蛇繪制的代碼進(jìn)...

    Jenny_Tong 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<