Python在工作中的應(yīng)用還是比較的廣泛的,市場上面對(duì)于這類人才開出的薪資還是比較的高的。那么,如何使用第三方庫jieba庫與中文分詞進(jìn)行一個(gè)分解呢?下面小編就給大家詳細(xì)的做出一個(gè)解答。
一、什么是jieba庫
jieba是優(yōu)秀的中文分詞第三方庫,由于中文文本之間每個(gè)漢字都是連續(xù)書寫的,我們需要通過特定的手段來獲得其中的每個(gè)詞組,這種手段叫做分詞,我們可以通過jieba庫來完成這個(gè)過程。
二、jieba分詞原理
jieba庫的分詞原理是利用了一個(gè)中文詞庫,將待分詞的內(nèi)容與分詞詞庫對(duì)比,通過圖結(jié)構(gòu)和動(dòng)態(tài)規(guī)則劃分方法找到最大概率的詞組。除了分詞,jieba還提供增加自定義中文單詞的功能。
三、jieba庫支持的三種分詞模式
1.精確模式
將句子最精確地分開,適合文本分析;
2.全模式
把句子中所有可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;
3.搜索引擎模式
在精確模式的基礎(chǔ)上,對(duì)長詞再次切分,提高召回率,適合用于搜索引擎分詞
注:對(duì)中文分詞來說,jieba庫只需要一行代碼即可。英文文本不存在分詞問題
四、jieba庫常用函數(shù)
五、jieba實(shí)操
首先你需要安裝jieba庫
pip install jieba
練習(xí)一(jieba.lcut)精確模式
jieba.lcut(s)是最常用的中文分詞函數(shù),用于精確模式,將字符串分割成等量的中文詞組。
import jieba ls=jieba.lcut("我愿意穿過璀璨繁星") print(ls)
練習(xí)二(jieba.lcut(s,cut_all=True))全模式
jieba.lcut(s,cut_all=True)用于全模式,將字符串的所有分詞可能列出來,冗余最大。 import jieba ls=jieba.lcut("人面不知何處去,桃花依舊笑春風(fēng)",cut_all=True) print(ls)
練習(xí)三(jieba.lcut_for_search)搜索引擎模式
jieba.lcut_for_search該模式首先執(zhí)行精確模式,然后在對(duì)其中長詞進(jìn)一步分獲得最終結(jié)果 import jieba ls1=jieba.lcut("仰天大笑出門去我輩豈是蓬蒿人") ls=jieba.lcut_for_search("仰天大笑出門去我輩豈是蓬蒿人") print(ls1) print(ls)
練習(xí)四(jieba.add_word(w))增加新詞
import jieba ls=jieba.lcut_for_search("仰天大笑出門去我輩豈是蓬蒿人") print(ls) jieba.add_word("蓬蒿人") ls1=jieba.lcut("仰天大笑出門去我輩豈是蓬蒿人") print(ls1)
小結(jié):精確模式因?yàn)椴划a(chǎn)生冗余,最為常用。
到此為止,這篇文章就給大家介紹到這里了,希望可以給大家?guī)砀嗟膸椭?/p>
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/128245.html
摘要:據(jù)小編簡單了解,已知對(duì)工作報(bào)告高頻詞匯進(jìn)行梳理的媒體包括法制日?qǐng)?bào)和新華網(wǎng)。高頻詞詞頻年以來政府工作報(bào)告中的提及總數(shù)發(fā)展經(jīng)濟(jì)改革建設(shè)社會(huì)推進(jìn)創(chuàng)新政策企業(yè)加強(qiáng)下面是新華網(wǎng)數(shù)據(jù)新聞部統(tǒng)計(jì)的高頻詞匯。 本文首發(fā)于微信公眾號(hào)號(hào)編程派。微信搜索編程派,獲取更多Python編程一手教程及優(yōu)質(zhì)資源吧。 上周六,總理在大會(huì)堂作政府工作報(bào)告,全球媒體矚目。每年都會(huì)有媒體對(duì)報(bào)告中的高頻詞匯進(jìn)行梳理,我們也可...
摘要:先看效果環(huán)境位目標(biāo)抓取一篇報(bào)紙,并提取出關(guān)鍵字,然后按照出現(xiàn)次數(shù)排序,用在頁面上顯示出來。首先要抓取網(wǎng)頁,但是網(wǎng)頁在控制臺(tái)輸出的時(shí)候,中文總是亂碼。但是不得不承認(rèn),上有很多非常優(yōu)秀的庫。例如但是這些包我在上安裝的時(shí)候總是報(bào)錯(cuò)。 先看效果: showImg(https://segmentfault.com/img/bVRLCc?w=612&h=668); 環(huán)境 win7 64位 pyt...
摘要:分詞的算法中文分詞有難度,不過也有成熟的解決方案。例如通過人民日?qǐng)?bào)訓(xùn)練的分詞系統(tǒng),在網(wǎng)絡(luò)玄幻小說上,分詞的效果就不會(huì)好。三的優(yōu)點(diǎn)是開源的,號(hào)稱是中,最好的中文分詞組件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 題圖:by Lucas Davies 一、前言 分詞,我想是大多數(shù)...
摘要:前言今天教大家用模塊來生成詞云,我讀取了一篇小說并生成了詞云,先看一下效果圖效果圖一效果圖二根據(jù)效果圖分析的還是比較準(zhǔn)確的,小說中的主人公就是程理,所以出現(xiàn)次數(shù)最多。 前言 今天教大家用wrodcloud模塊來生成詞云,我讀取了一篇小說并生成了詞云,先看一下效果圖: 效果圖一: showImg(https://segmentfault.com/img/remote/1460000015...
閱讀 1066·2023-01-14 11:38
閱讀 1062·2023-01-14 11:04
閱讀 902·2023-01-14 10:48
閱讀 2378·2023-01-14 10:34
閱讀 1147·2023-01-14 10:24
閱讀 1026·2023-01-14 10:18
閱讀 654·2023-01-14 10:09
閱讀 733·2023-01-14 10:02