Python - jieba分詞

haobowd 發(fā)布于2019-07-25 11:33 / 3212人閱讀

摘要：需要分詞的字符串控制是否使用模型這種分詞方法粒度比較細(xì)，成為搜索引擎模式返回的結(jié)構(gòu)是一個(gè)可迭代的。以及用法和上述一致，最終返回的結(jié)構(gòu)是一個(gè)列表。

1.分詞 1.1主要分詞函數(shù)

jieba.cut(sentence, cut_all, HMM):sentence-需要分詞的字符串；cut_all-控制是否采用全模式；HMM-控制是否使用HMM模型；jieba.cut()返回的結(jié)構(gòu)是一個(gè)可迭代的 generator。

jieba.cut_for_search(sentence, HMM):sentence-需要分詞的字符串；HMM-控制是否使用HMM模型；這種分詞方法粒度比較細(xì)，成為搜索引擎模式；jieba.cut_for_search()返回的結(jié)構(gòu)是一個(gè)可迭代的 generator。

jieba.lcut()以及jieba.lcut_for_search用法和上述一致，最終返回的結(jié)構(gòu)是一個(gè)列表list。

1.2示例

import jieba as jb

seg_list = jb.cut("我來(lái)到北京清華大學(xué)", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jb.cut("我來(lái)到北京清華大學(xué)", cut_all=False)
print("精確模式: " + "/ ".join(seg_list))  # 精確模式

seg_list = jb.cut("他來(lái)到了網(wǎng)易杭研大廈")  
print("默認(rèn)模式: " + "/ ".join(seg_list)) # 默認(rèn)是精確模式

seg_list = jb.cut_for_search("小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所，后在日本京都大學(xué)深造")  
print("搜索引擎模式: " + "/ ".join(seg_list)) # 搜索引擎模式

GPU云服務(wù)器云服務(wù)器 jieba分詞 python 分詞 python分詞 python 分詞庫(kù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/38470.html

相關(guān)文章

分詞，難在哪里？科普+解決方案！

摘要：分詞的算法中文分詞有難度，不過(guò)也有成熟的解決方案。例如通過(guò)人民日?qǐng)?bào)訓(xùn)練的分詞系統(tǒng)，在網(wǎng)絡(luò)玄幻小說(shuō)上，分詞的效果就不會(huì)好。三的優(yōu)點(diǎn)是開(kāi)源的，號(hào)稱(chēng)是中，最好的中文分詞組件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 題圖：by Lucas Davies 一、前言分詞，我想是大多數(shù)...

Steven 2019-07-30 17:48 評(píng)論0 收藏0
Python第三方庫(kù)jieba庫(kù)與中文分詞全面詳解

　　Python在工作中的應(yīng)用還是比較的廣泛的，市場(chǎng)上面對(duì)于這類(lèi)人才開(kāi)出的薪資還是比較的高的。那么，如何使用第三方庫(kù)jieba庫(kù)與中文分詞進(jìn)行一個(gè)分解呢？下面小編就給大家詳細(xì)的做出一個(gè)解答?！　∫?、什么是jieba庫(kù)　　jieba是優(yōu)秀的中文分詞第三方庫(kù)，由于中文文本之間每個(gè)漢字都是連續(xù)書(shū)寫(xiě)的，我們需要通過(guò)特定的手段來(lái)獲得其中的每個(gè)詞組，這種手段叫做分詞，我們可以通過(guò)jieba庫(kù)來(lái)完成這個(gè)過(guò)程。　...

89542767 2022-11-05 11:41 評(píng)論0 收藏0
python使用jieba進(jìn)行中文分詞wordcloud制作詞云

摘要：準(zhǔn)備工作抓取數(shù)據(jù)存到文檔中，了解問(wèn)題分詞分的不太準(zhǔn)確，比如機(jī)器學(xué)習(xí)會(huì)被切成機(jī)器和學(xué)習(xí)兩個(gè)詞，使用自定義詞典，原本的想法是只切出自定義詞典里的詞，但實(shí)際上不行，所以首先根據(jù)分詞結(jié)果提取出高頻詞并自行添加部分詞作為詞典，切詞完畢只統(tǒng)計(jì)自定義詞典準(zhǔn)備工作抓取數(shù)據(jù)存到txt文檔中，了解jieba 問(wèn)題 jieba分詞分的不太準(zhǔn)確，比如機(jī)器學(xué)習(xí)會(huì)被切成機(jī)器和學(xué)習(xí)兩個(gè)詞，使用自定義詞典，原本...

yvonne 2019-07-31 10:57 評(píng)論0 收藏0
python 實(shí)現(xiàn)中文分詞統(tǒng)計(jì)

摘要：利用我們集成的目前世界上規(guī)模最大的人工分詞和詞性標(biāo)注中文語(yǔ)料庫(kù)約含萬(wàn)字訓(xùn)練而成，模型標(biāo)注能力強(qiáng)大。據(jù)說(shuō)是最好的中文分詞組件，支持等多種語(yǔ)言。總是看到別人用Python搞各種統(tǒng)計(jì)，前端菜鳥(niǎo)的我也來(lái)嘗試了一把。有各種語(yǔ)義分析庫(kù)在，一切好像并不是很復(fù)雜。不過(guò)Python剛開(kāi)始看，估計(jì)代碼有點(diǎn)丑。一、兩種中文分詞開(kāi)發(fā)包 thulac (http://thulac.thunlp.org/)...

Honwhy 2019-07-30 14:52 評(píng)論0 收藏0