亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

Python開(kāi)展文字識(shí)別中的省份并繪圖

89542767 / 750人閱讀

  正在進(jìn)行NLP(自然語(yǔ)言處理)相關(guān)任務(wù)完成后,經(jīng)常碰到務(wù)必辨別并獲得省、大都市、行政區(qū)的需求。今天給大家介紹1個(gè)模塊,你只需將結(jié)構(gòu)體數(shù)組傳遞給這個(gè)模塊,他就可以給你返回這個(gè)結(jié)構(gòu)體數(shù)組內(nèi)的省、市、區(qū)關(guān)鍵詞,趕緊一起來(lái)了解一下


  正在進(jìn)行NLP(自然語(yǔ)言處理)相關(guān)任務(wù)完成后,經(jīng)常碰到務(wù)必辨別并獲得省、大都市、行政區(qū)的需求。雖然自身依據(jù)關(guān)鍵詞表1個(gè)一個(gè)搜索也可以實(shí)現(xiàn)獲得目的,但必須要先搜集省份關(guān)鍵詞表,相對(duì)而言比較復(fù)雜。


  今天給大家介紹1個(gè)模塊,你只需將結(jié)構(gòu)體數(shù)組傳遞給這個(gè)模塊,他就可以給你返回這個(gè)結(jié)構(gòu)體數(shù)組內(nèi)的省、市、區(qū)關(guān)鍵詞,并可以給你在圖片里標(biāo)出下去,它是Cpca模塊。

01.png

  1.打算


  開(kāi)始前,你需要保證Python和pip已成功組裝電腦上,要是沒(méi)有,能夠網(wǎng)站訪(fǎng)問(wèn)本文:超全Python組裝手冊(cè)開(kāi)展組裝。


  (可選擇1)假如你用了Python的目的在于數(shù)據(jù)統(tǒng)計(jì)分析,能直接組裝Anaconda,它自帶了Python和pip.


  (可選擇2)除此之外,建議大家用VSCode在線(xiàn)編輯器,它有很多的優(yōu)勢(shì)


  挑選下列任一種方法輸入指令組裝依靠:


  1.Windows自然環(huán)境開(kāi)啟Cmd(逐漸-運(yùn)作-CMD)。


  2.MacOS自然環(huán)境開(kāi)啟Terminal(command+空格符鍵入Terminal)。


  3.假如你用的都是VSCode在線(xiàn)編輯器或Pycharm,能夠直接用頁(yè)面下方Terminal.

  pipinstallcpca


  留意,現(xiàn)階段cpca模塊僅適用Python3或以上版本號(hào)。


  在windows上有可能出現(xiàn)類(lèi)似如下所示難題:

  Buildingwheelforpyahocorasick(setup.py)...error


  先閱讀去免費(fèi)下載MicrosoftVisualC++BuildTools組裝VC++構(gòu)建工具,再重新pipinstallcpca,就可以處理問(wèn)題。


  2.基本使用


  通過(guò)兩行代碼就能實(shí)現(xiàn)最基本的省市區(qū)提?。?/p>


  #公眾號(hào):Python實(shí)用寶典
  #2022/06/23
  import cpca
  location_str=[
  "廣東省深圳市福田區(qū)巴丁街深南中路1025號(hào)新城大廈1層",
  "特斯拉上海超級(jí)工廠(chǎng)是特斯拉汽車(chē)首座美國(guó)本土以外的超級(jí)工廠(chǎng),位于中華人民共和國(guó)上海市。",
  "三星堆遺址位于中國(guó)四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址"
  ]
  df=cpca.transform(location_str)
  print(df)

  效果如下:

02.png

  省市區(qū)地址adcode


  0廣東省深圳市福田區(qū)巴丁街深南中路1025號(hào)新城大廈1層440304


  1上海市None None。310000


  2四川省德陽(yáng)市廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址510681


  注意第三條的廣漢市,cpca不僅識(shí)別到了語(yǔ)句中的縣級(jí)市廣漢市,還能自動(dòng)匹配到其代管市的德陽(yáng)市,不得不說(shuō)非常強(qiáng)大。


  如果你想獲知程序是從字符串的那個(gè)位置提取出省市區(qū)名的,可以添加一個(gè)pos_sensitive=True參數(shù):


  #公眾號(hào):Python實(shí)用寶典
  #2022/06/23
  import cpca
  location_str=[
  "廣東省深圳市福田區(qū)巴丁街深南中路1025號(hào)新城大廈1層",
  "特斯拉上海超級(jí)工廠(chǎng)是特斯拉汽車(chē)首座美國(guó)本土以外的超級(jí)工廠(chǎng),位于中華人民共和國(guó)上海市。",
  "三星堆遺址位于中國(guó)四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址"
  ]
  df=cpca.transform(location_str,pos_sensitive=True)
  print(df)
  效果如下:
  (base)G:push20220623>python 1.py
  省市區(qū)地址adcode省_pos市_pos區(qū)_pos
  0廣東省深圳市福田區(qū)巴丁街深南中路1025號(hào)新城大廈1層440304 0 3 6
  1上海市None None。310000 38-1-1
  2四川省德陽(yáng)市廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時(shí)代文化遺址510681 9-1 12
  它標(biāo)記出了識(shí)別到省、市、區(qū)的關(guān)鍵位置(index),當(dāng)然如果是德陽(yáng)市這種特殊的識(shí)別會(huì)被標(biāo)記為-1.


  3.高級(jí)使用


  它還可以從大段文本中批量識(shí)別多個(gè)地區(qū):


  #公眾號(hào):Python實(shí)用寶典
  #2022/06/23
  import cpca
  long_text="對(duì)一個(gè)城市的評(píng)價(jià)總會(huì)包含個(gè)人的感情。如果你喜歡一個(gè)城市,很有可能是喜歡彼時(shí)彼地的自己。"
  "在廣州、香港讀過(guò)書(shū),工作過(guò),在深圳買(mǎi)過(guò)房、短暫生活過(guò),去北京出了幾次差。"
  "想重點(diǎn)比較一下廣州、深圳和香港,順帶說(shuō)一下北京??偟膩?lái)說(shuō),覺(jué)得廣州舒適、"
  "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。"
  df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True)
  print(df)
  效果如下:
  (base)G:push20220623>python 1.py
  省市區(qū)地址adcode省_pos市_pos區(qū)_pos
  0廣東省廣州市None 440100-1 44-1
  1香港特別行政區(qū)None None 810000 47-1-1
  2廣東省深圳市None 440300-1 58-1
  3北京市None None 110000 71-1-1
  4廣東省廣州市None 440100-1 86-1
  5廣東省深圳市None 440300-1 89-1
  6香港特別行政區(qū)None None 810000 92-1-1
  7北京市None None 110000 100-1-1
  8廣東省廣州市None 440100-1 110-1
  9香港特別行政區(qū)None None 810000 115-1-1
  10廣東省深圳市None 440300-1 120-1
  11北京市None None 110000 128-1-1
  12廣東省廣州市None 440100-1 143-1
  不僅如此,模塊中還自帶一些簡(jiǎn)單繪圖工具,可以在地圖上將上面輸出的數(shù)據(jù)以熱力圖的形式畫(huà)出來(lái):
  #公眾號(hào):Python實(shí)用寶典
  #2022/06/23
  import cpca
  from cpca import drawer
  long_text="對(duì)一個(gè)城市的評(píng)價(jià)總會(huì)包含個(gè)人的感情。如果你喜歡一個(gè)城市,很有可能是喜歡彼時(shí)彼地的自己。"
  "在廣州、香港讀過(guò)書(shū),工作過(guò),在深圳買(mǎi)過(guò)房、短暫生活過(guò),去北京出了幾次差。"
  "想重點(diǎn)比較一下廣州、深圳和香港,順帶說(shuō)一下北京??偟膩?lái)說(shuō),覺(jué)得廣州舒適、"
  "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。"
  df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True)
  drawer.draw_locations(df[cpca._ADCODE],"df.html")


  運(yùn)行的時(shí)候可能會(huì)報(bào)這個(gè)錯(cuò):


  (base)G:push20220623>python 1.py
  Traceback(most recent call last):
  File"1.py",line 12,in<module>
  drawer.draw_locations(df[cpca._ADCODE],"df.html")
  File"G:Anaconda3libsite-packagescpcadrawer.py",line 41,in draw_locations
  import folium
  ModuleNotFoundError:No module named'folium'
  使用pip安裝即可:
  pip install folium


  然后重新運(yùn)行代碼,會(huì)在當(dāng)前目錄下生成df.html,雙擊打開(kāi),效果如下:


  怎么用,是不是感覺(jué)非常方便?以后地點(diǎn)的識(shí)別用這個(gè)模塊就完全夠了。


  還有更多的細(xì)節(jié)你可以訪(fǎng)問(wèn)這個(gè)項(xiàng)目的Github主頁(yè)閱讀,該項(xiàng)目的README完全中文編寫(xiě),非常容易閱讀:

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/130266.html

相關(guān)文章

  • 爬取淘寶上4000條月餅數(shù)據(jù),制作了一個(gè)酷炫的可視化大屏!

    摘要:基于此,我爬取了淘寶上多條月餅的銷(xiāo)售數(shù)據(jù),為大家展示了一幅漂亮的可視化大屏,解決大家心目中的問(wèn)題。模塊的安裝與配置這次爬取淘寶,采用的是最簡(jiǎn)單的方式控制瀏覽器進(jìn)行自動(dòng)化操作,中途只需要掃碼登陸一次,即可完成整個(gè)數(shù)據(jù)的爬取。 ...

    cod7ce 評(píng)論0 收藏0
  • python matplotlib庫(kù)繪圖實(shí)戰(zhàn)之繪制散點(diǎn)圖

      眾所周知,Python有著很強(qiáng)大的技術(shù)能力,比如,他可以進(jìn)行實(shí)戰(zhàn)繪圖,還有這很強(qiáng)的函數(shù)能力,可以進(jìn)行繪制散點(diǎn)圖,下面小編就具體的功能,給大家進(jìn)行詳細(xì)的介紹下?! ∫?、導(dǎo)入庫(kù)importmatplotlib.pyplotasplt  二.設(shè)置文字  plt.title("doublenumber",fontsize=24)   plt.xlabel("number&...

    89542767 評(píng)論0 收藏0
  • Python--matplotlib繪圖可視化知識(shí)點(diǎn)整理

    摘要:本文作為學(xué)習(xí)過(guò)程中對(duì)一些常用知識(shí)點(diǎn)的整理,方便查找。所有繪圖操作僅對(duì)當(dāng)前圖和當(dāng)前坐標(biāo)有效。表示把圖標(biāo)分割成的網(wǎng)格。每個(gè)對(duì)象都是一個(gè)擁有自己坐標(biāo)系統(tǒng)的繪圖區(qū)域。避免比例壓縮為橢圓數(shù)據(jù)可視化入門(mén)教程繪圖核心剖析如何調(diào)整子圖的大小 本文作為學(xué)習(xí)過(guò)程中對(duì)matplotlib一些常用知識(shí)點(diǎn)的整理,方便查找。 強(qiáng)烈推薦ipython無(wú)論你工作在什么項(xiàng)目上,IPython都是值得推薦的。利用ipyt...

    nifhlheimr 評(píng)論0 收藏0
  • 數(shù)據(jù)可視化Seaborn從零開(kāi)始學(xué)習(xí)教程(一) 風(fēng)格選擇

    摘要:簡(jiǎn)介同一樣,也是進(jìn)行數(shù)據(jù)可視化分析的重要第三方包。的五種繪圖風(fēng)格有五種的風(fēng)格,它們分別是。 作者:xiaoyu微信公眾號(hào):Python數(shù)據(jù)科學(xué)知乎:python數(shù)據(jù)分析師 最近在做幾個(gè)項(xiàng)目的數(shù)據(jù)分析,每次用到seaborn進(jìn)行可視化繪圖的時(shí)候總是忘記具體操作。雖然seaborn的官方網(wǎng)站已經(jīng)詳細(xì)的介紹了使用方法,但是畢竟是英文,而且查找不是很方便。因此博主想從零開(kāi)始將seaborn學(xué)...

    testbird 評(píng)論0 收藏0
  • 如何運(yùn)用python完成Sim哈希算法

      此篇文章主要是闡述了如何運(yùn)用python完成Sim哈希算法,文章內(nèi)容依托于python的相關(guān)信息開(kāi)展Sim哈希算法的詳細(xì)介紹一下,具有很強(qiáng)的參考意義,感興趣的朋友可以了解一下  1.為何需用Simhash?  傳統(tǒng)式相關(guān)性?xún)?yōu)化算法:語(yǔ)義相似度測(cè)算,一般采用線(xiàn)性空間實(shí)體模型(VSM),先向文字中文分詞,提取特征,依據(jù)特點(diǎn)創(chuàng)建文字空間向量,把文字中間相關(guān)性測(cè)算轉(zhuǎn)化成矩陣的特征值之間的距離測(cè)算,如歐...

    89542767 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<