亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

OCR識(shí)別驗(yàn)證碼

Yangyang / 3501人閱讀

摘要:識(shí)別網(wǎng)站驗(yàn)證碼詳見維基百科或者百度百科識(shí)別的驗(yàn)證碼原理采集一批驗(yàn)證碼,根據(jù)圖片特點(diǎn)進(jìn)行初步處理二值化灰度化濾波降噪等處理然后分割圖片,旋轉(zhuǎn)圖片,模板選取,訓(xùn)練算法,讓它更準(zhǔn)確。

最近在爬某網(wǎng)站,老是蹦出來驗(yàn)證碼,就想著找個(gè)OCR破了這個(gè)驗(yàn)證碼,然后就開始了OCR探索之旅。

首先簡(jiǎn)單說一下什么是OCR

OCR是(Optical Character Recognition,光學(xué)字符識(shí)別)的簡(jiǎn)稱,主要用途:

辦公用途,用來識(shí)別圖片里面的文字,可以高效率的錄入圖片類型文件。

識(shí)別網(wǎng)站驗(yàn)證碼

詳見維基百科或者百度百科

OCR識(shí)別的驗(yàn)證碼原理

采集一批驗(yàn)證碼,根據(jù)圖片特點(diǎn)進(jìn)行初步處理(二值化/灰度化/濾波/降噪等處理)

然后分割圖片,旋轉(zhuǎn)圖片,模板選取,訓(xùn)練算法,讓它更準(zhǔn)確。

有興趣的可以看一個(gè)Python實(shí)現(xiàn)的OCR識(shí)別驗(yàn)證碼詳細(xì)demo,實(shí)際操作過程挺有意思的,大家有興趣了可以試試

OCR識(shí)別驗(yàn)證碼的具體操作

首先我測(cè)試了一個(gè)百度開源的Node.js實(shí)現(xiàn)的OCR包
gitHub地址 https://github.com/netpi/baidu-ocr-api

安裝也很簡(jiǎn)單直接按照官方的文檔安裝即可
發(fā)現(xiàn)百度的這個(gè)OCR包識(shí)別效果不太理想

![node_ocr.png][1]  

然后經(jīng)過一番Google和小伙伴們的推薦 選擇一個(gè)Google開源的tesseract這個(gè)是C++寫的,直接融合到爬蟲里不太方便,__有外國(guó)朋友基于tesseract封裝了一個(gè)Python的包pytesseract__,直接開箱即用,融入爬蟲程序中。

百聞不如一run

**ps(這里使用的操作系統(tǒng)是Ubuntu16.04;Python版本是2.7)**  
直接 `pip install pytesseract` 然后Python圖片處理要用到PIL(Python Imaging Library) `pip install PIL`
原圖片   

寫個(gè)簡(jiǎn)單的測(cè)試demo
![code.png][3]

看下識(shí)別結(jié)果   
![error.png][4] 

報(bào)錯(cuò)了, 根據(jù)報(bào)錯(cuò)信息來看,是確實(shí)了什么文件,或者依賴lib
我跟蹤了pytesseract的代碼,發(fā)現(xiàn)是少了C++提供的OCR服務(wù),因?yàn)閜ytesseract是調(diào)用的tesseract(C++寫的)
然后安裝tesseract ```sudo apt install tesseract```
再run一下代碼

整體結(jié)果還可以(倒數(shù)第四位識(shí)別錯(cuò)了),再訓(xùn)練一下準(zhǔn)確率就更高了。
預(yù)知后事如何,且聽下回分解

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/38247.html

相關(guān)文章

  • Python通用驗(yàn)證識(shí)別OCR庫ffffddocr的安裝使用教程

      小編寫這篇文章的主要目的,主要是給大家去做一個(gè)相關(guān)的介紹,介紹的內(nèi)容是關(guān)于Python通用驗(yàn)證碼的一些相關(guān)小技巧,包括有通用驗(yàn)證碼識(shí)別相關(guān)的OCR庫,同時(shí)也會(huì)給大家介紹一些內(nèi)容,介紹包括OCR庫ddddocr安裝使用教程,下面小編就給大家詳細(xì)解答下?! ∏把浴 ≡谑褂米詣?dòng)化登錄網(wǎng)站的時(shí)候,經(jīng)常輸入用戶名和密碼后會(huì)遇到驗(yàn)證碼。今天介紹一款通用驗(yàn)證碼識(shí)別OCR庫,對(duì)驗(yàn)證碼識(shí)別徹底說拜拜,它的名字是...

    89542767 評(píng)論0 收藏0
  • 使用asprise進(jìn)行圖片驗(yàn)證識(shí)別

    摘要:內(nèi)置了對(duì)平臺(tái)的類庫在里頭,可以自己加載,無需額外在操作系統(tǒng)安裝,可便攜性強(qiáng)一點(diǎn)。調(diào)用不是線程安全的,因此多線程的話,每個(gè)線程自己一個(gè)實(shí)例測(cè)試 asprise-java-ocr-api 內(nèi)置了對(duì)windows、mac、linux平臺(tái)的類庫在jar里頭,可以自己加載,無需額外在操作系統(tǒng)安裝,可便攜性強(qiáng)一點(diǎn)。 maven com.asprise.o...

    cjie 評(píng)論0 收藏0
  • python利用Tesseract識(shí)別驗(yàn)證

    摘要:無論是是自動(dòng)化登錄還是爬蟲,總繞不開驗(yàn)證碼,這次就來談?wù)勚泄鈱W(xué)識(shí)別驗(yàn)證碼模塊和。和是的一個(gè)識(shí)別庫,但其實(shí)是對(duì)做的一層封裝,是的引擎包裝器所以它們的核心是因此在安裝之前,我們需要先安裝。 無論是是自動(dòng)化登錄還是爬蟲,總繞不開驗(yàn)證碼,這次就來談?wù)刾ython中光學(xué)識(shí)別驗(yàn)證碼模塊tesserocr和pytesseract。tesserocr和pytesseract是Python的一個(gè)OCR識(shí)...

    王陸寬 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<