摘要:識(shí)別網(wǎng)站驗(yàn)證碼詳見維基百科或者百度百科識(shí)別的驗(yàn)證碼原理采集一批驗(yàn)證碼,根據(jù)圖片特點(diǎn)進(jìn)行初步處理二值化灰度化濾波降噪等處理然后分割圖片,旋轉(zhuǎn)圖片,模板選取,訓(xùn)練算法,讓它更準(zhǔn)確。
最近在爬某網(wǎng)站,老是蹦出來驗(yàn)證碼,就想著找個(gè)OCR破了這個(gè)驗(yàn)證碼,然后就開始了OCR探索之旅。
首先簡(jiǎn)單說一下什么是OCROCR是(Optical Character Recognition,光學(xué)字符識(shí)別)的簡(jiǎn)稱,主要用途:
辦公用途,用來識(shí)別圖片里面的文字,可以高效率的錄入圖片類型文件。
識(shí)別網(wǎng)站驗(yàn)證碼
詳見維基百科或者百度百科
OCR識(shí)別的驗(yàn)證碼原理采集一批驗(yàn)證碼,根據(jù)圖片特點(diǎn)進(jìn)行初步處理(二值化/灰度化/濾波/降噪等處理)
然后分割圖片,旋轉(zhuǎn)圖片,模板選取,訓(xùn)練算法,讓它更準(zhǔn)確。
有興趣的可以看一個(gè)Python實(shí)現(xiàn)的OCR識(shí)別驗(yàn)證碼詳細(xì)demo,實(shí)際操作過程挺有意思的,大家有興趣了可以試試
OCR識(shí)別驗(yàn)證碼的具體操作首先我測(cè)試了一個(gè)百度開源的Node.js實(shí)現(xiàn)的OCR包
gitHub地址 https://github.com/netpi/baidu-ocr-api
安裝也很簡(jiǎn)單直接按照官方的文檔安裝即可
發(fā)現(xiàn)百度的這個(gè)OCR包識(shí)別效果不太理想
![node_ocr.png][1]
然后經(jīng)過一番Google和小伙伴們的推薦 選擇一個(gè)Google開源的tesseract這個(gè)是C++寫的,直接融合到爬蟲里不太方便,__有外國(guó)朋友基于tesseract封裝了一個(gè)Python的包pytesseract__,直接開箱即用,融入爬蟲程序中。
百聞不如一run
**ps(這里使用的操作系統(tǒng)是Ubuntu16.04;Python版本是2.7)** 直接 `pip install pytesseract` 然后Python圖片處理要用到PIL(Python Imaging Library) `pip install PIL` 原圖片
寫個(gè)簡(jiǎn)單的測(cè)試demo ![code.png][3] 看下識(shí)別結(jié)果 ![error.png][4] 報(bào)錯(cuò)了, 根據(jù)報(bào)錯(cuò)信息來看,是確實(shí)了什么文件,或者依賴lib 我跟蹤了pytesseract的代碼,發(fā)現(xiàn)是少了C++提供的OCR服務(wù),因?yàn)閜ytesseract是調(diào)用的tesseract(C++寫的) 然后安裝tesseract ```sudo apt install tesseract``` 再run一下代碼
整體結(jié)果還可以(倒數(shù)第四位識(shí)別錯(cuò)了),再訓(xùn)練一下準(zhǔn)確率就更高了。
預(yù)知后事如何,且聽下回分解
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/38247.html
小編寫這篇文章的主要目的,主要是給大家去做一個(gè)相關(guān)的介紹,介紹的內(nèi)容是關(guān)于Python通用驗(yàn)證碼的一些相關(guān)小技巧,包括有通用驗(yàn)證碼識(shí)別相關(guān)的OCR庫,同時(shí)也會(huì)給大家介紹一些內(nèi)容,介紹包括OCR庫ddddocr安裝使用教程,下面小編就給大家詳細(xì)解答下?! ∏把浴 ≡谑褂米詣?dòng)化登錄網(wǎng)站的時(shí)候,經(jīng)常輸入用戶名和密碼后會(huì)遇到驗(yàn)證碼。今天介紹一款通用驗(yàn)證碼識(shí)別OCR庫,對(duì)驗(yàn)證碼識(shí)別徹底說拜拜,它的名字是...
摘要:內(nèi)置了對(duì)平臺(tái)的類庫在里頭,可以自己加載,無需額外在操作系統(tǒng)安裝,可便攜性強(qiáng)一點(diǎn)。調(diào)用不是線程安全的,因此多線程的話,每個(gè)線程自己一個(gè)實(shí)例測(cè)試 asprise-java-ocr-api 內(nèi)置了對(duì)windows、mac、linux平臺(tái)的類庫在jar里頭,可以自己加載,無需額外在操作系統(tǒng)安裝,可便攜性強(qiáng)一點(diǎn)。 maven com.asprise.o...
摘要:無論是是自動(dòng)化登錄還是爬蟲,總繞不開驗(yàn)證碼,這次就來談?wù)勚泄鈱W(xué)識(shí)別驗(yàn)證碼模塊和。和是的一個(gè)識(shí)別庫,但其實(shí)是對(duì)做的一層封裝,是的引擎包裝器所以它們的核心是因此在安裝之前,我們需要先安裝。 無論是是自動(dòng)化登錄還是爬蟲,總繞不開驗(yàn)證碼,這次就來談?wù)刾ython中光學(xué)識(shí)別驗(yàn)證碼模塊tesserocr和pytesseract。tesserocr和pytesseract是Python的一個(gè)OCR識(shí)...
閱讀 1863·2021-11-25 09:43
閱讀 15726·2021-09-22 15:11
閱讀 2694·2019-08-30 13:19
閱讀 2070·2019-08-30 12:54
閱讀 1885·2019-08-29 13:06
閱讀 1007·2019-08-26 14:07
閱讀 1666·2019-08-26 10:47
閱讀 3115·2019-08-26 10:41