node網(wǎng)絡(luò)爬蟲實例了解下？

陸斌發(fā)布于2019-08-26 12:00 / 2475人閱讀

摘要：今天給大家分享的是爬蟲，寫得不好的大家多關(guān)照，指出背景交代，以下寫的都是參照網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)用實現(xiàn)的，所以的具體思路什么的，大家可以去看書上的介紹，感興趣的，可以去了解一波。

今天給大家分享的是node爬蟲，寫得不好的大家多關(guān)照，指出

背景交代，以下寫的demo都是參照《python3網(wǎng)絡(luò)爬蟲開發(fā)實戰(zhàn)》用node實現(xiàn)的，所以demo的具體思路什么的，大家可以去看書上的介紹，感興趣的，可以去了解一波。

[x] 3.4 貓眼電影抓取

貓眼電影抓取，沒什么難點(diǎn)，非常簡單的一個實例。唯一要注意的地方就是正則吧（當(dāng)然也可以用cheerio庫來實現(xiàn)更簡單，主要是為了實踐下不同的方式）。因為python3有很多現(xiàn)成的方法，所以當(dāng)用node去寫的時候，可能要改變一下，具體的可以看源碼

let re = /(?:s.*?)*board-index.*?>(d+)(?:s.*?)*data-src="(.*?)"(?:s.*?)*name">(.*?)
s*?s*?(.*?)s*?
(?:s.*?)*releasetime">(.*?)
(?:s.*?)*integer">(.*?).*?fraction">(.*?)/g

[x] 6.4 今日頭條Ajax街拍圖片抓取

// 主要是有一個疑問，下面這段代碼主要是判斷文件存不存在，如果不存在的話拋異常再寫入文件，但是總感覺這種處理方式有問題，希望能找到更合理的方法
    try {
      fs.accessSync(file_path)
      console.warning("Already Downloaded", file_path)
    } catch (error) {
      response.data.pipe(fs.createWriteStream(file_path))
    }

[x] 7.4 淘寶商品

這里主要介紹的就是puppeteer是 Google Chrome 團(tuán)隊官方的無界面（Headless）Chrome 工具, 通過puppeteer我們很容易的模擬用戶的操作

[x] 8 圖片驗證碼識別

這里主要注意的就是node-tesseract庫和gm,由于之前一開始用的是tesseract.js庫，一直報錯可以看下這兩個問題issues1和issues2，后來改成node-tesseract就好了，我感覺也是因為墻的原因吧或者是配置的問題

// 可能把路徑指向本地就好了，具體的沒測試，后面再找找問題看
window.Tesseract = Tesseract.create({
    workerPath: "/path/to/worker.js",
    langPath: "https://cdn.rawgit.com/naptha/tessdata/gh-pages/3.02/",
    corePath: "https://cdn.rawgit.com/naptha/tesseract.js-core/0.1.0/index.js",
})

后面還會更新其他的爬蟲demo,希望本文對你有幫助github地址

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/108011.html

發(fā)表評論

登陸后可評論

0條評論

陸斌

男|高級講師

我要關(guān)注我要私信

TA的文章

融億云：限時秒殺,香港cn2云服務(wù)器僅9.9元/首月;99元/首年起

閱讀 3843·2021-09-22 10:57
使用css時，可能會出錯的兩個地方

閱讀 1970·2019-08-30 15:55
如何獲取籃球比賽實時賠率

閱讀 2761·2019-08-30 15:44
對列布局columns的理解

閱讀 1788·2019-08-30 15:44
在線工具收集

閱讀 1919·2019-08-30 15:44
水平、垂直居中方式總結(jié)

閱讀 2305·2019-08-30 12:49
瀏覽器渲染原理及流程

閱讀 1107·2019-08-29 18:47
css實現(xiàn)居中、自適應(yīng)

閱讀 3198·2019-08-29 16:15

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

node網(wǎng)絡(luò)爬蟲實例了解下？

相關(guān)文章

**分分鐘教你用node.js寫個爬蟲**

React 服務(wù)端渲染完美的解決方案

Spring Cloud + Netty 打造分布式可集群部署的 DHT 磁力爬蟲（開源）

**一只node爬蟲的升級打怪之路**

發(fā)表評論

0條評論

陸斌

男|高級講師

TA的文章

融億云：限時秒殺,香港cn2云服務(wù)器僅9.9元/首月;99元/首年起

使用css時，可能會出錯的兩個地方

如何獲取籃球比賽實時賠率

對列布局columns的理解

在線工具收集

水平、垂直居中方式總結(jié)

瀏覽器渲染原理及流程

css實現(xiàn)居中、自適應(yīng)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

node網(wǎng)絡(luò)爬蟲實例了解下？

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！