部署Scrapy分布式爬蟲項(xiàng)目

techstay 發(fā)布于2019-07-31 10:01 / 894人閱讀

摘要：以上示例代表當(dāng)發(fā)現(xiàn)條或條以上的級(jí)別的時(shí)，自動(dòng)停止當(dāng)前任務(wù)，如果當(dāng)前時(shí)間在郵件工作時(shí)間內(nèi)，則同時(shí)發(fā)送通知郵件。

一、需求分析

初級(jí)用戶：

只有一臺(tái)開發(fā)主機(jī)

能夠通過(guò) Scrapyd-client 打包和部署 Scrapy 爬蟲項(xiàng)目，以及通過(guò) Scrapyd JSON API 來(lái)控制爬蟲，感覺命令行操作太麻煩，希望能夠通過(guò)瀏覽器直接部署和運(yùn)行項(xiàng)目

專業(yè)用戶：

有 N 臺(tái)云主機(jī)，通過(guò) Scrapy-Redis 構(gòu)建分布式爬蟲

希望集成身份認(rèn)證

希望在頁(yè)面上直觀地查看所有云主機(jī)的運(yùn)行狀態(tài)

希望能夠自由選擇部分云主機(jī)，批量部署和運(yùn)行爬蟲項(xiàng)目，實(shí)現(xiàn)集群管理

希望自動(dòng)執(zhí)行日志分析，以及爬蟲進(jìn)度可視化

希望在出現(xiàn)特定類型的異常日志時(shí)能夠及時(shí)通知用戶，包括自動(dòng)停止當(dāng)前爬蟲任務(wù)

二、動(dòng)圖預(yù)覽

集群多節(jié)點(diǎn)部署項(xiàng)目和運(yùn)行爬蟲：

三、安裝和配置

1、請(qǐng)先確保所有主機(jī)都已經(jīng)安裝和啟動(dòng) Scrapyd，如果需要遠(yuǎn)程訪問(wèn) Scrapyd，則需將 Scrapyd 配置文件中的 bind_address 修改為 bind_address = 0.0.0.0，然后重啟 Scrapyd。

2、開發(fā)主機(jī)或任一臺(tái)主機(jī)安裝 ScrapydWeb： pip install scrapydweb

3、運(yùn)行命令 scrapydweb -h，將在當(dāng)前工作目錄生成配置文件 scrapydweb_settings.py，可用于下文的自定義配置。

4、啟用 HTTP 基本認(rèn)證：

ENABLE_AUTH = True
USERNAME = "username"
PASSWORD = "password"

5、添加 Scrapyd server，支持字符串和元組兩種配置格式，支持添加認(rèn)證信息和分組/標(biāo)簽：

SCRAPYD_SERVERS = [
 "127.0.0.1",
 # "username:password@localhost:6801#group",
 ("username", "password", "localhost", "6801", "group"),
]

6、通過(guò)運(yùn)行命令 scrapydweb 啟動(dòng) ScrapydWeb

四、訪問(wèn) Web UI

通過(guò)瀏覽器訪問(wèn)并登錄 http://127.0.0.1:5000

Overview 頁(yè)面自動(dòng)輸出所有 Scrapyd server 的運(yùn)行狀態(tài)

通過(guò)分組和過(guò)濾可以自由選擇若干臺(tái) Scrapyd server，調(diào)用 Scrapyd 提供的所有 HTTP JSON API，實(shí)現(xiàn)一次操作，批量執(zhí)行

五、部署項(xiàng)目

支持指定若干臺(tái) Scrapyd server 部署項(xiàng)目

通過(guò)配置 SCRAPY_PROJECTS_DIR 指定 Scrapy 項(xiàng)目開發(fā)目錄，ScrapydWeb 將自動(dòng)列出該路徑下的所有項(xiàng)目，選擇項(xiàng)目后即可自動(dòng)打包和部署指定項(xiàng)目：

如果 ScrapydWeb 運(yùn)行在遠(yuǎn)程服務(wù)器上，除了通過(guò)當(dāng)前開發(fā)主機(jī)上傳常規(guī)的 egg 文件，也可以將整個(gè)項(xiàng)目文件夾添加到 zip/tar/tar.gz 壓縮文件后直接上傳即可，無(wú)需手動(dòng)打包：

六、運(yùn)行爬蟲

通過(guò)下拉框直接選擇 project，version 和 spider

支持傳入 Scrapy settings 和 spider arguments

同樣支持指定若干臺(tái) Scrapyd server 運(yùn)行爬蟲

七、日志分析和可視化

默認(rèn)情況下，ScrapydWeb 將在后臺(tái)定時(shí)自動(dòng)讀取和分析 Scrapy log 文件并生成 Stats 頁(yè)面

爬蟲進(jìn)度可視化

八、郵件通知

基于后臺(tái)定時(shí)讀取和分析 Scrapy log 文件，ScrapydWeb 將在滿足特定觸發(fā)器時(shí)發(fā)送通知郵件，郵件正文包含當(dāng)前運(yùn)行任務(wù)的統(tǒng)計(jì)信息。

1、添加郵箱帳號(hào)：

SMTP_SERVER = "smtp.qq.com"
SMTP_PORT = 465
SMTP_OVER_SSL = True
SMTP_CONNECTION_TIMEOUT = 10
?
FROM_ADDR = "username@qq.com"
EMAIL_PASSWORD = "password"
TO_ADDRS = ["username@qq.com"]

2、設(shè)置郵件工作時(shí)間和基本觸發(fā)器，以下示例代表：每隔1小時(shí)或某一任務(wù)完成時(shí)，并且當(dāng)前時(shí)間是工作日的9點(diǎn)，12點(diǎn)和17點(diǎn)，ScrapydWeb 將會(huì)發(fā)送通知郵件。

EMAIL_WORKING_DAYS = [1, 2, 3, 4, 5]
EMAIL_WORKING_HOURS = [9, 12, 17]
ON_JOB_RUNNING_INTERVAL = 3600
ON_JOB_FINISHED = True

3、除了基本觸發(fā)器，ScrapydWeb 還提供了多種觸發(fā)器用于處理不同類型的 log，包括 "CRITICAL", "ERROR", "WARNING", "REDIRECT", "RETRY" 和 "IGNORE"等。

LOG_CRITICAL_THRESHOLD = 3
LOG_CRITICAL_TRIGGER_STOP = True
LOG_CRITICAL_TRIGGER_FORCESTOP = False
...
LOG_IGNORE_TRIGGER_FORCESTOP = False

以上示例代表：當(dāng)發(fā)現(xiàn)3條或3條以上的 critical 級(jí)別的 log 時(shí)，ScrapydWeb 自動(dòng)停止當(dāng)前任務(wù)，如果當(dāng)前時(shí)間在郵件工作時(shí)間內(nèi)，則同時(shí)發(fā)送通知郵件。

九、GitHub 開源

活捉幾只官方大佬，趕緊前去圍觀吧，別忘了 Star 噢！

https://github.com/my8100/scrapydweb

GPU云服務(wù)器云服務(wù)器 scrapy分布式爬蟲 scrapy分布式爬蟲實(shí)例 scrapy 爬蟲爬蟲scrapy

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/43111.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

techstay

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

2021阿里云雙11優(yōu)惠活動(dòng)力度盤點(diǎn)（依舊新人福利多不建議選擇限CPU云服務(wù)器）

閱讀 3086·2021-10-27 14:16
第三章基本數(shù)據(jù)類型-time庫(kù)認(rèn)識(shí)

閱讀 772·2021-10-13 09:39
2021年幾大海外云服務(wù)器推薦：Hostwinds、BlueHost、RAKsmart、Vultr等

閱讀 3915·2021-09-29 09:46
推薦幾個(gè)前端開發(fā)插件

閱讀 2171·2019-08-30 15:54
ios二維碼識(shí)別偏離

閱讀 2666·2019-08-30 15:52
你不知道WebSocket嗎？

閱讀 3087·2019-08-30 15:44
html5與css3階段復(fù)習(xí)題

閱讀 1187·2019-08-30 15:44
css flexbox 布局練習(xí)

閱讀 564·2019-08-30 10:51

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

部署Scrapy分布式爬蟲項(xiàng)目

相關(guān)文章

Scrapy-Cluster結(jié)合Spiderkeeper管理分布式爬蟲

如何通過(guò) Scrapyd + ScrapydWeb 簡(jiǎn)單高效地部署和監(jiān)控分布式爬蟲項(xiàng)目

**Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---14、部署相關(guān)庫(kù)的安裝：Scrapyrt、Gerapy**

**從0-1打造最強(qiáng)性能Scrapy爬蟲集群**

**利用 scrapy 集成社區(qū)爬蟲功能**

發(fā)表評(píng)論

0條評(píng)論

techstay

男|高級(jí)講師

TA的文章

2021阿里云雙11優(yōu)惠活動(dòng)力度盤點(diǎn)（依舊新人福利多不建議選擇限CPU云服務(wù)器）

第三章基本數(shù)據(jù)類型-time庫(kù)認(rèn)識(shí)

2021年幾大海外云服務(wù)器推薦：Hostwinds、BlueHost、RAKsmart、Vultr等

推薦幾個(gè)前端開發(fā)插件

ios二維碼識(shí)別偏離

你不知道WebSocket嗎？

html5與css3階段復(fù)習(xí)題

css flexbox 布局練習(xí)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

部署Scrapy分布式爬蟲項(xiàng)目

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！