亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

部署Scrapy分布式爬蟲項(xiàng)目

techstay / 894人閱讀

摘要:以上示例代表當(dāng)發(fā)現(xiàn)條或條以上的級(jí)別的時(shí),自動(dòng)停止當(dāng)前任務(wù),如果當(dāng)前時(shí)間在郵件工作時(shí)間內(nèi),則同時(shí)發(fā)送通知郵件。

一、需求分析

初級(jí)用戶:

只有一臺(tái)開發(fā)主機(jī)

能夠通過(guò) Scrapyd-client 打包和部署 Scrapy 爬蟲項(xiàng)目,以及通過(guò) Scrapyd JSON API 來(lái)控制爬蟲,感覺命令行操作太麻煩,希望能夠通過(guò)瀏覽器直接部署和運(yùn)行項(xiàng)目

專業(yè)用戶:

有 N 臺(tái)云主機(jī),通過(guò) Scrapy-Redis 構(gòu)建分布式爬蟲

希望集成身份認(rèn)證

希望在頁(yè)面上直觀地查看所有云主機(jī)的運(yùn)行狀態(tài)

希望能夠自由選擇部分云主機(jī),批量部署和運(yùn)行爬蟲項(xiàng)目,實(shí)現(xiàn)集群管理

希望自動(dòng)執(zhí)行日志分析,以及爬蟲進(jìn)度可視化

希望在出現(xiàn)特定類型的異常日志時(shí)能夠及時(shí)通知用戶,包括自動(dòng)停止當(dāng)前爬蟲任務(wù)

二、動(dòng)圖預(yù)覽

集群多節(jié)點(diǎn)部署項(xiàng)目和運(yùn)行爬蟲:

三、安裝和配置

1、請(qǐng)先確保所有主機(jī)都已經(jīng)安裝和啟動(dòng) Scrapyd,如果需要遠(yuǎn)程訪問(wèn) Scrapyd,則需將 Scrapyd 配置文件中的 bind_address 修改為 bind_address = 0.0.0.0,然后重啟 Scrapyd。

2、開發(fā)主機(jī)或任一臺(tái)主機(jī)安裝 ScrapydWebpip install scrapydweb

3、運(yùn)行命令 scrapydweb -h,將在當(dāng)前工作目錄生成配置文件 scrapydweb_settings.py,可用于下文的自定義配置。

4、啟用 HTTP 基本認(rèn)證:

ENABLE_AUTH = True
USERNAME = "username"
PASSWORD = "password"

5、添加 Scrapyd server,支持字符串和元組兩種配置格式,支持添加認(rèn)證信息和分組/標(biāo)簽:

SCRAPYD_SERVERS = [
"127.0.0.1",
# "username:password@localhost:6801#group",
("username", "password", "localhost", "6801", "group"),
]

6、通過(guò)運(yùn)行命令 scrapydweb 啟動(dòng) ScrapydWeb

四、訪問(wèn) Web UI

通過(guò)瀏覽器訪問(wèn)并登錄 http://127.0.0.1:5000

Overview 頁(yè)面自動(dòng)輸出所有 Scrapyd server 的運(yùn)行狀態(tài)

通過(guò)分組和過(guò)濾可以自由選擇若干臺(tái) Scrapyd server,調(diào)用 Scrapyd 提供的所有 HTTP JSON API,實(shí)現(xiàn)一次操作,批量執(zhí)行

五、部署項(xiàng)目

支持指定若干臺(tái) Scrapyd server 部署項(xiàng)目

通過(guò)配置 SCRAPY_PROJECTS_DIR 指定 Scrapy 項(xiàng)目開發(fā)目錄,ScrapydWeb 將自動(dòng)列出該路徑下的所有項(xiàng)目,選擇項(xiàng)目后即可自動(dòng)打包和部署指定項(xiàng)目:

如果 ScrapydWeb 運(yùn)行在遠(yuǎn)程服務(wù)器上,除了通過(guò)當(dāng)前開發(fā)主機(jī)上傳常規(guī)的 egg 文件,也可以將整個(gè)項(xiàng)目文件夾添加到 zip/tar/tar.gz 壓縮文件后直接上傳即可,無(wú)需手動(dòng)打包:

六、運(yùn)行爬蟲

通過(guò)下拉框直接選擇 project,version 和 spider

支持傳入 Scrapy settings 和 spider arguments

同樣支持指定若干臺(tái) Scrapyd server 運(yùn)行爬蟲

七、日志分析和可視化

默認(rèn)情況下,ScrapydWeb 將在后臺(tái)定時(shí)自動(dòng)讀取和分析 Scrapy log 文件并生成 Stats 頁(yè)面

爬蟲進(jìn)度可視化

八、郵件通知

基于后臺(tái)定時(shí)讀取和分析 Scrapy log 文件,ScrapydWeb 將在滿足特定觸發(fā)器時(shí)發(fā)送通知郵件,郵件正文包含當(dāng)前運(yùn)行任務(wù)的統(tǒng)計(jì)信息。

1、添加郵箱帳號(hào):

SMTP_SERVER = "smtp.qq.com"
SMTP_PORT = 465
SMTP_OVER_SSL = True
SMTP_CONNECTION_TIMEOUT = 10
?
FROM_ADDR = "username@qq.com"
EMAIL_PASSWORD = "password"
TO_ADDRS = ["username@qq.com"]

2、設(shè)置郵件工作時(shí)間和基本觸發(fā)器,以下示例代表:每隔1小時(shí)或某一任務(wù)完成時(shí),并且當(dāng)前時(shí)間是工作日的9點(diǎn),12點(diǎn)和17點(diǎn),ScrapydWeb 將會(huì)發(fā)送通知郵件。

EMAIL_WORKING_DAYS = [1, 2, 3, 4, 5]
EMAIL_WORKING_HOURS = [9, 12, 17]
ON_JOB_RUNNING_INTERVAL = 3600
ON_JOB_FINISHED = True

3、除了基本觸發(fā)器,ScrapydWeb 還提供了多種觸發(fā)器用于處理不同類型的 log,包括 "CRITICAL", "ERROR", "WARNING", "REDIRECT", "RETRY" 和 "IGNORE"等。

LOG_CRITICAL_THRESHOLD = 3
LOG_CRITICAL_TRIGGER_STOP = True
LOG_CRITICAL_TRIGGER_FORCESTOP = False

...

LOG_IGNORE_TRIGGER_FORCESTOP = False

以上示例代表:當(dāng)發(fā)現(xiàn)3條或3條以上的 critical 級(jí)別的 log 時(shí),ScrapydWeb 自動(dòng)停止當(dāng)前任務(wù),如果當(dāng)前時(shí)間在郵件工作時(shí)間內(nèi),則同時(shí)發(fā)送通知郵件。

九、GitHub 開源

活捉幾只官方大佬,趕緊前去圍觀吧,別忘了 Star 噢!

https://github.com/my8100/scrapydweb

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/43111.html

相關(guān)文章

  • Scrapy-Cluster結(jié)合Spiderkeeper管理布式爬蟲

    摘要:分布式爬蟲,分發(fā)網(wǎng)址是基于地址。注意要使用管理同一個(gè)集群,爬蟲項(xiàng)目名稱須一致,同時(shí)集群中配置相同任務(wù)瀏覽器訪問(wèn)啟動(dòng)爬蟲時(shí)即可看見兩個(gè)集群配置,啟動(dòng)同名爬蟲開始分布式爬蟲啟動(dòng)分布式爬蟲后狀態(tài) Scrapy-cluster 建設(shè) 基于Scrapy-cluster庫(kù)的kafka-monitor可以實(shí)現(xiàn)分布式爬蟲 Scrapyd+Spiderkeeper實(shí)現(xiàn)爬蟲的可視化管理 環(huán)境 IP...

    bingo 評(píng)論0 收藏0
  • 如何通過(guò) Scrapyd + ScrapydWeb 簡(jiǎn)單高效地部署和監(jiān)控布式爬蟲項(xiàng)目

    摘要:支持一鍵部署項(xiàng)目到集群。添加郵箱帳號(hào)設(shè)置郵件工作時(shí)間和基本觸發(fā)器,以下示例代表每隔小時(shí)或當(dāng)某一任務(wù)完成時(shí),并且當(dāng)前時(shí)間是工作日的點(diǎn),點(diǎn)和點(diǎn),將會(huì)發(fā)送通知郵件。除了基本觸發(fā)器,還提供了多種觸發(fā)器用于處理不同類型的,包括和等。 showImg(https://segmentfault.com/img/remote/1460000018772067?w=1680&h=869); 安裝和配置 ...

    zsirfs 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---14、部署相關(guān)庫(kù)的安裝:Scrapyrt、Gerapy

    摘要:相關(guān)鏈接官方文檔安裝推薦使用安裝,命令如下命令執(zhí)行完畢之后即可完成安裝。的安裝是一個(gè)分布式管理模塊,本節(jié)來(lái)介紹一下的安裝方式。如果沒(méi)有錯(cuò)誤報(bào)出,則證明庫(kù)已經(jīng)安裝好了。上一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)部署相關(guān)庫(kù)下一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)爬蟲基礎(chǔ)基本原理 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---13、部署相關(guān)庫(kù)ScrapydClient、ScrapydAPI下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)--...

    nihao 評(píng)論0 收藏0
  • 從0-1打造最強(qiáng)性能Scrapy爬蟲集群

    摘要:包括爬蟲編寫爬蟲避禁動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)抓取部署分布式爬蟲系統(tǒng)監(jiān)測(cè)共六個(gè)內(nèi)容,結(jié)合實(shí)際定向抓取騰訊新聞數(shù)據(jù),通過(guò)測(cè)試檢驗(yàn)系統(tǒng)性能。 1 項(xiàng)目介紹 本項(xiàng)目的主要內(nèi)容是分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。主要有以下幾個(gè)部分來(lái)介紹: (1)深入分析網(wǎng)絡(luò)新聞爬蟲的特點(diǎn),設(shè)計(jì)了分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)爬取策略、抓取字段、動(dòng)態(tài)網(wǎng)頁(yè)抓取方法、分布式結(jié)構(gòu)、系統(tǒng)監(jiān)測(cè)和數(shù)據(jù)存儲(chǔ)六個(gè)關(guān)鍵功能。 (2)結(jié)合程序代碼分解說(shuō)...

    vincent_xyb 評(píng)論0 收藏0
  • 利用 scrapy 集成社區(qū)爬蟲功能

    摘要:為了方便用戶展示自己的社區(qū)資料,雨點(diǎn)兒網(wǎng)中增加了一個(gè)社區(qū)爬蟲功能。方案使用運(yùn)行爬蟲鑒于項(xiàng)目當(dāng)前的架構(gòu),準(zhǔn)備使用來(lái)執(zhí)行異步爬蟲??梢酝瑫r(shí)執(zhí)行多個(gè)爬蟲,最大進(jìn)程數(shù)可配,防止系統(tǒng)過(guò)載。尾歡迎使用我們的爬蟲功能來(lái)收集社交資料。 序 社區(qū)活躍度或者貢獻(xiàn)越來(lái)越受到重視,往往會(huì)作為獲得工作或者承接項(xiàng)目的加分項(xiàng)。為了方便用戶展示自己的社區(qū)資料,雨點(diǎn)兒網(wǎng)中增加了一個(gè)社區(qū)爬蟲功能。 當(dāng)前只爬取了用戶主頁(yè)上...

    Yangyang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<