Python爬蟲之使用celery加速爬蟲

baihe 發(fā)布于2019-07-31 10:02 / 3448人閱讀

摘要：是一個(gè)基于分布式消息傳輸?shù)漠惒饺蝿?wù)隊(duì)列，它專注于實(shí)時(shí)處理，同時(shí)也支持任務(wù)調(diào)度。本文將介紹如何使用來(lái)加速爬蟲。本文爬蟲的例子來(lái)自文章爬蟲的種姿勢(shì)。雖然沒(méi)有這個(gè)爬蟲框架和異步框架來(lái)的快，但這也可以作為一種爬蟲的思路。

??celery是一個(gè)基于分布式消息傳輸?shù)漠惒饺蝿?wù)隊(duì)列，它專注于實(shí)時(shí)處理，同時(shí)也支持任務(wù)調(diào)度。關(guān)于celery的更多介紹及例子，筆者可以參考文章Python之celery的簡(jiǎn)介與使用。
??本文將介紹如何使用celery來(lái)加速爬蟲。
??本文爬蟲的例子來(lái)自文章：Python爬蟲的N種姿勢(shì)。這里不再過(guò)多介紹，我們的項(xiàng)目結(jié)構(gòu)如下：

其中，app_test.py為主程序，其代碼如下：

from celery import Celery

app = Celery("proj", include=["proj.tasks"])
app.config_from_object("proj.celeryconfig")

if __name__ == "__main__":
    app.start()

tasks.py為任務(wù)函數(shù)，代碼如下：

import re
import requests
from celery import group
from proj.app_test import app

@app.task(trail=True)
# 并行調(diào)用任務(wù)
def get_content(urls):
    return group(C.s(url) for url in urls)()

@app.task(trail=True)
def C(url):
    return parser.delay(url)

@app.task(trail=True)
# 獲取每個(gè)網(wǎng)頁(yè)的name和description
def parser(url):
    req = requests.get(url)
    html = req.text
    try:
        name = re.findall(r"(.+?)", html)[0]
        desc = re.findall(r"(.+?)", html)[0]
        if name is not None and desc is not None:
            return name, desc
    except Exception as  err:
        return "", ""

celeryconfig.py為celery的配置文件，代碼如下：

BROKER_URL = "redis://localhost" # 使用Redis作為消息代理

CELERY_RESULT_BACKEND = "redis://localhost:6379/0" # 把任務(wù)結(jié)果存在了Redis

CELERY_TASK_SERIALIZER = "msgpack" # 任務(wù)序列化和反序列化使用msgpack方案

CELERY_RESULT_SERIALIZER = "json" # 讀取任務(wù)結(jié)果一般性能要求不高，所以使用了可讀性更好的JSON

CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任務(wù)過(guò)期時(shí)間

CELERY_ACCEPT_CONTENT = ["json", "msgpack"] # 指定接受的內(nèi)容類型

最后是我們的爬蟲文件，scrapy.py，代碼如下：

import time
import requests
from bs4 import BeautifulSoup
from proj.tasks import get_content

t1 = time.time()

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 請(qǐng)求頭部
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, 
            like Gecko) Chrome/67.0.3396.87 Safari/537.36"}
# 發(fā)送HTTP請(qǐng)求
req = requests.get(url, headers=headers)
# 解析網(wǎng)頁(yè)
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的記錄
human_list = soup.find(id="mw-whatlinkshere-list")("li")

urls = []
# 獲取網(wǎng)址
for human in human_list:
    url = human.find("a")["href"]
    urls.append("https://www.wikidata.org"+url)

#print(urls)

# 調(diào)用get_content函數(shù)，并獲取爬蟲結(jié)果
result = get_content.delay(urls)

res = [v for v in result.collect()]

for r in res:
    if isinstance(r[1], list) and isinstance(r[1][0], str):
        print(r[1])


t2 = time.time() # 結(jié)束時(shí)間
print("耗時(shí)：%s" % (t2 - t1))

??在后臺(tái)啟動(dòng)redis，并切換至proj項(xiàng)目所在目錄，運(yùn)行命令：

celery -A proj.app_test worker -l info

輸出結(jié)果如下(只顯示最后幾行的輸出)：

......
["Antoine de Saint-Exupery", "French writer and aviator"]
["", ""]
["Sir John Barrow, 1st Baronet", "English statesman"]
["Amy Johnson", "pioneering English aviator"]
["Mike Oldfield", "English musician, multi-instrumentalist"]
["Willoughby Newton", "politician from Virginia, USA"]
["Mack Wilberg", "American conductor"]
耗時(shí)：80.05160284042358

在rdm中查看數(shù)據(jù)，如下：

??在文章Python爬蟲的N種姿勢(shì)中，我們已經(jīng)知道，如果用一般的方法來(lái)實(shí)現(xiàn)這個(gè)爬蟲，耗時(shí)大約為725秒，而我們使用celery，一共耗時(shí)約80秒，大概相當(dāng)于一般方法的九分之一。雖然沒(méi)有scrapy這個(gè)爬蟲框架和異步框架aiohttp, asyncio來(lái)的快，但這也可以作為一種爬蟲的思路。
??本次分享到此結(jié)束，感謝閱讀~
注意：本人現(xiàn)已開通微信公眾號(hào)： Python爬蟲與算法（微信號(hào)為：easy_web_scrape），歡迎大家關(guān)注哦~~

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/43138.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

baihe

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

給你的百度畫個(gè)妝

閱讀 847·2019-08-30 15:55
機(jī)械轉(zhuǎn)行前端，半年零基礎(chǔ)自學(xué)的心路歷程

閱讀 1605·2019-08-30 15:52
vue-cli中chainWebpack的使用

閱讀 2769·2019-08-30 15:44
CSS改變鼠標(biāo)樣式（圖片）

閱讀 2173·2019-08-30 11:14
css3 border-radius box-shadow

閱讀 2684·2019-08-29 13:59
不同分辨率的電腦下，絕對(duì)定位錯(cuò)亂解決辦法

閱讀 1898·2019-08-29 13:45
定位神器：1秒定位DOM元素綁定的事件代碼的位置

閱讀 1073·2019-08-29 13:21
重讀你不知道的JS (上) 第一節(jié)二章

閱讀 3436·2019-08-26 13:31

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python爬蟲之使用celery加速爬蟲

相關(guān)文章

**基于Celery的分布式爬蟲管理平臺(tái): Crawlab**

手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(tái)(一)

手把手教你如何用Crawlab構(gòu)建技術(shù)文章聚合平臺(tái)(一)

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

如何構(gòu)建一個(gè)分布式爬蟲：基礎(chǔ)篇

發(fā)表評(píng)論

0條評(píng)論

baihe

男|高級(jí)講師

TA的文章

給你的百度畫個(gè)妝

機(jī)械轉(zhuǎn)行前端，半年零基礎(chǔ)自學(xué)的心路歷程

vue-cli中chainWebpack的使用

CSS改變鼠標(biāo)樣式（圖片）

css3 border-radius box-shadow

不同分辨率的電腦下，絕對(duì)定位錯(cuò)亂解決辦法

定位神器：1秒定位DOM元素綁定的事件代碼的位置

重讀你不知道的JS (上) 第一節(jié)二章

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python爬蟲之使用celery加速爬蟲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！