分布式爬蟲原理

LeexMuller 發(fā)布于2019-07-30 17:12 / 3166人閱讀

分布式爬蟲原理

什么是分布式爬蟲：
額，這個(gè)問題呢，我這樣解釋，例如爬取網(wǎng)站內(nèi)的二級(jí)網(wǎng)站，我們就需要獲取網(wǎng)站中的二級(jí)、三級(jí)...很多個(gè)網(wǎng)站，那么我們?nèi)绻米约阂慌_(tái)主機(jī)爬取明顯效率很低，這個(gè)時(shí)候我們就需要其他主機(jī)的幫助了，這個(gè)時(shí)候我們就將作為Master,為其他主機(jī)Slaver提供url的同時(shí)，啟動(dòng)程序，沒錯(cuò)，我們的工作就這么多，而Slaver主機(jī)的作用就是接收url，解析并獲取想要的數(shù)據(jù)。。。。

那么問題來了，我們?nèi)绾螌aster抓取到的網(wǎng)站分給別的主機(jī)呢？

那就需要數(shù)據(jù)庫(kù)了，而且是基于內(nèi)存的數(shù)據(jù)庫(kù)，redis等。
redis安裝配置：http://www.runoob.com/redis/r...
配置中需要將redis.conf文件做簡(jiǎn)單的修改：將bind 127.0.0.1和rdbcompression yes注釋掉。

最后如何單線程抓取網(wǎng)頁呢？

你可以和自己的小伙伴試一試一個(gè)Master和多個(gè)Slaver一起獲取下bt影視網(wǎng)的網(wǎng)頁url,很有意思：

"""
爬蟲:
    for  url  in urls:
        r = requests.get(url)
        html_doc = r.text

多線程爬蟲:

    urls( 隊(duì)列  內(nèi)容)

    work(  從隊(duì)列中獲取url  --> 發(fā)送請(qǐng)求  --> 解析response -- >保存數(shù)據(jù))

    創(chuàng)建多個(gè)線程,每個(gè)線程啟動(dòng)一個(gè)work,從而實(shí)現(xiàn)并發(fā),提高爬蟲效率


分布式爬蟲:
    urls(保存到redis中,因?yàn)閞edis可被多臺(tái)電腦訪問,從而實(shí)現(xiàn)分布式)
    每臺(tái)電腦從redis內(nèi)存中獲取url-->發(fā)送請(qǐng)求 --> 解析response -- >保存數(shù)據(jù)

目標(biāo) :
    使用分布式爬蟲,爬去http://www.btbtdy.net/btfl/dy30.html中所有頁

部署:
    Master端不需要任何修改(Master必須安裝redis server)
    Slaver端需要修改兩處:
        1) 把rds = Redis("127.0.0.1",6379)修改成  rds = Redis("master的ip",6379)
        2) 把第64行的代碼start_request()注釋掉


"""
from redis import Redis
import requests
# pip install redis


# 存儲(chǔ) urls
REDIS_KEY = "btdy:urls"

rds = Redis("127.0.0.1",6379)

def fetch(url):
    """
    下載頁面,如果下載成功,返回response對(duì)象,否則返回None
    :param url:待爬取的url
    :return:返回response對(duì)象或者None
    """
    r = requests.get(url)
    if r.status_code == 200:
        return r
    return None


def start_request():
    """
    獲取電視劇所有頁的地址,并把地址push到REDIS_KEY中
    :return:
    """
    start_url = "http://www.btbtdy.net/btfl/dy30.html"
    urls = ["http://www.btbtdy.net/btfl/dy30-{0}.html".format(str(page+1)) for page in range(62)]
    rds.lpush(REDIS_KEY,*urls)

if __name__ == "__main__":
    # 從redis中的REDIS_URLS中獲取url
    start_request()
    while True:
        _, url = rds.blpop(REDIS_KEY)
        fetch(url)

爬蟲，，從入門到放棄，，，哈哈哈哈哈哈

GPU云服務(wù)器云服務(wù)器爬蟲原理爬蟲程序原理爬蟲工作原理爬蟲技術(shù)原理

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/42079.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

LeexMuller

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow.example

閱讀 3348·2023-04-26 01:31
tensorflow.examples.tutorials

閱讀 1967·2023-04-25 22:08
寶塔面板Nginx通過User-Agent禁止爬蟲采集并返回炸彈

閱讀 3628·2021-09-01 11:42
這網(wǎng)站傻了嗎？這兩天老是點(diǎn)擊提問，就彈回主頁....什么意思

閱讀 2893·2019-08-30 12:58
前端小姿勢(shì)

閱讀 2253·2019-08-29 18:31
【css】圣杯布局

閱讀 2494·2019-08-29 17:18
React結(jié)合webpack的具體使用

閱讀 3121·2019-08-29 13:01
前端webpack workflow（二）——Webpack基本使用

閱讀 2619·2019-08-28 18:22

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

分布式爬蟲原理

相關(guān)文章

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---14、部署相關(guān)庫(kù)的安裝：Scrapyrt、Gerapy

后端知識(shí)拓展 - 收藏集 - 掘金

后端知識(shí)拓展 - 收藏集 - 掘金

scrapy-redis分布式爬蟲框架詳解

發(fā)表評(píng)論

0條評(píng)論

LeexMuller

男|高級(jí)講師

TA的文章

tensorflow.example

tensorflow.examples.tutorials

寶塔面板Nginx通過User-Agent禁止爬蟲采集并返回炸彈

這網(wǎng)站傻了嗎？這兩天老是點(diǎn)擊提問，就彈回主頁....什么意思

前端小姿勢(shì)

【css】圣杯布局

React結(jié)合webpack的具體使用

前端webpack workflow（二）——Webpack基本使用

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

分布式爬蟲原理

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！