scrapy學(xué)習(xí)筆記(二)：連續(xù)抓取與數(shù)據(jù)保存

ShevaKuilin 發(fā)布于2019-07-25 11:42 / 2868人閱讀

摘要：運(yùn)行一下我們的代碼，然后刷新下數(shù)據(jù)庫(kù)，可看到數(shù)據(jù)已經(jīng)保存到中了查看數(shù)據(jù)庫(kù)內(nèi)容很清晰，每一項(xiàng)都有保存

抓取論壇、貼吧這種多分頁(yè)的信息時(shí)，沒(méi)接觸scrapy之前，是前確定有多少頁(yè)，使用for循環(huán)抓取。這方法略顯笨重，使用scrapy則可以直接組合下一頁(yè)的鏈接，然后傳給request持續(xù)進(jìn)行抓取，一直到?jīng)]有下一頁(yè)鏈接為止。

還是以官方教程的網(wǎng)站為例子，先分析下元素：

可以看到下一頁(yè)的標(biāo)簽：

Next →

其中的href屬性值/page/2與www.quotes.toscrape.com組合起來(lái)就是下一頁(yè)的網(wǎng)址，同理第二頁(yè)next的href屬性值組合起來(lái)就是第三頁(yè)，因此只要我們判斷出是否有下一頁(yè)的關(guān)鍵字，就可以進(jìn)行持續(xù)抓取。

上代碼：

import scrapy

class myspider(scrapy.Spider):

# 設(shè)置爬蟲(chóng)名稱(chēng)
name = "get_quotes"

# 設(shè)置起始網(wǎng)址
start_urls = ["http://quotes.toscrape.com"]

def parse(self, response):

    #使用 css 選擇要素進(jìn)行抓取，如果喜歡用BeautifulSoup之類(lèi)的也可以
    #先定位一整塊的quote，在這個(gè)網(wǎng)頁(yè)塊下進(jìn)行作者、名言,標(biāo)簽的抓取
    for quote in response.css(".quote"):
        yield {
            "author" : quote.css("small.author::text").extract_first(),
            "tags" : quote.css("div.tags a.tag::text").extract(),
            "content" : quote.css("span.text::text").extract_first()
        }

    # 使用xpath獲取next按鈕的href屬性值
    next_href = response.xpath("http://li[@class="next"]/a/@href").extract_first()
    # 判斷next_page的值是否存在
    if next_href is not None:

        # 如果下一頁(yè)屬性值存在，則通過(guò)urljoin函數(shù)組合下一頁(yè)的url:
        # www.quotes.toscrape.com/page/2
        next_page = response.urljoin(next_href)

        #回調(diào)parse處理下一頁(yè)的url
        yield scrapy.Request(next_page,callback=self.parse)

下面是處理結(jié)果：

可以看到一直抓取了10頁(yè)，此網(wǎng)站也只有10頁(yè)

整個(gè)網(wǎng)站的名人名言就全部抓取到了，是不是很方便

現(xiàn)在只是把抓取得到的只是打印到屏幕上，并沒(méi)有存儲(chǔ)起來(lái)，接下來(lái)我們使用Mongodb進(jìn)行存儲(chǔ)，mongodb的優(yōu)點(diǎn)可自行g(shù)oogle，這里就不說(shuō)了。從官網(wǎng)下載，參考官方安裝教程進(jìn)行配置安裝。

要使用Mongodb需要pymongo，直接pip install pymongo
先演示下直接存儲(chǔ)，當(dāng)做Mongodb存儲(chǔ)例子，實(shí)際不推薦這么使用：

import scrapy

# 導(dǎo)入pymongo
import pymongo

class myspider(scrapy.Spider):

# 設(shè)置爬蟲(chóng)名稱(chēng)
name = "get_quotes"

# 設(shè)置起始網(wǎng)址
start_urls = ["http://quotes.toscrape.com"]

# 配置client，默認(rèn)地址localhost，端口27017
client = pymongo.MongoClient("localhost",27017)
# 創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)，名稱(chēng)store_quote
db_name = client["store_quotes"]
# 創(chuàng)建一個(gè)表
quotes_list = db_name["quotes"]

def parse(self, response):

    #使用 css 選擇要素進(jìn)行抓取，如果喜歡用BeautifulSoup之類(lèi)的也可以
    #先定位一整塊的quote，在這個(gè)網(wǎng)頁(yè)塊下進(jìn)行作者、名言,標(biāo)簽的抓取
    for quote in response.css(".quote"):
        # 將頁(yè)面抓取的數(shù)據(jù)存入mongodb,使用insert
        yield self.quotes_list.insert({
            "author" : quote.css("small.author::text").extract_first(),
            "tags" : quote.css("div.tags a.tag::text").extract(),
            "content" : quote.css("span.text::text").extract_first()
        })

    # 使用xpath獲取next按鈕的href屬性值
    next_href = response.xpath("http://li[@class="next"]/a/@href").extract_first()
    # 判斷next_page的值是否存在
    if next_href is not None:

        # 如果下一頁(yè)屬性值存在，則通過(guò)urljoin函數(shù)組合下一頁(yè)的url:
        # www.quotes.toscrape.com/page/2
        next_page = response.urljoin(next_href)

        #回調(diào)parse處理下一頁(yè)的url
        yield scrapy.Request(next_page,callback=self.parse)

如果使用的是pycharm編輯器，有一個(gè)mongodb插件，可以方便的查看數(shù)據(jù)庫(kù)，Mongo plugin，在plugin里面添加

添加之后，重啟pycharm，可以在setting -> other setting里面看到Mongo Servers,點(diǎn)擊Mongo servers配置mongodb：

Label隨意填寫(xiě)，server url已經(jīng)有默認(rèn)，test一下，連接成功確認(rèn)即可，完成之后，可在pycharm左側(cè)看到插件mongo explorer,點(diǎn)擊展開(kāi)可看到數(shù)據(jù)庫(kù)。

OK運(yùn)行一下我們的代碼，

scrapy crawl get_quotes

然后刷新下數(shù)據(jù)庫(kù)，可看到數(shù)據(jù)已經(jīng)保存到mongodb中了

查看數(shù)據(jù)庫(kù)內(nèi)容：

很清晰，每一項(xiàng)都有保存

GPU云服務(wù)器云服務(wù)器 asp 保存二位小數(shù) 學(xué)習(xí)筆記學(xué)習(xí)筆記一基礎(chǔ)學(xué)習(xí)筆記

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/38563.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

ShevaKuilin

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

串口連接傳輸文件

閱讀 962·2021-11-15 11:37
我TM的才30歲，為什么不能轉(zhuǎn)行程序員？

閱讀 3780·2021-11-11 16:55
Facebook 與 GitHub 達(dá)成合作，可避免出現(xiàn)泄漏Facebook API token的情

閱讀 3335·2021-11-11 11:01
Flex 布局

閱讀 1055·2019-08-30 15:43
原生js實(shí)現(xiàn)簡(jiǎn)單的下拉刷新功能

閱讀 2801·2019-08-30 14:12
tooltips 提示

閱讀 738·2019-08-30 12:58
淺談高性能web前端技術(shù)?！“纵p松做到減少HTTP請(qǐng)求

閱讀 3457·2019-08-29 15:19
案例學(xué)習(xí)總結(jié)：原生JS實(shí)現(xiàn)表格排序

閱讀 2092·2019-08-29 13:59

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy學(xué)習(xí)筆記(二)：連續(xù)抓取與數(shù)據(jù)保存

相關(guān)文章

***scrapy學(xué)習(xí)筆記(三)：使用item與pipeline保存數(shù)據(jù)***

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)

Python爬蟲(chóng)筆記1-爬蟲(chóng)背景了解

發(fā)表評(píng)論

0條評(píng)論

ShevaKuilin

男|高級(jí)講師

TA的文章

串口連接傳輸文件

我TM的才30歲，為什么不能轉(zhuǎn)行程序員？

Facebook 與 GitHub 達(dá)成合作，可避免出現(xiàn)泄漏Facebook API token的情

Flex 布局

原生js實(shí)現(xiàn)簡(jiǎn)單的下拉刷新功能

tooltips 提示

淺談高性能web前端技術(shù)?！“纵p松做到減少HTTP請(qǐng)求

案例學(xué)習(xí)總結(jié)：原生JS實(shí)現(xiàn)表格排序

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy學(xué)習(xí)筆記(二)：連續(xù)抓取與數(shù)據(jù)保存

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！