Scrapy入門程序點評

baiy 發(fā)布于2019-07-25 10:31 / 2333人閱讀

摘要：本文大部分內(nèi)容摘抄自官網(wǎng)的，看到巧妙之處則加了點評。，接下來的工作至此，框架已經(jīng)明確選定了，接下來，我們將進一步研讀的文檔，研究怎樣把的封裝成需要的。，文檔修改歷史，首次發(fā)布

1，引言

在《Scrapy的架構(gòu)初探》一文，我基于爬蟲開發(fā)的經(jīng)驗對Scrapy官網(wǎng)文章作了點評和解讀，事件驅(qū)動的異步處理架構(gòu)、極強的模塊化等是個絕好的框架，接著我細讀了官網(wǎng)的《Scrapy at a glance》，更加強了我的感受：就是他了——開源Python網(wǎng)絡(luò)爬蟲項目需要一個爬蟲框架，我不想重復(fù)發(fā)明輪子，只想專注于爬蟲里面的提取器的生成和使用，也就是Scrapy中的Spider部分。

本文大部分內(nèi)容摘抄自Scrapy官網(wǎng)的《Scrapy at a glance》，看到Scrapy巧妙之處則加了點評。

2，Scrapy的Spider例子

在Scrapy的框架中，Spider與GooSeeker開源爬蟲的提取器類似，核心特征是

Spider通常針對一個特定網(wǎng)站

Spider里面存了爬行入口URLs集合

Scrapy的引擎順序拿Spider中的入口URL，構(gòu)造Request對象，啟動消息循環(huán)

Spider提供接口方法，把抓取下來的內(nèi)容進行輸出

對GooSeeker的MS謀數(shù)臺和DS打數(shù)機比較了解的讀者，可以把Spider想象成：MS謀數(shù)臺上定義的一組抓取規(guī)則 + 會員中心的爬蟲羅盤

下面我們從官網(wǎng)拷貝一個例子：

class StackOverflowSpider(scrapy.Spider):
    name = "stackoverflow"
    start_urls = ["http://stackoverflow.com/questions?sort=votes"]

    def parse(self, response):
        for href in response.css(".question-summary h3 a::attr(href)"):
            full_url = response.urljoin(href.extract())
            yield scrapy.Request(full_url, callback=self.parse_question)

    def parse_question(self, response):
        yield {
            "title": response.css("h1 a::text").extract()[0],
            "votes": response.css(".question .vote-count-post::text").extract()[0],
            "body": response.css(".question .post-text").extract()[0],
            "tags": response.css(".question .post-tag::text").extract(),
            "link": response.url,
        }

看這個例子需要注意以下幾點

start_urls存儲入口網(wǎng)址列表，本例只有一個網(wǎng)址

parse()函數(shù)是爬到了網(wǎng)頁后執(zhí)行的，是由引擎回調(diào)的

本來到parse()就完成了，但是這個例子展示了一個兩級抓取的案例，在parse()里面構(gòu)造了下一級抓取的任務(wù)，生成Request對象，并登記一個回調(diào)函數(shù)

parse_question()是第二級的解析網(wǎng)頁的函數(shù)，返回了一個JSON對象

事件驅(qū)動模式顯而易見，可以構(gòu)造好多Request，丟給引擎即可，不用阻塞式等待

官網(wǎng)文章還總結(jié)了其他很多功能特性，總之，Scrapy是一個十分完善和強大的框架。

3，接下來的工作

至此，Scrapy框架已經(jīng)明確選定了，接下來，我們將進一步研讀Scrapy的文檔，研究怎樣把GooSeeker的gsExtractor封裝成Scrapy需要的Spider。

4，文檔修改歷史

2016-06-13：V1.0，首次發(fā)布

云服務(wù)器 GPU云服務(wù)器 scrapy爬蟲入門 scrapy爬蟲程序程序語言入門 python入門程序

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/38003.html

發(fā)表評論

登陸后可評論

0條評論

baiy

男|高級講師

我要關(guān)注我要私信

TA的文章

虛擬主機怎么上傳文件-虛擬主機怎么上傳文件？

閱讀 910·2021-09-22 16:01
Contabo，新增NVME硬盤，加1歐可以升級 100G NVMe

閱讀 2171·2021-08-20 09:37
CSS小技巧（一）：iconfont的使用

閱讀 1763·2019-08-30 15:54
小程序?qū)崿F(xiàn)橫向滑塊，超過10個則出現(xiàn)查看更多

閱讀 1745·2019-08-30 15:44
文檔合集

閱讀 912·2019-08-28 18:23
JavaScript學習第十天筆記（繼承）

閱讀 3071·2019-08-26 12:17
Node.js child_process模塊解讀

閱讀 1089·2019-08-26 11:56
vue-cli中怎么基于axios去封裝方法

閱讀 1596·2019-08-23 16:20

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy入門程序點評

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

python

Scrapy的架構(gòu)初探

**基于 Python 的 Scrapy 爬蟲入門：環(huán)境搭建**

Scrapy 框架入門簡介

發(fā)表評論

0條評論

baiy

男|高級講師

TA的文章

虛擬主機怎么上傳文件-虛擬主機怎么上傳文件？

Contabo，新增NVME硬盤，加1歐可以升級 100G NVMe

CSS小技巧（一）：iconfont的使用

小程序?qū)崿F(xiàn)橫向滑塊，超過10個則出現(xiàn)查看更多

文檔合集

JavaScript學習第十天筆記（繼承）

Node.js child_process模塊解讀

vue-cli中怎么基于axios去封裝方法

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy入門程序點評

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！