Scrapy學(xué)習(xí)（二）入門

Astrian 發(fā)布于2019-07-25 11:28 / 471人閱讀

摘要：快速入門接上篇學(xué)習(xí)一安裝，安裝后，我們利用一個(gè)簡單的例子來熟悉如何使用創(chuàng)建一個(gè)爬蟲項(xiàng)目。創(chuàng)建一個(gè)項(xiàng)目在已配置好的環(huán)境下輸入系統(tǒng)將在當(dāng)前目錄生成一個(gè)的項(xiàng)目文件。這部分才是業(yè)務(wù)的核心部分。提取的方式有幾種。具體代碼詳見入門項(xiàng)目

快速入門

接上篇Scrapy學(xué)習(xí)（一）安裝，安裝后，我們利用一個(gè)簡單的例子來熟悉如何使用Scrapy創(chuàng)建一個(gè)爬蟲項(xiàng)目。

創(chuàng)建一個(gè)Scrapy項(xiàng)目

在已配置好的環(huán)境下輸入

scrapy startproject dmoz

系統(tǒng)將在當(dāng)前目錄生成一個(gè)myproject的項(xiàng)目文件。該文件的目錄結(jié)構(gòu)如下

dmoz/    # 項(xiàng)目根目錄
   scrapy.cfg    # 項(xiàng)目配置文件
   dmoz/    # 項(xiàng)目模塊
       __init__.py
        items.py    # 項(xiàng)目item文件，有點(diǎn)類似Django中的模型
        pipelines.py    # 項(xiàng)目pipelines文件，負(fù)責(zé)數(shù)據(jù)的操作和存儲
        settings.py    # 項(xiàng)目的設(shè)置文件.
        spiders/    # 項(xiàng)目spider目錄，編寫的爬蟲腳步都放此目錄下
            __init__.py

接下來我們以dmoz.org為爬取目標(biāo)。開始變現(xiàn)簡單的爬蟲項(xiàng)目。

編寫items

在items.py中編寫我們所需的數(shù)據(jù)的模型

from scrapy.item import Item, Field

class Website(Item):
    name = Field()
    description = Field()
    url = Field()

這個(gè)模型用來填充我們爬取的數(shù)據(jù)

編寫Spider

在spiders文件下新建爬蟲文件。這部分才是業(yè)務(wù)的核心部分。
首先創(chuàng)建一個(gè)繼承scrapy.spiders.Spider的類
并且定義如下三個(gè)屬性

name 標(biāo)識spider

start_urls 啟動爬蟲時(shí)進(jìn)行爬取的url列表，默認(rèn)為空

parse() 每個(gè)初始的url下載后的response都會傳到該方法內(nèi)，在這個(gè)方法里可以對數(shù)據(jù)進(jìn)行處理。

from scrapy.spiders import Spider
from scrapy.selector import Selector
from dirbot.items import Website

class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]

    def parse(self, response):
        sites = response.css("#site-list-content > div.site-item > div.title-and-desc")
        items = []

        for site in sites:
            item = Website()
            item["name"] = site.css(
                "a > div.site-title::text").extract_first().strip()
            item["url"] = site.xpath(
                "a/@href").extract_first().strip()
            item["description"] = site.css(
                "div.site-descr::text").extract_first().strip()
            items.append(item)
        return items

其中值得注意的是，在parse方法內(nèi)，我們可以用Selector選擇器來提取網(wǎng)站中我們所需的數(shù)據(jù)。提取的方式有幾種。

xpath() 傳入xpath表達(dá)式獲取節(jié)點(diǎn)值

css() 傳入css表達(dá)式獲取節(jié)點(diǎn)值

re() 傳入正則表達(dá)式獲取節(jié)點(diǎn)值 # 此方法本人未測試

運(yùn)行并保存數(shù)據(jù)

接下來我們運(yùn)行爬蟲，并將爬取的數(shù)據(jù)存儲到j(luò)son中

scrapy crawl dmoz -o items.json

其他

在運(yùn)行爬蟲的過程中，我遇到了如下報(bào)錯(cuò)：

KeyError: "Spider not found: dmoz

這個(gè)是因?yàn)槲业膕pider類中設(shè)置的name的值和我scrapy crawl運(yùn)行的spider不一致導(dǎo)致的。

具體代碼詳見：
scrapy入門項(xiàng)目

云服務(wù)器 GPU云服務(wù)器 scrapy爬蟲入門深度學(xué)習(xí)二編程學(xué)習(xí)入門學(xué)習(xí) 學(xué)習(xí)機(jī)器學(xué)習(xí)入門

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/38422.html

發(fā)表評論

登陸后可評論

0條評論

Astrian

男|高級講師

我要關(guān)注我要私信

TA的文章

Python基礎(chǔ)之輸入、輸出與高階賦值

閱讀 2039·2021-11-23 09:51
軟件需求工程十個(gè)題測試

閱讀 930·2021-11-19 09:40
如何保護(hù)您不了解的數(shù)據(jù)資產(chǎn)免受網(wǎng)絡(luò)攻擊?

閱讀 885·2021-10-27 14:20
寶塔面板，升級默認(rèn)python2.7為python3.X，并共存！

閱讀 5223·2021-10-09 09:52
曲鳥全棧UI自動化教學(xué)(二)：環(huán)境搭建與第一個(gè)Selenium腳本

閱讀 3366·2021-10-09 09:44
程序員的之路。瀏覽器新標(biāo)簽頁

閱讀 1784·2021-10-08 10:05
Authy – 二次密碼保護(hù)驗(yàn)證必備軟件工具（親測Authy下載和使用）

閱讀 5295·2021-09-09 11:47
[譯] CSS 載入機(jī)制的未來趨勢

閱讀 3551·2019-08-30 12:47

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy學(xué)習(xí)（二）入門

相關(guān)文章

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Scrapy學(xué)習(xí)（三）爬取豆瓣圖書信息

非計(jì)算機(jī)專業(yè)小白自學(xué)爬蟲全指南（附資源）

發(fā)表評論

0條評論

Astrian

男|高級講師

TA的文章

Python基礎(chǔ)之輸入、輸出與高階賦值

軟件需求工程十個(gè)題測試

如何保護(hù)您不了解的數(shù)據(jù)資產(chǎn)免受網(wǎng)絡(luò)攻擊?

寶塔面板，升級默認(rèn)python2.7為python3.X，并共存！

曲鳥全棧UI自動化教學(xué)(二)：環(huán)境搭建與第一個(gè)Selenium腳本

程序員的之路。瀏覽器新標(biāo)簽頁

Authy – 二次密碼保護(hù)驗(yàn)證必備軟件工具（親測Authy下載和使用）

[譯] CSS 載入機(jī)制的未來趨勢

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy學(xué)習(xí)（二） 入門

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy學(xué)習(xí)（二）入門