Scrapy：python3下的第一次運行測試

dack 發(fā)布于2019-07-25 10:30 / 2811人閱讀

摘要：，引言的架構(gòu)初探一文講解了的架構(gòu)，本文就實際來安裝運行一下爬蟲。第一次運行的測試成功，接下來的工作接下來，我們將使用來實現(xiàn)網(wǎng)絡(luò)爬蟲，省掉對每個人工去生成和測試的工作量。，文檔修改歷史，首次發(fā)布

1，引言

《Scrapy的架構(gòu)初探》一文講解了Scrapy的架構(gòu)，本文就實際來安裝運行一下Scrapy爬蟲。本文以官網(wǎng)的tutorial作為例子，完整的代碼可以在github上下載。

2，運行環(huán)境配置

本次測試的環(huán)境是：Windows10， Python3.4.3 32bit

安裝Scrapy ： $ pip install Scrapy #實際安裝時，由于服務(wù)器狀態(tài)的不穩(wěn)定，出現(xiàn)好幾次中途退出的情況

3，編寫運行第一個Scrapy爬蟲

3.1. 生成一個新項目：tutorial

$ scrapy startproject tutorial

項目目錄結(jié)構(gòu)如下：

3.2. 定義要抓取的item

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

3.3. 定義Spider

import scrapy
from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        for sel in response.xpath("http://ul/li"):
            item = DmozItem()
            item["title"] = sel.xpath("a/text()").extract()
            item["link"] = sel.xpath("a/@href").extract()
            item["desc"] = sel.xpath("text()").extract()
            yield item

3.4. 運行

$ scrapy crawl dmoz -o item.json

1) 結(jié)果報錯：
A) ImportError: cannot import name "_win32stdio"
B) ImportError: No module named "win32api"

2) 查錯過程：查看官方的FAQ和stackoverflow上的信息，原來是scrapy在python3上測試還不充分，還有小問題。

3) 解決過程：
A) 需要手工去下載twisted/internet下的 _win32stdio 和 _pollingfile，存放到python目錄的libsitepackagestwistedinternet下
B) 下載并安裝pywin32

再次運行，成功！在控制臺上可以看到scrapy的輸出信息，待運行完成退出后，到項目目錄打開結(jié)果文件items.json，可以看到里面以json格式存儲的爬取結(jié)果。

[
{"title": ["        About       "], "desc": [" ", " "], "link": ["/docs/en/about.html"]},
{"title": ["   Become an Editor "], "desc": [" ", " "], "link": ["/docs/en/help/become.html"]},
{"title": ["            Suggest a Site          "], "desc": [" ", " "], "link": ["/docs/en/add.html"]},
{"title": [" Help             "], "desc": [" ", " "], "link": ["/docs/en/help/helpmain.html"]},
{"title": [" Login                       "], "desc": [" ", " "], "link": ["/editors/"]},
{"title": [], "desc": [" ", " Share via Facebook "], "link": []},
{"title": [], "desc": [" ", "  Share via Twitter  "], "link": []},
{"title": [], "desc": [" ", " Share via LinkedIn "], "link": []},
{"title": [], "desc": [" ", " Share via e-Mail   "], "link": []},
{"title": [], "desc": [" ", " "], "link": []},
{"title": [], "desc": [" ", "  "], "link": []},
{"title": ["        About       "], "desc": [" ", " "], "link": ["/docs/en/about.html"]},
{"title": ["   Become an Editor "], "desc": [" ", " "], "link": ["/docs/en/help/become.html"]},
{"title": ["            Suggest a Site          "], "desc": [" ", " "], "link": ["/docs/en/add.html"]},
{"title": [" Help             "], "desc": [" ", " "], "link": ["/docs/en/help/helpmain.html"]},
{"title": [" Login                       "], "desc": [" ", " "], "link": ["/editors/"]},
{"title": [], "desc": [" ", " Share via Facebook "], "link": []},
{"title": [], "desc": [" ", "  Share via Twitter  "], "link": []},
{"title": [], "desc": [" ", " Share via LinkedIn "], "link": []},
{"title": [], "desc": [" ", " Share via e-Mail   "], "link": []},
{"title": [], "desc": [" ", " "], "link": []},
{"title": [], "desc": [" ", "  "], "link": []}
]

第一次運行scrapy的測試成功

4，接下來的工作

接下來，我們將使用GooSeeker API來實現(xiàn)網(wǎng)絡(luò)爬蟲，省掉對每個item人工去生成和測試xpath的工作量。目前有2個計劃：

在gsExtractor中封裝一個方法：從xslt內(nèi)容中自動提取每個item的xpath

從gsExtractor的提取結(jié)果中自動提取每個item的結(jié)果

具體選擇哪個方案，將在接下來的實驗中確定，并發(fā)布到gsExtractor新版本中。

5，文檔修改歷史

2016-06-15：V1.0，首次發(fā)布

云服務(wù)器 GPU云服務(wù)器 scrapy運行爬蟲如何運行scrapy爬蟲第一次運行 java線程運行一次

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/37998.html

發(fā)表評論

登陸后可評論

0條評論

dack

男|高級講師

我要關(guān)注我要私信

TA的文章

第一次寫博客--自我介紹

閱讀 2470·2021-10-09 09:44
職場中，寧可裝傻，也不要自作聰明！

閱讀 2207·2021-10-08 10:05
網(wǎng)維云-2021新春嘉年華活動鉅惠就現(xiàn)在 2核2G5M云服務(wù)器僅需80元=3個月購買一年更優(yōu)惠

閱讀 3486·2021-07-26 23:38
CSS進階篇--Normalize.css的使用（重置表）

閱讀 3086·2019-08-28 18:16
Webpack附錄

閱讀 879·2019-08-26 11:55
【leetcode】2. 兩數(shù)相加

閱讀 1896·2019-08-23 18:29
隱藏火狐和谷歌瀏覽器滾動條

閱讀 2119·2019-08-23 18:05
第二集: 從零開始實現(xiàn)一套pc端vue的ui組件庫(icon組件)

閱讀 1409·2019-08-23 17:02

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy：python3下的第一次運行測試

相關(guān)文章

scrapy入門

Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---12、部署相關(guān)庫的安裝：Docker、Scrapyd

***Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy***

scrapy入門教程——爬取豆瓣電影Top250！

Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---13、部署相關(guān)庫ScrapydClient、ScrapydAPI

發(fā)表評論

0條評論

dack

男|高級講師

TA的文章

第一次寫博客--自我介紹

職場中，寧可裝傻，也不要自作聰明！

網(wǎng)維云-2021新春嘉年華活動鉅惠就現(xiàn)在 2核2G5M云服務(wù)器僅需80元=3個月購買一年更優(yōu)惠

CSS進階篇--Normalize.css的使用（重置表）

Webpack附錄

【leetcode】2. 兩數(shù)相加

隱藏火狐和谷歌瀏覽器滾動條

第二集: 從零開始實現(xiàn)一套pc端vue的ui組件庫(icon組件)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy：python3下的第一次運行測試

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！