scrapy 自學(xué)入門(mén)demo分享

linkFly 發(fā)布于2019-07-31 11:13 / 1546人閱讀

摘要：本文基于，平臺(tái)完整項(xiàng)目代碼安裝安裝官網(wǎng)下載注意環(huán)境變量是否配置成功安裝為了安裝順利，請(qǐng)備好梯子安裝過(guò)程中注意以下報(bào)錯(cuò)信息解決辦法下載對(duì)應(yīng)版本的文件表示版本表示位下載后在文件目錄下執(zhí)行文件名創(chuàng)建項(xiàng)目創(chuàng)建創(chuàng)建在項(xiàng)目跟目錄執(zhí)行配置文件

本文基于python 3.7.0，win10平臺(tái)； 2018-08完整項(xiàng)目代碼：https://github.com/NameHewei/python-scrapy

安裝 安裝python

官網(wǎng)下載 https://www.python.org/

注意環(huán)境變量是否配置成功

安裝scrapy

為了安裝順利，請(qǐng)備好梯子

pip install Scrapy

安裝過(guò)程中注意以下報(bào)錯(cuò)信息：

Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"

解決辦法：

https://www.lfd.uci.edu/~gohl... 下載對(duì)應(yīng)版本twisted的whl文件

cp：表示python版本

amd64：表示64位

下載后在文件目錄下執(zhí)行： pip install Twisted-18.7.0-cp37-cp37m-win_amd64.whl(文件名)

創(chuàng)建項(xiàng)目

創(chuàng)建scrapy：scrapy startproject youName

創(chuàng)建spider：scrapy genspider // 在項(xiàng)目跟目錄執(zhí)行

配置settings.py文件

如果抓取的內(nèi)容包含中文可配置：FEED_EXPORT_ENCODING = "utf-8"

報(bào)錯(cuò)誤信息403：把USER_AGENT加上（可在網(wǎng)站請(qǐng)求頭信息中查看）

編寫(xiě)items.py文件

import scrapy

class NovelItem(scrapy.Item):
    title = scrapy.Field()
    content = scrapy.Field()

這些即你需要保存的字段名

編寫(xiě)spider

import scrapy

# 引入自定義的items
from myTest.items import NovelItem

# # 繼承scrapy.Spider
class NovelSpider(scrapy.Spider):
    # 爬蟲(chóng)名
    name = "novel_spider"
    # 允許的域名
    allowed_domains = ["http://www.danmeila.com"]
    # 入口url 扔到調(diào)度器里面去
    start_urls = ["http://www.danmeila.com/chapter/20180406/29649.html"]


    def parse(self, response):
        movieList = response.xpath("http://*[@id="container"]/div[3]/div[2]/div[2]/div/div/ul/li")
        novelContent = NovelItem()
        for item in movieList:
            u = "http://www.danmeila.com" + item.xpath(".//a/@href").extract_first()
            
            yield scrapy.Request(u, callback= self.content_a, meta= { "nc": novelContent }, dont_filter = True)
            # 放到管道里否則 pipeline獲取不到
            # 如果你發(fā)現(xiàn)拿到的內(nèi)容一直為空，注意是否被過(guò)濾了，即dont_filter沒(méi)有設(shè)置


    def content_a(self, response):
        novelContent = response.meta["nc"]
        novelContent["title"] = response.xpath("http://*[@id="J_article"]/div[1]/h1/text()").extract_first()

        yield novelContent

注意以下幾點(diǎn)：

采用xpath編寫(xiě)，在瀏覽器中可以直接查看元素，找到要爬取內(nèi)容的標(biāo)簽，右鍵選copy xpath

extract_first()的使用；text() 獲取文本；@屬性名獲取屬性值

在父節(jié)點(diǎn)下使用xpath路徑前要加./

去除換行空格用 xpath("normalize-space(".//div/text()")")

執(zhí)行

導(dǎo)出為json： scrapy crawl your-spider-name -o test.json

如果出現(xiàn)報(bào)錯(cuò)信息：

async語(yǔ)法錯(cuò)誤，把用到該名稱(chēng)作為參數(shù)的文件全部作修改把這個(gè)參數(shù)名改為其它即可

報(bào)錯(cuò) No module named "win32api"：到https://pypi.org/project/pypi...（下載文件pypiwin32-223-py3-none-any.whl 執(zhí)行 pip install pypiwin32-223-py3-none-any.whl ）

歡迎交流 Github

云服務(wù)器 GPU云服務(wù)器 scrapy爬蟲(chóng)入門(mén) python自學(xué)入門(mén) php入門(mén)自學(xué)手冊(cè) 自學(xué)編程入門(mén)php

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/44788.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

linkFly

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow怎么升級(jí)

閱讀 1251·2023-04-26 03:02
tensorflow安裝鏡像

閱讀 1313·2023-04-25 19:18
SpringMVC接收參數(shù) 具體示例 #yyds干貨盤(pán)點(diǎn)#

閱讀 2662·2021-11-23 09:51
指針?lè)矫嫦嚓P(guān)內(nèi)容，及其易錯(cuò)點(diǎn)

閱讀 2644·2021-11-11 16:55
百縱科技：美國(guó)洛杉磯10G防御服務(wù)器大促銷(xiāo)，洛杉磯cn2云服務(wù)器，月付19元起，高防GIA云服務(wù)器月

閱讀 2700·2021-10-21 09:39
DeskTopCal綠色版桌面日歷軟件隨時(shí)記錄和提醒工作事項(xiàng)

閱讀 1786·2021-10-09 09:59
失業(yè)預(yù)警！千萬(wàn)別成為最容易被領(lǐng)導(dǎo)厭棄的4類(lèi)人！

閱讀 2082·2021-09-26 09:55
Python各熱門(mén)方向常用學(xué)習(xí)、工作網(wǎng)址大全【7000字大總結(jié)】

閱讀 3610·2021-09-26 09:55

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy 自學(xué)入門(mén)demo分享

相關(guān)文章

**非計(jì)算機(jī)專(zhuān)業(yè)小白自學(xué)爬蟲(chóng)全指南（附資源）**

**egg 自學(xué)入門(mén)demo分享**

scrapy入門(mén)

發(fā)表評(píng)論

0條評(píng)論

linkFly

男|高級(jí)講師

TA的文章

tensorflow怎么升級(jí)

tensorflow安裝鏡像

SpringMVC接收參數(shù) 具體示例 #yyds干貨盤(pán)點(diǎn)#

指針?lè)矫嫦嚓P(guān)內(nèi)容，及其易錯(cuò)點(diǎn)

百縱科技：美國(guó)洛杉磯10G防御服務(wù)器大促銷(xiāo)，洛杉磯cn2云服務(wù)器，月付19元起，高防GIA云服務(wù)器月

DeskTopCal綠色版桌面日歷軟件隨時(shí)記錄和提醒工作事項(xiàng)

失業(yè)預(yù)警！千萬(wàn)別成為最容易被領(lǐng)導(dǎo)厭棄的4類(lèi)人！

Python各熱門(mén)方向常用學(xué)習(xí)、工作網(wǎng)址大全【7000字大總結(jié)】

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy 自學(xué)入門(mén)demo分享

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！