快速上手——我用scrapy寫爬蟲（一）

curlyCheng 發(fā)布于2019-07-30 14:49 / 562人閱讀

摘要：寫在前面用寫爬蟲的人很多，的爬蟲框架也很多，諸如和，筆者還是筆記傾向于，本文就用寫一個(gè)小爬蟲。本文適用于有一定基礎(chǔ)的，并且對(duì)爬蟲有一定了解的開發(fā)者。

寫在前面

用python寫爬蟲的人很多，python的爬蟲框架也很多，諸如pyspider 和 scrapy，筆者還是筆記傾向于scrapy，本文就用python寫一個(gè)小爬蟲demo。
本文適用于有一定python基礎(chǔ)的，并且對(duì)爬蟲有一定了解的開發(fā)者。

安裝 Scrapy

檢查環(huán)境，python的版本為3.6.2，pip為9.0.1

F:	echleepython>python --version
Python 3.6.2

F:	echleepython>pip --version
pip 9.0.1 from d:program filespythonpython36-32libsite-packages (python 3.6)

安裝scrapy框架

F:	echleepython>pip install scrapy
Collecting scrapy
  Downloading Scrapy-1.4.0-py2.py3-none-any.whl (248kB)
    100% |████████████████████████████████| 256kB 188kB/s
    // 漫長(zhǎng)的安裝過程
Successfully installed Twisted-17.9.0 scrapy-1.4.0

如果報(bào)錯(cuò)：

error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

請(qǐng)安裝Visual C++ 2015 Build Tools
http://landinghub.visualstudi...

安裝完成

F:	echleepython>scrapy version
Scrapy 1.4.0

創(chuàng)建項(xiàng)目

F:	echleepython>scrapy startproject scrapyDemo
New Scrapy project "scrapyDemo", using template directory "d:program filespythonpython36-32libsite-packagesscrapy	emplatesproject", created in:
    F:	echleepythonscrapyDemo

You can start your first spider with:
    cd scrapyDemo
    scrapy genspider example example.com

目錄結(jié)構(gòu)

scrapyDemo/
    scrapy.cfg            # 部署配置文件

    scrapyDemo/           # python模塊
        __init__.py

        items.py          # 數(shù)據(jù)容器

        pipelines.py      # project pipelines file

        settings.py       # 配置文件

        spiders/          # Spider類定義了如何爬取某個(gè)(或某些)網(wǎng)站
            __init__.py

創(chuàng)建執(zhí)行爬取的類ImoocSpider在 scrapyDemo/spiders中

# -*- coding: utf-8 -*-
import scrapy
from urllib import parse as urlparse

# 慕課網(wǎng)爬取
class ImoocSpider(scrapy.Spider):
    # spider的名字定義了Scrapy如何定位(并初始化)spider，所以其必須是唯一的
    name = "imooc"

    # URL列表
    start_urls = ["http://www.imooc.com/course/list"]
    #  域名不在列表中的URL不會(huì)被爬取。
    allowed_domains = ["www.imooc.com"]

    def parse(self, response):        
        learn_nodes = response.css("a.course-card")
        for learn_node in learn_nodes :
            learn_url = learn_node.css("::attr(href)").extract_first()
            yield scrapy.Request(url=urlparse.urljoin(response.url,learn_url),callback=self.parse_learn)
        
    def parse_learn(self, response):
        title = response.xpath("http://h2[@class="l"]/text()").extract_first()
        content = response.xpath("http://div[@class="course-brief"]/p/text()").extract_first()
        url = response.url
        print ("標(biāo)題：" + title)
        print ("地址：" + url)

開始爬取

F:	echleepythonscrapyDemo>scrapy crawl imooc

如果出現(xiàn)，則缺少win32api庫，選擇相應(yīng)的版本

下載地址：https://sourceforge.net/proje...

import win32api
ModuleNotFoundError: No module named "win32api"

大功告成

看到如下輸出，就說明爬取成功啦

F:	echleepythonscrapyDemo>scrapy crawl imooc
2017-10-17 14:28:32 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo)
……
2017-10-17 14:28:32 [scrapy.core.engine] INFO: Spider opened
2017-10-17 14:28:32 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-10-17 14:28:32 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2017-10-17 14:28:32 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：集成MultiDex項(xiàng)目實(shí)戰(zhàn)
地址：http://www.imooc.com/learn/876
2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：阿里D2前端技術(shù)論壇——2016初心
地址：http://www.imooc.com/learn/893
2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：Hadoop進(jìn)階
地址：http://www.imooc.com/learn/890
標(biāo)題：Javascript實(shí)現(xiàn)二叉樹算法
地址：http://www.imooc.com/learn/888
2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：Fragment應(yīng)用上
地址：http://www.imooc.com/learn/894
2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：PHP-面向?qū)ο?地址：http://www.imooc.com/learn/887
2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：Sketch的基礎(chǔ)實(shí)例應(yīng)用
地址：http://www.imooc.com/learn/900
標(biāo)題：ElasticSearch入門
地址：http://www.imooc.com/learn/889
標(biāo)題：使用Google Guice實(shí)現(xiàn)依賴注入
地址：http://www.imooc.com/learn/901
2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：Docker入門
地址：http://www.imooc.com/learn/867
2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：Android圖表繪制之直方圖
地址：http://www.imooc.com/learn/878
2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：UI版式設(shè)計(jì)
地址：http://www.imooc.com/learn/892
2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：RxJava與RxAndroid基礎(chǔ)入門
地址：http://www.imooc.com/learn/877
標(biāo)題：iOS開發(fā)之Audio特輯
地址：http://www.imooc.com/learn/886
2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：基于Websocket的火拼俄羅斯（基礎(chǔ)）
地址：http://www.imooc.com/learn/861
2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: http://www.imooc.com/course/list)
標(biāo)題：2017AWS 技術(shù)峰會(huì)——大數(shù)據(jù)技術(shù)專場(chǎng)
地址：http://www.imooc.com/learn/895
標(biāo)題：基于websocket的火拼俄羅斯（單機(jī)版）
地址：http://www.imooc.com/learn/882

原文 https://www.tech1024.cn/origi...
保存數(shù)據(jù)到mysql數(shù)據(jù)庫 https://www.tech1024.cn/origi...

GPU云服務(wù)器云服務(wù)器機(jī)器學(xué)習(xí)快速上手 scrapy 爬蟲爬蟲scrapy scrapy爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/40948.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

curlyCheng

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

DOS窗口執(zhí)行Jmeter測(cè)試腳本生成html報(bào)告

閱讀 797·2021-10-14 09:42
萬網(wǎng)如何添加主機(jī)-萬網(wǎng)虛擬主機(jī)如何建立虛擬目錄？

閱讀 2025·2021-09-22 15:04
BFC的一些探究

閱讀 1666·2019-08-30 12:44
Vuejs入門todolist項(xiàng)目解析

閱讀 2212·2019-08-29 13:29
使用css完成引導(dǎo)用戶按照流程完成任務(wù)的進(jìn)度導(dǎo)航條

閱讀 2789·2019-08-29 12:51
一道很有意思的面試題

閱讀 605·2019-08-26 18:18
VueCli+Node+mongodb打造個(gè)人博客（含前臺(tái)展示及后臺(tái)管理系統(tǒng)）（中）

閱讀 777·2019-08-26 13:43
理解 React Hooks 的 Capture Value 特性

閱讀 2872·2019-08-26 13:38

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

快速上手——我用scrapy寫爬蟲（一）

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

**保存數(shù)據(jù)到MySql數(shù)據(jù)庫——我用scrapy寫爬蟲（二）**

scrapy入門教程3：scrapy的shell命令

從零開始寫爬蟲

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy

發(fā)表評(píng)論

0條評(píng)論

curlyCheng

男|高級(jí)講師

TA的文章

DOS窗口執(zhí)行Jmeter測(cè)試腳本生成html報(bào)告

萬網(wǎng)如何添加主機(jī)-萬網(wǎng)虛擬主機(jī)如何建立虛擬目錄？

BFC的一些探究

Vuejs入門todolist項(xiàng)目解析

使用css完成引導(dǎo)用戶按照流程完成任務(wù)的進(jìn)度導(dǎo)航條

一道很有意思的面試題

VueCli+Node+mongodb打造個(gè)人博客（含前臺(tái)展示及后臺(tái)管理系統(tǒng)）（中）

理解 React Hooks 的 Capture Value 特性

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

快速上手——我用scrapy寫爬蟲（一）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！