python的scrapy框架爬取懶人聽書網(wǎng)站

CoffeX 發(fā)布于2019-07-31 10:21 / 2360人閱讀

摘要：爬蟲項目的管道文件，用來對中的數(shù)據(jù)進行進一步的加工處理。根據(jù)傳入的正則表達式對數(shù)據(jù)進行提取，返回字符串列表。的作用函數(shù)可創(chuàng)建一個整數(shù)列表，一般用在循環(huán)中。

項目地址：https://github.com/gejinnvshe...
微信公眾號：天字一等

爬取懶人聽書平臺書籍的書名、作者名、分類，后續(xù)還會增加爬取音頻

爬蟲用到的框架：scrapy Anaconda是專注于數(shù)據(jù)分析的Python發(fā)行版本

scrapy簡單入門及實例講解：https://www.cnblogs.com/kongz... scrapy進階實例：https://blog.csdn.net/z564359...

scrapy框架知識點

1、ROBOTSTXT_OBEY = False 粗解
https://www.jianshu.com/p/19c1ea0d59c2
2、爬蟲-User-Agent和代理池
https://www.cnblogs.com/sunxiuwen/p/10112057.html
3、
scrapy項目配置文件：
scrapy.cfg：爬蟲項目的配置文件。
__init__.py：爬蟲項目的初始化文件，用來對項目做初始化工作。
items.py：爬蟲項目的數(shù)據(jù)容器文件，用來定義要獲取的數(shù)據(jù)。
1、pipelines.py：爬蟲項目的管道文件，用來對items中的數(shù)據(jù)進行進一步的加工處理。 2、scrapy的pipeline是一個非常重要的模塊，主要作用是將return的items寫入到數(shù)據(jù)庫、文件等持久化模塊
settings.py：爬蟲項目的設置文件，包含了爬蟲項目的設置信息。
middlewares.py：爬蟲項目的中間件文件，
4
使用anaconda prompt運行.py文件，執(zhí)行scrapy crwal xx指令時，xx是.py文件中給name賦的值
使用anaconda prompt運行.py文件，執(zhí)行scrapy crwal xx指令時，如果報錯說少了yy modules，直接輸入pip install yy執(zhí)行安裝包，不用在進入對應的項目目錄下
5、 https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html?highlight=extract

xpath(): 傳入xpath表達式，返回該表達式所對應的所有節(jié)點的selector list列表。

css(): 傳入CSS表達式，返回該表達式所對應的所有節(jié)點的selector list列表.

extract(): 序列化該節(jié)點為unicode字符串并返回list。

re(): 根據(jù)傳入的正則表達式對數(shù)據(jù)進行提取，返回unicode字符串list列表。

6、elastisearch查詢語句
https://segmentfault.com/q/1010000017553309/
7、傳入xpath表達式，返回該表達式所對應的所有節(jié)點的selector list列表
extract(): 返回被選擇元素的unicode字符串
8、yield
yield的作用這里是在爬取完一頁的信息后，我們在當前頁面獲取到了下一頁的鏈接，然后通過 yield 發(fā)起請求，

            # 并且將 parse 自己作為回調函數(shù)來處理下一頁的響應
            #  https://www.jianshu.com/p/7c1a084853d8
            yield Request(self.lrtsUrl + next_link, callback=self.parse, headers=headers)  #獲取下一頁，parse是回調函數(shù)來處理下一頁的響應

9、meta scrapy的request的meta參數(shù)是什么意思？
https://blog.csdn.net/master_ning/article/details/80558985

python基礎知識點：

class:#創(chuàng)建類類就是一個模板，模板里可以包含多個函數(shù)，函數(shù)里實現(xiàn)一些功能
def:#創(chuàng)建類中函數(shù)
pass:pass 不做任何事情，一般用做占位語句。
if name == "__main__":的作用
https://www.cnblogs.com/kex1n/p/5975575.html
5、python range() 函數(shù)可創(chuàng)建一個整數(shù)列表，一般用在 for 循環(huán)中。
函數(shù)語法
range(start, stop[, step])
6、Python len() 方法返回對象（字符、列表、元組等）長度或項目個數(shù)。
語法
len()方法語法：
len( s )

GPU云服務器云服務器 python爬蟲框架scrapy scrapy爬取實例爬蟲框架scrapy scrapy框架編寫爬蟲

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://www.ezyhdfw.cn/yun/43676.html

Python爬蟲之Scrapy學習（基礎篇）

摘要：下載器下載器負責獲取頁面數(shù)據(jù)并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。一旦頁面下載完畢，下載器生成一個該頁面的，并將其通過下載中間件返回方向發(fā)送給引擎。作者：xiaoyu微信公眾號：Python數(shù)據(jù)科學知乎：Python數(shù)據(jù)分析師在爬蟲的路上，學習scrapy是一個必不可少的環(huán)節(jié)。也許有好多朋友此時此刻也正在接觸并學習sc...

pkhope 2019-07-31 11:05 評論0 收藏0
Scrapy 框架入門簡介

摘要：解析的方法，每個初始完成下載后將被調用，調用的時候傳入從每一個傳回的對象來作為唯一參數(shù)，主要作用如下負責解析返回的網(wǎng)頁數(shù)據(jù)，提取結構化數(shù)據(jù)生成生成需要下一頁的請求。 Scrapy 框架 Scrapy是用純Python實現(xiàn)一個為了爬取網(wǎng)站數(shù)據(jù)、提取結構性數(shù)據(jù)而編寫的應用框架，用途非常廣泛。框架的力量，用戶只需要定制開發(fā)幾個模塊就可以輕松的實現(xiàn)一個爬蟲，用來抓取網(wǎng)頁內容以及各種圖片，非常...

Coding01 2019-07-30 15:39 評論0 收藏0
Python3 爬蟲 scrapy框架爬取小說網(wǎng)站數(shù)據(jù)

摘要：上次用寫的爬蟲速度很感人，今天打算用框架來實現(xiàn)，看看速度如何。上次用requests寫的爬蟲速度很感人，今天打算用scrapy框架來實現(xiàn)，看看速度如何。爬蟲步驟第一步，安裝scrapy，執(zhí)行一下命令 pip install Scrapy 第二步，創(chuàng)建項目，執(zhí)行一下命令 scrapy startproject novel 第三步，編寫spider文件，文件存放位置novel/spi...

王陸寬 2019-07-30 18:36 評論0 收藏0
爬蟲入門

摘要：通用網(wǎng)絡爬蟲通用網(wǎng)絡爬蟲又稱全網(wǎng)爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網(wǎng)絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網(wǎng)絡爬蟲系統(tǒng)并帶有強大的。爬蟲簡單的說網(wǎng)絡爬蟲（Web crawler）也叫做網(wǎng)絡鏟（Web scraper）、網(wǎng)絡蜘蛛（Web spider），其行為一般是先爬到對應的網(wǎng)頁上，再把需要的信息鏟下來。分類網(wǎng)絡爬蟲按照系統(tǒng)結構和實現(xiàn)技術，...

defcon 2019-07-30 17:07 評論0 收藏0
爬蟲入門

摘要：通用網(wǎng)絡爬蟲通用網(wǎng)絡爬蟲又稱全網(wǎng)爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網(wǎng)絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網(wǎng)絡爬蟲系統(tǒng)并帶有強大的。爬蟲簡單的說網(wǎng)絡爬蟲（Web crawler）也叫做網(wǎng)絡鏟（Web scraper）、網(wǎng)絡蜘蛛（Web spider），其行為一般是先爬到對應的網(wǎng)頁上，再把需要的信息鏟下來。分類網(wǎng)絡爬蟲按照系統(tǒng)結構和實現(xiàn)技術，...

Invoker 2019-08-30 15:54 評論0 收藏0