5、web爬蟲(chóng)，scrapy模塊,解決重復(fù)ur——自動(dòng)遞歸url

macg0406 發(fā)布于2019-07-31 10:33 / 3218人閱讀

摘要：百度云搜索搜網(wǎng)盤一般抓取過(guò)的不重復(fù)抓取，那么就需要記錄，判斷當(dāng)前如果在記錄里說(shuō)明已經(jīng)抓取過(guò)了，如果不存在說(shuō)明沒(méi)抓取過(guò)記錄可以是緩存，或者數(shù)據(jù)庫(kù)，如果保存數(shù)據(jù)庫(kù)按照以下方式加密建索引以便查詢?cè)急４姹砝飸?yīng)該至少有以上個(gè)字段加密建索引以便查詢字

【百度云搜索:http://bdy.lqkweb.com】

【搜網(wǎng)盤:http://www.swpan.cn】

一般抓取過(guò)的url不重復(fù)抓取，那么就需要記錄url，判斷當(dāng)前URL如果在記錄里說(shuō)明已經(jīng)抓取過(guò)了，如果不存在說(shuō)明沒(méi)抓取過(guò)

記錄url可以是緩存，或者數(shù)據(jù)庫(kù)，如果保存數(shù)據(jù)庫(kù)按照以下方式：

id　　 URL加密(建索引以便查詢) 　　原始URL

保存URL表里應(yīng)該至少有以上3個(gè)字段
1、URL加密(建索引以便查詢)字段：用來(lái)查詢這樣速度快，
2、原始URL，用來(lái)給加密url做對(duì)比，防止加密不同的URL出現(xiàn)同樣的加密值

自動(dòng)遞歸url

#?-*-?coding:?utf-8?-*-
import?scrapy???????#導(dǎo)入爬蟲(chóng)模塊
from?scrapy.selector?import?HtmlXPathSelector??#導(dǎo)入HtmlXPathSelector模塊
from?scrapy.selector?import?Selector

class?AdcSpider(scrapy.Spider):
????name?=?"adc"????????????????????????????????????????#設(shè)置爬蟲(chóng)名稱
????allowed_domains?=?["hao.#"]
????start_urls?=?["https://hao.#/"]

????def?parse(self,?response):

????????#這里做頁(yè)面的各種獲取以及處理

????????#遞歸查找url循環(huán)執(zhí)行
????????hq_url?=?Selector(response=response).xpath("http://a/@href")???#查找到當(dāng)前頁(yè)面的所有a標(biāo)簽的href，也就是url
????????for?url?in?hq_url:????????????????????????????????????????#循環(huán)url
????????????yield?scrapy.Request(url=url,?callback=self.parse)????#每次循環(huán)將url傳入Request方法進(jìn)行繼續(xù)抓取，callback執(zhí)行parse回調(diào)函數(shù)，遞歸循環(huán)

????????#這樣就會(huì)遞歸抓取url并且自動(dòng)執(zhí)行了，但是需要在settings.py?配置文件中設(shè)置遞歸深度，DEPTH_LIMIT=3表示遞歸3層

這樣就會(huì)遞歸抓取url并且自動(dòng)執(zhí)行了，但是需要在settings.py?配置文件中設(shè)置遞歸深度，DEPTH_LIMIT=3表示遞歸3層

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/44025.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

macg0406

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

服務(wù)器硬件及RAID配置實(shí)戰(zhàn)

閱讀 1461·2021-11-25 09:43
【程序員必會(huì)十大算法】之貪心算法

閱讀 2325·2021-09-27 13:36
蘋果高管正拜訪亞洲供應(yīng)商探討蘋果汽車生產(chǎn)事宜

閱讀 1170·2021-09-04 16:40
微信小程序vedio視頻全屏無(wú)法遮擋textarea

閱讀 2043·2019-08-30 11:12
微信小程序?qū)徍瞬煌ㄟ^(guò)的解決方法

閱讀 3370·2019-08-29 14:14
CSS/兩欄并列等高布局

閱讀 634·2019-08-28 17:56
react.js避免在input/textareah中輸入(setState)時(shí)重新渲染整個(gè)頁(yè)面

閱讀 1412·2019-08-26 13:50
前端修煉之路

閱讀 1319·2019-08-26 13:29

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

5、web爬蟲(chóng)，scrapy模塊,解決重復(fù)ur——自動(dòng)遞歸url

【百度云搜索:http://bdy.lqkweb.com】

【搜網(wǎng)盤:http://www.swpan.cn】

相關(guān)文章

scrapy-redis分布式爬蟲(chóng)框架詳解

**Python-爬蟲(chóng)工程師-面試總結(jié)**

爬蟲(chóng)入門

發(fā)表評(píng)論

0條評(píng)論

macg0406

男|高級(jí)講師

TA的文章

服務(wù)器硬件及RAID配置實(shí)戰(zhàn)

【程序員必會(huì)十大算法】之貪心算法

蘋果高管正拜訪亞洲供應(yīng)商探討蘋果汽車生產(chǎn)事宜

微信小程序vedio視頻全屏無(wú)法遮擋textarea

微信小程序?qū)徍瞬煌ㄟ^(guò)的解決方法

CSS/兩欄并列等高布局

react.js避免在input/textareah中輸入(setState)時(shí)重新渲染整個(gè)頁(yè)面

前端修煉之路

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

5、web爬蟲(chóng)，scrapy模塊,解決重復(fù)ur——自動(dòng)遞歸url

【百度云搜索:http://bdy.lqkweb.com】

【搜網(wǎng)盤:http://www.swpan.cn】

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

5、web爬蟲(chóng)，scrapy模塊,解決重復(fù)ur——自動(dòng)遞歸url