亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

5、web爬蟲(chóng),scrapy模塊,解決重復(fù)ur——自動(dòng)遞歸url

macg0406 / 3218人閱讀

摘要:百度云搜索搜網(wǎng)盤一般抓取過(guò)的不重復(fù)抓取,那么就需要記錄,判斷當(dāng)前如果在記錄里說(shuō)明已經(jīng)抓取過(guò)了,如果不存在說(shuō)明沒(méi)抓取過(guò)記錄可以是緩存,或者數(shù)據(jù)庫(kù),如果保存數(shù)據(jù)庫(kù)按照以下方式加密建索引以便查詢?cè)急4姹砝飸?yīng)該至少有以上個(gè)字段加密建索引以便查詢字

【百度云搜索:http://bdy.lqkweb.com】
【搜網(wǎng)盤:http://www.swpan.cn】

一般抓取過(guò)的url不重復(fù)抓取,那么就需要記錄url,判斷當(dāng)前URL如果在記錄里說(shuō)明已經(jīng)抓取過(guò)了,如果不存在說(shuō)明沒(méi)抓取過(guò)

記錄url可以是緩存,或者數(shù)據(jù)庫(kù),如果保存數(shù)據(jù)庫(kù)按照以下方式:

id   URL加密(建索引以便查詢)   原始URL

保存URL表里應(yīng)該至少有以上3個(gè)字段
1、URL加密(建索引以便查詢)字段:用來(lái)查詢這樣速度快,
2、原始URL,用來(lái)給加密url做對(duì)比,防止加密不同的URL出現(xiàn)同樣的加密值

自動(dòng)遞歸url

#?-*-?coding:?utf-8?-*-
import?scrapy???????#導(dǎo)入爬蟲(chóng)模塊
from?scrapy.selector?import?HtmlXPathSelector??#導(dǎo)入HtmlXPathSelector模塊
from?scrapy.selector?import?Selector

class?AdcSpider(scrapy.Spider):
????name?=?"adc"????????????????????????????????????????#設(shè)置爬蟲(chóng)名稱
????allowed_domains?=?["hao.#"]
????start_urls?=?["https://hao.#/"]

????def?parse(self,?response):

????????#這里做頁(yè)面的各種獲取以及處理

????????#遞歸查找url循環(huán)執(zhí)行
????????hq_url?=?Selector(response=response).xpath("http://a/@href")???#查找到當(dāng)前頁(yè)面的所有a標(biāo)簽的href,也就是url
????????for?url?in?hq_url:????????????????????????????????????????#循環(huán)url
????????????yield?scrapy.Request(url=url,?callback=self.parse)????#每次循環(huán)將url傳入Request方法進(jìn)行繼續(xù)抓取,callback執(zhí)行parse回調(diào)函數(shù),遞歸循環(huán)

????????#這樣就會(huì)遞歸抓取url并且自動(dòng)執(zhí)行了,但是需要在settings.py?配置文件中設(shè)置遞歸深度,DEPTH_LIMIT=3表示遞歸3層

這樣就會(huì)遞歸抓取url并且自動(dòng)執(zhí)行了,但是需要在settings.py?配置文件中設(shè)置遞歸深度,DEPTH_LIMIT=3表示遞歸3層

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/44025.html

相關(guān)文章

  • scrapy-redis分布式爬蟲(chóng)框架詳解

    摘要:分布式爬蟲(chóng)框架詳解隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會(huì)大眾參與社會(huì)生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架,主要是處理引擎與下載器之間的請(qǐng)求及響應(yīng)。 scrapy-redis分布式爬蟲(chóng)框架詳解 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會(huì)大眾參與社會(huì)生活的一種重要信息渠道。由于互聯(lián)網(wǎng)是開(kāi)放的,每個(gè)人都可以在網(wǎng)絡(luò)上...

    myeveryheart 評(píng)論0 收藏0
  • Python-爬蟲(chóng)工程師-面試總結(jié)

    摘要:內(nèi)存池機(jī)制提供了對(duì)內(nèi)存的垃圾收集機(jī)制,但是它將不用的內(nèi)存放到內(nèi)存池而不是返回給操作系統(tǒng)。為了加速的執(zhí)行效率,引入了一個(gè)內(nèi)存池機(jī)制,用于管理對(duì)小塊內(nèi)存的申請(qǐng)和釋放。 注:答案一般在網(wǎng)上都能夠找到。1.對(duì)if __name__ == main的理解陳述2.python是如何進(jìn)行內(nèi)存管理的?3.請(qǐng)寫出一段Python代碼實(shí)現(xiàn)刪除一個(gè)list里面的重復(fù)元素4.Python里面如何拷貝一個(gè)對(duì)象?...

    antz 評(píng)論0 收藏0
  • 爬蟲(chóng)入門

    摘要:通用網(wǎng)絡(luò)爬蟲(chóng)通用網(wǎng)絡(luò)爬蟲(chóng)又稱全網(wǎng)爬蟲(chóng),爬取對(duì)象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲(chóng)會(huì)采取一定的爬取策略。介紹是一個(gè)國(guó)人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)并帶有強(qiáng)大的。 爬蟲(chóng) 簡(jiǎn)單的說(shuō)網(wǎng)絡(luò)爬蟲(chóng)(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對(duì)應(yīng)的網(wǎng)頁(yè)上,再把需要的信息鏟下來(lái)。 分類 網(wǎng)絡(luò)爬蟲(chóng)按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...

    defcon 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<