亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

Scrapy爬取豆瓣讀書全站

CoderStudy / 577人閱讀

Scrapy爬取豆瓣讀書全站 分析網(wǎng)頁(yè)

首先打開(kāi)豆瓣讀書中的分類瀏覽,可以看到其中有很多的分類

豆瓣應(yīng)該是一個(gè)比較好爬的網(wǎng)站,所有的數(shù)據(jù)都不是ajax加載的,我們打開(kāi)谷歌的F12或者是火狐的FireBug可以很輕松的找到每一個(gè)分類的鏈接

這里我們使用scrapy中的一個(gè)linkextractors庫(kù),這個(gè)庫(kù)的作用是會(huì)根據(jù)提供的限制,自動(dòng)爬取和深入每一個(gè)頁(yè)面并且提取需要的鏈接,如果想要找到每一個(gè)分類的url,只需Rule(LinkExtractor(allow="/tag/",restrict_xpaths="http://div[@class="article"]"),follow=True),這里的allow是一個(gè)正則表達(dá)式,用來(lái)篩選分類url,restrict_xpaths是限制在哪個(gè)結(jié)構(gòu)中篩選url,這里限制的是在

這個(gè)盒模型中,follow表示是否深入,這里當(dāng)然是要深入,這里就能得到每一個(gè)分類url了,自己可以在回調(diào)函數(shù)中測(cè)試下,輸入所得的url,可以使用respose.url

得到所有的分類url,就可以繼續(xù)深入到每一步作品所在的頁(yè)面了,如下圖!


但是我們需要不止是這一頁(yè),我們要爬的時(shí)全站,因此這里必須實(shí)現(xiàn)翻頁(yè),我們可以看到頁(yè)面底部清楚的寫著下一頁(yè),我們通過(guò)解析頁(yè)面同樣可以得到url,如下圖所示


可以看到所有的url的規(guī)則,我們就可以用正則表達(dá)式限制,以獲取我們的需要,我們可以寫出翻頁(yè)的代碼

Rule(LinkExtractor(allow="?start=d+&type=",restrict_xpaths="http://div[@class="pa>ginator"]"),follow=True),

最后一步就是打開(kāi)每一部書的網(wǎng)頁(yè)得到所需的信息了,我們就可以通過(guò)這里通過(guò)解析網(wǎng)頁(yè)還是可以很清楚的知道url,這里就不再詳細(xì)的說(shuō)怎么解析了,這里可以看到所有的url都在li標(biāo)簽中,如下圖


我們打開(kāi)li標(biāo)簽可以很清楚的看大url的規(guī)律,因此這里還是用到上面說(shuō)的庫(kù)解析深入,連同上面的代碼如下

Rule(LinkExtractor(allow="/tag/",restrict_xpaths="/ /div[@class="article"]"),follow=True),#第一步
Rule(LinkExtractor(allow="?start=d+&type=",restrict_xpaths="http://div[@class="pa>ginator"]"),follow=True),  #第二步翻翻頁(yè)
Rule(LinkExtractor(allow="/subject/d+/$",restrict_>xpaths="http://ul[@class="subject-list"]"),callback="parse_item")#得到所需網(wǎng)頁(yè)的url

到了這里總算是大功告成了,下面就需要解析自己的所需要的信息了,這里附上網(wǎng)頁(yè)


下面就是寫自己解析代碼了,這里就不需要詳細(xì)的說(shuō)了,詳細(xì)內(nèi)容請(qǐng)看源碼,值得注意的是爬取的網(wǎng)頁(yè)速度不要太快,豆瓣會(huì)禁IP的,這里可以采用一些反爬蟲(chóng)措施,如請(qǐng)求頭的更換,ip地址的更換,下一篇會(huì)詳細(xì)解說(shuō)。

參考文檔:

scrapy中文文檔

最后附上本人的github地址,不要忘了給個(gè)star哦

本人博客地址

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/38558.html

相關(guān)文章

  • 23個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博等

    摘要:今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評(píng)論0 收藏0
  • 零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)

    摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)以供學(xué)習(xí),。本文來(lái)源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲(chóng)軟件定制開(kāi)發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲(chóng)學(xué)習(xí)系列教程(來(lái)源于某博主:htt...

    KunMinX 評(píng)論0 收藏0
  • Scrapy學(xué)習(xí)(三) 爬取豆瓣圖書信息

    摘要:因?yàn)闀簳r(shí)還沒(méi)有學(xué)到如何模擬登陸,所以我就先抓像豆瓣這樣不需要登陸的網(wǎng)站上的內(nèi)容。其中會(huì)回調(diào)函數(shù),用是因?yàn)槎拱陥D書并不是格式一致的。只需要在中設(shè)置項(xiàng)目代碼地址豆瓣圖書爬蟲(chóng) 前言 Scrapy學(xué)習(xí)(一) 安裝 Scrapy學(xué)習(xí)(二) 入門 有了前兩篇的基礎(chǔ),就可以開(kāi)始互聯(lián)網(wǎng)上爬取我們感興趣的信息了。因?yàn)闀簳r(shí)還沒(méi)有學(xué)到如何模擬登陸,所以我就先抓像豆瓣這樣不需要登陸的網(wǎng)站上的內(nèi)容。我的開(kāi)發(fā)...

    Tony_Zby 評(píng)論0 收藏0
  • scrapy入門教程——爬取豆瓣電影Top250!

    摘要:注意爬豆爬一定要加入選項(xiàng),因?yàn)橹灰馕龅骄W(wǎng)站的有,就會(huì)自動(dòng)進(jìn)行過(guò)濾處理,把處理結(jié)果分配到相應(yīng)的類別,但偏偏豆瓣里面的為空不需要分配,所以一定要關(guān)掉這個(gè)選項(xiàng)。 本課只針對(duì)python3環(huán)境下的Scrapy版本(即scrapy1.3+) 選取什么網(wǎng)站來(lái)爬取呢? 對(duì)于歪果人,上手練scrapy爬蟲(chóng)的網(wǎng)站一般是官方練手網(wǎng)站 http://quotes.toscrape.com 我們中國(guó)人,當(dāng)然...

    senntyou 評(píng)論0 收藏0
  • scrapy爬取豆瓣Top250電影

    摘要:這次我們爬取的內(nèi)容準(zhǔn)備步驟找到格式網(wǎng)頁(yè)中需要爬取的數(shù)據(jù)的例如我們需要爬取圖片的這里用的是不會(huì)用的同學(xué)請(qǐng)百度然后我們開(kāi)始建立工程打開(kāi)然后在你想要建立工程的目錄下面輸入就會(huì)自動(dòng)建立一個(gè)工程然后去根目錄建立一個(gè)去這個(gè)目錄里建立一個(gè)注意這里的主爬蟲(chóng) 這次我們爬取的內(nèi)容 showImg(https://segmentfault.com/img/bVSirX?w=1021&h=521); 準(zhǔn)備步驟...

    codergarden 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<