獲取貼吧圖片的python爬蟲

Anleb 發(fā)布于2019-07-24 18:24 / 364人閱讀

摘要：根據(jù)帖子建立文件夾建立文件夾可以使用庫的方法，注意，如果是方法則只能創(chuàng)建一層目錄。最終代碼運(yùn)行效果

經(jīng)過前兩篇文章 http://segmentfault.com/a/1190000004288204 和 http://segmentfault.com/a/1190000004269037的測(cè)試，決定實(shí)現(xiàn)以下功能：

給定感興趣的貼吧首頁，自動(dòng)獲取帖子的鏈接

進(jìn)入獲取到的鏈接中，將帖子內(nèi)的圖片鏈接提取出來

按照帖子的ID建文件夾，將帖子內(nèi)圖片的鏈接下載為圖片保存到文件夾中

實(shí)現(xiàn)過程：

獲取帖子列表
以百度貼吧“壁紙吧”為例http://tieba.baidu.com/f?kw=%E5%A3%81%E7%BA%B8&ie=utf-8，通過分析該網(wǎng)頁源代碼，發(fā)現(xiàn)：

每一個(gè)帖子的鏈接都是

href="/p/xxxxxxxxxx"

再打開對(duì)應(yīng)帖子的鏈接，發(fā)現(xiàn)該帖子正是

http://tieba.baidu.com/p/xxxxxxxxx

所以獲取文章鏈接的思路很簡(jiǎn)單：
獲取到標(biāo)題的href這個(gè)屬性的內(nèi)容，前面加上http://tieba.baidu.com/就是最終的帖子鏈接：

LinkSelector = AirticleFilter.xpath("http://div[@class="threadlist_lz clearfix"]/div/a/@href")

獲取帖子中每個(gè)樓層所包含的圖片鏈接：
這里會(huì)有一個(gè)坑，如果你直接從chrome中審查元素，定位到圖片所在的xpath，有可能是獲取不到真正的鏈接的，而有可能獲取到“l(fā)oading.gif”！這是因?yàn)椋瑘D片在加載時(shí)比較慢，網(wǎng)頁先下載一個(gè)小的動(dòng)畫圖片顯示loading，待下載完成之后再顯示真正的圖片。不過好在在每一個(gè)包含圖片的樓層中的頭部信息中都包含了文件的類型，圖片的大小，圖片的鏈接地址，以及圖片是否為用戶上傳的圖片等信息：

經(jīng)過摸索，我們要提取的是包含有的節(jié)點(diǎn)信息，該節(jié)點(diǎn)中有圖片的實(shí)際鏈接src="http:XXXXXXXX"

BackGroundLink = BackGroundFilter.xpath("http://div[@class="l_post l_post_bright j_l_post clearfix  "]")
ImgSrc = etree.HTML(reply_info["content"]["content"])
ImgLink = ImgSrc.xpath("http://img[@class="BDE_Image"]/@src")

以上xpath首先獲取到樓層，然后獲取到樓層中的content信息，然后將content信息作為html文件再次分析，獲取到包含class="BDE_Image"的圖片的src。

根據(jù)帖子ID建立文件夾
建立文件夾可以使用os庫的mkdirs方法，注意，如果是mkdir方法則只能創(chuàng)建一層目錄。

def MakeDir(TargetDir,FolderName):
    new_path = os.path.join(TargetDir,FolderName)
    if(not os.path.isdir(new_path)):
        os.makedirs(new_path)
    os.chdir(new_path)

最終代碼：

#-*-coding:utf8-*-
from lxml import etree
import SaveLinkIntoFile
import requests
import re
import os
import GetTiebaImg

def GetArticleLinks(url):
    TiebaUrlprefix = "http://tieba.baidu.com"
    html = requests.get(url)
    html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)
    AirticleFilter = etree.HTML(html)
    #print(html)
    LinkSelector = AirticleFilter.xpath("http://div[@class="threadlist_lz clearfix"]/div/a/@href")
    for i in range(len(LinkSelector)):
        foldername = LinkSelector[i].strip().lstrip().rstrip("/").replace("/","")
        print(foldername)
        MakeDir("D:Python_Cache",foldername)
        LinkSelector[i] = TiebaUrlprefix + LinkSelector[i]
        GetTiebaImg.GetTiebaImg([LinkSelector[i]])
        os.chdir("../")

    print(LinkSelector)
    return LinkSelector
    # print("the number of links:{0}".format(len(LinkSelector)))
    # for each in LinkSelector:
    #     print("The links:{0}".format_map(each[0]))

def MakeDir(TargetDir,FolderName):
    new_path = os.path.join(TargetDir,FolderName)
    if(not os.path.isdir(new_path)):
        os.makedirs(new_path)
    os.chdir(new_path)
    # print("the Current dir is:{0}".format(os.getcwd()))
    # os.chdir("../")
    # print("the Current dir is:{0}".format(os.getcwd()))


if __name__ == "__main__":
    MakeDir("D:Python_Cache","Cache1")
    TiebaUrl = "http://tieba.baidu.com/f?kw=%E5%A3%81%E7%BA%B8&ie=utf-8"
    GetArticleLinks(TiebaUrl)

運(yùn)行效果：

GPU云服務(wù)器云服務(wù)器 python爬蟲圖片 python爬蟲抓取圖片貼吧圖片 python3爬蟲抓取圖片

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/37727.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Anleb

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Linux系統(tǒng)賬號(hào)安全和登錄控制（一切為了安全）

閱讀 1215·2021-11-25 09:43
2018.12.23 無障礙學(xué)習(xí)小計(jì)

閱讀 3047·2019-08-30 15:54
【學(xué)習(xí)筆記】CSS深入理解之a(chǎn)bsolute

閱讀 3406·2019-08-30 15:54
偽元素的content屬性使用中文字符集可能會(huì)出現(xiàn)亂碼情況

閱讀 3067·2019-08-30 15:44
LeetCode 290 單詞模式 JS實(shí)現(xiàn)

閱讀 1706·2019-08-26 12:18
JavaScript疑難雜癥系列-事件

閱讀 2305·2019-08-26 11:42
JavaScript作用域

閱讀 918·2019-08-26 11:35
vue中keepAlive的使用

閱讀 3348·2019-08-23 18:22

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

獲取貼吧圖片的python爬蟲

相關(guān)文章

**利用Python爬取百度貼吧圖片**

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

獲取百度貼吧頭像的爬蟲

Python爬蟲入門教程 9-100 河北陽光理政投訴板塊

發(fā)表評(píng)論

0條評(píng)論

Anleb

男|高級(jí)講師

TA的文章

Linux系統(tǒng)賬號(hào)安全和登錄控制（一切為了安全）

2018.12.23 無障礙學(xué)習(xí)小計(jì)

【學(xué)習(xí)筆記】CSS深入理解之a(chǎn)bsolute

偽元素的content屬性使用中文字符集可能會(huì)出現(xiàn)亂碼情況

LeetCode 290 單詞模式 JS實(shí)現(xiàn)

JavaScript疑難雜癥系列-事件

JavaScript作用域

vue中keepAlive的使用

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

獲取貼吧圖片的python爬蟲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！