Python 爬蟲(chóng)實(shí)戰(zhàn)（二）：使用 requests-html

honmaple 發(fā)布于2019-07-31 11:05 / 3083人閱讀

摘要：爬蟲(chóng)實(shí)戰(zhàn)一使用和，我們使用了做網(wǎng)絡(luò)請(qǐng)求，拿到網(wǎng)頁(yè)數(shù)據(jù)再用解析，就在前不久，作者出了一個(gè)新庫(kù)，，它可以用于解析文檔的。是基于現(xiàn)有的框架等庫(kù)進(jìn)行了二次封裝，更加方便開(kāi)發(fā)者調(diào)用。參考今天用了一下庫(kù)爬蟲(chóng)公眾號(hào)我的公眾號(hào)吳小龍同學(xué)，歡迎交流

Python 爬蟲(chóng)實(shí)戰(zhàn)（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網(wǎng)絡(luò)請(qǐng)求，拿到網(wǎng)頁(yè)數(shù)據(jù)再用 BeautifulSoup 解析，就在前不久，requests 作者 kennethreitz 出了一個(gè)新庫(kù) requests-html，Pythonic HTML Parsing for Humans?，它可以用于解析 HTML 文檔的。requests-html 是基于現(xiàn)有的框架 PyQuery、Requests、lxml 等庫(kù)進(jìn)行了二次封裝，更加方便開(kāi)發(fā)者調(diào)用。

安裝

Mac：

pip3 install requests-html

Windows：

pip install requests-html

實(shí)例

代碼擼多了，讓我們看會(huì)妹紙，爬的網(wǎng)站我選的是 http://www.win4000.com/zt/xin... ，打開(kāi)網(wǎng)站，觀察到這是個(gè)列表，圖片是縮略圖，要想保存圖片到本地，當(dāng)然需要高清大圖，因此得進(jìn)入列表詳情，進(jìn)一步解析，完整代碼如下：

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析圖片列表
def get_girl_list():
    # 返回一個(gè) response 對(duì)象
    response = session.get("http://www.win4000.com/zt/xinggan.html")  # 單位秒數(shù)

    content = response.html.find("div.Left_bar", first=True)

    li_list = content.find("li")

    for li in li_list:
        url = li.find("a", first=True).attrs["href"]
        get_girl_detail(url)


# 解析圖片詳細(xì)
def get_girl_detail(url):
    # 返回一個(gè) response 對(duì)象
    response = session.get(url)  # 單位秒數(shù)
    content = response.html.find("div.scroll-img-cont", first=True)
    li_list = content.find("li")
    for li in li_list:
        img_url = li.find("img", first=True).attrs["data-original"]
        img_url = img_url[0:img_url.find("_")] + ".jpg"
        print(img_url + ".jpg")
        save_image(img_url)


# 保持大圖
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒級(jí)時(shí)間戳
    f = open("/Users/wuxiaolong/Desktop/Girl/%d.jpg" % t, "ab")  # 存儲(chǔ)圖片，多媒體文件需要參數(shù)b（二進(jìn)制文件）
    f.write(img_response.content)  # 多媒體存儲(chǔ)content
    f.close()


if __name__ == "__main__":
    get_girl_list()

代碼就這么多，是不是感覺(jué)很簡(jiǎn)單啊。

說(shuō)明：

1、requests-html 與 BeautifulSoup 不同，可以直接通過(guò)標(biāo)簽來(lái) find，一般如下：
標(biāo)簽
標(biāo)簽.someClass
標(biāo)簽#someID
標(biāo)簽[target=_blank]
參數(shù) first 是 True，表示只返回 Element 找到的第一個(gè)，更多使用：http://html.python-requests.org/ ；

2、這里保存本地路徑 /Users/wuxiaolong/Desktop/Girl/我寫(xiě)死了，需要讀者改成自己的，如果直接是文件名，保存路徑將是項(xiàng)目目錄下。

遺留問(wèn)題

示例所爬網(wǎng)站是分頁(yè)的，沒(méi)有做，可以定時(shí)循環(huán)來(lái)爬妹紙哦，有興趣的讀者自己玩下。

參考

requests-html

今天用了一下Requests-HTML庫(kù)（Python爬蟲(chóng)）

公眾號(hào)

我的公眾號(hào)：吳小龍同學(xué)，歡迎交流～

GPU云服務(wù)器云服務(wù)器 python爬蟲(chóng)實(shí)戰(zhàn) python3爬蟲(chóng)實(shí)戰(zhàn) python爬蟲(chóng)使用代理ip 爬蟲(chóng)實(shí)戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/44624.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

honmaple

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

精詞快排SEO不限指數(shù)任意關(guān)鍵詞1元/天最快最快隔天上首頁(yè)

閱讀 3265·2021-11-24 10:30
PIGYun：國(guó)慶優(yōu)惠，香港CN2線路60M帶寬月付19元，韓國(guó)CN2線路30M帶寬月付14元

閱讀 1380·2021-09-30 09:56
華納云：美國(guó)服務(wù)器正式發(fā)售，24元/月買 5M美國(guó)云機(jī)，50M CN2回國(guó)/100M國(guó)際大帶寬月付6

閱讀 2481·2021-09-07 10:20
NameSilo域名優(yōu)惠碼及商家介紹整理匯總

閱讀 2672·2021-08-27 13:10
實(shí)用瀏覽器調(diào)試技巧（動(dòng)畫(huà)、節(jié)點(diǎn)刪除、節(jié)點(diǎn)增加）

閱讀 782·2019-08-30 11:11
前端實(shí)例練習(xí) - 任務(wù)清單 To do list

閱讀 2122·2019-08-29 12:13
javascript性能優(yōu)化

閱讀 815·2019-08-26 12:24
Router入門0x201: 從 URL 到 SPA

閱讀 2988·2019-08-26 12:20

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 爬蟲(chóng)實(shí)戰(zhàn)（二）：使用 requests-html

相關(guān)文章

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

requests-html庫(kù)初識(shí) + 無(wú)資料解BUG之 I/O error : encoder er

**這個(gè)男人讓你的爬蟲(chóng)開(kāi)發(fā)效率提升8倍**

**零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)**

Python爬蟲(chóng)學(xué)習(xí)路線

發(fā)表評(píng)論

0條評(píng)論

honmaple

男|高級(jí)講師

TA的文章

精詞快排SEO不限指數(shù)任意關(guān)鍵詞1元/天最快最快隔天上首頁(yè)

PIGYun：國(guó)慶優(yōu)惠，香港CN2線路60M帶寬月付19元，韓國(guó)CN2線路30M帶寬月付14元

華納云：美國(guó)服務(wù)器正式發(fā)售，24元/月買 5M美國(guó)云機(jī)，50M CN2回國(guó)/100M國(guó)際大帶寬月付6

NameSilo域名優(yōu)惠碼及商家介紹整理匯總

實(shí)用瀏覽器調(diào)試技巧（動(dòng)畫(huà)、節(jié)點(diǎn)刪除、節(jié)點(diǎn)增加）

前端實(shí)例練習(xí) - 任務(wù)清單 To do list

javascript性能優(yōu)化

Router入門0x201: 從 URL 到 SPA

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python 爬蟲(chóng)實(shí)戰(zhàn)（二）：使用 requests-html

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！