Selenium+python親測(cè)爬蟲(chóng)工具爬取年度電影榜單

Jiavan 發(fā)布于2021-09-04 16:40 / 3115人閱讀

摘要：介紹是一個(gè)用于應(yīng)用程序測(cè)試的工具，測(cè)試直接運(yùn)行在瀏覽器中，就像真正的用戶(hù)在操作一樣。支持的瀏覽器包括，，，，，等，它在的領(lǐng)域里的引用能使初學(xué)者大大的省去解析網(wǎng)頁(yè)中代加密的一些麻煩。

Selenium介紹

Selenium 是一個(gè)用于Web應(yīng)用程序測(cè)試的工具，Selenium測(cè)試直接運(yùn)行在瀏覽器中，就像真正的用戶(hù)在操作一樣。

支持的瀏覽器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera，Edge等，它在python的領(lǐng)域里的引用能使初學(xué)者大大的省去解析網(wǎng)頁(yè)中代加密的一些麻煩。

*特別適合小白練手

Selenium安裝

1.首先要下載一個(gè)python的環(huán)境，最新的python環(huán)境里有繼承好的pip工具包（這塊知識(shí)見(jiàn)python官網(wǎng)操作）

2.下載瀏覽器的驅(qū)動(dòng)（我這邊以谷歌瀏覽器，你們也可以下載其他的）

打開(kāi)https://npm.taobao.org/mirrors/chromedriver鏈接（這個(gè)是谷歌瀏覽器的驅(qū)動(dòng)），先找到自身瀏覽器的版本進(jìn)行下載，找自身瀏覽器版本方法見(jiàn)下圖1，圖2

圖1

圖2

我這里的是93.0.4577.63接著在驅(qū)動(dòng)下載頁(yè)面下載自己的版本的驅(qū)動(dòng)，（如果沒(méi)有自己的版本就找這個(gè)版本之前的一個(gè)）見(jiàn)下圖3

?圖3

下載好后把解壓好的包安裝在自己的python環(huán)境下。

找python環(huán)境目錄的方法：1.打開(kāi)python--------右擊----選擇運(yùn)行? 圖4 做記號(hào)的就是我的路徑

?圖4

把下好的復(fù)制到相應(yīng)的路徑下就可以了如圖5

圖5

電影榜單的抓取

工具：PyCharm 2021.2

python編譯環(huán)境：python3.8

首先導(dǎo)入需要的依賴(lài)包在python終端中打入

pip install selenium

解析網(wǎng)頁(yè)：

首先打開(kāi)網(wǎng)址https://www.endata.com.cn/BoxOffice/BO/Year/index.html? 按F12打開(kāi)代碼解釋器

進(jìn)行一個(gè)解析，我們測(cè)試代碼是否能自動(dòng)的打開(kāi)瀏覽器

from selenium.webdriver import Chromeweb = Chrome() web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")

經(jīng)過(guò)測(cè)試是能打開(kāi)需要的網(wǎng)址的，接著我們要爬的是每一年度第一的觀影榜單,我們利用xpath進(jìn)行一個(gè)定位。

sel_el = web.find_element_by_xpath("http://*[@id="OptionDate"]")#定位一個(gè)下拉列表

xpath不會(huì)定位的見(jiàn)下圖

?定位到的位置

?我們觀察到這里有一個(gè)下拉列表，我們需要對(duì)下拉列表進(jìn)行一個(gè)封裝然后根據(jù)索引(這里直接根據(jù)options）進(jìn)行一個(gè)遍歷查找（這塊涉及到前端知識(shí)點(diǎn)下拉列表）

sel = Select(sel_el)    for i in range(len(sel.options)):        sel.select_by_index(i)

?最后找到你要爬取的內(nèi)容，我這爬取的是電影名稱(chēng)和票房

table = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[2]/a/p").textpiaofang = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[4]").text

把爬取的內(nèi)容保存到當(dāng)前目錄文件下，最后一部進(jìn)行代碼段的整合

整合代碼段：

import timefrom selenium.webdriver import Chromefrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.select import Selectweb =Chrome()web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")with open("data.csv", "w", encoding="utf-8") as f:  #打開(kāi)文件，進(jìn)行寫(xiě)入    sel_el = web.find_element_by_xpath("http://*[@id="OptionDate"]")#定位一個(gè)下拉列表#對(duì)元素進(jìn)行包裝    sel = Select(sel_el)    for i in range(len(sel.options)):   #前端的下拉列表的        sel.select_by_index(i)        time.sleep(2)   #進(jìn)行一個(gè)2s的休眠        table = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[2]/a/p").text    #定位要找的東西位置        piaofang = web.find_element_by_xpath("http://*[@id="TableList"]/table/tbody/tr[1]/td[4]").text        nianfen = web.find_element_by_xpath("http://*[@id="OptionDate"]/option[1]").text        f.write(table)        f.write("/r")        f.write(piaofang)        f.write("/r/n")    f.close()web.close()print("爬取完畢")

效果展示：

總結(jié)：

安裝驅(qū)動(dòng)有不明白的地方可以提出來(lái)哦，讓我們一起努力一起學(xué)習(xí)，有那寫(xiě)的不對(duì)的還請(qǐng)各位大佬指正，感覺(jué)寫(xiě)的還行的，給個(gè)小贊，小編也有寫(xiě)下去的動(dòng)力

??????

???????

GPU云服務(wù)器云服務(wù)器 selenium網(wǎng)絡(luò)爬蟲(chóng) python爬蟲(chóng)工具爬蟲(chóng)工具python python爬蟲(chóng)開(kāi)發(fā)工具

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/119073.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Jiavan

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

深入了解里你先文件系統(tǒng)與日志分析

閱讀 3614·2021-11-25 09:43
云峰w5虛擬主機(jī)怎么樣

閱讀 1159·2021-11-15 11:36
【物聯(lián)網(wǎng)】28.物聯(lián)網(wǎng)開(kāi)發(fā) - 安全性

閱讀 3435·2021-11-11 16:54
HAL庫(kù)第一章高低電平

閱讀 4068·2021-09-27 13:35
騰訊云服務(wù)器選哪個(gè)系統(tǒng)?騰訊云服務(wù)器操作系統(tǒng)選擇攻略

閱讀 4487·2021-09-10 11:23
盤(pán)點(diǎn)五款當(dāng)下主流且好用的聽(tīng)音樂(lè)軟件推薦（你用哪款軟件聽(tīng)音樂(lè)）

閱讀 6463·2021-09-07 10:22
Selenium+python親測(cè)爬蟲(chóng)工具爬取年度電影榜單

閱讀 3116·2021-09-04 16:40
RAKsmart：爆款獨(dú)立服務(wù)器$30秒殺，香港新增DDOS最高100G，VPS月付$1.99起

閱讀 863·2021-08-03 14:03

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Selenium+python親測(cè)爬蟲(chóng)工具爬取年度電影榜單

Selenium介紹

Selenium安裝

電影榜單的抓取

效果展示：

總結(jié)：

相關(guān)文章

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

爬蟲(chóng) - 收藏集 - 掘金

爬蟲(chóng)攻防實(shí)踐

爬蟲(chóng)攻防實(shí)踐

**零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)**

發(fā)表評(píng)論

0條評(píng)論

Jiavan

男|高級(jí)講師

TA的文章

深入了解里你先文件系統(tǒng)與日志分析

云峰w5虛擬主機(jī)怎么樣

【物聯(lián)網(wǎng)】28.物聯(lián)網(wǎng)開(kāi)發(fā) - 安全性

HAL庫(kù)第一章高低電平

騰訊云服務(wù)器選哪個(gè)系統(tǒng)?騰訊云服務(wù)器操作系統(tǒng)選擇攻略

盤(pán)點(diǎn)五款當(dāng)下主流且好用的聽(tīng)音樂(lè)軟件推薦（你用哪款軟件聽(tīng)音樂(lè)）