【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細新手實現(xiàn)（01）webdriv

Half 發(fā)布于2021-09-30 09:48 / 3007人閱讀

摘要：且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程，因此就斗膽在上開一個欄目，以我的圖片爬蟲全實現(xiàn)過程為例，以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數(shù)的爬蟲實際問題。

前言：

一個月前，博主在學過python（一年前）、會一點網(wǎng)絡（能按F12）的情況下，憑著熱血和興趣，開始了python爬蟲的學習。一路過來走了相當多彎路，但是前不久終于成功了?。。。I目）

經(jīng)過一個月的學習，博主我感覺CSDN上圖片爬取教程確實詳細且方法繁多，但大都偏公式化或者不夠貼近小白。且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程，因此就斗膽在CSDN上開一個欄目，以我的python圖片爬蟲全實現(xiàn)過程為例，以期用更簡單、清晰、詳盡的方式來幫助更多小白應對更大多數(shù)的爬蟲實際問題。

第一次寫blog真的十分激動?。?！希望大家多多鼓勵點贊，過路大神多多指教，寫得不對的地方請直接指出?。?！

本欄目大致會分為4章（有空馬上更）分別是：

環(huán)境配置+基礎知識
獲取圖片地址+根據(jù)地址下載圖片
翻頁+反爬+完整代碼
爬蟲實戰(zhàn)案例：爬取網(wǎng)站商品信息

正文：

博主本人用的是window10系統(tǒng)、python3.8（需要add to path）和pycharm

老規(guī)矩先來一張的思維導圖

所謂之所以要基于selenium庫爬蟲，是因為現(xiàn)在網(wǎng)頁大部分由JavaScript語言所寫，特點是動態(tài)加載網(wǎng)絡元素，網(wǎng)絡元素經(jīng)過瀏覽器渲染才向用戶顯示（表現(xiàn)為在網(wǎng)頁右鍵查看源碼和按F12調(diào)出開發(fā)者工具看到的網(wǎng)絡元素不盡相同），用requests庫不能實現(xiàn)爬蟲，而selenium庫能模擬用戶使用瀏覽器，能很好地處理絕大多數(shù)的網(wǎng)絡爬蟲。本文開始幾個篇章以圖片爬蟲為例，后面附一個爬取京東iPhone價格、商品名稱、評論、店鋪信息的實例。

開始前，我想說看視頻是最最快的學習方法，個人是在B站學到了requests庫實戰(zhàn)和selenium庫實戰(zhàn)（兩個視頻都是我看過那么多最詳細最好的，鏈接【1】【2】我放在下面）。期間在網(wǎng)絡基礎和瀏覽器知識這一塊也參考了紫書《python網(wǎng)絡爬蟲權威指南》，還有關于網(wǎng)絡想要深入了解的同學可以看鏈接【3】。

新手警告：剛開始爬蟲建議用IDLE?。?！

新手警告：剛開始爬蟲建議用IDLE！?。?/strong>

新手警告：剛開始爬蟲建議用IDLE?。。?/strong>

（selenium庫查找不到元素就會報錯容易把心態(tài)搞崩，建議一步步在IDLE上執(zhí)行，最后適當加上time.sleep()復制到pycharm）

【1】Python爬蟲實戰(zhàn)教程：批量爬取某網(wǎng)站圖片_嗶哩嗶哩_bilibili
【2】Python爬蟲+反爬蟲實戰(zhàn)【數(shù)據(jù)爬取+數(shù)據(jù)解析+scrapy+selenium+反爬蟲】_嗶哩嗶哩_bilibili
【3】HTML 教程 | 菜鳥教程
一、環(huán)境

01瀏覽器環(huán)境

from selenium import webdriverdriver = webdriver.Chrome()#用谷歌瀏覽器#driver = webdriver.Edge()#用Microsoft Edge#driver = webdriver.PhantomJS()#用無頭瀏覽器

用selenium庫爬蟲需要用到driver，也就是可供selenium庫使用的瀏覽器.exe，調(diào)用的時候如上
下載對應瀏覽器可在CSDN查找就可，附帶教程很詳細（搜索：‘“selenium庫webdriver+瀏覽器名稱”）
所謂無頭瀏覽器就是不顯示界面的瀏覽器，但可以通過截圖了解狀態(tài)
注意：

下載webdriver時需選擇和自己當前瀏覽器的版本一致

點開瀏覽器設置查看

?????2. 下載后的瀏覽器.exe直接拖動到python所在地址。python所在地址可直接window鍵+R，再輸入cmd調(diào)出命令行窗口輸入“where python”就找到python路徑了。

命令行窗口里python路徑

?然后就可正常使用webdriver了。

02下載外部庫

????????也是在命令行窗口，先輸入python看下python是否正常加到path

像這樣是OK的

?然后先輸入“quit()”退出python，再依次輸入“pip install selenium”，“pip install requests”，如出現(xiàn)“...install successfully”不報錯就是安裝成功（warning不用管）、

注意：如果報錯可以改成“pip3 install selenium”，“pip3 install requests”

二、基礎知識

這里比較重要的是字符串操作和網(wǎng)頁知識（主要是一些快捷鍵）

01字符串操作

主要用到的功能是截取、相加（也就是拼接），以及format函數(shù)（可用于字符串拼接）和split函數(shù)（用于選取字符串內(nèi)容），需要用的時候去CSDN查看即可。在爬取圖片時一般用于修正圖片地址和創(chuàng)建圖片名稱

02數(shù)組知識

主要用到選取元素和遍歷

03通過requests庫從圖片地址下載圖片

其實是一組模塊，和創(chuàng)建文件模塊一起使用（后面的bloc會說的）

04網(wǎng)頁基礎知識

重點說說網(wǎng)頁基礎知識，爬蟲中很需要實時根據(jù)網(wǎng)頁內(nèi)容改變爬取方法。

首先需要的是開發(fā)者工具，有的同學可以直接按F12調(diào)出，有的需要手動按一按。我們需要點擊右邊的“元素”，然后在頁面中選擇一個元素右鍵點擊“檢查”，就可以找到對應的代碼。

如圖點擊（Microsoft Edge為例）

右鍵檢查，選擇“元素”

?????2.然后具體說說網(wǎng)頁元素

節(jié)點的名稱有的叫div，有的叫a，有的叫img。
我們所需的要素也有一個名稱，有的叫class，有的叫id，有的叫src。
這些節(jié)點里面的要素有一個值（比如class=“”里面的東西），網(wǎng)頁上所有的元素，都存放在這一個個值中。通過這些要素的值，我們可以尋找到特定的節(jié)點；也可以根據(jù)值的名稱，在節(jié)點里獲取這個值
我們所需的圖片地址，一般就是img節(jié)點的src要素的值（如下圖）

如圖找到了該圖片的地址

注意：

在開發(fā)者工具中可按Ctrl+F查找需要的網(wǎng)頁元素
“元素”的左邊按鈕可把頁面從電腦模式切換成手機模式，再左邊按鈕按動后劃過網(wǎng)頁元素會自動跳到對應代碼
? ? ? ?

下一篇獲取圖片地址+根據(jù)地址下載圖片是重頭戲，喜歡的朋友請追更。

碼字不易求點贊！

云服務器 GPU云服務器 python爬取網(wǎng)頁圖片域名詳細資料查詢 Python_selenium_phan python小白

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://www.ezyhdfw.cn/yun/121679.html

上一篇：python字符串的基本語法

下一篇：《源碼中的設計模式》之建造者模式——鏈式調(diào)用

相關文章

爬蟲攻防實踐

摘要：之前在學校曾經(jīng)用過的方法做過一些爬蟲腳本來玩，從正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網(wǎng)絡請求，比如要爬取豆瓣排行榜的電影，就會連續(xù)發(fā)送個網(wǎng)絡請求。之前在學校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩，從ios正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐...

wanglu1209 2019-08-02 15:34 評論0 收藏0

爬蟲攻防實踐

摘要：之前在學校曾經(jīng)用過的方法做過一些爬蟲腳本來玩，從正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網(wǎng)絡請求，比如要爬取豆瓣排行榜的電影，就會連續(xù)發(fā)送個網(wǎng)絡請求。之前在學校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩，從ios正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐...

xiangzhihong 2019-07-31 11:28 評論0 收藏0

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章，已經(jīng)太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0

前程無憂崗位數(shù)據(jù)爬取+Tableau可視化分析

摘要：實際上，前程無憂招聘網(wǎng)站上與數(shù)據(jù)有關的只有幾百頁，而我們爬取了頁的所有數(shù)據(jù)，因此在后面進行數(shù)據(jù)處理時需要把無關的數(shù)據(jù)剔除掉。目錄一、項目背景二、數(shù)據(jù)爬取 1、相關庫的導入與說明 2、獲取二級頁面鏈接 1）分析一級頁面url特征 2）構建一級url庫 3）爬取所有二級url鏈接 3、獲取...

233jl 2021-09-28 09:36 評論0 收藏0

Python3 實現(xiàn)淘女郎照片爬蟲

摘要：項目簡介本實驗通過使用實現(xiàn)一個淘寶女郎圖片收集爬蟲，學習并實踐及正則表達式等知識。本教程由阿發(fā)布在實驗樓，完整教程及在線練習地址實現(xiàn)淘女郎照片爬蟲，可以直接在教程中下載代碼使用。 showImg(https://segmentfault.com/img/bVBgrF); 項目簡介：本實驗通過使用 Python 實現(xiàn)一個淘寶女郎圖片收集爬蟲，學習并實踐 BeautifulSoup、Sel...

jindong 2019-07-25 10:42 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

Half

男|高級講師

我要關注我要私信

TA的文章
閱讀更多

Nextarray：雙十一，VPS和獨服5折優(yōu)惠，月付0.99美金起，特價雙E5/192G內(nèi)存/6

閱讀 1611·2021-11-04 16:10

【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細新手實現(xiàn)（01）webdriv

閱讀 3008·2021-09-30 09:48

mockjs讓前端開發(fā)獨立于后端

閱讀 2896·2019-08-29 11:31

css定位案例探討（position屬性詳解）

閱讀 1637·2019-08-28 18:22

瀏覽器內(nèi)核

閱讀 3287·2019-08-26 13:44

DIY 一個 Vuex 持久化插件

閱讀 1377·2019-08-26 13:42

數(shù)據(jù)類型對象

閱讀 2908·2019-08-26 10:20

讓前端監(jiān)控數(shù)據(jù)采集更高效

閱讀 818·2019-08-23 17:00

最新活動

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細新手實現(xiàn)（01）webdriv

一、環(huán)境

01瀏覽器環(huán)境

02下載外部庫

二、基礎知識

01字符串操作

02數(shù)組知識

03通過requests庫從圖片地址下載圖片

04網(wǎng)頁基礎知識

相關文章

爬蟲攻防實踐

爬蟲攻防實踐

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

前程無憂崗位數(shù)據(jù)爬取+Tableau可視化分析

Python3 實現(xiàn)淘女郎照片爬蟲

發(fā)表評論

0條評論

Half

男|高級講師

TA的文章

Nextarray：雙十一，VPS和獨服5折優(yōu)惠，月付0.99美金起，特價雙E5/192G內(nèi)存/6