摘要:下一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)請求庫安裝爬蟲可以簡單分為幾步抓取頁面分析頁面存儲數(shù)據(jù)。相關(guān)鏈接官方網(wǎng)站官方文檔中文文檔安裝驗證安裝進入命令行交互模式,導(dǎo)入一下包,如果沒有報錯,則證明安裝成功。
下一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---2、請求庫安裝:GeckoDriver、PhantomJS、Aiohttp
爬蟲可以簡單分為幾步:抓取頁面、分析頁面、存儲數(shù)據(jù)。
在第一步抓取頁面的過程中,我們就需要模擬瀏覽器向服務(wù)器發(fā)出請求,所以需要用到一些 Python 庫來實現(xiàn) HTTP 請求操作,在本書中我們用到的第三方庫有 Requests、Selenium、Aiotttp 等。
在本節(jié)我們介紹一下這些請求庫的安裝方法。
1.1.1 Requests的安裝由于 Requests 屬于第三方庫,也就是 Python 默認不會自帶這個庫,需要我們手動去安裝,下面我們首先看一下它的安裝過程。
1. 相關(guān)鏈接GitHub:https://github.com/requests/r...
PyPy:https://pypi.python.org/pypi/...
官方文檔:http://www.python-requests.org
中文文檔:http://docs.python-requests.o...
2. 安裝pip3 install requests3. 驗證安裝
為了驗證庫是否已經(jīng)安裝成功,可以在命令行下測試一下:
$ python3 >>> import requests
在命令行首先輸入 python3,進入命令行模式,然后輸入如上內(nèi)容,如果什么錯誤提示也沒有,那么就證明我們已經(jīng)成功安裝了 Requests。
1.1.2 Selenium的安裝Selenium 是一個自動化測試工具,利用它我們可以驅(qū)動瀏覽器執(zhí)行特定的動作,如點擊、下拉等等操作,對于一些 JavaScript 渲染的頁面來說,此種抓取方式非常有效,下面我們來看下 Selenium 的安裝過程。
1. 相關(guān)鏈接官方網(wǎng)站:http://www.seleniumhq.org
GitHub:https://github.com/SeleniumHQ...
PyPi:https://pypi.python.org/pypi/...
官方文檔:http://selenium-python.readth...
中文文檔:http://selenium-python-zh.rea...
2. 安裝pip3 install selenium3. 驗證安裝
進入 Python 命令行交互模式,導(dǎo)入一下 Selenium 包,如果沒有報錯,則證明安裝成功。
$ python3 >>> import selenium
但這樣還不夠,我們還需要瀏覽器如 Chrome、Firefox 等瀏覽器來配合 Selenium 工作。
下面我們會介紹 Chrome、Firefox、PhantomJS 三種瀏覽器的配置方式,有了瀏覽器我們才可以配合 Selenium 進行頁面的抓取。
1.1.3 ChromeDriver的安裝在上節(jié)我們成功安裝好了 Selenium 庫,但是它是一個自動化測試工具,需要瀏覽器來配合它使用,那么本節(jié)我們就介紹一下 Chrome 瀏覽器及 ChromeDriver 驅(qū)動的配置。
首先需要下載一個 Chrome 瀏覽器,方法多樣,在此不再贅述。
隨后我們需要安裝一個 ChromeDriver 才能驅(qū)動 Chrome 瀏覽器完成相應(yīng)的操作,下面我們來介紹下怎樣安裝 ChromeDriver。
官方網(wǎng)站:https://sites.google.com/a/ch...
下載地址:https://chromedriver.storage....
2. MAC安裝brew install chromedriver
如果安裝失敗,使用下面方法
brew cask install chromedriver3. 驗證安裝
配置完成之后,就可以在命令行下直接執(zhí)行 chromedriver 命令了。
命令行下輸入:
chromedriver
輸入控制臺有類似輸出,如圖 1-17 所示:
圖 1-17 控制臺輸出
如果有類似輸出則證明 ChromeDriver 的環(huán)境變量配置好了。
隨后再在程序中測試,執(zhí)行如下 Python 代碼:
from selenium import webdriver browser = webdriver.Chrome()
運行之后會彈出一個空白的 Chrome 瀏覽器,證明所有的配置都沒有問題,如果沒有彈出,請檢查之前的每一步的配置。
如果彈出之后閃退,則可能是 ChromeDriver 版本和 Chrome 版本不簡容,請更換 ChromeDriver 版本。
如果沒有問題,接下來我們就可以利用 Chrome 來做網(wǎng)頁抓取了。
既然 Chrome 可以通過 Selenium 驅(qū)動,F(xiàn)irefox 也可以,如果想要實現(xiàn) Selenium 驅(qū)動 Firefox 瀏覽器可以參考下面的 GeckoDriver 的安裝。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/44022.html
摘要:上一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)請求庫安裝下一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)解析庫的安裝的安裝在上一節(jié)我們了解了的配置方法,配置完成之后我們便可以用來驅(qū)動瀏覽器來做相應(yīng)網(wǎng)頁的抓取。上一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)請求庫安裝下一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)解析庫的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---1、請求庫安裝:Requests、Selenium、ChromeDriver下一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)--...
摘要:上一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)數(shù)據(jù)爬取下一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)動態(tài)渲染頁面抓取本節(jié)我們以今日頭條為例來嘗試通過分析請求來抓取網(wǎng)頁數(shù)據(jù)的方法,我們這次要抓取的目標是今日頭條的街拍美圖,抓取完成之后將每組圖片分文件夾下載到本地保存下來。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---35、 Ajax數(shù)據(jù)爬取下一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---37、動態(tài)渲染頁面抓取:Selenium 本節(jié)我們...
摘要:且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現(xiàn)過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應(yīng)對更大多數(shù)的爬蟲實際問題。 前言: 一個月前,博主在學(xué)過python(一年前)、會一點網(wǎng)絡(luò)(能按F12)的情況下,憑著熱血和興趣,開始了pyth...
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:在前面我們講到了和的概念,我們向網(wǎng)站的服務(wù)器發(fā)送一個,返回的的便是網(wǎng)頁源代碼。渲染頁面有時候我們在用或抓取網(wǎng)頁時,得到的源代碼實際和瀏覽器中看到的是不一樣的。所以使用基本請求庫得到的結(jié)果源代碼可能跟瀏覽器中的頁面源代碼不太一樣。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---16、Web網(wǎng)頁基礎(chǔ)下一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---18、Session和Cookies 爬蟲,即網(wǎng)...
閱讀 589·2023-04-26 00:33
閱讀 3611·2021-11-24 09:39
閱讀 3218·2021-09-22 15:34
閱讀 2427·2019-08-23 18:07
閱讀 2983·2019-08-23 18:04
閱讀 3836·2019-08-23 16:06
閱讀 2961·2019-08-23 15:27
閱讀 1670·2019-08-23 14:32