亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝:GeckoDriver、PhantomJS、Aioh

Cristalven / 1741人閱讀

摘要:上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)解析庫(kù)的安裝的安裝在上一節(jié)我們了解了的配置方法,配置完成之后我們便可以用來(lái)驅(qū)動(dòng)瀏覽器來(lái)做相應(yīng)網(wǎng)頁(yè)的抓取。上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)解析庫(kù)的安裝

上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---1、請(qǐng)求庫(kù)安裝:Requests、Selenium、ChromeDriver
下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---3、解析庫(kù)的安裝:LXML、BeautifulSoup、PyQuery、Tesserocr
1.1.4 GeckoDriver的安裝

在上一節(jié)我們了解了 ChromeDriver 的配置方法,配置完成之后我們便可以用 Selenium 來(lái)驅(qū)動(dòng) Chrome 瀏覽器來(lái)做相應(yīng)網(wǎng)頁(yè)的抓取。
那么對(duì)于 Firefox 來(lái)說(shuō),也可以使用同樣的方式完成 Selenium 的對(duì)接,這時(shí)需要安裝另一個(gè)驅(qū)動(dòng) GeckoDriver。
本節(jié)來(lái)介紹一下 GeckoDriver 的安裝過(guò)程。

1. 相關(guān)鏈接

GitHub:https://github.com/mozilla/ge...

下載地址:https://github.com/mozilla/ge...

2. MAC安裝方式
brew install GeckoDriver
3. 驗(yàn)證安裝

配置完成之后,就可以在命令行下直接執(zhí)行 geckodriver 命令測(cè)試。
命令行下輸入:
geckodriver
這時(shí)控制臺(tái)應(yīng)該有類(lèi)似輸出,如圖 1-20 所示:

圖 1-20 控制臺(tái)輸出
如果有類(lèi)似輸出則證明 GeckoDriver 的環(huán)境變量配置好了。
隨后再在程序中測(cè)試,執(zhí)行如下 Python 代碼:

from selenium import webdriver
browser = webdriver.Firefox()

運(yùn)行之后會(huì)彈出一個(gè)空白的 Firefox 瀏覽器,證明所有的配置都沒(méi)有問(wèn)題,如果沒(méi)有彈出,請(qǐng)檢查之前的每一步的配置。
如果沒(méi)有問(wèn)題,接下來(lái)我們就可以利用 Firefox 配合 Selenium 來(lái)做網(wǎng)頁(yè)抓取了。

4. 結(jié)語(yǔ)

到現(xiàn)在位置我們就可以使用 Chrome 或 Firefox 進(jìn)行網(wǎng)頁(yè)抓取了,但是這樣可能有個(gè)不方便之處,因?yàn)槌绦蜻\(yùn)行過(guò)程中需要一直開(kāi)著瀏覽器,在爬取網(wǎng)頁(yè)的過(guò)程中瀏覽器可能一直動(dòng)來(lái)動(dòng)去,著實(shí)不方便。目前最新的 Chrome 瀏覽器版本已經(jīng)支持了無(wú)界面模式,但如果版本較舊就不支持。所以在這里還有另一種方便的選擇就是安裝一個(gè)無(wú)界面瀏覽器 PhantomJS,抓取過(guò)程會(huì)在后臺(tái)運(yùn)行,不會(huì)再有窗口出現(xiàn),這樣就方便了很多,所以在下一節(jié)我們?cè)倭私庖幌?PhantomJS 的相關(guān)安裝方法。

1.1.5 PhantomJS的安裝

如果我們使用 Chrome 或 Firefox 進(jìn)行網(wǎng)頁(yè)抓取的話,每次抓取的時(shí)候,都會(huì)彈出一個(gè)瀏覽器,比較影響使用。所以在這里再介紹一個(gè)無(wú)界面瀏覽器,叫做 PhantomJS。
PhantomJS 是一個(gè)無(wú)界面的,可腳本編程的 WebKit 瀏覽器引擎。它原生支持多種 web 標(biāo)準(zhǔn):DOM 操作,CSS 選擇器,JSON,Canvas 以及 SVG。
Selenium 支持 PhantomJS,這樣在運(yùn)行的時(shí)候就不會(huì)再?gòu)棾鲆粋€(gè)瀏覽器了,而且其運(yùn)行效率也是很高的,還支持各種參數(shù)配置,使用非常方便,下面我們就來(lái)了解一下 PhantomJS 的安裝過(guò)程。

1. 相關(guān)鏈接

官方網(wǎng)站:http://phantomjs.org

官方文檔:http://phantomjs.org/quick-st...

下載地址:http://phantomjs.org/download...

API接口說(shuō)明:http://phantomjs.org/api/comm...

2. MAC安裝
brew cask install phantomjs
3. 驗(yàn)證安裝

在 Selenium 中使用的話,我們只需要將 Chrome 切換為 PhantomJS 即可。

from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get("https://www.baidu.com")
print(browser.current_url)

運(yùn)行之后我們就不會(huì)發(fā)現(xiàn)有瀏覽器彈出了,但實(shí)際上 PhantomJS 已經(jīng)運(yùn)行起來(lái)了,在這里我們?cè)L問(wèn)了百度,然后將當(dāng)前的 URL 打印出來(lái)。
控制臺(tái)輸出如下:

https://www.baidu.com/

如此一來(lái)我們便完成了 PhantomJS 的配置,在后面我們可以利用它來(lái)完成一些頁(yè)面的抓取。

4. 結(jié)語(yǔ)

以上三節(jié)我們介紹了 Selenium 對(duì)應(yīng)的三大主流瀏覽器的對(duì)接方式,在后文我們會(huì)對(duì) Selenium 及各個(gè)瀏覽器的對(duì)接方法進(jìn)行更加深入的探究。

1.1.6 Aiohttp的安裝

之前我們介紹的 Requests 庫(kù)是一個(gè)阻塞式 HTTP 請(qǐng)求庫(kù),當(dāng)我們發(fā)出一個(gè)請(qǐng)求后,程序會(huì)一直等待服務(wù)器的響應(yīng),直到得到響應(yīng)后程序才會(huì)進(jìn)行下一步的處理,其實(shí)這個(gè)過(guò)程是比較耗費(fèi)資源的。如果程序可以在這個(gè)等待過(guò)程中做一些其他的事情,如進(jìn)行請(qǐng)求的調(diào)度、響應(yīng)的處理等等,那么爬取效率一定會(huì)大大提高。

Aiohttp 就是這樣一個(gè)提供異步 Web 服務(wù)的庫(kù),從 Python3.5 版本開(kāi)始,Python 中加入了 async/await 關(guān)鍵字,使得回調(diào)的寫(xiě)法更加直觀和人性化,Aiohttp的異步操作借助于 async/await 關(guān)鍵字寫(xiě)法變得更加簡(jiǎn)潔,架構(gòu)更加清晰。使用異步請(qǐng)求庫(kù)來(lái)進(jìn)行數(shù)據(jù)抓取會(huì)大大提高效率,下面我們來(lái)看一下這個(gè)庫(kù)的安裝方法。

1. 相關(guān)鏈接

官方文檔:http://aiohttp.readthedocs.io...

GitHub:https://github.com/aio-libs/a...

PyPi:https://pypi.python.org/pypi/...

2. 安裝

推薦使用 Pip 安裝,命令如下:

pip3 install aiohttp

另外官方還推薦安裝如下兩個(gè)庫(kù),一個(gè)是字符編碼檢測(cè)庫(kù) cchardet,另一個(gè)是加速 DNS 解析庫(kù) aiodns,安裝命令如下:

pip3 install cchardet aiodns
3. 測(cè)試安裝

安裝完成之后,可以在 Python 命令行下測(cè)試。

$ python3
>>> import aiohttp

如果沒(méi)有錯(cuò)誤報(bào)出,則證明庫(kù)已經(jīng)安裝好了。

4. 結(jié)語(yǔ)

我們會(huì)在后面的實(shí)例中用到這個(gè)庫(kù),比如維護(hù)一個(gè)代理池,利用異步方式檢測(cè)大量代理的運(yùn)行狀況,極大提高效率。

上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---1、請(qǐng)求庫(kù)安裝:Requests、Selenium、ChromeDriver
下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---3、解析庫(kù)的安裝:LXML、BeautifulSoup、PyQuery、Tesserocr

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/44019.html

相關(guān)文章

  • Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---1、請(qǐng)求庫(kù)安裝:Requests、Selenium、ChromeDr

    摘要:下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝爬蟲(chóng)可以簡(jiǎn)單分為幾步抓取頁(yè)面分析頁(yè)面存儲(chǔ)數(shù)據(jù)。相關(guān)鏈接官方網(wǎng)站官方文檔中文文檔安裝驗(yàn)證安裝進(jìn)入命令行交互模式,導(dǎo)入一下包,如果沒(méi)有報(bào)錯(cuò),則證明安裝成功。 下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝:GeckoDriver、PhantomJS、Aiohttp 爬蟲(chóng)可以簡(jiǎn)單分為幾步:抓取頁(yè)面、分析頁(yè)面、存儲(chǔ)數(shù)據(jù)。 在第一步抓取頁(yè)面的過(guò)程中,...

    wawor4827 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---4、數(shù)據(jù)庫(kù)安裝:MySQL、MongoDB、Redis

    摘要:運(yùn)行結(jié)果如果運(yùn)行結(jié)果一致則證明安裝成功。上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)請(qǐng)求庫(kù)安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)數(shù)據(jù)庫(kù)的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---2、請(qǐng)求庫(kù)安裝:GeckoDriver、PhantomJS、Aiohttp下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---數(shù)據(jù)庫(kù)的安裝:MySQL、MongoDB、Redis 抓取下網(wǎng)頁(yè)代碼之后,下一步就是從網(wǎng)頁(yè)中提取信息,提取信息的方式有...

    xbynet 評(píng)論0 收藏0
  • Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---10、爬蟲(chóng)框架的安裝:PySpider、Scrapy

    摘要:所以如果對(duì)爬蟲(chóng)有一定基礎(chǔ),上手框架是一種好的選擇。缺少包,使用安裝即可缺少包,使用安裝即可上一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬取相關(guān)庫(kù)的安裝的安裝下一篇文章網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)爬蟲(chóng)框架的安裝 上一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---9、APP爬取相關(guān)庫(kù)的安裝:Appium的安裝下一篇文章:Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---11、爬蟲(chóng)框架的安裝:ScrapySplash、ScrapyRedis 我們直接...

    張憲坤 評(píng)論0 收藏0
  • Python爬蟲(chóng)實(shí)戰(zhàn)(4):豆瓣小組話題數(shù)據(jù)采集—?jiǎng)討B(tài)網(wǎng)頁(yè)

    摘要:,引言注釋上一篇爬蟲(chóng)實(shí)戰(zhàn)安居客房產(chǎn)經(jīng)紀(jì)人信息采集,訪問(wèn)的網(wǎng)頁(yè)是靜態(tài)網(wǎng)頁(yè),有朋友模仿那個(gè)實(shí)戰(zhàn)來(lái)采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁(yè),結(jié)果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注釋:上一篇《Python爬蟲(chóng)實(shí)戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀(jì)人信息采集》,訪問(wèn)的網(wǎng)頁(yè)是靜態(tài)網(wǎng)頁(yè),有朋友模仿那個(gè)實(shí)戰(zhàn)來(lái)采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁(yè),結(jié)果不成功...

    blastz 評(píng)論0 收藏0
  • Python3 實(shí)現(xiàn)淘女郎照片爬蟲(chóng)

    摘要:項(xiàng)目簡(jiǎn)介本實(shí)驗(yàn)通過(guò)使用實(shí)現(xiàn)一個(gè)淘寶女郎圖片收集爬蟲(chóng),學(xué)習(xí)并實(shí)踐及正則表達(dá)式等知識(shí)。本教程由阿發(fā)布在實(shí)驗(yàn)樓,完整教程及在線練習(xí)地址實(shí)現(xiàn)淘女郎照片爬蟲(chóng),可以直接在教程中下載代碼使用。 showImg(https://segmentfault.com/img/bVBgrF); 項(xiàng)目簡(jiǎn)介:本實(shí)驗(yàn)通過(guò)使用 Python 實(shí)現(xiàn)一個(gè)淘寶女郎圖片收集爬蟲(chóng),學(xué)習(xí)并實(shí)踐 BeautifulSoup、Sel...

    jindong 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<