使用 Selenium 抓取網(wǎng)頁內(nèi)容和模擬登入

mylxsw 發(fā)布于2019-06-27 10:27 / 1693人閱讀

摘要：傳統(tǒng)的無法執(zhí)行頁面中的瀏覽器腳本，并且在抓取一些對爬蟲有限制的網(wǎng)頁時，往往要設(shè)定詳細的來突破限制，編寫起來較為復(fù)雜。直接使用瀏覽器運行，像真正的用戶在操作。支持以下方式進行選擇元素各種庫對情況的檢測方法

傳統(tǒng)的 cURL 無法執(zhí)行頁面中的瀏覽器腳本，并且在抓取一些對爬蟲有限制的網(wǎng)頁時，往往要設(shè)定詳細的 http header 來突破限制，編寫起來較為復(fù)雜。

Selenium簡介：

Selenium 是一個用于Web應(yīng)用程序測試的工具（用處也不僅僅是測試）。
Selenium 直接使用瀏覽器運行，像真正的用戶在操作。支持較多的瀏覽器。

組件

Selenium IDE：Firefox插件，有錄制腳本的功能。支持自動錄制動作和自動生成其他語言的自動化腳本。

Selenium Remote Control (RC) ：支持多種平臺(Windows，Linux)和多瀏覽器(IE，F(xiàn)irefox，Opera，Safari，Chrome)，可以用多種語言(Java，Ruby，Python，Perl，PHP，C#)編寫用例。

Selenium Grid ：允許Selenium-RC 針對規(guī)模龐大的測試案例集或者需要在不同環(huán)境中運行的測試案例集進行擴展。

實例：驅(qū)動 chrome 模擬登入淘寶，獲取頁面信息

1.前往項目主頁：SeleniumHQ 下載

Selenium Server (formerly the Selenium RC Server)

Third Party Browser Drivers NOT DEVELOPED by seleniumhq

（選擇chrome的driver）

Third Party Language Bindings NOT DEVELOPED by seleniumhq

（選擇PHP by Adam Goucher (SeHQ recommended php client)）

2.打開 selenium

java -jar path_to_selenium.jar 
[-timeout 0] 
[-Dwebdriver.server.session.timeout=0] 
-Dwebdriver.chrome.driver="path_to_chrome_driver"
-browser [-timeout=0] [-browserTimeout=0]
browserName=chrome,[timeout=0]

如需長時間運行請酌情設(shè)置各 "[ ]" 中的超時時間

3.PHP代碼

execute(array("script" => "return (document.readyState != "complete")", "args" => array())));
}  //該函數(shù)會把腳本掛起直到等待到Ajax結(jié)束

require_once "webdriver/PHPWebDriver/__init__.php";
// 引入 selenium 的PHP封裝函數(shù)庫
// 下載地址：https://github.com/Element-34/php-webdriver
// 文檔中有各種操作瀏覽器方法，如獲取所有cookie等

$wd_host = "http://127.0.0.1:4444/wd/hub";
$web_driver = new PHPWebDriver_WebDriver($wd_host);

$session = $web_driver->session("chrome");

//設(shè)置超時時間
$session->implicitlyWait(5);
$session->setScriptTimeout(5);
$session->setPageLoadTimeout(15);

//打開連接
$session->open("http://login.m.taobao.com/login.htm?tpl_redirect_url=http://m.taobao.com");

//輸入驗證碼用，如果需要的話
sleep(5);

//請設(shè)置好帳號密碼
$session->element("css selector", "input[name=TPL_username]")->value(array("value" => str_split("your_username")));
$session->element("css selector", "input[name=TPL_password]")->value(array("value" => str_split("your_password")));

//模擬點擊登入按鈕
$elements = $session->element("css selector", ".c-btn-oran-big")->click();

//打開 m.taobao.com，此時已獲取到cookie
$session->open("http://m.taobao.com/");

//等待ajax加載完畢
waitForAjax();

$elements = $session->element("css selector", "body")->text();
//獲得了登入后ajax執(zhí)行完畢時的頁面內(nèi)容
?>

之后便可以按需對 $session 實例進行 element 方法的各種操作。

支持以下方式進行選擇元素

xpath

link text

partial link text

name

tag name

class name

css selector

PS:各種庫對Ajax情況的檢測方法

jQuery: "jQuery.active"

Prototype: "Ajax.activeRequestCount"

Dojo: "dojo.io.XMLHTTPTransport.inFlight.length"

GPU云服務(wù)器云服務(wù)器 java 網(wǎng)頁內(nèi)容抓取用asp抓取網(wǎng)頁內(nèi)容 selenium模擬webrtc攝像頭模擬登入

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/20604.html

發(fā)表評論

登陸后可評論

0條評論

mylxsw

男|高級講師

我要關(guān)注我要私信

TA的文章

RAKsmart：爆款產(chǎn)品 $ 30秒殺，香港新增DDOS最高100G， VPS全場5折

閱讀 1478·2021-09-02 09:53
Sharktech：$129/月/2*E5-2678v3/64GB內(nèi)存/1TB NVMe硬盤/不限流

閱讀 2727·2021-07-29 13:50
iconfont在react中完整使用教程

閱讀 1772·2019-08-30 11:07
2019年5月所遇知識點整理

閱讀 1625·2019-08-30 11:00
flex布局的一些好帖子,你值得擁有

閱讀 1509·2019-08-29 14:00
你可能不知道的前端知識點

閱讀 1910·2019-08-29 12:52
CSS屬性中經(jīng)常出現(xiàn)的百分比

閱讀 2626·2019-08-29 11:11
Taro開發(fā)小程序填坑筆記（一）

閱讀 3483·2019-08-26 12:23

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用 Selenium 抓取網(wǎng)頁內(nèi)容和模擬登入

相關(guān)文章

**使用 Selenium 進行模擬登入和頁面內(nèi)容的獲取**

Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---37、動態(tài)渲染頁面抓取:Selenium

**使用selenium模擬瀏覽器抓取淘寶商品美食信息**

從0-1打造最強性能Scrapy爬蟲集群

Python入門網(wǎng)絡(luò)爬蟲之精華版

發(fā)表評論

0條評論

mylxsw

男|高級講師

TA的文章

RAKsmart：爆款產(chǎn)品 $ 30秒殺，香港新增DDOS最高100G， VPS全場5折

Sharktech：$129/月/2*E5-2678v3/64GB內(nèi)存/1TB NVMe硬盤/不限流

iconfont在react中完整使用教程

2019年5月所遇知識點整理

flex布局的一些好帖子,你值得擁有

你可能不知道的前端知識點

CSS屬性中經(jīng)常出現(xiàn)的百分比

Taro開發(fā)小程序填坑筆記（一）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用 Selenium 抓取網(wǎng)頁內(nèi)容和模擬登入

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！