摘要:微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法摘要微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法。先說(shuō)說(shuō)很難爬的知乎,假如我們想爬取知乎主頁(yè)的內(nèi)容,就必須要先登陸才能爬,不然看不到這個(gè)界面。圖片描述知乎需要手機(jī)號(hào)才能注冊(cè)登陸。
微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法
摘要:微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法。
網(wǎng)絡(luò)上有形形色色的網(wǎng)站,不同類(lèi)型的網(wǎng)站爬蟲(chóng)策略不同,難易程度也不一樣。從是否需要登陸這方面來(lái)說(shuō),一些簡(jiǎn)單網(wǎng)站不需要登陸就可以爬,比如之前爬過(guò)的貓眼電影、東方財(cái)富網(wǎng)等。有一些網(wǎng)站需要先登陸才能爬,比如知乎、微信等。這類(lèi)網(wǎng)站在模擬登陸時(shí)需要處理驗(yàn)證碼、js 加密參數(shù)這些問(wèn)題,爬取難度會(huì)大很多。費(fèi)很大力氣登陸進(jìn)去后才能爬取想要的內(nèi)容,很花時(shí)間。
是不是一定要自己動(dòng)手去實(shí)現(xiàn)每一個(gè)網(wǎng)站的模擬登陸方法呢,從效率上來(lái)講,其實(shí)大可不必,已經(jīng)有前人替我們?cè)旌幂喿恿恕?/p>
最近發(fā)現(xiàn)一個(gè)神庫(kù),匯總了數(shù)十個(gè)主流網(wǎng)站的模擬登陸方法:
知乎
微信網(wǎng)頁(yè)版登錄并獲取好友列表
Bilibili
Facebook
無(wú)需身份驗(yàn)證即可抓取Twitter前端API
微博網(wǎng)頁(yè)版
QQZone
CSDN
淘寶
Baidu
果殼
JingDong 模擬登錄
163mail
拉鉤
豆瓣
Baidu2
獵聘網(wǎng)
Github
爬取圖蟲(chóng)相應(yīng)的圖片
網(wǎng)易云音樂(lè)
糗事百科
這些網(wǎng)站基本采用的是直接登錄或者 selenium+webdriver 方式。每一個(gè)網(wǎng)站都有完整的模擬登陸代碼,拿來(lái)就可以用到自己的爬蟲(chóng)中。
下面我們來(lái)測(cè)試一下。
先說(shuō)說(shuō)很難爬的「知乎」,假如我們想爬取知乎主頁(yè)的 HTML 內(nèi)容,就必須要先登陸才能爬,不然看不到這個(gè)界面。下面來(lái)簡(jiǎn)單梳理一下流程。
圖片描述
知乎需要手機(jī)號(hào)才能注冊(cè)登陸。為了方便測(cè)試,可以隨便找個(gè)手機(jī)號(hào),手機(jī)號(hào)到哪兒去找呢,兩個(gè)神網(wǎng)站保護(hù)你的隱私 這篇文章里介紹了一個(gè)免費(fèi)電話號(hào)碼網(wǎng)站,用上面的手機(jī)號(hào)可以成功注冊(cè)。
圖片描述
順利登錄后就可以進(jìn)入主頁(yè)了。
下面,我們用這個(gè)庫(kù)提供的代碼來(lái)模擬登陸,輸出主頁(yè) HTML 內(nèi)容作測(cè)試。操作很簡(jiǎn)單,只需要輸入手機(jī)號(hào)、密碼和驗(yàn)證碼就可以了。
成功登陸后,接下來(lái)就可以做一些有意思的事了。比如曾有人爬取所有知乎賬號(hào)的信息,分析了知乎用戶群體畫(huà)像。
是不是有點(diǎn)意思。
再來(lái)看看微信。用上面的微信代碼可以把全部微信好友信息爬取下來(lái),比如:昵稱(chēng)、性別、地域、個(gè)性簽名。接著可以分析一下你的朋友圈是什么樣的,應(yīng)該會(huì)很有趣。
還可以爬 B 站:
還可以爬鏈家租房信息:
還有很多實(shí)用有趣的內(nèi)容,就不一一羅列了,感興趣的話可以試試。不要悶頭造輪子,多抬抬頭會(huì)發(fā)現(xiàn)你在做/想做的東西,別人早已經(jīng)弄好了,拿來(lái)用或者參考學(xué)習(xí)都是件好事。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/43908.html
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)主要分個(gè)大的版塊抓取,分析,存儲(chǔ)另外,比較常用的爬蟲(chóng)框架,這里最后也詳細(xì)介紹一下。網(wǎng)絡(luò)爬蟲(chóng)要做的,簡(jiǎn)單來(lái)說(shuō),就是實(shí)現(xiàn)瀏覽器的功能。 Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)主要分3個(gè)大的版塊:抓取,分析,存儲(chǔ) 另外,比較常用的爬蟲(chóng)框架Scrapy,這里最后也詳細(xì)介紹一下。 首先列舉一下本人總結(jié)的相關(guān)文章,這些覆蓋了入門(mén)網(wǎng)絡(luò)爬蟲(chóng)需要的基本概念和技巧:寧哥的小站-網(wǎng)絡(luò)爬蟲(chóng),當(dāng)我們?cè)跒g覽器中輸入...
摘要:楚江數(shù)據(jù)是專(zhuān)業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)以供學(xué)習(xí),。本文來(lái)源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲(chóng)軟件定制開(kāi)發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類(lèi)信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專(zhuān)業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲(chóng)學(xué)習(xí)系列教程(來(lái)源于某博主:htt...
Python裝飾器為什么難理解? 無(wú)論項(xiàng)目中還是面試都離不開(kāi)裝飾器話題,裝飾器的強(qiáng)大在于它能夠在不修改原有業(yè)務(wù)邏輯的情況下對(duì)代碼進(jìn)行擴(kuò)展,權(quán)限校驗(yàn)、用戶認(rèn)證、日志記錄、性能測(cè)試、事務(wù)處理、緩存等都是裝飾器的絕佳應(yīng)用場(chǎng)景,它能夠最大程度地對(duì)代碼進(jìn)行復(fù)用。 但為什么初學(xué)者對(duì)裝飾器的理解如此困難,我認(rèn)為本質(zhì)上是對(duì)Py… Python 實(shí)現(xiàn)車(chē)牌定位及分割 作者用 Python 實(shí)現(xiàn)車(chē)牌定位及分割的實(shí)踐。 ...
閱讀 5569·2021-11-25 09:43
閱讀 1763·2021-10-27 14:18
閱讀 1122·2021-09-22 16:03
閱讀 1429·2019-08-30 13:19
閱讀 1637·2019-08-30 11:15
閱讀 1781·2019-08-26 14:04
閱讀 3193·2019-08-23 18:40
閱讀 1226·2019-08-23 18:17