摘要:二準(zhǔn)備工作環(huán)境開發(fā)工具模塊三分析網(wǎng)站進(jìn)入網(wǎng)址,需要登錄因此我們需要手動(dòng)登錄后,然后看到已經(jīng)有了因此我們直接在請(qǐng)求的時(shí)候攜帶自己的,如果我們登陸后,可以看到自己的用戶名四代碼編寫請(qǐng)求,跳過驗(yàn)證不愿透露姓名網(wǎng)友有效無效成功
提前聲明:該專欄涉及的所有案例均為學(xué)習(xí)使用,如有侵權(quán),請(qǐng)聯(lián)系本人刪帖!
對(duì)于一些網(wǎng)站,我們?cè)谧トr(shí)候需要補(bǔ)充請(qǐng)求頭requests headers
Host: www.renren.comProxy-Connection: keep-alivePragma: no-cacheCache-Control: no-cacheUpgrade-Insecure-Requests: 1User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400Accept: text/htmlAccept-Encoding: gzip, deflateAccept-Language: zh-CN,zh;q=0.9Cookie: ***
但是對(duì)于一些網(wǎng)站,我們?nèi)绻坏卿洠敲次覀兙蜔o法進(jìn)入網(wǎng)站內(nèi)部,因此就需要登錄,那么登錄后,我們就可以獲取到cookie值,而有了cookie值,我們就可以進(jìn)入網(wǎng)站,抓取想要的信息。
網(wǎng)站:https://codechina.csdn.net/explore/welcome
進(jìn)入網(wǎng)址,需要登錄
因此我們需要手動(dòng)登錄后,然后看到已經(jīng)有了cookie
因此我們直接在請(qǐng)求的時(shí)候攜帶自己的cookie,如果我們登陸后,可以看到自己的用戶名
# -*- coding: utf-8 -*-import requestsurl = "https://codechina.csdn.net/explore/welcome"headers = { "Cookie": "...", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36"}# 請(qǐng)求,verify=False 跳過ssl驗(yàn)證response = requests.get(url, headers=headers, verify=False)response.encoding = "utf-8"if "不愿透露姓名の網(wǎng)友" in response.text: print("cookie有效")else: print("cookie無效")
成功!
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/122373.html
摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:方法不僅適用于百度云,別的一些比較難以模擬登陸的網(wǎng)站都可以按照這種方式分析。本文要求讀者具有模擬登陸主要是抓包和閱讀代碼和密碼學(xué)的基本知識(shí)。和模擬登陸微博的分析流程一樣,我們首先要做的是以正常人的流程完整的登錄一遍百度網(wǎng)盤。 這是第二篇從簡(jiǎn)書搬運(yùn)過來的文章(大家別誤會(huì),是我原創(chuàng)的)。因?yàn)榍耙黄恼?,我看反響還挺好的,所以把這篇也搬運(yùn)過來了,其實(shí)目的還是為宣傳自己的分布式微博爬蟲(該項(xiàng)目...
摘要:提前聲明該專欄涉及的所有案例均為學(xué)習(xí)使用,如有侵權(quán),請(qǐng)聯(lián)系本人刪帖文章目錄一前言二網(wǎng)站分析三編寫面向?qū)ο蟠a四多線程代碼一前言在這里插入圖片描述在傳送門自己爬取過的個(gè)基礎(chǔ)爬蟲案例這個(gè)案例中,我們講解過對(duì)騰訊招聘信息的 ...
摘要:耗時(shí)代碼運(yùn)行到這句之后觸發(fā)隱式等待,在輪詢檢查后仍然沒有定位到元素,拋出異常。耗時(shí)值得一提的是,對(duì)于定位不到元素的時(shí)候,從耗時(shí)方面隱式等待和強(qiáng)制等待沒什么區(qū)別。 ...
摘要:爬蟲架構(gòu)架構(gòu)組成管理器管理待爬取的集合和已爬取的集合,傳送待爬取的給網(wǎng)頁(yè)下載器。網(wǎng)頁(yè)下載器爬取對(duì)應(yīng)的網(wǎng)頁(yè),存儲(chǔ)成字符串,傳送給網(wǎng)頁(yè)解析器。從文檔中獲取所有文字內(nèi)容正則匹配后記爬蟲基礎(chǔ)知識(shí),至此足夠,接下來,在實(shí)戰(zhàn)中學(xué)習(xí)更高級(jí)的知識(shí)。 前言 Python非常適合用來開發(fā)網(wǎng)頁(yè)爬蟲,理由如下:1、抓取網(wǎng)頁(yè)本身的接口相比與其他靜態(tài)編程語言,如java,c#,c++,python抓取網(wǎng)頁(yè)文檔的接...
閱讀 3354·2021-10-13 09:39
閱讀 2090·2021-09-27 13:36
閱讀 3142·2021-09-22 16:02
閱讀 2653·2021-09-10 10:51
閱讀 1647·2019-08-29 17:15
閱讀 1587·2019-08-29 16:14
閱讀 3640·2019-08-26 11:55
閱讀 2614·2019-08-26 11:50