Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---20、使用Urllib：發(fā)送請(qǐng)求

kun_jian 發(fā)布于2019-07-31 10:35 / 3571人閱讀

摘要：下面我們傳入多個(gè)參數(shù)構(gòu)建一個(gè)來(lái)感受一下在這里我們通過(guò)四個(gè)參數(shù)構(gòu)造了一個(gè)，即請(qǐng)求，在中指定了和，傳遞的參數(shù)用了和方法來(lái)轉(zhuǎn)成字節(jié)流，另外指定了請(qǐng)求方式為。運(yùn)行結(jié)果如下通過(guò)觀察結(jié)果可以發(fā)現(xiàn)，我們成功設(shè)置了，以及。用于處理重定向。

上一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---19、代理基本原理
下一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---21、使用Urllib：處理異常

學(xué)習(xí)爬蟲(chóng)，最初的操作便是來(lái)模擬瀏覽器向服務(wù)器發(fā)出一個(gè)請(qǐng)求，那么我們需要從哪個(gè)地方做起呢？請(qǐng)求需要我們自己來(lái)構(gòu)造嗎？我們需要關(guān)心請(qǐng)求這個(gè)數(shù)據(jù)結(jié)構(gòu)的實(shí)現(xiàn)嗎？我們需要了解 HTTP、TCP、IP 層的網(wǎng)絡(luò)傳輸通信嗎？我們需要知道服務(wù)器的響應(yīng)和應(yīng)答原理嗎？

可能你不知道無(wú)從下手，不用擔(dān)心，Python 的強(qiáng)大之處就是提供了功能齊全的類(lèi)庫(kù)來(lái)幫助我們完成這些請(qǐng)求，最基礎(chǔ)的 HTTP 庫(kù)有 Urllib、Httplib2、Requests、Treq 等。

拿 Urllib 這個(gè)庫(kù)來(lái)說(shuō)，有了它，我們只需要關(guān)心請(qǐng)求的鏈接是什么，需要傳的參數(shù)是什么以及可選的請(qǐng)求頭設(shè)置就好了，不用深入到底層去了解它到底是怎樣來(lái)傳輸和通信的。有了它，兩行代碼就可以完成一個(gè)請(qǐng)求和響應(yīng)的處理過(guò)程，得到網(wǎng)頁(yè)內(nèi)容，是不是感覺(jué)方便極了？

接下來(lái)，就讓我們從最基礎(chǔ)的部分開(kāi)始了解這些庫(kù)的使用方法吧。

使用Urllib

在 Python2 版本中，有 Urllib 和 Urlib2 兩個(gè)庫(kù)可以用來(lái)實(shí)現(xiàn)Request的發(fā)送。而在 Python3 中，已經(jīng)不存在 Urllib2 這個(gè)庫(kù)了，統(tǒng)一為 Urllib，其官方文檔鏈接為：https://docs.python.org/3/lib...

我們首先了解一下 Urllib 庫(kù)，它是 Python 內(nèi)置的 HTTP 請(qǐng)求庫(kù)，也就是說(shuō)我們不需要額外安裝即可使用，它包含四個(gè)模塊：

第一個(gè)模塊 request，它是最基本的 HTTP 請(qǐng)求模塊，我們可以用它來(lái)模擬發(fā)送一請(qǐng)求，就像在瀏覽器里輸入網(wǎng)址然后敲擊回車(chē)一樣，只需要給庫(kù)方法傳入 URL 還有額外的參數(shù)，就可以模擬實(shí)現(xiàn)這個(gè)過(guò)程了。

第二個(gè) error 模塊即異常處理模塊，如果出現(xiàn)請(qǐng)求錯(cuò)誤，我們可以捕獲這些異常，然后進(jìn)行重試或其他操作保證程序不會(huì)意外終止。

第三個(gè) parse 模塊是一個(gè)工具模塊，提供了許多 URL 處理方法，比如拆分、解析、合并等等的方法。

第四個(gè)模塊是 robotparser，主要是用來(lái)識(shí)別網(wǎng)站的 robots.txt 文件，然后判斷哪些網(wǎng)站可以爬，哪些網(wǎng)站不可以爬的，其實(shí)用的比較少。

在這里重點(diǎn)對(duì)前三個(gè)模塊進(jìn)行下講解。

發(fā)送請(qǐng)求

使用 Urllib 的 request 模塊我們可以方便地實(shí)現(xiàn) Request 的發(fā)送并得到 Response，我們本節(jié)來(lái)看下它的具體用法。

1. urlopen()

urllib.request 模塊提供了最基本的構(gòu)造 HTTP 請(qǐng)求的方法，利用它可以模擬瀏覽器的一個(gè)請(qǐng)求發(fā)起過(guò)程，同時(shí)它還帶有處理authenticaton（授權(quán)驗(yàn)證），redirections（重定向)，cookies（瀏覽器Cookies）以及其它內(nèi)容。
我們來(lái)感受一下它的強(qiáng)大之處，以 Python 官網(wǎng)為例，我們來(lái)把這個(gè)網(wǎng)頁(yè)抓下來(lái)：

import urllib.request
response = urllib.request.urlopen("https://www.python.org")
print(response.read().decode("utf-8"))

看一下運(yùn)行結(jié)果，如圖 3-1 所示：

圖 3-1 運(yùn)行結(jié)果
真正的代碼只有兩行，我們便完成了 Python 官網(wǎng)的抓取，輸出了網(wǎng)頁(yè)的源代碼，得到了源代碼之后呢？我們想要的鏈接、圖片地址、文本信息不就都可以提取出來(lái)了嗎？
接下來(lái)我們看下它返回的到底是什么，利用 type() 方法輸出 Response 的類(lèi)型。

import urllib.request

response = urllib.request.urlopen("https://www.python.org")
print(type(response))

輸出結(jié)果如下：

通過(guò)輸出結(jié)果可以發(fā)現(xiàn)它是一個(gè) HTTPResposne 類(lèi)型的對(duì)象，它主要包含的方法有 read()、readinto()、getheader(name)、getheaders()、fileno() 等方法和 msg、version、status、reason、debuglevel、closed 等屬性。
得到這個(gè)對(duì)象之后，我們把它賦值為 response 變量，然后就可以調(diào)用這些方法和屬性，得到返回結(jié)果的一系列信息了。
例如調(diào)用 read() 方法可以得到返回的網(wǎng)頁(yè)內(nèi)容，調(diào)用 status 屬性就可以得到返回結(jié)果的狀態(tài)碼，如 200 代表請(qǐng)求成功，404 代表網(wǎng)頁(yè)未找到等。
下面再來(lái)一個(gè)實(shí)例感受一下：

import urllib.request

response = urllib.request.urlopen("https://www.python.org")
print(response.status)
print(response.getheaders())
print(response.getheader("Server"))

運(yùn)行結(jié)果如下：

200
[("Server", "nginx"), ("Content-Type", "text/html; charset=utf-8"), ("X-Frame-Options", "SAMEORIGIN"), ("X-Clacks-Overhead", "GNU Terry Pratchett"), ("Content-Length", "47397"), ("Accept-Ranges", "bytes"), ("Date", "Mon, 01 Aug 2016 09:57:31 GMT"), ("Via", "1.1 varnish"), ("Age", "2473"), ("Connection", "close"), ("X-Served-By", "cache-lcy1125-LCY"), ("X-Cache", "HIT"), ("X-Cache-Hits", "23"), ("Vary", "Cookie"), ("Strict-Transport-Security", "max-age=63072000; includeSubDomains")]
nginx

可見(jiàn)，三個(gè)輸出分別輸出了響應(yīng)的狀態(tài)碼，響應(yīng)的頭信息，以及通過(guò)調(diào)用 getheader() 方法并傳遞一個(gè)參數(shù) Server 獲取了 headers 中的 Server 值，結(jié)果是 nginx，意思就是服務(wù)器是 nginx 搭建的。
利用以上最基本的 urlopen() 方法，我們可以完成最基本的簡(jiǎn)單網(wǎng)頁(yè)的 GET 請(qǐng)求抓取。
如果我們想給鏈接傳遞一些參數(shù)該怎么實(shí)現(xiàn)呢？我們首先看一下 urlopen() 函數(shù)的API：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

可以發(fā)現(xiàn)除了第一個(gè)參數(shù)可以傳遞 URL 之外，我們還可以傳遞其它的內(nèi)容，比如 data（附加數(shù)據(jù)）、timeout（超時(shí)時(shí)間）等等。
下面我們?cè)敿?xì)說(shuō)明下這幾個(gè)參數(shù)的用法。

data參數(shù)

data 參數(shù)是可選的，如果要添加 data，它要是字節(jié)流編碼格式的內(nèi)容，即 bytes 類(lèi)型，通過(guò) bytes() 方法可以進(jìn)行轉(zhuǎn)化，另外如果傳遞了這個(gè) data 參數(shù)，它的請(qǐng)求方式就不再是 GET 方式請(qǐng)求，而是 POST。
下面用一個(gè)實(shí)例來(lái)感受一下：

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({"word": "hello"}), encoding="utf8")
response = urllib.request.urlopen("http://httpbin.org/post", data=data)
print(response.read())

在這里我們傳遞了一個(gè)參數(shù) word，值是 hello。它需要被轉(zhuǎn)碼成bytes（字節(jié)流）類(lèi)型。其中轉(zhuǎn)字節(jié)流采用了 bytes() 方法，第一個(gè)參數(shù)需要是 str（字符串）類(lèi)型，需要用 urllib.parse 模塊里的 urlencode() 方法來(lái)將參數(shù)字典轉(zhuǎn)化為字符串。第二個(gè)參數(shù)指定編碼格式，在這里指定為 utf8。
在這里請(qǐng)求的站點(diǎn)是 httpbin.org，它可以提供 HTTP 請(qǐng)求測(cè)試，本次我們請(qǐng)求的 URL 為：http://httpbin.org/post，這個(gè)鏈接可以用來(lái)測(cè)試 POST 請(qǐng)求，它可以輸出 Request 的一些信息，其中就包含我們傳遞的 data 參數(shù)。
運(yùn)行結(jié)果如下：

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "word": "hello"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "10", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.7"
  }, 
  "json": null, 
  "origin": "124.126.3.94, 124.126.3.94", 
  "url": "https://httpbin.org/post"
}

我們傳遞的參數(shù)出現(xiàn)在了 form 字段中，這表明是模擬了表單提交的方式，以 POST 方式傳輸數(shù)據(jù)。

timeout參數(shù)

timeout 參數(shù)可以設(shè)置超時(shí)時(shí)間，單位為秒，意思就是如果請(qǐng)求超出了設(shè)置的這個(gè)時(shí)間還沒(méi)有得到響應(yīng)，就會(huì)拋出異常，如果不指定，就會(huì)使用全局默認(rèn)時(shí)間。它支持 HTTP、HTTPS、FTP 請(qǐng)求。
下面來(lái)用一個(gè)實(shí)例感受一下：

import urllib.request

response = urllib.request.urlopen("http://httpbin.org/get", timeout=1)
print(response.read())

運(yùn)行結(jié)果如下：

During handling of the above exception, another exception occurred:

Traceback (most recent call last): File "/var/py/python/urllibtest.py", line 4, in  response = urllib.request.urlopen("http://httpbin.org/get", timeout=1)
...
urllib.error.URLError:

在這里我們?cè)O(shè)置了超時(shí)時(shí)間是 1 秒，程序 1 秒過(guò)后服務(wù)器依然沒(méi)有響應(yīng)，于是拋出了 URLError 異常，它屬于 urllib.error 模塊，錯(cuò)誤原因是超時(shí)。
因此我們可以通過(guò)設(shè)置這個(gè)超時(shí)時(shí)間來(lái)控制一個(gè)網(wǎng)頁(yè)如果長(zhǎng)時(shí)間未響應(yīng)就跳過(guò)它的抓取，利用 try except 語(yǔ)句就可以實(shí)現(xiàn)這樣的操作，代碼如下：

import socket
import urllib.request
import urllib.error

try:
??? response = urllib.request.urlopen("http://httpbin.org/get", timeout=0.1)
except urllib.error.URLError as e:
??? if isinstance(e.reason, socket.timeout):
??????? print("TIME OUT")

在這里我們請(qǐng)求了 http://httpbin.org/get 這個(gè)測(cè)試鏈接，設(shè)置了超時(shí)時(shí)間是 0.1 秒，然后捕獲了 URLError 這個(gè)異常，然后判斷異常原因是 socket.timeout 類(lèi)型，意思就是超時(shí)異常，就得出它確實(shí)是因?yàn)槌瑫r(shí)而報(bào)錯(cuò)，打印輸出了 TIME OUT。
運(yùn)行結(jié)果如下：

TIME OUT

常理來(lái)說(shuō)，0.1 秒內(nèi)基本不可能得到服務(wù)器響應(yīng)，因此輸出了 TIME OUT 的提示。
這樣，我們可以通過(guò)設(shè)置 timeout 這個(gè)參數(shù)來(lái)實(shí)現(xiàn)超時(shí)處理，有時(shí)還是很有用的。

其他參數(shù)

還有 context 參數(shù)，它必須是 ssl.SSLContext 類(lèi)型，用來(lái)指定 SSL 設(shè)置。
cafile 和 capath 兩個(gè)參數(shù)是指定 CA 證書(shū)和它的路徑，這個(gè)在請(qǐng)求 HTTPS 鏈接時(shí)會(huì)有用。
cadefault 參數(shù)現(xiàn)在已經(jīng)棄用了，默認(rèn)為 False。
以上講解了 urlopen() 方法的用法，通過(guò)這個(gè)最基本的函數(shù)可以完成簡(jiǎn)單的請(qǐng)求和網(wǎng)頁(yè)抓取，如需更加詳細(xì)了解，可以參見(jiàn)官方文檔：https://docs.python.org/3/lib...。

2. Request

由上我們知道利用 urlopen() 方法可以實(shí)現(xiàn)最基本請(qǐng)求的發(fā)起，但這幾個(gè)簡(jiǎn)單的參數(shù)并不足以構(gòu)建一個(gè)完整的請(qǐng)求，如果請(qǐng)求中需要加入 Headers 等信息，我們就可以利用更強(qiáng)大的 Request 類(lèi)來(lái)構(gòu)建一個(gè)請(qǐng)求。
首先我們用一個(gè)實(shí)例來(lái)感受一下 Request 的用法：

import urllib.request

request = urllib.request.Request("https://python.org")
response = urllib.request.urlopen(request)
print(response.read().decode("utf-8"))

可以發(fā)現(xiàn)，我們依然是用 urlopen() 方法來(lái)發(fā)送這個(gè)請(qǐng)求，只不過(guò)這次 urlopen() 方法的參數(shù)不再是一個(gè) URL，而是一個(gè) Request 類(lèi)型的對(duì)象，通過(guò)構(gòu)造這個(gè)這個(gè)數(shù)據(jù)結(jié)構(gòu)，一方面我們可以將請(qǐng)求獨(dú)立成一個(gè)對(duì)象，另一方面可配置參數(shù)更加豐富和靈活。
下面我們看一下 Request 都可以通過(guò)怎樣的參數(shù)來(lái)構(gòu)造，它的構(gòu)造方法如下：

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

第一個(gè) url 參數(shù)是請(qǐng)求 URL，這個(gè)是必傳參數(shù)，其他的都是可選參數(shù)。

第二個(gè) data 參數(shù)如果要傳必須傳 bytes（字節(jié)流）類(lèi)型的，如果是一個(gè)字典，可以先用 urllib.parse 模塊里的 urlencode() 編碼。

第三個(gè) headers 參數(shù)是一個(gè)字典，這個(gè)就是 Request Headers 了，你可以在構(gòu)造 Request 時(shí)通過(guò) headers 參數(shù)直接構(gòu)造，也可以通過(guò)調(diào)用 Request 實(shí)例的 add_header() 方法來(lái)添加。

添加 Request Headers 最常用的用法就是通過(guò)修改 User-Agent 來(lái)偽裝瀏覽器，默認(rèn)的 User-Agent 是 Python-urllib，我們可以通過(guò)修改它來(lái)偽裝瀏覽器，比如要偽裝火狐瀏覽器，你可以把它設(shè)置為：

Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11

第四個(gè) origin_req_host 參數(shù)指的是請(qǐng)求方的 host 名稱或者 IP 地址。

第五個(gè) unverifiable 參數(shù)指的是這個(gè)請(qǐng)求是否是無(wú)法驗(yàn)證的，默認(rèn)是False。意思就是說(shuō)用戶沒(méi)有足夠權(quán)限來(lái)選擇接收這個(gè)請(qǐng)求的結(jié)果。例如我們請(qǐng)求一個(gè) HTML 文檔中的圖片，但是我們沒(méi)有自動(dòng)抓取圖像的權(quán)限，這時(shí) unverifiable 的值就是 True。

第六個(gè) method 參數(shù)是一個(gè)字符串，它用來(lái)指示請(qǐng)求使用的方法，比如GET，POST，PUT等等。

下面我們傳入多個(gè)參數(shù)構(gòu)建一個(gè) Request 來(lái)感受一下：

from urllib import request, parse

url = "http://httpbin.org/post"
headers = {
??? "User-Agent": ,
??? "Host": "httpbin.org"
}
dict = {
??? "name": "Germey"
}
data = bytes(parse.urlencode(dict), encoding="utf8")
req = request.Request(url=url, data=data, headers=headers, method="POST")
response = request.urlopen(req)
print(response.read().decode("utf-8"))

在這里我們通過(guò)四個(gè)參數(shù)構(gòu)造了一個(gè) Request，url 即請(qǐng)求 URL，在headers 中指定了 User-Agent 和 Host，傳遞的參數(shù) data 用了 urlencode() 和 bytes() 方法來(lái)轉(zhuǎn)成字節(jié)流，另外指定了請(qǐng)求方式為 POST。
運(yùn)行結(jié)果如下：

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "mark"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "9", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"
  }, 
  "json": null, 
  "origin": "124.126.3.94, 124.126.3.94", 
  "url": "https://httpbin.org/post"
}

通過(guò)觀察結(jié)果可以發(fā)現(xiàn)，我們成功設(shè)置了 data，headers 以及 method。
另外 headers 也可以用 add_header() 方法來(lái)添加。

req = request.Request(url=url, data=data, method="POST")
req.add_header("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)")

如此一來(lái)，我們就可以更加方便地構(gòu)造一個(gè) Request，實(shí)現(xiàn)請(qǐng)求的發(fā)送啦。

3. 高級(jí)用法

有沒(méi)有發(fā)現(xiàn)，在上面的過(guò)程中，我們雖然可以構(gòu)造 Request，但是一些更高級(jí)的操作，比如 Cookies 處理，代理設(shè)置等操作我們?cè)撛趺崔k？
接下來(lái)就需要更強(qiáng)大的工具 Handler 登場(chǎng)了。
簡(jiǎn)而言之我們可以把它理解為各種處理器，有專(zhuān)門(mén)處理登錄驗(yàn)證的，有處理 Cookies 的，有處理代理設(shè)置的，利用它們我們幾乎可以做到任何 HTTP 請(qǐng)求中所有的事情。
首先介紹下 urllib.request 模塊里的 BaseHandler類(lèi)，它是所有其他 Handler 的父類(lèi)，它提供了最基本的 Handler 的方法，例如 default_open()、protocol_request() 方法等。
接下來(lái)就有各種 Handler 子類(lèi)繼承這個(gè) BaseHandler 類(lèi)，舉例幾個(gè)如下：

HTTPDefaultErrorHandler 用于處理 HTTP 響應(yīng)錯(cuò)誤，錯(cuò)誤都會(huì)拋出 HTTPError 類(lèi)型的異常。

HTTPRedirectHandler 用于處理重定向。

HTTPCookieProcessor 用于處理 Cookies。

ProxyHandler 用于設(shè)置代理，默認(rèn)代理為空。

HTTPPasswordMgr 用于管理密碼，它維護(hù)了用戶名密碼的表。

HTTPBasicAuthHandler 用于管理認(rèn)證，如果一個(gè)鏈接打開(kāi)時(shí)需要認(rèn)證，那么可以用它來(lái)解決認(rèn)證問(wèn)題。

另外還有其他的 Handler 類(lèi)，在這不一一列舉了，詳情可以參考官方文檔： https://docs.python.org/3/lib...

它們?cè)趺磥?lái)使用，不用著急，下面會(huì)有實(shí)例為你演示。
另外一個(gè)比較重要的類(lèi)就是 OpenerDirector，我們可以稱之為 Opener，我們之前用過(guò) urlopen() 這個(gè)方法，實(shí)際上它就是 Urllib為我們提供的一個(gè) Opener。
那么為什么要引入 Opener 呢？因?yàn)槲覀冃枰獙?shí)現(xiàn)更高級(jí)的功能，之前我們使用的 Request、urlopen() 相當(dāng)于類(lèi)庫(kù)為你封裝好了極其常用的請(qǐng)求方法，利用它們兩個(gè)我們就可以完成基本的請(qǐng)求，但是現(xiàn)在不一樣了，我們需要實(shí)現(xiàn)更高級(jí)的功能，所以我們需要深入一層進(jìn)行配置，使用更底層的實(shí)例來(lái)完成我們的操作。
所以，在這里我們就用到了比調(diào)用 urlopen() 的對(duì)象的更普遍的對(duì)象，也就是 Opener。
Opener 可以使用 open() 方法，返回的類(lèi)型和 urlopen() 如出一轍。那么它和 Handler 有什么關(guān)系？簡(jiǎn)而言之，就是利用 Handler 來(lái)構(gòu)建 Opener。
下面我們用幾個(gè)實(shí)例來(lái)感受一下他們的用法：

認(rèn)證

有些網(wǎng)站在打開(kāi)時(shí)它就彈出了一個(gè)框，直接提示你輸入用戶名和密碼，認(rèn)證成功之后才能查看頁(yè)面，如圖 3-2 所示：

圖 3-2 認(rèn)證頁(yè)面
那么我們?nèi)绻?qǐng)求這樣的頁(yè)面怎么辦呢？
借助于 HTTPBasicAuthHandler 就可以完成，代碼如下：

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLError

username = "username"
password = "password"
url = "http://localhost:5000/"

p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)

try:
??? result = opener.open(url)
??? html = result.read().decode("utf-8")
??? print(html)
except URLError as e:
??? print(e.reason)

在這里，首先實(shí)例化了一個(gè) HTTPBasicAuthHandler 對(duì)象，參數(shù)是 HTTPPasswordMgrWithDefaultRealm 對(duì)象，它利用 add_password() 添加進(jìn)去用戶名和密碼，這樣我們就建立了一個(gè)處理認(rèn)證的 Handler。
接下來(lái)利用 build_opener() 方法來(lái)利用這個(gè) Handler 構(gòu)建一個(gè) Opener，那么這個(gè) Opener 在發(fā)送請(qǐng)求的時(shí)候就相當(dāng)于已經(jīng)認(rèn)證成功了。
接下來(lái)利用 Opener 的 open() 方法打開(kāi)鏈接，就可以完成認(rèn)證了，在這里獲取到的結(jié)果就是認(rèn)證后的頁(yè)面源碼內(nèi)容。

代理

在做爬蟲(chóng)的時(shí)候免不了要使用代理，如果要添加代理，可以這樣做：

from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener

proxy_handler = ProxyHandler({
??? "http": "http://127.0.0.1:9743",
??? "https": "https://127.0.0.1:9743"
})
opener = build_opener(proxy_handler)
try:
??? response = opener.open("https://www.baidu.com")
??? print(response.read().decode("utf-8"))
except URLError as e:
??? print(e.reason)

在此本地搭建了一個(gè)代理，運(yùn)行在 9743 端口上。
在這里使用了 ProxyHandler，ProxyHandler 的參數(shù)是一個(gè)字典，鍵名是協(xié)議類(lèi)型，比如 HTTP 還是 HTTPS 等，鍵值是代理鏈接，可以添加多個(gè)代理。
然后利用 build_opener() 方法利用這個(gè) Handler 構(gòu)造一個(gè) Opener，然后發(fā)送請(qǐng)求即可。

Cookies

Cookies 的處理就需要 Cookies 相關(guān)的 Handler 了。
我們先用一個(gè)實(shí)例來(lái)感受一下怎樣將網(wǎng)站的 Cookies 獲取下來(lái)，代碼如下：

import http.cookiejar, urllib.request

cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open("http://www.baidu.com")
for item in cookie:
??? print(item.name+"="+item.value)

首先我們必須聲明一個(gè) CookieJar 對(duì)象，接下來(lái)我們就需要利用 HTTPCookieProcessor 來(lái)構(gòu)建一個(gè) Handler，最后利用 build_opener() 方法構(gòu)建出 Opener，執(zhí)行 open() 函數(shù)即可。
運(yùn)行結(jié)果如下：

BAIDUID=4329C4F53C9D52CA1E6AC6CA18DA356F:FG=1
BIDUPSID=4329C4F53C9D52CA1E6AC6CA18DA356F
H_PS_PSSID=26522_1449_21090_29135_29238_28519_29098_29368_28834_29221_26350_20719
PSTM=1560743836
delPer=0
BDSVRTM=0
BD_HOME=0

可以看到輸出了每一條 Cookie 的名稱還有值。
不過(guò)既然能輸出，那可不可以輸出成文件格式呢？我們知道 Cookies 實(shí)際也是以文本形式保存的。
答案當(dāng)然是肯定的，我們用下面的實(shí)例來(lái)感受一下：

filename = "cookies.txt"
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open("http://www.baidu.com")
cookie.save(ignore_discard=True, ignore_expires=True)

這時(shí)的 CookieJar就需要換成 MozillaCookieJar，生成文件時(shí)需要用到它，它是 CookieJar 的子類(lèi)，可以用來(lái)處理 Cookies 和文件相關(guān)的事件，讀取和保存 Cookies，它可以將 Cookies 保存成 Mozilla 型瀏覽器的 Cookies 的格式。
運(yùn)行之后可以發(fā)現(xiàn)生成了一個(gè) cookies.txt 文件。
內(nèi)容如下：

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

.baidu.com    TRUE    /    FALSE    3708227627    BAIDUID    7270D7398BA0805A388F14699840D7DC:FG=1
.baidu.com    TRUE    /    FALSE    3708227627    BIDUPSID    7270D7398BA0805A388F14699840D7DC
.baidu.com    TRUE    /    FALSE        H_PS_PSSID    1430_21093_29135_29237_28518_29098_29368_28837_29221
.baidu.com    TRUE    /    FALSE    3708227627    PSTM    1560743980
.baidu.com    TRUE    /    FALSE        delPer    0
www.baidu.com    FALSE    /    FALSE        BDSVRTM    0
www.baidu.com    FALSE    /    FALSE        BD_HOME    0

另外還有一個(gè) LWPCookieJar，同樣可以讀取和保存 Cookies，但是保存的格式和 MozillaCookieJar 的不一樣，它會(huì)保存成與 libwww-perl(LWP) 的 Cookies 文件格式。
要保存成 LWP 格式的 Cookies 文件，可以在聲明時(shí)就改為：

cookie = http.cookiejar.LWPCookieJar(filename)

生成的內(nèi)容如下：

#LWP-Cookies-2.0
Set-Cookie3: BAIDUID="A19638BE46B11E183219DD2CFBC4557E:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0
Set-Cookie3: BIDUPSID=A19638BE46B11E183219DD2CFBC4557E; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0
Set-Cookie3: H_PS_PSSID=26524_1444_21120_29135_29237_28519_29098_29369_28832_29220; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: PSTM=1560744039; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0
Set-Cookie3: delPer=0; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0

由此看來(lái)生成的格式還是有比較大的差異的。
那么生成了 Cookies 文件，怎樣從文件讀取并利用呢？
下面我們以 LWPCookieJar 格式為例來(lái)感受一下：

cookie = http.cookiejar.LWPCookieJar()
cookie.load("cookies.txt", ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open("http://www.baidu.com")
print(response.read().decode("utf-8"))

可以看到我們這里調(diào)用了 load() 方法來(lái)讀取本地的 Coookis 文件，獲取到了 Cookies 的內(nèi)容。不過(guò)前提是我們首先利用生成了 LWPCookieJar 格式的 Cookies，獲取到 Cookies 之后，后面同樣的方法構(gòu)建 Handler 和 Opener 即可。
運(yùn)行結(jié)果正常輸出百度網(wǎng)頁(yè)的源代碼。
好，通過(guò)如上用法，我們可以實(shí)現(xiàn)絕大多數(shù)請(qǐng)求功能的設(shè)置了。

4. 結(jié)語(yǔ)

以上便是 Urllib 庫(kù)中 request 模塊的基本用法，如果有更多想實(shí)現(xiàn)的功能，可以參考官方文檔的說(shuō)明：https://docs.python.org/3/lib...。

上一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---19、代理基本原理
下一篇文章：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---21、使用Urllib：處理異常

GPU云服務(wù)器云服務(wù)器 python3爬蟲(chóng)實(shí)戰(zhàn) 網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn) python3網(wǎng)絡(luò)爬蟲(chóng) 爬蟲(chóng)實(shí)戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/44074.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

kun_jian

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

基于javaweb+jsp的企業(yè)車(chē)輛管理系統(tǒng)

閱讀 3126·2021-11-25 09:43
阿里云國(guó)際：$3.5/月/2核/512MB內(nèi)存/40GB SSD空間/1TB流量/30Mbps端口/

閱讀 1724·2021-11-24 11:15
分布式應(yīng)用管理和內(nèi)容分發(fā)

閱讀 2439·2021-11-22 15:25
程序員這條路，選擇深耕技術(shù)，還是全面學(xué)習(xí)比較好？

閱讀 3614·2021-11-11 16:55
美國(guó)RAKSmart獨(dú)立服務(wù)器商家雙11活動(dòng) - 云服務(wù)器七折且新客贈(zèng)送10美元

閱讀 3316·2021-11-04 16:10
RangCloud拼團(tuán)活動(dòng)：香港Linux空間500M年付9.9元，香港云主機(jī)特惠月付9.9元，2人

閱讀 2852·2021-09-14 18:02
LinuxDay01

閱讀 1751·2021-09-10 10:50
【CSS練習(xí)】IT修真院--練習(xí)4-移動(dòng)端界面

閱讀 1140·2019-08-29 15:39

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---20、使用Urllib：發(fā)送請(qǐng)求

相關(guān)文章

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---21、使用Urllib：處理異常

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---19、代理基本原理

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---17、爬蟲(chóng)基本原理

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---25、requests：高級(jí)用法

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---22、使用Urllib：解析鏈接

發(fā)表評(píng)論

0條評(píng)論

kun_jian

男|高級(jí)講師

TA的文章

基于javaweb+jsp的企業(yè)車(chē)輛管理系統(tǒng)

阿里云國(guó)際：$3.5/月/2核/512MB內(nèi)存/40GB SSD空間/1TB流量/30Mbps端口/

分布式應(yīng)用管理和內(nèi)容分發(fā)

程序員這條路，選擇深耕技術(shù)，還是全面學(xué)習(xí)比較好？

美國(guó)RAKSmart獨(dú)立服務(wù)器商家雙11活動(dòng) - 云服務(wù)器七折且新客贈(zèng)送10美元

RangCloud拼團(tuán)活動(dòng)：香港Linux空間500M年付9.9元，香港云主機(jī)特惠月付9.9元，2人

LinuxDay01

【CSS練習(xí)】IT修真院--練習(xí)4-移動(dòng)端界面

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---20、使用Urllib：發(fā)送請(qǐng)求

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！