Python爬蟲之urllib示例

mylxsw 發(fā)布于2019-07-30 16:27 / 1826人閱讀

摘要：最簡單直接抓取頁面代碼使用構造一個對象，推薦發(fā)送數(shù)據(jù)，張三發(fā)送數(shù)據(jù)，張三發(fā)送數(shù)據(jù)和張三

1、最簡單：直接抓取頁面代碼

import urllib.request
import urllib.error

url = "http://test.com/test.html"
try:
    resp = urllib.request.urlopen(url)
except urllib.error.HTTPError as e:
    print(e.code, e.msg)
except urllib.error.URLError as e:
    print(e.reason)
else:
    result = resp.read().decode("utf-8")
    print(result)

2、使用 Request

import urllib.request
import urllib.error

url = "http://test.com/test.html"
try:
    req = urllib.request.Request(url)  # 構造一個Request對象，推薦
    resp = urllib.request.urlopen(req)
except urllib.error.HTTPError as e:
    print(e.code, e.msg)
except urllib.error.URLError as e:
    print(e.reason)
else:
    result = resp.read().decode("utf-8")
    print(result)

3、發(fā)送數(shù)據(jù)，GET

import urlib.request
import urllib.parse

url = "http://test.com/a.php?act=login&id=123"
req = urllib.request.Request(url)
resp = urllib.request.urlopen(req)

# or

url = "http://test.com/a.php"
params = {
    "act": "login",
    "id": 123,
    "name": u"張三"
}
geturl = url + "?" + urllib.parse.urlencode(params)
req = urllib.request.Request(geturl)
resp = urllib.request.urlopen(req)

print(resp.read().decode("utf-8"))
# {"act":"login","name":"u5f20u4e09","id":"123"}

4、發(fā)送數(shù)據(jù)，POST

import urllib.request
import urllib.parse

url = "http://test.com/a.php"
params = {
    "act": "login",
    "login[name]": u"張三",
    "login[password]": "123456"
}
data = urllib.parse.urlencode(params).encode("utf-8")

req = urllib.request.Request(url, data)
resp = urllib.request.urlopen(req)

print(resp.read().decode("utf-8"))
# {"act":"login","login":{"password":"123456","name":"u5f20u4e09"}}}

5、發(fā)送數(shù)據(jù)和header

import urllib.request
import urllib.parse

url = "http://test.com/a.php"
params = {
    "act": "login",
    "login[name]": u"張三",
    "login[password]": "123456"
}
data = urllib.parse.urlencode(params).encode("utf-8")

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/54.0.2840.99 Safari/537.36",
    "Referer": "http://www.baidu.com",
    "haha": "xixi"
}

req = urllib.request.Request(url, data, headers)
resp = urllib.request.urlopen(req)

print(resp.read().decode("utf-8"))

GPU云服務器云服務器 python爬蟲示例 scrapy爬蟲示例 python示例 python代碼示例

文章版權歸作者所有，未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://www.ezyhdfw.cn/yun/41688.html

零基礎如何學爬蟲技術

摘要：楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術服務，現(xiàn)整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務，服務范圍涵蓋社交網(wǎng)絡電子商務分類信息學術研究等。楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術服務，現(xiàn)整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
Python爬蟲之多線程下載程序類電子書

摘要：其頁面如下那么我們是否可以通過來制作爬蟲來幫助我們實現(xiàn)自動下載這些電子書呢答案是筆者在空閑時間寫了一個爬蟲，主要利用函數(shù)和多線程來下載這些電子書。 ??近段時間，筆者發(fā)現(xiàn)一個神奇的網(wǎng)站：http://www.allitebooks.com/ ，該網(wǎng)站提供了大量免費的編程方面的電子書，是技術愛好者們的福音。其頁面如下： showImg(https://segmentfault.com/i...

walterrwu 2019-07-30 16:47 評論0 收藏0
Python入門網(wǎng)絡爬蟲之精華版

摘要：學習網(wǎng)絡爬蟲主要分個大的版塊抓取，分析，存儲另外，比較常用的爬蟲框架，這里最后也詳細介紹一下。網(wǎng)絡爬蟲要做的，簡單來說，就是實現(xiàn)瀏覽器的功能。 Python學習網(wǎng)絡爬蟲主要分3個大的版塊：抓取，分析，存儲另外，比較常用的爬蟲框架Scrapy，這里最后也詳細介紹一下。首先列舉一下本人總結的相關文章，這些覆蓋了入門網(wǎng)絡爬蟲需要的基本概念和技巧：寧哥的小站-網(wǎng)絡爬蟲,當我們在瀏覽器中輸入...

Bmob 2019-07-25 11:34 評論0 收藏0
【爬蟲系列之二】python基礎知識的了解

摘要：數(shù)據(jù)傳送上面介紹了參數(shù)，這里就是將需要的參數(shù)通過方式傳入上述代碼引入了庫，現(xiàn)在我們模擬登陸京東商場，但是應該是無法登陸的，一般都是需要設置一些頭部的工作，或者其它的參數(shù)，這里使用了庫對參數(shù)，進行一下。了解了前面的環(huán)境搭建，以及python的基礎知識的學習，咱們接下來學習一下，如何將網(wǎng)頁扒下來一、案例介紹當我們打開瀏覽器，打開頁面，看到的是好看的頁面，但是其實是由瀏覽器解釋才呈現(xiàn)...

SHERlocked93 2019-07-30 16:50 評論0 收藏0
python爬蟲之ajax請求

摘要：爬蟲之請求爬取豆瓣網(wǎng)的分頁瀏覽請求請輸入想要第幾頁的數(shù)據(jù)構建參數(shù)將字典轉化為修改肯德基配送信息請求請輸入要查詢的城市請輸入要查詢第幾頁請輸入要多少個 python爬蟲之a(chǎn)jax請求爬取豆瓣網(wǎng)的分頁瀏覽get請求： import urllib.request import urllib.parse url = https://movie.douban.com/j/chart/top...

崔曉明 2019-07-30 17:20 評論0 收藏0