Python爬蟲基礎(chǔ)

bang590 發(fā)布于2019-07-25 11:23 / 1723人閱讀

摘要：爬蟲架構(gòu)架構(gòu)組成管理器管理待爬取的集合和已爬取的集合，傳送待爬取的給網(wǎng)頁(yè)下載器。網(wǎng)頁(yè)下載器爬取對(duì)應(yīng)的網(wǎng)頁(yè)，存儲(chǔ)成字符串，傳送給網(wǎng)頁(yè)解析器。從文檔中獲取所有文字內(nèi)容正則匹配后記爬蟲基礎(chǔ)知識(shí)，至此足夠，接下來(lái)，在實(shí)戰(zhàn)中學(xué)習(xí)更高級(jí)的知識(shí)。

前言

Python非常適合用來(lái)開發(fā)網(wǎng)頁(yè)爬蟲，理由如下：
1、抓取網(wǎng)頁(yè)本身的接口
相比與其他靜態(tài)編程語(yǔ)言，如java，c#，c++，python抓取網(wǎng)頁(yè)文檔的接口更簡(jiǎn)潔；相比其他動(dòng)態(tài)腳本語(yǔ)言，如perl，shell，python的urllib包提供了較為完整的訪問(wèn)網(wǎng)頁(yè)文檔的API。（當(dāng)然ruby也是很好的選擇）
此外，抓取網(wǎng)頁(yè)有時(shí)候需要模擬瀏覽器的行為，很多網(wǎng)站對(duì)于生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行為構(gòu)造合適的請(qǐng)求，譬如模擬用戶登陸、模擬session/cookie的存儲(chǔ)和設(shè)置。在python里都有非常優(yōu)秀的第三方包幫你搞定，如Requests，mechanize

2、網(wǎng)頁(yè)抓取后的處理
抓取的網(wǎng)頁(yè)通常需要處理，比如過(guò)濾html標(biāo)簽，提取文本等。python的beautifulsoap提供了簡(jiǎn)潔的文檔處理功能，能用極短的代碼完成大部分文檔的處理。
其實(shí)以上功能很多語(yǔ)言和工具都能做，但是用python能夠干得最快，最干凈。

Life is short, you need python.

PS：python2.x和python3.x有很大不同，本文只討論python3.x的爬蟲實(shí)現(xiàn)方法。

爬蟲架構(gòu) 架構(gòu)組成

URL管理器：管理待爬取的url集合和已爬取的url集合，傳送待爬取的url給網(wǎng)頁(yè)下載器。
網(wǎng)頁(yè)下載器（urllib）：爬取url對(duì)應(yīng)的網(wǎng)頁(yè)，存儲(chǔ)成字符串，傳送給網(wǎng)頁(yè)解析器。
網(wǎng)頁(yè)解析器（BeautifulSoup）：解析出有價(jià)值的數(shù)據(jù)，存儲(chǔ)下來(lái)，同時(shí)補(bǔ)充url到URL管理器。

運(yùn)行流程

URL管理器 基本功能

添加新的url到待爬取url集合中。

判斷待添加的url是否在容器中（包括待爬取url集合和已爬取url集合）。

獲取待爬取的url。

判斷是否有待爬取的url。

將爬取完成的url從待爬取url集合移動(dòng)到已爬取url集合。

存儲(chǔ)方式

1、內(nèi)存（python內(nèi)存）
待爬取url集合：set()
已爬取url集合：set()

2、關(guān)系數(shù)據(jù)庫(kù)（mysql）
urls(url, is_crawled)

3、緩存（redis）
待爬取url集合：set
已爬取url集合：set

大型互聯(lián)網(wǎng)公司，由于緩存數(shù)據(jù)庫(kù)的高性能，一般把url存儲(chǔ)在緩存數(shù)據(jù)庫(kù)中。小型公司，一般把url存儲(chǔ)在內(nèi)存中，如果想要永久存儲(chǔ)，則存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中。

網(wǎng)頁(yè)下載器（urllib）

將url對(duì)應(yīng)的網(wǎng)頁(yè)下載到本地，存儲(chǔ)成一個(gè)文件或字符串。

基本方法

新建baidu.py，內(nèi)容如下：

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
buff = response.read()
html = buff.decode("utf8")
print(html)

命令行中執(zhí)行python baidu.py，則可以打印出獲取到的頁(yè)面。

構(gòu)造Request

上面的代碼，可以修改為：

import urllib.request

request = urllib.request.Request("http://www.baidu.com")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

攜帶參數(shù)

新建baidu2.py，內(nèi)容如下：

import urllib.request
import urllib.parse

url = "http://www.baidu.com"
values = {"name": "voidking","language": "Python"}
data = urllib.parse.urlencode(values).encode(encoding="utf-8",errors="ignore")
headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0" }
request = urllib.request.Request(url=url, data=data,headers=headers,method="GET")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

使用Fiddler監(jiān)聽數(shù)據(jù)

我們想要查看一下，我們的請(qǐng)求是否真的攜帶了參數(shù)，所以需要使用fiddler。
打開fiddler之后，卻意外發(fā)現(xiàn)，上面的代碼會(huì)報(bào)錯(cuò)504，無(wú)論是baidu.py還是baidu2.py。

雖然python有報(bào)錯(cuò)，但是在fiddler中，我們可以看到請(qǐng)求信息，確實(shí)攜帶了參數(shù)。

經(jīng)過(guò)查找資料，發(fā)現(xiàn)python以前版本的Request都不支持代理環(huán)境下訪問(wèn)https。但是，最近的版本應(yīng)該支持了才對(duì)。那么，最簡(jiǎn)單的辦法，就是換一個(gè)使用http協(xié)議的url來(lái)爬取，比如，換成http://www.csdn.net。結(jié)果，依然報(bào)錯(cuò)，只不過(guò)變成了400錯(cuò)誤。

然而，然而，然而。。。神轉(zhuǎn)折出現(xiàn)了?。?！
當(dāng)我把url換成http://www.csdn.net/后，請(qǐng)求成功！沒錯(cuò)，就是在網(wǎng)址后面多加了一個(gè)斜杠/。同理，把http://www.baidu.com改成http://www.baidu.com/，請(qǐng)求也成功了！神奇?。?！

添加處理器

import urllib.request
import http.cookiejar

# 創(chuàng)建cookie容器
cj = http.cookiejar.CookieJar()
# 創(chuàng)建opener
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
# 給urllib.request安裝opener
urllib.request.install_opener(opener)

# 請(qǐng)求
request = urllib.request.Request("http://www.baidu.com/")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)
print(cj)

網(wǎng)頁(yè)解析器（BeautifulSoup）

從網(wǎng)頁(yè)中提取出有價(jià)值的數(shù)據(jù)和新的url列表。

解析器選擇

為了實(shí)現(xiàn)解析器，可以選擇使用正則表達(dá)式、html.parser、BeautifulSoup、lxml等，這里我們選擇BeautifulSoup。
其中，正則表達(dá)式基于模糊匹配，而另外三種則是基于DOM結(jié)構(gòu)化解析。

BeautifulSoup 安裝測(cè)試

1、安裝，在命令行下執(zhí)行pip install beautifulsoup4。
2、測(cè)試

import bs4
print(bs4)

使用說(shuō)明

基本用法

1、創(chuàng)建BeautifulSoup對(duì)象

import bs4
from bs4 import BeautifulSoup

# 根據(jù)html網(wǎng)頁(yè)字符串創(chuàng)建BeautifulSoup對(duì)象
html_doc = """
The Dormouse"s story

The Dormouse"s story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
soup = BeautifulSoup(html_doc)
print(soup.prettify())

2、訪問(wèn)節(jié)點(diǎn)

print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.title.parent.name)

print(soup.p)
print(soup.p["class"])

3、指定tag、class或id

print(soup.find_all("a"))
print(soup.find("a"))
print(soup.find(class_="title"))
print(soup.find(id="link3"))
print(soup.find("p",class_="title"))

4、從文檔中找到所有標(biāo)簽的鏈接

for link in soup.find_all("a"):
    print(link.get("href"))

出現(xiàn)了警告，根據(jù)提示，我們?cè)趧?chuàng)建BeautifulSoup對(duì)象時(shí)，指定解析器即可。

soup = BeautifulSoup(html_doc,"html.parser")

5、從文檔中獲取所有文字內(nèi)容

print(soup.get_text())

6、正則匹配

link_node = soup.find("a",href=re.compile(r"til"))
print(link_node)

后記

python爬蟲基礎(chǔ)知識(shí)，至此足夠，接下來(lái)，在實(shí)戰(zhàn)中學(xué)習(xí)更高級(jí)的知識(shí)。

書簽

Python開發(fā)簡(jiǎn)單爬蟲
http://www.imooc.com/learn/563

The Python Standard Library
https://docs.python.org/3/lib...

Beautiful Soup 4.2.0 文檔
https://www.crummy.com/softwa...

為什么python適合寫爬蟲？
http://www.cnblogs.com/benzon...

如何學(xué)習(xí)Python爬蟲[入門篇]？
https://zhuanlan.zhihu.com/p/...

你需要這些：Python3.x爬蟲學(xué)習(xí)資料整理
https://zhuanlan.zhihu.com/p/...

如何入門 Python 爬蟲？
https://www.zhihu.com/questio...

Python3.X 抓取網(wǎng)絡(luò)資源
http://www.open-open.com/lib/...

python網(wǎng)絡(luò)請(qǐng)求和"HTTP Error 504:Fiddler - Receive Failure"
http://blog.csdn.net/guoguo52...

怎么使用Fiddler抓取自己寫的爬蟲的包？
https://www.zhihu.com/questio...

fiddler對(duì)python腳本抓取https包時(shí)發(fā)生了錯(cuò)誤?
https://www.zhihu.com/questio...

HTTPS和HTTP的區(qū)別
http://blog.csdn.net/whatday/...

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/38367.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

bang590

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

SSM實(shí)戰(zhàn)項(xiàng)目：人事管理系統(tǒng)（藍(lán)色版）【附源代碼】

閱讀 2730·2021-11-22 09:34
Centos8 部署 ElasticSearch 集群并搭建 ELK，基于Logstash同步MyS

閱讀 1083·2021-11-19 11:34
華為注資3億元加碼云計(jì)算領(lǐng)域_云資訊

閱讀 2889·2021-10-14 09:42
什么云主機(jī)便宜-國(guó)內(nèi)便宜的云主機(jī)哪些人用？

閱讀 1608·2021-09-22 15:27
（快）開學(xué)了，各大編程語(yǔ)言在群里吵翻了天！

閱讀 2475·2021-09-07 09:59
Vultr：裸金屬服務(wù)器，$0.275/H，1.9TB SSD/10T流量/10G帶寬，洛杉磯/日本

閱讀 1848·2021-08-27 13:13
前端培訓(xùn)-中級(jí)階段（8）- jQuery元素屬性樣式操作（2019-08-01期）

閱讀 3511·2019-08-30 11:21
vs code 插件折騰記（二）

閱讀 849·2019-08-29 18:35

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python爬蟲基礎(chǔ)

相關(guān)文章

**零基礎(chǔ)如何學(xué)爬蟲技術(shù)**

Python爬蟲學(xué)習(xí)路線

**精通Python網(wǎng)絡(luò)爬蟲(0):網(wǎng)絡(luò)爬蟲學(xué)習(xí)路線**

python基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程

**【小白+python+selenium庫(kù)+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)（01）webdriv**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評(píng)論

0條評(píng)論

bang590

男|高級(jí)講師

TA的文章

SSM實(shí)戰(zhàn)項(xiàng)目：人事管理系統(tǒng)（藍(lán)色版）【附源代碼】

Centos8 部署 ElasticSearch 集群并搭建 ELK，基于Logstash同步MyS

華為注資3億元加碼云計(jì)算領(lǐng)域_云資訊

什么云主機(jī)便宜-國(guó)內(nèi)便宜的云主機(jī)哪些人用？

（快）開學(xué)了，各大編程語(yǔ)言在群里吵翻了天！

Vultr：裸金屬服務(wù)器，$0.275/H，1.9TB SSD/10T流量/10G帶寬，洛杉磯/日本

前端培訓(xùn)-中級(jí)階段（8）- jQuery元素屬性樣式操作（2019-08-01期）

vs code 插件折騰記（二）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python爬蟲基礎(chǔ)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！