python爬蟲(chóng)入門(mén)（一）

lentrue 發(fā)布于2019-07-30 17:06 / 1886人閱讀

摘要：想辦法區(qū)分爬蟲(chóng)程序和正常的用戶。爬蟲(chóng)是工具性程序，對(duì)速度和效率要求較高。生態(tài)圈完善，是最大對(duì)手。最要命的是爬蟲(chóng)需要經(jīng)常修改部分代碼。爬蟲(chóng)分類(lèi)通用爬蟲(chóng)也就是百度搜狐等搜索引擎。原本是為測(cè)試來(lái)測(cè)試網(wǎng)站的，后來(lái)成了爬蟲(chóng)工程師最喜愛(ài)的工具。

一、爬蟲(chóng)的基本知識(shí)：

1. 什么是爬蟲(chóng)

爬蟲(chóng)的英文翻譯為spider或者crawder,意為蜘蛛或者爬行者，從字面意思我們可以體會(huì)到：爬蟲(chóng)就是把自己當(dāng)做蜘蛛或者爬行者，沿著既定路線，爬到指定節(jié)點(diǎn)，獵取食物獲取目標(biāo)。在這里我們的蜘蛛網(wǎng)即互聯(lián)網(wǎng)，我們爬取的方法即為路徑，我們所要獲取的數(shù)據(jù)即為食物或目標(biāo)。

2. 爬蟲(chóng)的核心

爬取網(wǎng)頁(yè)

解析數(shù)據(jù)

難點(diǎn)：與反爬蟲(chóng)博弈（反爬蟲(chóng)：資源的所有者，想要保護(hù)資源，避免被第三方爬蟲(chóng)程序批量的把資源下載下去。想辦法區(qū)分爬蟲(chóng)程序和正常的用戶。）

3. 爬蟲(chóng)的語(yǔ)言

php:雖然是世界上最好的語(yǔ)言，但是天生不是干爬蟲(chóng)的命，PHP對(duì)多線程、異步支持不足，并發(fā)不足。爬蟲(chóng)是工具性程序，對(duì)速度和效率要求較高。

java:生態(tài)圈完善，是Python最大對(duì)手。但是Java本身很笨重，代碼量大。重構(gòu)成本比較高，任何修改都會(huì)導(dǎo)致大量代碼的變動(dòng)。最要命的是爬蟲(chóng)需要經(jīng)常修改部分代碼。

CC++:運(yùn)行效率和性能幾乎最強(qiáng)，但是學(xué)習(xí)成本非常高，代碼成型較慢，能用C/C++寫(xiě)爬蟲(chóng)，說(shuō)明能力很強(qiáng)，但是不是最正確的選擇

Python：語(yǔ)法優(yōu)美、代碼簡(jiǎn)介、開(kāi)發(fā)效率高、三方模塊多，調(diào)用其他接口也方便。有強(qiáng)大的爬蟲(chóng)Scrapy，以及成熟高效的scrapy-redis分布式策略。

4. 爬蟲(chóng)分類(lèi)

通用爬蟲(chóng)
也就是百度、Google、360、搜狐、firefox等搜索引擎。特點(diǎn)是爬取網(wǎng)站所有內(nèi)容、但不能根據(jù)客戶需求給出特定內(nèi)容。在這里，各家瀏覽器根據(jù)其pagerank分進(jìn)行網(wǎng)站搜索的排名，同時(shí)還有競(jìng)價(jià)排名。

聚焦爬蟲(chóng)
就是現(xiàn)在我們這些爬蟲(chóng)程序員所進(jìn)行的工作，就是根據(jù)客戶的需求，爬取指定網(wǎng)站的特定內(nèi)容。

二、如何學(xué)習(xí)爬蟲(chóng)

1. 首先要理解什么是http/https協(xié)議

http協(xié)議：菜鳥(niǎo)教程：http協(xié)議詳解

https協(xié)議：菜鳥(niǎo)教程：https協(xié)議詳解

2. python基礎(chǔ)知識(shí)

urllib.request

urllib.parse

正則表達(dá)式等等基礎(chǔ)知識(shí)。

3. 開(kāi)發(fā)工具

pacharm:下載安裝請(qǐng)參考菜鳥(niǎo)教程：pycharm下載安裝教程

sublime Text3:下載安裝請(qǐng)參考菜鳥(niǎo)教程：sublime下載安裝

4. 抓包工具

chrome瀏覽器的開(kāi)發(fā)者模式，在這里可以檢查網(wǎng)頁(yè)的各種元素。

fiddler：原本是為測(cè)試來(lái)測(cè)試網(wǎng)站的，后來(lái)成了爬蟲(chóng)工程師最喜愛(ài)的工具。這是一款開(kāi)源軟件，可以直接去官網(wǎng)下載安裝https://www.telerik.com/downl...

postman：可以根據(jù)請(qǐng)求頭信息生成簡(jiǎn)單的網(wǎng)頁(yè)爬取代碼，界面相對(duì)于fiddler也要美觀

motimproxy

三、代碼實(shí)現(xiàn)簡(jiǎn)單的爬蟲(chóng)實(shí)例

python爬蟲(chóng)有多簡(jiǎn)單，下面我一行代碼爬取百度首頁(yè)，如同在瀏覽器輸入網(wǎng)址一樣簡(jiǎn)單

import urllib.request
urllib.request.urlretrieve("http://www.baidu.com/", "baidu.html")

上面的代碼只能簡(jiǎn)單抓取網(wǎng)頁(yè)，一旦遇到需要請(qǐng)求頭的反爬蟲(chóng)時(shí)就不能發(fā)揮作用了，所以一般常用的爬蟲(chóng)代碼如下：

    import urllib.request
    url = "http://www.baidu.com/"
    
    request = urllib.request.Request(url)
    
    response = urllib.request.urlopen(request)
    
    with open("baidu.html", "wb") as f:
        f.write(response.read())

請(qǐng)求頭反反爬蟲(chóng)：

import urllib.request
#指定url
url = "https://www.qiushibaike.com/"
#定義請(qǐng)求頭對(duì)象
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36"

}
#獲取網(wǎng)頁(yè)信息
request = urllib.request.Request(url, headers=headers)

response = urllib.request.urlopen(request)

with open("xiushi.html","wb") as f:
    f.write(response.read())

今天先寫(xiě)到這兒了，我爭(zhēng)取做到每日分享，與大家一起學(xué)習(xí)，一起進(jìn)步，為了美好的明天，艱苦奮斗。
                                                     ————你與別人的差距在加班的時(shí)間。

GPU云服務(wù)器云服務(wù)器 python入門(mén)爬蟲(chóng) python爬蟲(chóng)入門(mén) python網(wǎng)絡(luò)爬蟲(chóng)入門(mén) python爬蟲(chóng)教程入門(mén)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/42013.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

lentrue

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

java 8 時(shí)間類(lèi)之徹底看懂 java.time.temporal.ChronoField

閱讀 1958·2021-11-22 09:34
八種方法實(shí)現(xiàn)CSS頁(yè)面底部固定

閱讀 3209·2019-08-30 15:55
從重繪重排角度講解transform的動(dòng)畫(huà)性能

閱讀 773·2019-08-30 15:53
一個(gè)自制的2048小游戲(一)

閱讀 2148·2019-08-30 15:52
《JavaScript DOM編程藝術(shù)（第2版）》筆記

閱讀 3075·2019-08-29 18:32
nodejs 基礎(chǔ)篇整合

閱讀 2101·2019-08-29 17:15
CSS 中的行

閱讀 2478·2019-08-29 13:14
漫談標(biāo)準(zhǔn)中CSS浮動(dòng)令人困惑的部分

閱讀 3646·2019-08-28 18:05

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python爬蟲(chóng)入門(mén)（一）

相關(guān)文章

**零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)**

Python爬蟲(chóng)學(xué)習(xí)路線

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

**基于 Python 的 Scrapy 爬蟲(chóng)入門(mén)：頁(yè)面提取**

**基于 Python 的 Scrapy 爬蟲(chóng)入門(mén)：環(huán)境搭建**

發(fā)表評(píng)論

0條評(píng)論

lentrue

男|高級(jí)講師

TA的文章

java 8 時(shí)間類(lèi)之徹底看懂 java.time.temporal.ChronoField

八種方法實(shí)現(xiàn)CSS頁(yè)面底部固定

從重繪重排角度講解transform的動(dòng)畫(huà)性能

一個(gè)自制的2048小游戲(一)

《JavaScript DOM編程藝術(shù)（第2版）》筆記

nodejs 基礎(chǔ)篇整合

CSS 中的行

漫談標(biāo)準(zhǔn)中CSS浮動(dòng)令人困惑的部分

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python爬蟲(chóng)入門(mén)（一）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！