Python爬蟲利器二之Beautiful Soup的用法

cjie 發(fā)布于2019-07-25 10:33 / 1514人閱讀

摘要：官方解釋如下提供一些簡(jiǎn)單的式的函數(shù)用來處理導(dǎo)航搜索修改分析樹等功能。廢話不多說，我們來試一下吧安裝目前已經(jīng)停止開發(fā)，推薦在現(xiàn)在的項(xiàng)目中使用，不過它已經(jīng)被移植到了，也就是說導(dǎo)入時(shí)我們需要。

上一節(jié)我們介紹了正則表達(dá)式，它的內(nèi)容其實(shí)還是蠻多的，如果一個(gè)正則匹配稍有差池，那可能程序就處在永久的循環(huán)之中，而且有的小伙伴們也對(duì)寫正則表達(dá)式的寫法用得不熟練，沒關(guān)系，我們還有一個(gè)更強(qiáng)大的工具，叫Beautiful Soup，有了它我們可以很方便地提取出HTML或XML標(biāo)簽中的內(nèi)容，實(shí)在是方便，這一節(jié)就讓我們一起來感受一下Beautiful Soup的強(qiáng)大吧。

1. Beautiful Soup的簡(jiǎn)介

簡(jiǎn)單來說，Beautiful Soup是python的一個(gè)庫(kù)，最主要的功能是從網(wǎng)頁(yè)抓取數(shù)據(jù)。官方解釋如下：

Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。它是一個(gè)工具箱，通過解析文檔為用戶提供需要抓取的數(shù)據(jù)，因?yàn)楹?jiǎn)單，所以不需要多少代碼就可以寫出一個(gè)完整的應(yīng)用程序。
Beautiful Soup自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode編碼，輸出文檔轉(zhuǎn)換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個(gè)編碼方式，這時(shí)，Beautiful Soup就不能自動(dòng)識(shí)別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器，為用戶靈活地提供不同的解析策略或強(qiáng)勁的速度。
廢話不多說，我們來試一下吧~

2. Beautiful Soup 安裝

Beautiful Soup 3 目前已經(jīng)停止開發(fā)，推薦在現(xiàn)在的項(xiàng)目中使用Beautiful Soup 4，不過它已經(jīng)被移植到BS4了，也就是說導(dǎo)入時(shí)我們需要 import bs4 。所以這里我們用的版本是 Beautiful Soup 4.3.2 (簡(jiǎn)稱BS4)，另外據(jù)說 BS4 對(duì) Python3 的支持不夠好，不過我用的是 Python2.7.7，如果有小伙伴用的是 Python3 版本，可以考慮下載 BS3 版本。

可以利用 pip 或者 easy_install 來安裝，以下兩種方法均可

easy_install beautifulsoup4

pip install beautifulsoup4

如果想安裝最新的版本，請(qǐng)直接下載安裝包來手動(dòng)安裝，也是十分方便的方法。在這里我安裝的是 Beautiful Soup 4.3.2

下載完成之后解壓

運(yùn)行下面的命令即可完成安裝

sudo python setup.py install

然后需要安裝 lxml

easy_install lxml

pip install lxml

另一個(gè)可供選擇的解析器是純Python實(shí)現(xiàn)的 html5lib , html5lib的解析方式與瀏覽器相同,可以選擇下列方法來安裝html5lib:

easy_install html5lib

pip install html5lib

Beautiful Soup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器,還支持一些第三方的解析器，如果我們不安裝它，則 Python 會(huì)使用 Python默認(rèn)的解析器，lxml 解析器更加強(qiáng)大，速度更快，推薦安裝。

3. 開啟Beautiful Soup 之旅

在這里先分享官方文檔鏈接，不過內(nèi)容是有些多，也不夠條理，在此本文章做一下整理方便大家參考。

4. 創(chuàng)建 Beautiful Soup 對(duì)象

首先必須要導(dǎo)入 bs4 庫(kù)

from bs4 import BeautifulSoup

我們創(chuàng)建一個(gè)字符串，后面的例子我們便會(huì)用它來演示

html = """ The Dormouse"s story

The Dormouse"s story

Once upon a time there were three little sisters; and their names were , Lacie and Tillie; and they lived at the bottom of a well.

...

"""

5. 小試牛刀爬豆瓣的前250熱門電影數(shù)據(jù)

在使用該腳本時(shí)，需要安裝下面用到的庫(kù)先，如這樣：

easy_install requests
easy_install codecs
easy_install bs4
easy_install openpyxl

腳本文件

#!/usr/bin/env python
# encoding=utf-8
import requests,re
import codecs
from bs4 import BeautifulSoup
from openpyxl import Workbook
wb = Workbook()
dest_filename = "電影.xlsx"
ws1 = wb.active  
ws1.title = "電影top250"

DOWNLOAD_URL = "http://movie.douban.com/top250/"

def download_page(url):
    """獲取url地址頁(yè)面內(nèi)容"""
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"
    }
    data = requests.get(url, headers=headers).content
    return data


def get_li(doc):
    soup = BeautifulSoup(doc, "html.parser")
    ol = soup.find("ol", class_="grid_view")
    name = [] #名字
    star_con = [] #評(píng)價(jià)人數(shù)
    score = []  #評(píng)分
    info_list = []  #短評(píng)
    for i in ol.find_all("li"):
        detail = i.find("div", attrs={"class": "hd"})
        movie_name = detail.find("span", attrs={"class": "title"}).get_text() #電影名字
        level_star = i.find("span",attrs={"class":"rating_num"}).get_text() #評(píng)分
        star = i.find("div",attrs={"class":"star"})
        star_num = star.find(text=re.compile("評(píng)價(jià)"))  #評(píng)價(jià)

        info = i.find("span",attrs={"class":"inq"})  #短評(píng)
        if info:     #判斷是否有短評(píng)
            info_list.append(info.get_text())
        else:
            info_list.append("無")
        score.append(level_star)
        

        name.append(movie_name)
        star_con.append(star_num)
    page = soup.find("span", attrs={"class": "next"}).find("a") #獲取下一頁(yè)
    if page:
        return name,star_con,score,info_list,DOWNLOAD_URL + page["href"]
    return name,star_con,score,info_list,None


def main():
    url = DOWNLOAD_URL
    name = []
    star_con=[]
    score = []
    info = []
    while url:
        doc = download_page(url)
        movie,star,level_num,info_list,url = get_li(doc)
        name = name + movie
        star_con = star_con + star
        score = score+level_num
        info = info+ info_list
    for (i,m,o,p) in zip(name,star_con,score,info):
        col_A = "A%s"%(name.index(i)+1)
        col_B = "B%s"%(name.index(i)+1)
        col_C = "C%s"%(name.index(i)+1)
        col_D = "D%s"%(name.index(i)+1)
        ws1[col_A]=i
        ws1[col_B] = m
        ws1[col_C] = o
        ws1[col_D] = p
    wb.save(filename=dest_filename)

if __name__ == "__main__":
    main()

6. pip和easy_install區(qū)別

pip和easy_install安裝命令有什么區(qū)別？
請(qǐng)看該博文：Python 包管理工具解惑

參考博文：
Beautiful Soup用法
Python 爬蟲-模擬登錄知乎-爬取拉勾網(wǎng)職位信息
Python 包管理工具解惑

云服務(wù)器 GPU云服務(wù)器 python開發(fā)利器 python字典的用法 python中for的用法 python中input的用法

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/38032.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

cjie

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

keras和tensorflow版本

閱讀 3132·2023-04-26 00:40
ReliableSite：美國(guó)GPU顯卡服務(wù)器$119/月起;可自選nVidia Quadro RT

閱讀 2492·2021-09-27 13:47
Kindle Comic Converter – 免費(fèi)漫畫格式轉(zhuǎn)換軟件（支持Windows和Mac）

閱讀 4492·2021-09-07 10:22
python 生產(chǎn)者消費(fèi)者模式

閱讀 3027·2021-09-06 15:02
IoT + 5G , 在游玩中給你拍下美麗的vlog

閱讀 3377·2021-09-04 16:45
Vultr優(yōu)惠碼整理專題 - 每月更新最新優(yōu)惠活動(dòng)（新用戶最高送100美元）

閱讀 2571·2021-08-11 10:23
騰訊云服務(wù)器采購(gòu)季活動(dòng)被忽略的亮點(diǎn),1核1G內(nèi)存3M帶寬香港云服務(wù)器299元/年

閱讀 3664·2021-07-26 23:38
移動(dòng)端總結(jié)

閱讀 2957·2019-08-30 15:54

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Python爬蟲利器二之Beautiful Soup的用法

相關(guān)文章

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

Python 爬蟲利器 Beautiful Soup 4 之文檔樹的搜索

Python爬蟲學(xué)習(xí)路線

Python爬蟲利器：Beautiful Soup的使用（二）

Beautiful Soup的用法

發(fā)表評(píng)論

0條評(píng)論

cjie

男|高級(jí)講師

TA的文章

keras和tensorflow版本

ReliableSite：美國(guó)GPU顯卡服務(wù)器$119/月起;可自選nVidia Quadro RT

Kindle Comic Converter – 免費(fèi)漫畫格式轉(zhuǎn)換軟件（支持Windows和Mac）

python 生產(chǎn)者消費(fèi)者模式

IoT + 5G , 在游玩中給你拍下美麗的vlog

Vultr優(yōu)惠碼整理專題 - 每月更新最新優(yōu)惠活動(dòng)（新用戶最高送100美元）

騰訊云服務(wù)器采購(gòu)季活動(dòng)被忽略的亮點(diǎn),1核1G內(nèi)存3M帶寬香港云服務(wù)器299元/年

移動(dòng)端總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Python爬蟲利器二之Beautiful Soup的用法

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！