BeautifulSoup4 入門(mén)

focusj 發(fā)布于2019-07-31 10:00 / 1967人閱讀

摘要：是包里最有名的分解工具之一。簡(jiǎn)單易用安裝注意大小寫(xiě)，而且不要安裝，因?yàn)榇恚呀?jīng)停止更新。而不同的變量的使用方法也需要注意。類型可遍歷字符串類型類型增刪改標(biāo)簽參考使用改變網(wǎng)頁(yè)內(nèi)容修改標(biāo)簽內(nèi)容

BeautifulSoup是Python包里最有名的HTML parser分解工具之一。簡(jiǎn)單易用

安裝：

pip install beautifulsoup4

注意大小寫(xiě)，而且不要安裝BeautifulSoup，因?yàn)?b>BeautifulSoup代表3.0，已經(jīng)停止更新。

常用語(yǔ)法

參考我之前的文章：BeautifulSoup ：一些常用功能的使用和測(cè)試

# 創(chuàng)建實(shí)例
soup = BeautifulSoup(html, "html5lib")

選擇器

根據(jù)不同的網(wǎng)頁(yè)，選擇器的使用會(huì)很不同：

絕大部分下使用CSS選擇器select()就足夠了

如果按照標(biāo)簽屬性名查找，而屬性名中有-等特殊字符，那么就只能使用find()選擇器了。

# 最佳選擇器: CSS選擇器（返回tag list）
results = soup.select("div[class*=hello_world] ~ div")

for tag in results:
    print(tag.string)       #print the tag"s html string
    # print(tag.get_text())     #print its inner text

#單TAG精確選擇器：返回單個(gè)tag. 
tag = soup.find("div", attrs={"class": "detail-block"})
print(tag.get_text())

# 多Tag精確選擇器: 返回的是text，不是tag
results = soup.find_all("div", attrs={"class": "detail-block"})

# 多class選擇器(標(biāo)簽含有多個(gè)Class)，重點(diǎn)是"class*="
results = soup.select("div[class*=hello_world] ~ div")

獲取值

tag = soup.find("a")

# 只獲取標(biāo)簽的文本內(nèi)容
text = tag.get_text()

# 獲取標(biāo)簽的全部?jī)?nèi)容(如 asdfa)
s = tag.string

# 獲取標(biāo)簽的屬性
link = tag["href"]

修改值

參考：Beautiful Soup（四）--修改文檔樹(shù)

tag = soup.find("a", attrs={"class": "detail-block"})

#修改屬性
tag["href"] = "https://google.com"

# 修改內(nèi)容 ..中間的內(nèi)容
tag.string = "New Content"

# 刪除屬性
del tag["class"]

對(duì)象類型

在我們使用選擇器搜索各類tag標(biāo)簽時(shí)，BeautifulSoup會(huì)根據(jù)使用的函數(shù)而返回不同類型的變量。而不同的變量的使用方法也需要注意。

Tag類型（）:

tag.string

tag.get_text()

可遍歷字符串類型（bs4.element.NavigableString）:

Comment類型（）:

增刪改標(biāo)簽

參考：使用BeautifulSoup改變網(wǎng)頁(yè)內(nèi)容

# 修改標(biāo)簽內(nèi)容
tag = soup.find("title")
tag.string = "New Title"

GPU云服務(wù)器云服務(wù)器入門(mén)代碼入門(mén)過(guò)程入門(mén)基礎(chǔ) 入門(mén)講解

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/43079.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

focusj

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 1494·2023-04-26 01:58
Next.js 12 正式發(fā)布、Yarn 3.1 發(fā)布 | 淘系前端架構(gòu)周刊 211101 期

閱讀 2373·2021-11-04 16:04
Debian 11 Bullseye 正式版發(fā)布/新特性介紹/搬瓦工后臺(tái)可重裝體驗(yàn)

閱讀 1852·2021-08-31 09:42
無(wú)憂云-河南洛陽(yáng)BGP，CEPH集群分布式存儲(chǔ)，數(shù)據(jù)安全可靠，活動(dòng)期間月付大優(yōu)惠！

閱讀 1853·2021-07-25 21:37
假設(shè)高度已知，左右寬度固定，實(shí)現(xiàn)三欄布局的5種方法

閱讀 1118·2019-08-30 15:54
js、jQuery實(shí)現(xiàn)文字上下無(wú)縫輪播、滾動(dòng)效果

閱讀 2151·2019-08-30 15:53
CSS：BFC 最熟悉的陌生人

閱讀 3107·2019-08-29 13:28
Jquery ajax加載等待執(zhí)行結(jié)束再繼續(xù)執(zhí)行下面代碼操作

閱讀 2760·2019-08-29 10:56

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

BeautifulSoup4 入門(mén)

相關(guān)文章

**Python爬蟲(chóng)教學(xué)(寫(xiě)給入門(mén)的新手) 一**

Linux下安裝python-2.7

Python打包系統(tǒng)簡(jiǎn)單入門(mén)

**Python3 爬蟲(chóng) requests+BeautifulSoup4(BS4) 爬取小說(shuō)網(wǎng)站數(shù)據(jù)**

**Python 爬蟲(chóng)入門(mén)(一)——爬取糗百**

發(fā)表評(píng)論

0條評(píng)論

focusj

男|高級(jí)講師

TA的文章

tensorflow

Next.js 12 正式發(fā)布、Yarn 3.1 發(fā)布 | 淘系前端架構(gòu)周刊 211101 期

Debian 11 Bullseye 正式版發(fā)布/新特性介紹/搬瓦工后臺(tái)可重裝體驗(yàn)

無(wú)憂云-河南洛陽(yáng)BGP，CEPH集群分布式存儲(chǔ)，數(shù)據(jù)安全可靠，活動(dòng)期間月付大優(yōu)惠！

假設(shè)高度已知，左右寬度固定，實(shí)現(xiàn)三欄布局的5種方法

js、jQuery實(shí)現(xiàn)文字上下無(wú)縫輪播、滾動(dòng)效果

CSS：BFC 最熟悉的陌生人

Jquery ajax加載等待執(zhí)行結(jié)束再繼續(xù)執(zhí)行下面代碼操作

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

BeautifulSoup4 入門(mén)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！