無(wú)關(guān)標(biāo)簽的一般長(zhǎng)文本網(wǎng)頁(yè)正文內(nèi)容抽取

Bryan 發(fā)布于2019-07-30 18:35 / 3135人閱讀

摘要：無(wú)關(guān)標(biāo)簽的一般長(zhǎng)文本網(wǎng)頁(yè)正文內(nèi)容抽取一般的網(wǎng)頁(yè)內(nèi)容抽取需要針對(duì)特定的網(wǎng)站進(jìn)行特定的檢查定位正文標(biāo)簽，指定抽取規(guī)則。

無(wú)關(guān)標(biāo)簽的一般長(zhǎng)文本網(wǎng)頁(yè)正文內(nèi)容抽取

一般的網(wǎng)頁(yè)內(nèi)容抽取需要針對(duì)特定的網(wǎng)站進(jìn)行特定的檢查定位正文標(biāo)簽，指定抽取規(guī)則。但是如果需要抽取100個(gè)不同內(nèi)容結(jié)構(gòu)的網(wǎng)站正文，需要的就是100個(gè)不同的規(guī)則。
有沒(méi)有一種通用的內(nèi)容抽取呢?？梢灾换诰W(wǎng)頁(yè)正文內(nèi)容的變化而變化的規(guī)則f(x).

本文實(shí)現(xiàn)的是針對(duì)于一般的長(zhǎng)文本正文類網(wǎng)站（博客、新聞、小說(shuō)類）實(shí)現(xiàn)的通用正文內(nèi)容抽取。像那種需要抽取的正文內(nèi)容C長(zhǎng)度與網(wǎng)頁(yè)內(nèi)容W長(zhǎng)度比例C/W<0.5的可能會(huì)出現(xiàn)不適用的情況。（比如正文是一句話幾個(gè)字，整個(gè)頁(yè)面內(nèi)容的文字長(zhǎng)度超過(guò)了正文的2倍，那最好使用DOM標(biāo)簽規(guī)則抽?。?/p>

以下的“網(wǎng)頁(yè)”均指長(zhǎng)文本類型的網(wǎng)頁(yè)

為什么抽取正文

一般的網(wǎng)頁(yè)正文都是屬于段落類型的文本，所屬標(biāo)簽不一，其他的無(wú)用信息（如網(wǎng)頁(yè)版權(quán)、站點(diǎn)通知、導(dǎo)航內(nèi)容等）也占據(jù)了一定的頁(yè)面內(nèi)容，如果單純的把網(wǎng)頁(yè)內(nèi)容文字全部抽取出來(lái)，
這很簡(jiǎn)單，但是會(huì)夾雜很多的無(wú)用內(nèi)容，干擾太大，所以針對(duì)正文抽取得到頁(yè)面的真正有用信息是主要目的?？梢岳谜膬?nèi)容進(jìn)行網(wǎng)頁(yè)相似度的計(jì)算。

怎么抽取正文

抽取正文要找到正文的分布特征，將爬取到的網(wǎng)頁(yè)去除所有標(biāo)簽，得到每一行的內(nèi)容后，可以根據(jù)(行號(hào)，字符數(shù))制作圖表查看兩者的關(guān)聯(lián)：
下圖是騰訊新聞一則新聞頁(yè)面的行號(hào)-行字?jǐn)?shù)關(guān)系圖表：

下圖是CSDN的兩則博文正文行號(hào)-行字?jǐn)?shù)關(guān)系圖表:

《中文編碼相關(guān)，python處理gbk編碼的xml文件方法》:

《python抓取gb2312gbk編碼網(wǎng)頁(yè)亂碼問(wèn)題》:

下圖是segmentfault的一篇博文正文行號(hào)-行字?jǐn)?shù)關(guān)系圖表:

《解決 ScriptError的另類思路》:

可以看到，正文的內(nèi)容一般是連續(xù)行的塊，因此我們可以設(shè)置閾值來(lái)過(guò)濾一些非正文的干擾行，但是針對(duì)某些連續(xù)行并不是有效正文的情況，就需要看這個(gè)連續(xù)行組成的塊的總字符數(shù)。
如果字?jǐn)?shù)少于一個(gè)閾值，就不屬于正文，也就是正文的字符密度，由此可見(jiàn)，正文可以基于連續(xù)行字符密度來(lái)進(jìn)行提取。

算法實(shí)現(xiàn)

假設(shè)我們已經(jīng)爬取了網(wǎng)頁(yè)內(nèi)容WebContent，并且將W的所有標(biāo)簽去除得到了純文本保留行格式的文字內(nèi)容LinesContent.接下來(lái):

#三個(gè)可控變量，自由調(diào)整使抽取達(dá)到理想效果
#連續(xù)行閾值：連續(xù)多少行則認(rèn)為是一個(gè)正文內(nèi)容塊
threshold = 5
#正文內(nèi)空行閾值：允許正文內(nèi)容 段落或正文行 之間有多少空行
gap = 3
#正文字符密度閾值：每一行的字符數(shù)達(dá)到多少則認(rèn)為屬于正文內(nèi)容
density  = 45


#********初始化設(shè)置#********
#保留抽取結(jié)果字典，格式：{<連續(xù)塊字符總數(shù)>:<塊文字內(nèi)容>,...}
results={}
#已經(jīng)達(dá)到前后連續(xù)的次數(shù)
comobo_num =0
#當(dāng)前連續(xù)塊的總字符數(shù)
combo_len = 0
#當(dāng)前連續(xù)空行數(shù)
combo_null=0
#當(dāng)前連續(xù)塊的文字內(nèi)容
combo_text = ""
#當(dāng)前行/前一行的字符數(shù)
pre_len = 0

for i in LinesContent:
    #當(dāng)前行非空
    if i.strip():
        pre_len = len(i)
        comobo_num += 1 
        combo_null = 0
        combo_len += pre_len
        #疊加非空行內(nèi)容到連續(xù)內(nèi)容中
        combo_text = combo_text+i+ os.linesep
        #針對(duì)單行文本情況
        if len(a)==1 and pre_len >= density*threshold:
            results[pre_len]=combo_text
    else:
        combo_null +=1
        #如果前一行非空
        if pre_len:
            #連續(xù)空行閾值判斷
            if combo_null > gap:
                #連續(xù)塊判斷
                if combo_len >= density*threshold 
                and comobo_num >= threshold:
                    results[combo_len]=combo_text
            else:
                continue
        #非正文連續(xù)塊則全部參數(shù)復(fù)位
        comobo_num = 0
        combo_len = 0 if combo_null > gap else combo_len
        pre_len = 0
        combo_text = "" if combo_null > gap else combo_text

經(jīng)過(guò)對(duì)多個(gè)長(zhǎng)文本類型網(wǎng)站的抓取抽取，正文抽取成功率達(dá)到了90%以上。

Todo

針對(duì)有圖片嵌入的正文抽取

連帶正文標(biāo)簽的抽取

正文格式的保存

源碼地址：GitHub

GPU云服務(wù)器云服務(wù)器標(biāo)簽抽取 html的文本標(biāo)簽服務(wù)器一般的維修內(nèi)容文本分析_關(guān)鍵句抽取

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/42697.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Bryan

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

質(zhì)量基礎(chǔ)設(shè)施NQI“一站式”線上公共服務(wù)平臺(tái)開(kāi)發(fā)方案

閱讀 3362·2021-11-25 09:43
JAVA家具商城購(gòu)物系統(tǒng)

閱讀 2168·2021-09-22 10:02
4G(LTE)/5G(NR) RRC狀態(tài)

閱讀 3482·2021-09-06 15:00
用Class寫一個(gè)記住用戶離開(kāi)位置的js插件

閱讀 2367·2019-08-30 15:56
前端開(kāi)發(fā)學(xué)習(xí)筆記 - 1. Node.JS安裝筆記

閱讀 2419·2019-08-30 15:54
理解CSS中的層疊上下文和層疊順序

閱讀 3293·2019-08-30 14:14
小動(dòng)畫大學(xué)問(wèn)

閱讀 2315·2019-08-29 17:25
〔開(kāi)發(fā)系列〕一次關(guān)于小程序開(kāi)發(fā)的深度總結(jié)

閱讀 2985·2019-08-29 17:16

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

無(wú)關(guān)標(biāo)簽的一般長(zhǎng)文本網(wǎng)頁(yè)正文內(nèi)容抽取

相關(guān)文章

持續(xù)更新免費(fèi)的API，做一個(gè)API的搬運(yùn)工

淺聊SEO

發(fā)表評(píng)論

0條評(píng)論

Bryan

男|高級(jí)講師

TA的文章

質(zhì)量基礎(chǔ)設(shè)施NQI“一站式”線上公共服務(wù)平臺(tái)開(kāi)發(fā)方案

JAVA家具商城購(gòu)物系統(tǒng)

4G(LTE)/5G(NR) RRC狀態(tài)

用Class寫一個(gè)記住用戶離開(kāi)位置的js插件

前端開(kāi)發(fā)學(xué)習(xí)筆記 - 1. Node.JS安裝筆記

理解CSS中的層疊上下文和層疊順序

小動(dòng)畫大學(xué)問(wèn)

〔開(kāi)發(fā)系列〕一次關(guān)于小程序開(kāi)發(fā)的深度總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

無(wú)關(guān)標(biāo)簽的一般長(zhǎng)文本網(wǎng)頁(yè)正文內(nèi)容抽取

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！