Python使用xslt提取網(wǎng)頁數(shù)據(jù)

mdluo 發(fā)布于2019-07-25 10:22 / 1015人閱讀

摘要：，用庫實現(xiàn)網(wǎng)頁內(nèi)容提取是的一個庫，可以迅速靈活地處理。，集搜客開源代碼下載源開源網(wǎng)絡(luò)爬蟲源，文檔修改歷史，增補文字說明把跟帖的代碼補充了進來，增加最后一章源代碼下載源

1，引言

在Python網(wǎng)絡(luò)爬蟲內(nèi)容提取器一文我們詳細講解了核心部件：可插拔的內(nèi)容提取器類gsExtractor。本文記錄了確定gsExtractor的技術(shù)路線過程中所做的編程實驗。這是第一部分，實驗了用xslt方式一次性提取靜態(tài)網(wǎng)頁內(nèi)容并轉(zhuǎn)換成xml格式。

2，用lxml庫實現(xiàn)網(wǎng)頁內(nèi)容提取

lxml是python的一個庫，可以迅速、靈活地處理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且實現(xiàn)了常見的 ElementTree API。

這2天測試了在python中通過xslt來提取網(wǎng)頁內(nèi)容，記錄如下：

2.1，抓取目標

假設(shè)要提取集搜客官網(wǎng)舊版論壇的帖子標題和回復(fù)數(shù)，如下圖，要把整個列表提取出來，存成xml格式

2.2，源代碼1：只抓當(dāng)前頁，結(jié)果顯示在控制臺

Python的優(yōu)勢是用很少量代碼就能解決一個問題，請注意下面的代碼看起來很長，其實python函數(shù)調(diào)用沒有幾個，大篇幅被一個xslt腳本占去了，在這段代碼中，只是一個好長的字符串而已，至于為什么選擇xslt，而不是離散的xpath或者讓人撓頭的正則表達式，請參看《Python即時網(wǎng)絡(luò)爬蟲項目啟動說明》，我們期望通過這個架構(gòu)，把程序員的時間節(jié)省下來一大半。

可以拷貝運行下面的代碼(在windows10， python3.2下測試通過)：

from urllib import request
from lxml import etree
url="http://www.gooseeker.com/cn/forum/7"
conn = request.urlopen(url)

doc = etree.HTML(conn.read())

xslt_root = etree.XML("""


<列表>
=1 and count(.//*[@class="topic"]/a/text())>0])>0]" mode="列表"/>







<標題>






<回復(fù)數(shù)>









=1 and count(.//*[@class="topic"]/a/text())>0])>0]" mode="列表">






""")

transform = etree.XSLT(xslt_root)
result_tree = transform(doc)
print(result_tree)

2.3，抓取結(jié)果

得到的抓取結(jié)果如下圖：

2.4，源代碼2：翻頁抓取，結(jié)果存入文件

我們對2.2的代碼再做進一步修改，增加翻頁抓取和存結(jié)果文件功能，代碼如下：

from urllib import request
from lxml import etree
import time

xslt_root = etree.XML("""


<列表>
=1 and count(.//*[@class="topic"]/a/text())>0])>0]" mode="列表"/>







<標題>






<回復(fù)數(shù)>









=1 and count(.//*[@class="topic"]/a/text())>0])>0]" mode="列表">






""")

baseurl = "http://www.gooseeker.com/cn/forum/7"
basefilebegin = "jsk_bbs_"
basefileend = ".xml"
count = 1
while (count < 12):
        url = baseurl + "?page=" + str(count)
        conn = request.urlopen(url)
        doc = etree.HTML(conn.read())
        transform = etree.XSLT(xslt_root)
        result_tree = transform(doc)
        print(str(result_tree))
        file_obj = open(basefilebegin+str(count)+basefileend,"w",encoding="UTF-8")
        file_obj.write(str(result_tree))
        file_obj.close()
        count += 1
        time.sleep(2)

我們增加了寫文件的代碼，還增加了一個循環(huán)，構(gòu)造每個翻頁的網(wǎng)址，但是，如果翻頁過程中網(wǎng)址總是不變怎么辦？其實這就是動態(tài)網(wǎng)頁內(nèi)容，下面會討論這個問題。

3，總結(jié)

這是開源Python通用爬蟲項目的驗證過程，在一個爬蟲框架里面，其它部分都容易做成通用的，就是網(wǎng)頁內(nèi)容提取和轉(zhuǎn)換成結(jié)構(gòu)化的操作難于通用，我們稱之為提取器。但是，借助GooSeeker可視化提取規(guī)則生成器MS謀數(shù)臺，提取器的生成過程將變得很便捷，而且可以標準化插入，從而實現(xiàn)通用爬蟲，在后續(xù)的文章中會專門講解MS謀數(shù)臺與Python配合的具體方法。

4，接下來閱讀

本文介紹的方法通常用來抓取靜態(tài)網(wǎng)頁內(nèi)容，也就是所謂的html文檔中的內(nèi)容，目前很多網(wǎng)站內(nèi)容是用javascript動態(tài)生成的，一開始html是沒有這些內(nèi)容的，通過后加載方式添加進來，那么就需要采用動態(tài)技術(shù)，請閱讀《Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態(tài)HTML內(nèi)容》。

5，集搜客GooSeeker開源代碼下載源

1.GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

6，文檔修改歷史

2016-05-26：V2.0，增補文字說明；把跟帖的代碼補充了進來
2016-05-29：V2.1，增加最后一章源代碼下載源

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/37924.html

發(fā)表評論

登陸后可評論

0條評論

mdluo

男|高級講師

我要關(guān)注我要私信

TA的文章

虛擬主機月流量是什么意思-虛擬主機月流量是指什么？

閱讀 1553·2021-09-22 16:04
前端20個真正靈魂拷問，吃透這些你就是中級前端工程師【上篇】

閱讀 2870·2019-08-30 15:44
行業(yè)log | 小程序搭載智慧零售，實現(xiàn)五位一體數(shù)字化營銷

閱讀 949·2019-08-30 15:43
網(wǎng)絡(luò)篇—瀏覽器緩存（一）

閱讀 830·2019-08-29 15:24
關(guān)于 jqeury easyui

閱讀 1905·2019-08-29 14:07
css字體相關(guān)樣式的處理

閱讀 1202·2019-08-29 12:30
使用 @font-face

閱讀 1790·2019-08-29 11:15
flexbox：更加優(yōu)雅的Web布局

閱讀 2805·2019-08-28 18:08

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python使用xslt提取網(wǎng)頁數(shù)據(jù)

2.1，抓取目標

2.2，源代碼1：只抓當(dāng)前頁，結(jié)果顯示在控制臺

2.3，抓取結(jié)果

2.4，源代碼2：翻頁抓取，結(jié)果存入文件

相關(guān)文章

Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態(tài)HTML內(nèi)容