Python利用正則抓取網(wǎng)頁內(nèi)容保存到本地

cyrils 發(fā)布于2019-07-25 10:32 / 1846人閱讀

摘要：注意一點(diǎn)，到屏幕上時(shí)，需要將中文字符解碼為才能打印，寫入文件是不需要的。

目標(biāo)是收集國內(nèi)銀行的域名列表，于是在人行的網(wǎng)站上找到了匯總信息，網(wǎng)址是http://www.cbrc.gov.cn/chinese/jrjg/index.html
截圖是

查看一下他的html源碼，需要抓取部分的是：


                                                    
                                                                                                            中國工商銀行
                                                                                                         
                                                
                                                                                                                                                                                                                                                       
                                                    
                                                                                                            中國農(nóng)業(yè)銀行

提煉一下，我們需要提取的是Url和銀行的名稱，那么可以先把源碼中的t刪除，然后用正則表達(dá)式匹配


(.*)

分析完畢，下面是代碼實(shí)現(xiàn)了，第一個(gè)版本如下：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
import os,re
import mechanize

browser = mechanize.Browser()
browser.addheaders = [("User-agent", "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1")]
res  = browser.open("http://www.cbrc.gov.cn/chinese/jrjg/index.html")
data = res.read()
data = data.replace("	","")
regx = "
(.*)
"
domainlist =  re.findall(regx,data)
print len(domainlist)
for domain in domainlist:
    print domain[1].decode("utf-8"), domain[0] 

with open(u"金融.txt","wb") as fp:
    str1 = ""
    for domain in domainlist:
            str1 += domain[1]+ "----" + domain[0] + "----"+ "
"
    fp.write(str1)

首先聲明一個(gè)瀏覽器對(duì)象，并修改了其http頭的user-agent信息；然后打開Url，獲取Html源碼，并將"t"刪除；之后利用Python的正則匹配，將Url和銀行名稱提煉出來；最后將這些信息寫入到文件中。
注意一點(diǎn)，print到屏幕上時(shí)，需要將中文字符解碼為utf-8才能打印，寫入文件是不需要的。

那么升級(jí)一下，我需要的不是url，而是銀行對(duì)應(yīng)的域名，可以用tld模塊來提取
import部分添加

from tld import get_tld

在使用tld模塊從url提取域名的過程中，會(huì)發(fā)現(xiàn)莫名其妙的問題，不知道是提取正則提取Url時(shí)，url不規(guī)范導(dǎo)致的還是其他原因，總有一些Url沒法提取域名，于是會(huì)發(fā)生報(bào)錯(cuò)信息，我這邊從新寫了一下，增加容錯(cuò)性

def my_get_tld(url):
    try:
        str = get_tld(url = url,fail_silently=True)
        if str == None:
            return ""
        else:
            return str.encode("utf8")
    except:
        return ""

于是寫入文本的代碼修改成

with open(u"金融.txt","wb") as fp:
    str1 = ""
    for domain in domainlist:
            str1 += domain[1]+ "----" + domain[0] + "----" + my_get_tld(url = domain[0]) + "
"
    fp.write(str1)

OK，運(yùn)行之后就可以得到需要的內(nèi)容了

云服務(wù)器 GPU云服務(wù)器保存網(wǎng)頁到本地 java 網(wǎng)頁內(nèi)容抓取用asp抓取網(wǎng)頁內(nèi)容 webrtc 保存到本地

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/38015.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

cyrils

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

[黑五]ProfitServer新加坡/德國/荷蘭/西班牙VPS五折,不限流量KVM月付2.88美元

閱讀 3534·2021-11-22 12:00
關(guān)于CSS外邊距塌陷的問題

閱讀 774·2019-08-29 13:24
14天入門JavaScript-day one

閱讀 2983·2019-08-29 11:31
【React】關(guān)于父組件傳prop值給子組件的state時(shí)，子組件state無法實(shí)時(shí)更新的解決方案

閱讀 2703·2019-08-26 14:00
SAP Fiori應(yīng)用的三種部署方式

閱讀 3288·2019-08-26 11:42
VS code-前端配置_022

閱讀 2562·2019-08-23 18:31
JavaScript紅寶書筆記（七）---Function類型

閱讀 898·2019-08-23 18:27
困擾了一個(gè)晚上的csrf問題

閱讀 2923·2019-08-23 16:58

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python利用正則抓取網(wǎng)頁內(nèi)容保存到本地

相關(guān)文章

python爬蟲抓取純靜態(tài)網(wǎng)站及其資源

**小白看過來讓Python爬蟲成為你的好幫手**

爬蟲 - 收藏集 - 掘金

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---17、爬蟲基本原理

Python爬蟲實(shí)戰(zhàn)（2）：爬取京東商品列表

發(fā)表評(píng)論

0條評(píng)論

cyrils

男|高級(jí)講師

TA的文章

[黑五]ProfitServer新加坡/德國/荷蘭/西班牙VPS五折,不限流量KVM月付2.88美元

關(guān)于CSS外邊距塌陷的問題

14天入門JavaScript-day one

【React】關(guān)于父組件傳prop值給子組件的state時(shí)，子組件state無法實(shí)時(shí)更新的解決方案

SAP Fiori應(yīng)用的三種部署方式

VS code-前端配置_022

JavaScript紅寶書筆記（七）---Function類型

困擾了一個(gè)晚上的csrf問題

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python利用正則抓取網(wǎng)頁內(nèi)容保存到本地

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！