Python 抓取網(wǎng)頁亂碼原因分析

asce1885 發(fā)布于2019-07-31 10:10 / 737人閱讀

摘要：在用抓取網(wǎng)頁的時(shí)候，經(jīng)常會遇到抓下來的內(nèi)容顯示出來是亂碼。發(fā)生這種情況的最大可能性就是編碼問題運(yùn)行環(huán)境的字符編碼和網(wǎng)頁的字符編碼不一致。比如，在的控制臺里抓取了一個(gè)編碼的網(wǎng)站。

在用 python2 抓取網(wǎng)頁的時(shí)候，經(jīng)常會遇到抓下來的內(nèi)容顯示出來是亂碼。

發(fā)生這種情況的最大可能性就是編碼問題： 運(yùn)行環(huán)境的字符編碼和網(wǎng)頁的字符編碼不一致。

比如，在 windows 的控制臺（gbk）里抓取了一個(gè) utf-8 編碼的網(wǎng)站。或者，在 Mac / Linux 的終端（utf-8）里抓取了一個(gè) gbk 編碼的網(wǎng)站。因?yàn)槎鄶?shù)網(wǎng)站采用 utf-8 編碼，而不少人又是用 windows，所有這種情況相當(dāng)常見。

如果你發(fā)現(xiàn)你抓下來的內(nèi)容，看上去英文、數(shù)字、符號都是對的，但中間夾雜了一些亂碼，那基本可以斷定是此情況。

GPU云服務(wù)器云服務(wù)器 python網(wǎng)頁抓取 python抓取網(wǎng)頁數(shù)據(jù) 網(wǎng)頁抓取抓取中文網(wǎng)頁

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/43369.html

相關(guān)文章

前端小白的python實(shí)戰(zhàn): 報(bào)紙分詞排序

摘要：先看效果環(huán)境位目標(biāo)抓取一篇報(bào)紙，并提取出關(guān)鍵字，然后按照出現(xiàn)次數(shù)排序，用在頁面上顯示出來。首先要抓取網(wǎng)頁，但是網(wǎng)頁在控制臺輸出的時(shí)候，中文總是亂碼。但是不得不承認(rèn)，上有很多非常優(yōu)秀的庫。例如但是這些包我在上安裝的時(shí)候總是報(bào)錯(cuò)。先看效果： showImg(https://segmentfault.com/img/bVRLCc?w=612&h=668); 環(huán)境 win7 64位 pyt...

cncoder 2019-07-30 14:22 評論0 收藏0
關(guān)于使用cheerio抓取一個(gè)網(wǎng)頁遇見的問題以及解決的過程

摘要：這樣嘗試了之后，網(wǎng)頁中文編碼的問題會解決大部分，但是有的地方還是存在中文亂碼這樣的問題主要是我在進(jìn)行了轉(zhuǎn)碼成之后沒有將新插入后的頁面轉(zhuǎn)碼到初始狀態(tài)，一旦被瀏覽器下載之后瀏覽器會無法識別部分的編碼從而導(dǎo)致一部分編碼。最近做開發(fā)有一個(gè)需求需要用cheerio抓取一個(gè)網(wǎng)頁，然后將一段js腳本插入到標(biāo)簽的末尾。然后還要保證瀏覽器運(yùn)行正?！，F(xiàn)在把這些遇見過的問題記錄一下。這里面就存在一個(gè)問題...

hedge_hog 2019-08-21 16:58 評論0 收藏0
Python-爬蟲工程師-面試總結(jié)

摘要：內(nèi)存池機(jī)制提供了對內(nèi)存的垃圾收集機(jī)制，但是它將不用的內(nèi)存放到內(nèi)存池而不是返回給操作系統(tǒng)。為了加速的執(zhí)行效率，引入了一個(gè)內(nèi)存池機(jī)制，用于管理對小塊內(nèi)存的申請和釋放。注：答案一般在網(wǎng)上都能夠找到。1.對if __name__ == main的理解陳述2.python是如何進(jìn)行內(nèi)存管理的？3.請寫出一段Python代碼實(shí)現(xiàn)刪除一個(gè)list里面的重復(fù)元素4.Python里面如何拷貝一個(gè)對象？...

antz 2019-07-31 11:06 評論0 收藏0
Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---24、requests：基本使用

摘要：上一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)使用分析協(xié)議下一篇文章在前面一節(jié)我們了解了的基本用法，但是其中確實(shí)有不方便的地方。發(fā)送之后，得到的自然就是，在上面的實(shí)例中我們使用了和獲取了內(nèi)容，不過還有很多屬性和方法可以獲取其他的信息，比如狀態(tài)碼等信息。上一篇文章：Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---23、使用Urllib：分析Robots協(xié)議下一篇文章：在前面一節(jié)我們了解了 Urllib 的基本用法，但是其中...

lentrue 2019-07-31 10:35 評論0 收藏0
Scrapy 框架入門簡介

摘要：解析的方法，每個(gè)初始完成下載后將被調(diào)用，調(diào)用的時(shí)候傳入從每一個(gè)傳回的對象來作為唯一參數(shù)，主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁數(shù)據(jù)，提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁的請求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架，用途非常廣泛。框架的力量，用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲，用來抓取網(wǎng)頁內(nèi)容以及各種圖片，非常...

Coding01 2019-07-30 15:39 評論0 收藏0