摘要:第二部分解決方法所以要么你直接使用字節(jié)碼,要么記得把設置正確,比如我獲取了一段編碼的網(wǎng)頁就需要以下方法才能得到正確的。
第一部分 關于requests庫
(1)requests是一個很實用的Python HTTP客戶端庫,編寫爬蟲和測試服務器響應數(shù)據(jù)時經(jīng)常會用到。第二部分 解決方法
(2)其中的Request對象在訪問服務器后會返回一個Response對象,這個對象將返回的Http響應字節(jié)碼保存到content屬性中。
(3)但是如果你訪問另一個屬性text時,會返回一個unicode對象,亂碼問題就會常常發(fā)成在這里。
(4)因為Response對象會通過另一個屬性encoding來將字節(jié)碼編碼成unicode,而這個encoding屬性居然是responses自己猜出來的。
所以要么你直接使用content(字節(jié)碼),要么記得把encoding設置正確,比如我獲取了一段gbk編碼的網(wǎng)頁,就需要以下方法才能得到正確的unicode。
import requests url = "http://xxx.xxx.xxx" response = requests.get(url) response.encoding = "gbk" print(response.text)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/43611.html
摘要:先看效果環(huán)境位目標抓取一篇報紙,并提取出關鍵字,然后按照出現(xiàn)次數(shù)排序,用在頁面上顯示出來。首先要抓取網(wǎng)頁,但是網(wǎng)頁在控制臺輸出的時候,中文總是亂碼。但是不得不承認,上有很多非常優(yōu)秀的庫。例如但是這些包我在上安裝的時候總是報錯。 先看效果: showImg(https://segmentfault.com/img/bVRLCc?w=612&h=668); 環(huán)境 win7 64位 pyt...
摘要:瀏覽器的中文數(shù)據(jù)提交給服務器,以編碼對中文編碼,當我在讀取數(shù)據(jù)的時候,拿到的當然是亂碼。接下來使用方式傳遞中文數(shù)據(jù),把表單的方式改成即可當我們訪問的時候,又出現(xiàn)亂碼了于是我按照上面的方式,把對象設置編碼為試試結(jié)果還是亂碼。 什么是HttpServletRequest HttpServletRequest對象代表客戶端的請求,當客戶端通過HTTP協(xié)議訪問服務器時,HTTP請求頭中的所有信...
摘要:代碼量也的確減少很多也能夠獲取普通字段的參數(shù)上傳文件名的中文亂碼和上傳數(shù)據(jù)的中文亂碼我把文件名改成中文,就亂碼了表單提交過來的中文數(shù)據(jù)也亂碼了。 什么是文件上傳? 文件上傳就是把用戶的信息保存起來。 為什么需要文件上傳? 在用戶注冊的時候,可能需要用戶提交照片。那么這張照片就應該要進行保存。 上傳組件(工具) 為什么我們要使用上傳工具? 為啥我們需要上傳組件呢?當我們要獲取客戶端的數(shù)據(jù)...
閱讀 2331·2021-11-22 13:52
閱讀 4104·2021-11-10 11:36
閱讀 1523·2021-09-24 09:47
閱讀 1142·2019-08-29 13:54
閱讀 3422·2019-08-29 13:46
閱讀 2007·2019-08-29 12:16
閱讀 2170·2019-08-26 13:26
閱讀 3526·2019-08-23 17:10