亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

小白也可以看會(huì)的破解抖音字體反爬

Zoom / 2831人閱讀

摘要:不過(guò),字體反爬也沒(méi)有用,畢竟我們會(huì)破哈哈。抖音的字體反爬是在一個(gè)分享個(gè)人主頁(yè)的鏈接中,別的鏈接暫時(shí)沒(méi)有測(cè)試,不過(guò)破了一個(gè)其他的也就破了。下載完之后我們可以用的一個(gè)工具包來(lái)查看字體映射。

現(xiàn)在的網(wǎng)站,處處都是反爬,我們這些爬蟲(chóng)的經(jīng)常需要和他們斗智斗勇,就看誰(shuí)更厲害。這不,就連字體也弄成了反爬,而且還不止一個(gè)網(wǎng)站,常見(jiàn)的就有貓眼和汽車(chē)之家。不過(guò),字體反爬也沒(méi)有用,畢竟我們會(huì)破!哈哈。

抖音的字體反爬是在一個(gè)分享個(gè)人主頁(yè)的鏈接中,別的鏈接暫時(shí)沒(méi)有測(cè)試,不過(guò)破了一個(gè)其他的也就破了。

分享主頁(yè)可以這樣獲得:

1). 點(diǎn)擊迪麗熱巴個(gè)人主頁(yè)

2).點(diǎn)擊左上角

3).再點(diǎn)擊左上角分享以鏈接方式復(fù)制

做完之后你就可以獲得這樣一條鏈接:http://v.douyin.com/NT5Nck/

在瀏覽器打開(kāi)可以看到:

鏈接編程了這樣:https://www.iesdouyin.com/sha...

根據(jù)經(jīng)驗(yàn)很容易知道前面的參數(shù)就是用戶(hù)的 id 號(hào),后面的就是時(shí)間戳,可以去掉的。

有了這個(gè)頁(yè)面之后怎么將個(gè)人主頁(yè)的名稱(chēng)、粉絲、點(diǎn)贊量等爬下來(lái)呢?接下來(lái)就是教你這個(gè),請(qǐng)繼續(xù)往下看!

1. 分析破解反爬字體

打開(kāi)開(kāi)發(fā)者調(diào)試工具,很容易就可以看到數(shù)據(jù)所在的請(qǐng)求的鏈接

點(diǎn)擊我們需要獲取的粉絲數(shù),你可以看到:

可以看到,字體都變成了正方形,很明顯這個(gè)做了反爬。那我們?cè)倏纯凑?qǐng)求返回來(lái)的 html 信息。

可以看到一堆編碼,而且都是數(shù)字變成了這樣,所有抖音將這些數(shù)字的數(shù)據(jù)都做了字體進(jìn)行映射,用了他們自己的字體,那我們可以看看開(kāi)發(fā)者工具的?network?查看他所用的字體,一般都是?wolf?或者?ttf?結(jié)尾的,可以看到:

https://s3.bytecdn.cn/ies/res..._falcon/static/font/iconfont_9eb9a50.woff

在瀏覽器輸入上面地址就可以下載該字體了。

下載完之后我們可以用 Python 的一個(gè)工具包 fontTools 來(lái)查看字體映射。

如果你沒(méi)有這個(gè)包的話,可在命令行輸入下面代碼進(jìn)行下載工具包:

pip?install?fontTools

使用 fontTools 將字體文件轉(zhuǎn)為 XML 文件,下面為代碼:

轉(zhuǎn)換之后查看文件,你就可以看到之間的映射了,如下:

code?為我們?cè)谡?qǐng)求中顯示的編碼,name為映射,到我們需要找的是數(shù)字,num_ 代表的又是哪些數(shù)字呢?,如果你再找找,你會(huì)發(fā)現(xiàn)這個(gè):

是不是感覺(jué)已經(jīng)找到了,恭喜你,你被坑了,這個(gè)并不是,如果你第一次遇到的話,估計(jì)都會(huì)被它坑一次,這個(gè)并不是剛才的什么數(shù)字映射,只是一些 id 名字罷了。

這時(shí)就需要我們另借助一個(gè)字體軟件了:FontCreator, 軟件百度官網(wǎng)下載安裝即可。

用這個(gè)軟件打開(kāi)字體,可以看到新大陸:

這個(gè)就是我們需要找的映射,配合上面在 XML 文件中找的映射,一起用,這個(gè)就破解了。

2.代碼實(shí)現(xiàn)

用 Python 代碼只需要把它們之間的映射搞清楚就行了,所以我們可以使用字典來(lái)保存這些數(shù)據(jù)。

這個(gè)就是在軟件上看到的映射關(guān)系,再來(lái)弄弄在 XML 中的編碼對(duì)應(yīng)關(guān)系

通過(guò)一行一行地讀取 XML 文件的內(nèi)容,找出映射并存儲(chǔ)在相應(yīng)的字典中,這就可以了,大功告成。

3.其他數(shù)據(jù)的獲取

我打算爬的是抖音的用戶(hù)數(shù)據(jù),先找了 1000 個(gè)抖音大號(hào)來(lái)爬取,接著會(huì)通過(guò)他們的粉絲列表再來(lái)爬取別的用戶(hù),這樣就差不多能夠把抖音的大多數(shù)用戶(hù)獲取了,具體怎樣爬取粉絲列表,下篇文章告訴你!期待的就點(diǎn)個(gè)「好看」支持下?

下面是 1000 個(gè)抖音大號(hào)的部分爬取代碼:

上面的就是我需要存儲(chǔ)的內(nèi)容。

由于篇幅問(wèn)題,其他的就不放出來(lái)了,想要源碼的關(guān)注公眾號(hào)進(jìn)行獲取

「以下內(nèi)容,本人僅供學(xué)習(xí)交流,切勿用于商業(yè)用途」

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/43053.html

相關(guān)文章

  • 首次公開(kāi),整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評(píng)論0 收藏0
  • 小白+python+selenium庫(kù)+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)(01)webdriv

    摘要:且本小白也親身經(jīng)歷了整個(gè)從小白到爬蟲(chóng)初入門(mén)的過(guò)程,因此就斗膽在上開(kāi)一個(gè)欄目,以我的圖片爬蟲(chóng)全實(shí)現(xiàn)過(guò)程為例,以期用更簡(jiǎn)單清晰詳盡的方式來(lái)幫助更多小白應(yīng)對(duì)更大多數(shù)的爬蟲(chóng)實(shí)際問(wèn)題。 前言: 一個(gè)月前,博主在學(xué)過(guò)python(一年前)、會(huì)一點(diǎn)網(wǎng)絡(luò)(能按F12)的情況下,憑著熱血和興趣,開(kāi)始了pyth...

    Half 評(píng)論0 收藏0
  • Web 端反爬蟲(chóng)技術(shù)方案

    對(duì)于內(nèi)容型的公司,數(shù)據(jù)的安全性很重要。對(duì)于內(nèi)容公司來(lái)說(shuō),數(shù)據(jù)的重要性不言而喻。比如你一個(gè)做在線教育的平臺(tái),題目的數(shù)據(jù)很重要吧,但是被別人通過(guò)爬蟲(chóng)技術(shù)全部爬走了?如果核心競(jìng)爭(zhēng)力都被拿走了,那就是涼涼。再比說(shuō)有個(gè)獨(dú)立開(kāi)發(fā)者想抄襲你的產(chǎn)品,通過(guò)抓包和爬蟲(chóng)手段將你核心的數(shù)據(jù)拿走,然后短期內(nèi)做個(gè)網(wǎng)站和 App,短期內(nèi)成為你的勁敵。 爬蟲(chóng)手段 目前爬蟲(chóng)技術(shù)都是從渲染好的 html 頁(yè)面直接找到感興趣的節(jié)點(diǎn),...

    MudOnTire 評(píng)論0 收藏0
  • 大前端時(shí)代安全性如何做

    摘要:對(duì)于內(nèi)容型的公司,數(shù)據(jù)的安全性很重要。背景目前通過(guò)中的網(wǎng)頁(yè)分析后,我們的數(shù)據(jù)安全性做的較差,有以下幾個(gè)點(diǎn)存在問(wèn)題網(wǎng)站的數(shù)據(jù)通過(guò)最早期的前后端分離來(lái)實(shí)現(xiàn)。比如當(dāng)前的日期為,那么線性變換的為,為。 之前在上家公司的時(shí)候做過(guò)一些爬蟲(chóng)的工作,也幫助爬蟲(chóng)工程師解決過(guò)一些問(wèn)題。然后我寫(xiě)過(guò)一些文章發(fā)布到網(wǎng)上,之后有一些人就找我做一些爬蟲(chóng)的外包,內(nèi)容大概是爬取小紅書(shū)的用戶(hù)數(shù)據(jù)和商品數(shù)據(jù),但是我沒(méi)做。我...

    andot 評(píng)論0 收藏0
  • 知乎最新版模擬登陸詳解,小白能懂

    摘要:模擬登陸知乎這個(gè)知乎的登陸也是坑滿滿,我也給踩了幾個(gè),這個(gè)就直接說(shuō)坑吧,其他的就不多說(shuō)了。 以下內(nèi)容僅交流學(xué)習(xí),請(qǐng)勿用于非法用途 如果你現(xiàn)在想模擬登陸知乎,會(huì)發(fā)現(xiàn) fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來(lái)...

    buildupchao 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<