亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

??在爬完一周的朋友圈后,我發(fā)現(xiàn)了.......驚人??秘密

Cympros / 1918人閱讀

各位童鞋,大家好,我是?

在《?UI自動(dòng)化工具輕松實(shí)現(xiàn)微信消息收發(fā)?朋友圈爬取??》文末給童鞋們布置了一個(gè)作業(yè),批量朋友圈爬取,不知道大伙們是否還有映像。

看到很多小伙伴們踴躍報(bào)名參與,不禁要給你們點(diǎn)個(gè)贊??紤]到很多小伙伴想做卻做出來(lái),這…貼心的我這不就來(lái)給你們公布參考答案啦?

對(duì)相關(guān)基礎(chǔ)還不了解的童鞋請(qǐng)參考前文:

首先我們開始爬取朋友圈:

?朋友圈數(shù)據(jù)爬取?

去外面轉(zhuǎn)了一圈,再回來(lái)發(fā)現(xiàn)10分鐘之內(nèi)就爬完了一周的朋友圈:

當(dāng)然這是因?yàn)槲业奈⑿藕糜烟?,一周總共也只發(fā)了不到1000條消息。

晚上重新爬了一下,爬到8月21號(hào)直到朋友圈的數(shù)據(jù)無(wú)法繼續(xù)拉取,始終都是這個(gè)狀態(tài)說(shuō)明已經(jīng)無(wú)法拉取再早的朋友圈數(shù)據(jù):

共爬到1186條朋友圈動(dòng)態(tài)數(shù)據(jù),耗時(shí)12分鐘:

打開Excel簡(jiǎn)單的美化一下格式就得到如下結(jié)果:

篩選了有點(diǎn)贊和評(píng)論的數(shù)據(jù)。

同時(shí)對(duì)于每一條存在圖片或視頻的朋友圈,都會(huì)在本地存儲(chǔ)一張截圖:

可以看到在這近1200條朋友圈中有725條數(shù)據(jù)觸發(fā)的圖片或視頻關(guān)鍵字產(chǎn)生截圖:

?好友朋友圈數(shù)據(jù)分析?

讀取數(shù)據(jù):

import pandas as pddf = pd.read_excel("朋友圈.xlsx")df = df.convert_dtypes()

我的好友給誰(shuí)的點(diǎn)贊最多呢?

t = df.groupby("昵稱").agg(    點(diǎn)贊總?cè)藬?shù)=("點(diǎn)贊人數(shù)", "sum"),    評(píng)論總條數(shù)=("評(píng)論條數(shù)", "sum"),    發(fā)朋友圈條數(shù)=("序號(hào)", "count"))display(t.sort_values("點(diǎn)贊總?cè)藬?shù)", ascending=False).head(10))

原來(lái)我的好友中,大家最喜歡給這些數(shù)據(jù)分析相關(guān)的好友點(diǎn)贊:

排除點(diǎn)只發(fā)一條朋友圈的平均點(diǎn)贊比例最高的依然是數(shù)據(jù)分析相關(guān)的:

秘密1:我的朋友圈中,數(shù)據(jù)分析相關(guān)的好友的朋友最容易被點(diǎn)贊。

t[t.發(fā)朋友圈條數(shù) > 10].shape[0]

一周發(fā)朋友圈超過10條的話癆有21人。

t.發(fā)朋友圈條數(shù).value_counts()
1     882     533     295     194     176     1110     67      68      512     4Name: 發(fā)朋友圈條數(shù), dtype: int64

秘密2:我的好友中發(fā)過朋友圈的好友更傾向于一周只發(fā)一條朋友圈。

秘密3:幾個(gè)培訓(xùn)機(jī)構(gòu)的營(yíng)銷號(hào)發(fā)朋友圈最頻率,現(xiàn)在就把你們刪掉。

點(diǎn)贊數(shù)排名前7的朋友圈:

評(píng)論數(shù)排名前7的朋友圈:

篩選出有時(shí)間信息的朋友圈統(tǒng)計(jì)大家的發(fā)朋友圈時(shí)間傾向:

秘密4:好友們最傾向在中午12點(diǎn)和晚上7點(diǎn)發(fā)朋友圈。

朋友圈內(nèi)容詞云圖:

import jiebaimport stylecloudfrom IPython.display import Imagewords = df.內(nèi)容.apply(jieba.lcut).explode()words = words[words.apply(len) > 1]words = words[~words.isin(["包含", "圖片", "視頻", "天前", "小時(shí)", "昨天", "自己"])]stylecloud.gen_stylecloud(text=" ".join(words), max_words=500,                          collocations=False,                          font_path=r"C:/Windows/Fonts/msyhbd.ttc",                          icon_name="fas fa-square",                          size=653,                          output_name="tmp.png")Image(filename="tmp.png")

評(píng)論區(qū)內(nèi)容詞云圖:

import jiebaimport stylecloudfrom IPython.display import Imagewords = df.評(píng)論列表.dropna().apply(jieba.lcut).explode()words = words[words.apply(len) > 1]words = words[~words.isin(["回復(fù)", "免費(fèi)", "欄目", "一個(gè)", "包含", "其他"])]stylecloud.gen_stylecloud(text=" ".join(words), max_words=500,                          collocations=False,                          font_path=r"C:/Windows/Fonts/msyhbd.ttc",                          icon_name="fas fa-thumbs-up",                          size=653,                          output_name="tmp.png")Image(filename="tmp.png")

從詞云圖看來(lái),我的朋友圈都愛數(shù)據(jù)愛技術(shù)愛學(xué)習(xí)愛知識(shí),這真是驚人的密碼…

??PC端朋友圈爬取代碼與難點(diǎn)?

保證節(jié)點(diǎn)在可視范圍內(nèi)能夠被完整截圖:

節(jié)點(diǎn)的底部位置比顯示界面更大時(shí)表示在外面,按一下向下的方向鍵。

解析節(jié)點(diǎn)的數(shù)據(jù):

對(duì)內(nèi)容數(shù)據(jù)直接取父節(jié)點(diǎn)的Name,獲取完整的全部文本,解析字符串即可得到昵稱、發(fā)布時(shí)間等信息。

第一麻煩點(diǎn)是解析出點(diǎn)贊和評(píng)論,上述代碼之所以那么復(fù)雜是因?yàn)榇嬖谥挥悬c(diǎn)贊、只有評(píng)論、既有點(diǎn)贊又有評(píng)論,點(diǎn)贊和評(píng)論都沒有四種情況。為了能夠同時(shí)適配這四種情況,經(jīng)過反復(fù)測(cè)試最終編寫出上述代碼。上述代碼基于必定存在的評(píng)論按鈕為基準(zhǔn)點(diǎn)進(jìn)行查找。

第二個(gè)麻煩點(diǎn)是想精準(zhǔn)只截圖片、視頻或視頻號(hào),需要非常多的異常檢測(cè)代碼,每種情況變化都非常大,很難通用。最終我直接放棄,選擇直接對(duì)整個(gè)節(jié)點(diǎn)包含昵稱一起截圖。對(duì)一個(gè)節(jié)點(diǎn)是否進(jìn)行截圖,取決于這個(gè)節(jié)點(diǎn)的文本是否包含視頻或圖片關(guān)鍵字。

注意:截屏調(diào)用節(jié)點(diǎn)的CaptureToImage方法即可對(duì)指定節(jié)點(diǎn)的范圍截圖保存到指定文件。

批量爬取代碼:

注意上述代碼處理翻頁(yè)時(shí)的異常情況,當(dāng)節(jié)點(diǎn)不存在任何文本內(nèi)容時(shí),說(shuō)明定位到了一個(gè)加載數(shù)據(jù)的節(jié)點(diǎn),我們可以先按一次向上方向鍵回退之后,再按一下向下的方向鍵,即可定位到剛加載的新節(jié)點(diǎn)。如果回退再向下之后,名稱依然是空,說(shuō)明已經(jīng)將朋友圈能夠拉取到的數(shù)據(jù)都加載完了,可以結(jié)束程序。

??說(shuō)明:本文作為第一節(jié)的參考答案并不會(huì)提供可以直接復(fù)制粘貼的代碼,還需要各位童鞋們自己獨(dú)立完成作業(yè)。不需要寫到我這么復(fù)雜,根據(jù)實(shí)際需求簡(jiǎn)化代碼編寫即可。

完整代碼已經(jīng)零碎的全部給到大家,剩下的可以根據(jù)理解,自己取敲即可。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/118784.html

相關(guān)文章

  • 自制圖片文件合成器【??男孩子們?cè)僖膊挥门履愕馁Y源沒地方藏??

    ??前幾天有個(gè)粉絲瘋狂私信我問:博主,博主,有沒有什么辦法能將我夜里看的小視頻/愛情動(dòng)作小說(shuō)給藏起來(lái),藏的越隱蔽越好,我怕我女朋友發(fā)現(xiàn)了揍我?。牶笪抑睒泛?,可見這是位名副其實(shí)的妻管嚴(yán)哦~)? ??一開始我是拒絕的,畢竟——我可是個(gè)正經(jīng)人!但是他又是加我VX,又是關(guān)注我公眾號(hào)(看看我主頁(yè)左側(cè)有二維碼哦?。┻€說(shuō)我發(fā)的博文他幾乎都第一時(shí)間點(diǎn)贊,評(píng)論,收藏支持。瞬間就打動(dòng)了我,于是我決定幫他一把(咳咳,...

    zhangqh 評(píng)論0 收藏0
  • ??擼完這個(gè)springboot項(xiàng)目,對(duì)boot輕車熟路!【源碼+視頻都開源】【強(qiáng)烈建議收藏】??

    上次給大家分享了一個(gè)springboot+vue的校園招聘系統(tǒng),視頻教程加項(xiàng)目源碼,都是開源的,應(yīng)該說(shuō)很香了,今天再給大家分享一個(gè)不錯(cuò)的springboot的項(xiàng)目。 老規(guī)矩,開源,開源,開源?。?! 金九銀十來(lái)了,小伙伴們,沖??!前面已經(jīng)整理了很多的面試題,拿去學(xué)習(xí)吧! 1,??爆肝!整理了一周的Spring面試大全【含答案】,吊打Java面試官【建議收藏】!?? 2,??肝完了,一天掌握數(shù)據(jù)...

    AZmake 評(píng)論0 收藏0
  • C語(yǔ)言實(shí)現(xiàn)自制圖片文件合成器【男孩子們?cè)僖膊挥脫?dān)心你的學(xué)習(xí)資料沒地方藏~】

    摘要:文件指針此函數(shù)用于關(guān)閉文件。完工被逮了也別說(shuō)是我教的哈我怕被打可能某些小白沒有環(huán)境,也急需此方法,所以本博主直接將我的文件分享給大家下載下面這張圖,操作我相信你肯定會(huì)的如果你從本文中學(xué)到了知識(shí),喜歡它,那么我很榮幸。 ...

    zzir 評(píng)論0 收藏0
  • ??國(guó)慶七天的總結(jié)

    今年國(guó)慶七天和以往就不一樣了,過去都是學(xué)生時(shí)代的國(guó)慶,大學(xué)時(shí)光以前在家有家人的陪伴,在大學(xué)階段也基本沒回過家。 這里說(shuō)明一下不怎么回家的原因吧,因?yàn)槲依霞以谵r(nóng)村里,國(guó)慶階段是收集油茶樹果實(shí)的好時(shí)光,就從網(wǎng)上拿了一張圖,大概就是如下樣子,碩果累累(說(shuō)不定有些小伙伴還不知道這啥,因?yàn)槲覇柫艘恍┡笥讯颊f(shuō)不知道這回事,農(nóng)村里的小伙伴可能會(huì)知道)。 往年的國(guó)慶 還記得初中那會(huì)還和家里人一起上山采摘過,不過...

    0xE7A38A 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

Cympros

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<