亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

復(fù)仇者聯(lián)盟誰(shuí)才是絕對(duì) C 位?Python分析9萬(wàn)條數(shù)據(jù)告訴你答案

shiweifu / 2639人閱讀

摘要:數(shù)據(jù)庫(kù)文件已經(jīng)超過了了。復(fù)聯(lián)從開始便是漫威宇宙各路超級(jí)英雄的集結(jié),到現(xiàn)在的第部,更是全英雄的匯聚。所以,滅霸出現(xiàn)的次數(shù)居然高于了鋼鐵俠。情感分析,又稱為意見挖掘傾向性分析等。

作者 | 羅昭成
責(zé)編 | 唐小引

《復(fù)聯(lián) 4》國(guó)內(nèi)上映第十天,程序員的江湖里開始流傳這樣一個(gè)故事,即:漫威宇宙,其實(shí)就講了一件事情。整個(gè)宇宙就好比一個(gè)項(xiàng)目組。其中有一群叫作美國(guó)隊(duì)長(zhǎng)、鋼鐵俠、驚奇隊(duì)長(zhǎng)、浩克、索爾等人在維護(hù)這個(gè)項(xiàng)目,兢兢業(yè)業(yè)的維護(hù)整個(gè)項(xiàng)目。

某一天,出現(xiàn)了一個(gè)天才程序員,叫滅霸。當(dāng)他加入到這家公司的時(shí)候,他意識(shí)到,這個(gè)項(xiàng)目已經(jīng)非常龐大,僅僅是編譯,就要幾個(gè)小時(shí)。運(yùn)行起來負(fù)重累累。而服務(wù)器資源又非常的有限,老板又不給預(yù)算買新機(jī)器,如果一直繼續(xù)這么開發(fā)下去,這個(gè)項(xiàng)目遲早要出現(xiàn) P0 事故。于是,他下定決定要把這個(gè)項(xiàng)目全面優(yōu)化,使用用面向?qū)ο笏枷耄崛≈貜?fù)代碼,業(yè)務(wù)拆分,算法優(yōu)化等手段,徹底優(yōu)化,目標(biāo)是代碼量減少 50%。

美國(guó)隊(duì)長(zhǎng)帶領(lǐng)的項(xiàng)目組叫復(fù)仇者聯(lián)盟,發(fā)現(xiàn)了滅霸程序員的想法后,阻止并警告滅霸說:不要輕易去改老代碼??!很容易出 bug 的,代碼能跑就行?。?/p>

—— 以上來自知乎@郭啟軍那么,作為一個(gè)寫程序員的電影,我們?cè)趺床荒苡脭?shù)據(jù)來分析一下,喜歡漫威宇宙的觀眾對(duì)《復(fù)聯(lián) 4》的評(píng)價(jià)呢?

01抓取數(shù)據(jù)

業(yè)界朋友們,在電影分析中,使用貓眼的數(shù)據(jù)比較多。在本文中,筆者也使用了貓眼的接口來獲取數(shù)據(jù),方便處理,數(shù)據(jù)量也比較多。有關(guān)接口,大家可以自己去貓眼的網(wǎng)站上看,也可以使用如下地址:

在 Python 中,使用 Request 可以很方便地發(fā)送請(qǐng)求,拿到接口返回的 JSON 數(shù)據(jù),來看代碼:

請(qǐng)求返回的是一個(gè) JSON 數(shù)據(jù),拿到我們想要的評(píng)論原始數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中:

經(jīng)過大概兩個(gè)小時(shí),終于從貓眼爬取了大約 9 萬(wàn)條數(shù)據(jù)。數(shù)據(jù)庫(kù)文件已經(jīng)超過了 100M 了。

02數(shù)據(jù)清洗

因?yàn)樵谏厦孀ト∠聛淼臄?shù)據(jù),直接進(jìn)行了原數(shù)據(jù)的存儲(chǔ),沒有進(jìn)行數(shù)據(jù)的解析處理。接口中包含了很多數(shù)據(jù),有用戶信息、評(píng)論信息等。本次分析,只使用了部分?jǐn)?shù)據(jù),所以需要將用到的相關(guān)數(shù)據(jù)清洗出來:

通過 JSON 庫(kù)將原始數(shù)據(jù)解析出來,將我們需要的信息存儲(chǔ)到新的數(shù)據(jù)表中。

03數(shù)據(jù)分析

因?yàn)闆]有任何一個(gè)平臺(tái)能夠拿到用戶的購(gòu)票數(shù)據(jù),我們只能從評(píng)論的數(shù)據(jù)中,以小見大,從這些數(shù)據(jù)中,分析出一些走勢(shì)。 在評(píng)論數(shù)據(jù)中,我們能看到評(píng)論用戶所在的城市。將數(shù)據(jù)所在的位置解析,劃分到各對(duì)應(yīng)的行政省,可以看到每個(gè)省評(píng)論數(shù)量,見下圖(顏色越紅,用戶評(píng)論數(shù)量越多):

城市從圖中可以看到, 上海、廣州、四川用戶的數(shù)量顯然要比其他城市的用戶數(shù)量要多得多。再來看一下代碼:

漫威電影一直深受中國(guó)朋友們喜歡的高分電影。豆瓣評(píng)分 8.7 分,那我們的評(píng)論用戶中,又是一個(gè)什么樣的趨勢(shì)呢?見下圖:

評(píng)分?jǐn)?shù)從圖中可以看到,評(píng) 5 分的數(shù)量遠(yuǎn)高于其他評(píng)分,可見中國(guó)的觀眾朋友確實(shí)喜歡漫威的科幻電影。復(fù)聯(lián)從 1 開始便是漫威宇宙各路超級(jí)英雄的集結(jié),到現(xiàn)在的第 4 部,更是全英雄的匯聚。那么,在這之中,哪位英雄人物更受觀眾歡迎?先看代碼:

運(yùn)行結(jié)果如下圖,可以看到鋼鐵俠鋼鐵俠是實(shí)至名歸的 C 位,不僅電影在電影中是,在評(píng)論區(qū)仍然也是實(shí)至名歸的 C 位,甚至于遠(yuǎn)超美隊(duì)、寡姐和雷神:

英雄評(píng)論次數(shù)從以上觀眾分布和評(píng)分的數(shù)據(jù)可以看到,這一部劇,觀眾朋友還是非常地喜歡。前面,從貓眼拿到了觀眾的評(píng)論數(shù)據(jù)。現(xiàn)在,筆者將通過 Jieba 把評(píng)論進(jìn)行分詞,然后通過 Wordcloud 制作詞云,來看看,觀眾朋友們對(duì)《復(fù)聯(lián)》的整體評(píng)價(jià):

詞云分析可以看到,滅霸和鋼鐵俠出現(xiàn)的詞頻比其他英雄要高很多。這是否表示,這部劇的主角就是他們兩個(gè)呢?細(xì)心的朋友應(yīng)該發(fā)現(xiàn)了,鋼鐵俠、滅霸的數(shù)量在詞云和評(píng)論數(shù)量里面不一致。原因在于,評(píng)論數(shù)量就按評(píng)論條數(shù)來統(tǒng)計(jì)的,而詞云中,使用的是詞頻,同一條評(píng)論中,多次出現(xiàn)會(huì)多次統(tǒng)計(jì)。所以,滅霸出現(xiàn)的次數(shù)居然高于了鋼鐵俠。最后,再來分析一下鋼鐵俠與滅霸的情感分析,先上代碼:

此處,使用 SnowNLP 來進(jìn)行情感分析。情感分析,又稱為意見挖掘、傾向性分析等。簡(jiǎn)單而言,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。

鋼鐵俠從圖中看到, 鋼鐵俠的正向情感要比滅霸的正向情感要高,反派角色就是容易被人抗拒。

最最后,從《銀河護(hù)衛(wèi)隊(duì)》時(shí)期穿越而來的滅霸在最后分鐘變成了粉末消散而去,這也給我們程序員一個(gè)警鐘:

重構(gòu)代碼,改善設(shè)計(jì),降低系統(tǒng)復(fù)雜度,這樣做很好。但是,一定要保證系統(tǒng)的穩(wěn)定運(yùn)行,不留安全隱患,不然,早晚會(huì)丟掉自己的工作。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/43734.html

Failed to recv the data from server completely (SIZE:0/8, REASON:closed)