{eval=Array;=+count(Array);}
優(yōu)秀的數(shù)據(jù)分析師并不能速成,但是零經(jīng)驗(yàn)也有零經(jīng)驗(yàn)的捷徑。
市面上有《七周七數(shù)據(jù)庫(kù)》,《七周七編程語(yǔ)言》。今天我們就《七周七學(xué)習(xí)成為數(shù)據(jù)分析師》,沒(méi)錯(cuò),七周。
第一周:Excel學(xué)習(xí)掌握
如果Excel玩的順溜,可以略過(guò)這一周。但很多人并不會(huì)vlookup,所以有必要講下。
了解sum,count,sumif,countif,find,if,left/right,時(shí)間轉(zhuǎn)換等。excel的各類函數(shù)很多,完全不需要學(xué)全。重要的是學(xué)會(huì)搜索。我學(xué)函數(shù)是即用即查,將遇到的問(wèn)題在網(wǎng)上搜索得到所需函數(shù)。
重中之重是學(xué)會(huì)vlookup和數(shù)據(jù)透視表。這兩個(gè)對(duì)后續(xù)的數(shù)據(jù)轉(zhuǎn)換有幫助。
學(xué)會(huì)vlookup,SQL中的join,Python中的merge能很快掌握。
學(xué)會(huì)數(shù)據(jù)透視表,SQL中的group,Python中的groupby也是同理。
這兩個(gè)搞定,基本10萬(wàn)條以內(nèi)的數(shù)據(jù)統(tǒng)計(jì)沒(méi)啥難度,也就速度慢了點(diǎn)。80%的辦公室白領(lǐng)都能秒殺。
網(wǎng)上多找些習(xí)題做,Excel是熟能生巧。
養(yǎng)成一個(gè)好習(xí)慣,不要合并單元格,不要過(guò)于花哨。表格按照原始數(shù)據(jù)、加工數(shù)據(jù),圖表的類型管理。
附加學(xué)習(xí):
1、了解中文編碼utf-8,ascii的含義和區(qū)別
2、了解單元格格式,幫助你了解后期的timestamp,date,string,int,bigint,char,factor等各類格式。
3、如果時(shí)間還有剩余,可以看《大數(shù)據(jù)時(shí)代》,培養(yǎng)職業(yè)興趣。
第二周:數(shù)據(jù)可視化
數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。別說(shuō)平常人,數(shù)據(jù)分析師自己看數(shù)據(jù)也頭大。這時(shí)就得靠數(shù)據(jù)可視化的神奇魔力了。
以上就是所謂的可視化。排除掉數(shù)據(jù)挖掘這類高級(jí)分析,不少數(shù)據(jù)分析師的平常工作之一就是監(jiān)控?cái)?shù)據(jù)觀察數(shù)據(jù)。
另外數(shù)據(jù)分析師是需要兜售自己的觀點(diǎn)和結(jié)論的。兜售的最好方式就是做出觀點(diǎn)清晰數(shù)據(jù)詳實(shí)的PPT給老板看。如果沒(méi)人認(rèn)同分析結(jié)果,那么分析也不會(huì)被改進(jìn)和優(yōu)化,分析師的價(jià)值在哪里?工資也就漲不了對(duì)吧。
抽空花一段時(shí)間學(xué)習(xí)可視化的基礎(chǔ),如《數(shù)據(jù)之美》
另外你還需要了解BI的概念。知名的BI產(chǎn)品有Tableau,Power BI,還有國(guó)產(chǎn)的FineBI等。都有體驗(yàn)版和免費(fèi)版能下載,網(wǎng)上找一點(diǎn)數(shù)據(jù)就能體驗(yàn)可視化的魅力。比Excel的圖表高級(jí)多了。
BI需要了解儀表盤Dashboard的概念,知道維度的聯(lián)動(dòng)和鉆取,知道絕大多數(shù)圖表適用的場(chǎng)景和怎么繪制。比如以下FineBI制作的dashboard。
第三周:分析思維的訓(xùn)練
這周我們輕松一下,學(xué)學(xué)理論知識(shí)。
分析思維首推大名鼎鼎的《金字塔原理》,幫助數(shù)據(jù)分析師結(jié)構(gòu)化思維。如果金字塔原理讓你醍醐灌頂,那么就可以學(xué)思維導(dǎo)圖,下載一個(gè)XMind中文網(wǎng)站,或者在線用百度腦圖。
再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經(jīng)典。你要快速成為數(shù)據(jù)分析師,思考方式也得跟著改變。網(wǎng)上搜咨詢公司的面試題,搜Case Book。
題目用新學(xué)的思維導(dǎo)圖做,先套那些經(jīng)典框架,做一遍,然后去看答案對(duì)比。因?yàn)橐憻挃?shù)據(jù)分析能力。所以得結(jié)合數(shù)據(jù)導(dǎo)向的思維。
這里送三條金句:
一個(gè)業(yè)務(wù)沒(méi)有指標(biāo),則不能增長(zhǎng)和分析
好的指標(biāo)應(yīng)該是比率或比例
好的分析應(yīng)該對(duì)比或關(guān)聯(lián)。
舉一個(gè)例子:我告訴你一家超市今天有1000人的客流量,你會(huì)怎么分析?
這1000人的數(shù)量,和附件其他超市比是多是少?(對(duì)比)
這1000人的數(shù)量比昨天多還是少?(對(duì)比)
1000人有多少產(chǎn)生了實(shí)際購(gòu)買?(轉(zhuǎn)化比例)
路過(guò)超市,超市外的人流是多少?(轉(zhuǎn)化比例)
這是一個(gè)快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結(jié)果。
第四周:數(shù)據(jù)庫(kù)學(xué)習(xí)
Excel對(duì)十萬(wàn)條以內(nèi)的數(shù)據(jù)處理起來(lái)一點(diǎn)不虛,但是資深的數(shù)據(jù)分析師還是笑摸狗頭,Too Young Too Sample,爺搞得都是百萬(wàn)數(shù)據(jù)。要百萬(wàn)數(shù)據(jù),就得上數(shù)據(jù)庫(kù)。
SQL是數(shù)據(jù)分析師的核心技能之一。有些公司并不給數(shù)據(jù)庫(kù)權(quán)限,需要分析師寫郵件提需求,這非常不好。數(shù)據(jù)分析師經(jīng)常有各類假設(shè)需要驗(yàn)證,很多時(shí)候?qū)懯畮仔蠸QL就能得到的答案,還得麻煩其他部門導(dǎo)出數(shù)據(jù)。
SQL學(xué)習(xí)不需要買書,W3C學(xué)習(xí)就行了,SQL 教程。大多數(shù)互聯(lián)網(wǎng)公司都是MySQL,我也建議學(xué),性價(jià)比最高。
作為數(shù)據(jù)分析師,只要懂Select相關(guān),增刪改、約束、索引、數(shù)據(jù)庫(kù)范式全部略過(guò)。你的公司心得多大才會(huì)給你寫權(quán)限。
了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時(shí)間轉(zhuǎn)換函數(shù)等即可。
你看,和Excel的函數(shù)都差不多。如果時(shí)間充裕,則學(xué)習(xí)row_number,substr,convert,contact等。和Excel一樣,學(xué)會(huì)搜索解決問(wèn)題。不同引擎的函數(shù)也會(huì)有差異,例如Presto和phpMyAdmin。
期間你不需要考慮優(yōu)化和寫法丑陋,查詢幾秒和幾分鐘對(duì)數(shù)據(jù)分析師沒(méi)區(qū)別,跑數(shù)據(jù)時(shí)喝杯咖啡唄,以后你跑個(gè)SVM都能去吃飯了。
網(wǎng)上搜索SQL相關(guān)的練習(xí)題,刷一遍就行。也能自己下載數(shù)據(jù)庫(kù)管理工具,找些數(shù)據(jù)練習(xí)。我用的是Sequel Pro。
第五周:統(tǒng)計(jì)知識(shí)學(xué)習(xí)
統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的基礎(chǔ)之一。
統(tǒng)計(jì)知識(shí)會(huì)要求我們以另一個(gè)角度看待數(shù)據(jù)。當(dāng)你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會(huì)顯著提高。
這一周努力掌握描述性統(tǒng)計(jì),包括均值、中位數(shù)、標(biāo)準(zhǔn)差、方差、概率、假設(shè)檢驗(yàn)、顯著性、總體和抽樣等概念。詳細(xì)的數(shù)學(xué)推導(dǎo)不用細(xì)看,誰(shuí)讓我們是速成呢,只要看到數(shù)據(jù),知道不能怎么樣,而是應(yīng)該這樣分析即可。
Excel中有一個(gè)分析工具庫(kù),簡(jiǎn)單強(qiáng)大。對(duì)列1的各名詞做到了解。如果是多變量多樣本,學(xué)會(huì)各種檢驗(yàn)。
《統(tǒng)計(jì)數(shù)字會(huì)撒謊》休閑讀物,有趣的案例可以讓我們避免很多數(shù)據(jù)陷阱。
深入淺出統(tǒng)計(jì)學(xué) (豆瓣)還是經(jīng)典的HeadFirst系列,適應(yīng)它一貫的啰嗦吧。
多說(shuō)一句,老板和非分析師不會(huì)有興趣知道背后的統(tǒng)計(jì)學(xué)原理,通常要的是分析后的是與否,二元答案。不要告訴他們P值什么的,告訴他們活動(dòng)有效果,或者沒(méi)效果。
第六周:業(yè)務(wù)學(xué)習(xí)(用戶行為、產(chǎn)品、運(yùn)營(yíng))
這一周需要了解業(yè)務(wù)。對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),業(yè)務(wù)的了解比數(shù)據(jù)方法論更重要。當(dāng)然很遺憾,業(yè)務(wù)學(xué)習(xí)沒(méi)有捷徑。
我舉一個(gè)數(shù)據(jù)沙龍上的例子,一家O2O配送公司發(fā)現(xiàn)在重慶地區(qū),外賣員的送貨效率低于其他城市,導(dǎo)致用戶的好評(píng)率降低??偛康臄?shù)據(jù)分析師建立了各個(gè)指標(biāo)去分析原因,都沒(méi)有找出來(lái)問(wèn)題。后來(lái)在訪談中發(fā)覺(jué),因?yàn)橹貞c是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導(dǎo)致送貨效率慢。
這個(gè)案例中,我們只知道送貨員的送貨水平距離,數(shù)據(jù)上根本不可能知道垂直距離這個(gè)指標(biāo)。這就是數(shù)據(jù)的局限,也是只會(huì)看數(shù)據(jù)的分析師和接地氣分析師的最大差異。
對(duì)于業(yè)務(wù)市場(chǎng)的了解是數(shù)據(jù)分析師工作經(jīng)驗(yàn)上最大優(yōu)勢(shì)之一。既然是零經(jīng)驗(yàn)面試,公司肯定也知道剛?cè)腴T分析師不會(huì)有太多業(yè)務(wù)經(jīng)驗(yàn),不會(huì)以這個(gè)卡人。所以簡(jiǎn)單花一周了解行業(yè)的各指標(biāo)。
《增長(zhǎng)黑客》
數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的典型,里面包含產(chǎn)品運(yùn)營(yíng)最經(jīng)典的AAARR框架,部分非數(shù)據(jù)的營(yíng)銷案例,
《網(wǎng)站分析實(shí)戰(zhàn)》
如果應(yīng)聘的公司涉及Web產(chǎn)品,可以了解流量的概念。書中案例以Google Analytics為主。其實(shí)現(xiàn)在是APP+Web的復(fù)合框架,比如朋友圈的傳播活動(dòng)肯定需要用到網(wǎng)頁(yè)的指標(biāo)去分析。
《精益數(shù)據(jù)分析》
互聯(lián)網(wǎng)數(shù)據(jù)分析的入門書籍,歸納總結(jié)了幾個(gè)常用的分析框架。比較遺憾的是案例都是歐美。
還有一個(gè)小建議,現(xiàn)在有不少第三方的數(shù)據(jù)應(yīng)用,囊括了不少產(chǎn)品領(lǐng)域的數(shù)據(jù)分析和統(tǒng)計(jì)。自學(xué)黨們即使沒(méi)有生產(chǎn)環(huán)境的數(shù)據(jù),也可以看一下應(yīng)用Demo,有好處的。
除了業(yè)務(wù)知識(shí),業(yè)務(wù)層面溝通也需要掌握。另外建議在面試前幾天收集該行業(yè)的業(yè)務(wù)強(qiáng)化一下。
第七周:Python/R學(xué)習(xí)
終于到第七周,也是最痛苦的一周。這時(shí)應(yīng)該學(xué)習(xí)編程技巧。是否具備編程能力,是初級(jí)數(shù)據(jù)分析和高級(jí)數(shù)據(jù)分析的風(fēng)水嶺。數(shù)據(jù)挖掘,爬蟲(chóng),可視化報(bào)表都需要用到編程能力。掌握一門優(yōu)秀的編程語(yǔ)言,可以讓數(shù)據(jù)分析師事半功倍,升職加薪,迎娶白富美。
這里有兩條支線,學(xué)習(xí)R語(yǔ)言或Python。速成只要學(xué)習(xí)一條,以后再補(bǔ)上另外一門。
R的優(yōu)點(diǎn)是統(tǒng)計(jì)學(xué)家編寫的,缺點(diǎn)也是統(tǒng)計(jì)學(xué)家編寫。如果是各類統(tǒng)計(jì)函數(shù)的調(diào)用,繪圖,分析的前驗(yàn)性論證,R無(wú)疑有優(yōu)勢(shì)。但是大數(shù)據(jù)量的處理力有不逮,學(xué)習(xí)曲線比較陡峭。Python則是萬(wàn)能的膠水語(yǔ)言,適用性強(qiáng),可以將各類分析的過(guò)程腳本化。Pandas,sklearn等各包也已經(jīng)追平R。
如果學(xué)習(xí)R,建議看《R語(yǔ)言實(shí)戰(zhàn)》,照著書本打一遍代碼,一星期綽綽有余。另外還有一本《統(tǒng)計(jì)學(xué)》,偏知識(shí)理論,可以復(fù)習(xí)前面的統(tǒng)計(jì)學(xué)知識(shí)。
R學(xué)習(xí)和熟悉各種包。知道描述性統(tǒng)計(jì)的函數(shù)。掌握DataFrame。如果時(shí)間有余??梢栽偃W(xué)習(xí)ggplot2。
Python擁有很多分支,我們專注數(shù)據(jù)分析這塊,入門可以學(xué)習(xí)《深入淺出Python》。
需要學(xué)會(huì)條件判斷,字典,切片,循環(huán),迭代,自定義函數(shù)等。知道數(shù)據(jù)領(lǐng)域最經(jīng)典的包Pandas+Numpy。
在速成后的很長(zhǎng)一段時(shí)間,我們都要做調(diào)包俠。
這兩門語(yǔ)言最好安裝IDE,R語(yǔ)言我建議用RStudio,Python我建議用 Anaconda。都是數(shù)據(jù)分析的利器。
Mac自帶Python2.7,但現(xiàn)在Python 3已經(jīng)比幾年前成熟,而且沒(méi)有編碼問(wèn)題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會(huì)有環(huán)境變量的問(wèn)題,是個(gè)大坑(R的中文編碼也是天坑)。
到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會(huì)貫通,畢竟速成是以轉(zhuǎn)崗或拿offer為目的。有機(jī)會(huì),我會(huì)專門寫文章講解每一周的具體知識(shí),并且用爬蟲(chóng)爬一些數(shù)據(jù)做練習(xí)和案例。
謝邀
可見(jiàn)大數(shù)據(jù),發(fā)展的力度。很多人不知道大數(shù)據(jù)怎么交易股票,這這里簡(jiǎn)單說(shuō)下,現(xiàn)在好多券商軟件支持,大數(shù)據(jù)自動(dòng)化交易,也就是說(shuō),當(dāng)你編寫好自己的預(yù)期策略后,由程序根據(jù)你的策略實(shí)行,自動(dòng)化交易?,F(xiàn)在名聲僅次于巴菲特的詹姆斯.西蒙斯,就是大數(shù)據(jù)量化交易的先驅(qū),他名下的大獎(jiǎng)?wù)禄穑褪歉鶕?jù)大數(shù)據(jù)量化交易運(yùn)行。
大數(shù)據(jù)量化交易,可以實(shí)現(xiàn)。一天成百上千次此交易,只要資金允許。這也是發(fā)達(dá)發(fā)達(dá)城市為什么著重研究的對(duì)象。還有大數(shù)據(jù)是未來(lái)的趨勢(shì)。電腦在對(duì)市場(chǎng)熱度的分析,要強(qiáng)于人工識(shí)別。但是論單個(gè)交易,人工肯定強(qiáng)于電腦,但是從現(xiàn)在的基金規(guī)模來(lái)看。電腦交易是主要趨勢(shì)。不管多厲害的基金經(jīng)理,精力都是有限的。
目前的大數(shù)據(jù)都是借助python為主要語(yǔ)言編寫的,感興趣的可以看看相關(guān)方面的學(xué)習(xí)。券商對(duì)自動(dòng)化交易的資金,一般是5w門檻。所以,隨著市場(chǎng)的發(fā)展。大數(shù)據(jù)量化交易,會(huì)慢慢普及。
一、數(shù)據(jù)分析前世今生
近年來(lái),越來(lái)越多的企業(yè)開(kāi)始出現(xiàn)數(shù)據(jù)分析師這個(gè)崗位,無(wú)非可以分為技術(shù)類和非技術(shù)類,技術(shù)類要運(yùn)用算法搭建模型,非技術(shù)類對(duì)模型結(jié)果進(jìn)行可視化展現(xiàn)、數(shù)據(jù)報(bào)告撰寫等。
二、數(shù)據(jù)分析的未來(lái)
不要把自己?jiǎn)渭兊囟x為一名數(shù)據(jù)分析師,企業(yè)不乏做表的(初級(jí)數(shù)據(jù)分析師)、搞模型的(高級(jí)數(shù)據(jù)分析師),財(cái)務(wù)做報(bào)表更厲害,程序員比你更容易上手。數(shù)據(jù)分析一定是一項(xiàng)必備技能,就和PPT、Excel一樣,它是來(lái)輔助工作的,而不是工作的全部。
三、學(xué)習(xí)路線
技術(shù):
Excel
SQL
Python/Spss
可視化
理論:
數(shù)據(jù)分析思維和方法
統(tǒng)計(jì)學(xué)
對(duì)業(yè)務(wù)的理解
四、推薦書籍/網(wǎng)站
以下推薦的書籍和網(wǎng)站絕無(wú)任何廣告嫌疑,只是自己覺(jué)得還不錯(cuò)分享給大家。
1、Excel學(xué)習(xí):
沒(méi)有什么推薦的書籍和網(wǎng)站,網(wǎng)上有很多大神的教程,如果時(shí)間充裕,就系統(tǒng)的學(xué)習(xí)一下,如果時(shí)間緊張,就用臨陣用度娘也是可以解決問(wèn)題的,當(dāng)然,學(xué)什么都最好能夠系統(tǒng)地學(xué)習(xí)。要記住一點(diǎn),我們是用Excel進(jìn)行數(shù)據(jù)分析的,所以應(yīng)當(dāng)從數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析和輸出幾個(gè)方面來(lái)學(xué)習(xí)Excel。
之前的文章也有寫過(guò)這方面的:
用Excel做直方圖(1):隨機(jī)數(shù)發(fā)生器
用Excel做直方圖(2):頻率分布直方圖
用Excel做控制圖
2、SQL學(xué)習(xí)
建議去W3Sschool自己學(xué)習(xí),非常詳細(xì),附網(wǎng)址,https://www.w3cschool.cn/sql/。如果想要練習(xí)的話,可以從SQLZoo去練習(xí),在線版的SQL練習(xí)教程,https://sqlzoo.net/wiki/SQL_Tutorial。書的話《SQL必知必會(huì)》還不錯(cuò),很精簡(jiǎn),基本可以滿足日常表的查詢和維護(hù)了,想要不僅滿足于查詢的話,還可以參考《深入淺出MySQL》,數(shù)據(jù)庫(kù)開(kāi)發(fā)、優(yōu)化與管理,600多頁(yè)。
3、Python學(xué)習(xí)
對(duì)于非程序員出身的新手小白來(lái)說(shuō)入門很簡(jiǎn)單,精通還是不容易的。如果你僅僅是停留在用Python進(jìn)行數(shù)據(jù)處理和分析的階段上,建議《利用Python進(jìn)行數(shù)據(jù)分析》這本書非常不錯(cuò),不要去學(xué)python開(kāi)發(fā)、python編程之類的書,Python可以用來(lái)做很多事情,但對(duì)于數(shù)據(jù)分析師而言,我們可能不需要用Python來(lái)開(kāi)發(fā)什么游戲、網(wǎng)站等,我們只需要進(jìn)行數(shù)據(jù)控制、處理、整理和分析即可,系統(tǒng)地學(xué)一下python中的數(shù)據(jù)科學(xué)庫(kù)是非常有必要的,如:Numpy、pandas等。
4、可視化
有很多可視化的工具,用Excel可以實(shí)現(xiàn)可視化,powerBI、Tableau、Python也可以可視化。工具的選擇是一方面,另一方面是對(duì)于圖表的理解,什么場(chǎng)合適用什么樣的圖表。
用Excel做排列圖
5、數(shù)據(jù)分析的思維和方法
參考書籍《深入淺出數(shù)據(jù)分析》,把道理方法講的很透徹的一本書,對(duì)于深入理解底層邏輯很友好?!墩l(shuí)說(shuō)菜鳥(niǎo)不會(huì)數(shù)據(jù)分析》系列,主要是對(duì)于方法和工具使用的學(xué)習(xí)。可參考之前的文章 數(shù)據(jù)分析方法論 來(lái)大概了解。
6、統(tǒng)計(jì)學(xué)
《深入淺出統(tǒng)計(jì)學(xué)》非常棒的一本書,對(duì)于統(tǒng)計(jì)學(xué)的基本概念的解釋非常直白到位,讓小白能夠清楚地理解這個(gè)公式為什么是這樣子的,而不是直接擺公式。底層邏輯明白后,可以參考李航的《統(tǒng)計(jì)學(xué)習(xí)方法》,這是大學(xué)課本,有時(shí)間的話還是應(yīng)該好好研究一下系統(tǒng)邏輯的。
7、對(duì)業(yè)務(wù)的理解
推薦《數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營(yíng)實(shí)戰(zhàn)》,這本書對(duì)業(yè)務(wù)與數(shù)據(jù)分析怎么結(jié)合有很詳細(xì)的說(shuō)明和實(shí)例。
想要做好數(shù)據(jù)分析,兩個(gè)方面的內(nèi)容不可缺少:一是有精準(zhǔn)的數(shù)據(jù)支撐,這是做研究的基本,這一點(diǎn)需要有好的數(shù)據(jù)庫(kù);二是要有清晰流暢的邏輯思維,才能形成完整的、可以轉(zhuǎn)化效能的報(bào)告,這一點(diǎn)可以通過(guò)大量觀看優(yōu)質(zhì)的報(bào)告練成。
對(duì)于個(gè)人來(lái)說(shuō),關(guān)注行業(yè)動(dòng)態(tài)是十分有必要的,多看數(shù)據(jù),找到1他們其中的關(guān)聯(lián),慢慢就能形成數(shù)據(jù)分析的思維了。
首先你要學(xué)會(huì)列框架。在看了大量的報(bào)告之后,形成自己的思維邏輯,從背景、現(xiàn)狀、展望的大邏輯到一些角度的自我選擇,就能形成具有自己獨(dú)特性的分析報(bào)告了。
然后就是動(dòng)筆,筆桿子是可以練出來(lái)的,光動(dòng)腦筋可不行,很容易忘記的,所以要?jiǎng)庸P寫下來(lái),也許最初你做的數(shù)據(jù)分析還是一團(tuán)亂麻,不管是內(nèi)容還是形式都不好看,但只要堅(jiān)持做下去就可熟能生巧。
小易作為數(shù)據(jù)分析二十年的老手,希望給您提供一點(diǎn)幫助……
1.行業(yè)研究報(bào)告以去看看易觀分析-數(shù)據(jù)驅(qū)動(dòng)精益成長(zhǎng)的易觀博閱
易觀分析研究覆蓋上百個(gè)領(lǐng)域,持續(xù)積累十余年的5000份行業(yè)深度分析,可以在里面查到最新行業(yè)研究,對(duì)市場(chǎng)與企業(yè)進(jìn)行全方位的解讀。
2.行業(yè)數(shù)據(jù)可以了解一下易觀千帆,目前市面上很多研報(bào),媒體數(shù)據(jù),招股書數(shù)據(jù)都有引用易觀千帆數(shù)據(jù)。
易觀千帆 - 移動(dòng)互聯(lián)網(wǎng)產(chǎn)品競(jìng)爭(zhēng)分析
3.行業(yè)與產(chǎn)品數(shù)據(jù)可以去關(guān)注下易觀千帆 - 移動(dòng)互聯(lián)網(wǎng)產(chǎn)品競(jìng)爭(zhēng)分析
易觀千帆基于數(shù)字用戶在移動(dòng)終端 的海量數(shù)據(jù),進(jìn)行分析挖掘的大數(shù)據(jù)產(chǎn)品。建立客觀、權(quán)威的移動(dòng)應(yīng)用評(píng)級(jí),分析用戶行為特征、建立數(shù)字消費(fèi)者用戶畫像, 為客戶提供內(nèi)部運(yùn)營(yíng)決策和外部競(jìng)爭(zhēng)分析的一站式服務(wù)。
洞察行業(yè)趨勢(shì):覆蓋全網(wǎng)熱門APP,了解自身在市場(chǎng)中所 處的位置,發(fā)現(xiàn)市場(chǎng)中的競(jìng)爭(zhēng)對(duì)手
競(jìng)品對(duì)標(biāo)分析:覆蓋全網(wǎng)315行業(yè),快速了解細(xì)分品類競(jìng)手的發(fā)展 情況,制定市場(chǎng)策略
用戶偏好分析:分析用戶基礎(chǔ)屬性及興趣偏好,推動(dòng)用戶增長(zhǎng),提升ARPU
挖掘投資機(jī)會(huì):尋找行業(yè)賽道黑馬,挖掘投前投后的價(jià)值分析
沒(méi)人邀我,我就不謝邀了~
就目前我們這個(gè)互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代來(lái)說(shuō),不光人人都是產(chǎn)品經(jīng)理,連數(shù)據(jù)分析每個(gè)人每天都會(huì)碰到。你手機(jī)里的app,你上網(wǎng)的痕跡,你每天都在和各種各樣的數(shù)據(jù)打交道,都在歸置自己身上的數(shù)據(jù)標(biāo)簽和數(shù)據(jù)信息。
這是一個(gè)大數(shù)據(jù)的時(shí)代,也是充滿機(jī)遇的時(shí)代。各個(gè)行業(yè)都在進(jìn)行數(shù)字化轉(zhuǎn)型,想依靠數(shù)據(jù)來(lái)競(jìng)爭(zhēng),大家都相信得數(shù)據(jù)者可以得到“天下”,像目前世界500強(qiáng)的企業(yè)當(dāng)中 ,百分之90的公司都建立了數(shù)據(jù)分析的部門,數(shù)據(jù)分析這個(gè)職業(yè)也變得熱門起來(lái)。在知乎上一搜數(shù)據(jù)分析,還蠻多問(wèn)題是想轉(zhuǎn)行數(shù)據(jù)分析行業(yè)或者是想從事數(shù)據(jù)行業(yè),但是不知道怎么入手的小白們提問(wèn)的,就和題主一樣,知道數(shù)據(jù)分析的大概意思,但是不知道該掌握哪些具體知識(shí)。
那么我作為一個(gè)數(shù)據(jù)可視化從業(yè)者哈~也在工作中碰到不少數(shù)據(jù)分析的事情,我就結(jié)合我自身的經(jīng)驗(yàn),給題主一些建議
什么是數(shù)據(jù)分析?
數(shù)據(jù)分析從字面意思來(lái)看,即“數(shù)據(jù)+分析”。
數(shù)據(jù)是基礎(chǔ),分析是結(jié)果。數(shù)據(jù)存在是既定的事實(shí),但是面對(duì)無(wú)序的數(shù)據(jù),人類是無(wú)法發(fā)現(xiàn)其中蘊(yùn)含的問(wèn)題。所以需要通過(guò)數(shù)據(jù)分析師來(lái)將數(shù)據(jù)進(jìn)行全方位的解析,才能把無(wú)序的數(shù)據(jù)變?yōu)槟軌蚴褂玫臄?shù)據(jù),為人類提供有貢獻(xiàn)信息,才能體現(xiàn)出數(shù)據(jù)的價(jià)值所在。
為什么要做數(shù)據(jù)分析?
數(shù)據(jù)分析的作用和價(jià)值我們可以概括為以下四個(gè)方面:
處理數(shù)據(jù)分析時(shí)要了解什么?
大數(shù)據(jù)對(duì)所有的行業(yè)部門都至關(guān)重要。但是很顯然,不同的行業(yè)數(shù)據(jù)分析師面對(duì)行業(yè)數(shù)據(jù)所需要提取的數(shù)據(jù)信息是不同的,所以你需要知道自己的目標(biāo)行業(yè)對(duì)數(shù)據(jù)分析的需求是什么,比如以下幾個(gè)行業(yè) :
教育大數(shù)據(jù)
保險(xiǎn)業(yè)
政府產(chǎn)業(yè)
銀行業(yè)
數(shù)據(jù)分析師應(yīng)該具備什么特質(zhì)?
了解了你分析數(shù)據(jù)時(shí)候應(yīng)該注重什么,接下來(lái)就要明白自己作為一個(gè)數(shù)據(jù)分析師應(yīng)該具備什么樣的特質(zhì),我也為題主總結(jié)了幾點(diǎn):
數(shù)據(jù)分析師該掌握什么基礎(chǔ)技能?
入門級(jí)的數(shù)據(jù)分析師,肯定不要好高騖遠(yuǎn),先把Excel玩轉(zhuǎn)再說(shuō),不要以為Excel就是個(gè)簡(jiǎn)單的表格工具,它的強(qiáng)大你想象不到,我相信知乎上肯定很多有Excel的專業(yè)教程,我這里也不展開(kāi)詳細(xì)的講解。
當(dāng)然想成為一個(gè)成功的數(shù)據(jù)分析師單單掌握Excel是肯定不夠的,因?yàn)檫@只是一個(gè)數(shù)據(jù)分析的呈現(xiàn),真正的數(shù)據(jù)分析師必須要通過(guò)數(shù)據(jù)現(xiàn)象的查看來(lái)完成對(duì)產(chǎn)品的營(yíng)銷策略、運(yùn)營(yíng)策略的優(yōu)化 ,不僅是對(duì)業(yè)務(wù)需要有一定的了解,還需要掌握各種數(shù)據(jù)分析的技能,從能力上來(lái)增長(zhǎng)自己。
我根據(jù)前人的經(jīng)驗(yàn)和網(wǎng)絡(luò)上大家對(duì)數(shù)據(jù)分析技能的共識(shí)總結(jié)出以下幾點(diǎn):
一個(gè)合格的、高級(jí)的數(shù)據(jù)分析師應(yīng)該掌握的技能:
以上就是我對(duì)題主疑惑 的解答,當(dāng)然其實(shí)想要學(xué)習(xí)一個(gè)新的東西方法論雖然很重要,但是最重要的還是要保持永遠(yuǎn)學(xué)習(xí)的心態(tài),因?yàn)槭澜缛f(wàn)物不斷在變,特別是互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)這種東西太飄忽不定了,不時(shí)刻更新自己的知識(shí)庫(kù),很容易在前進(jìn)的路上掉隊(duì),被后浪拍打在沙灘上。今天你是小白,那么一段時(shí)間過(guò)后,你必須讓自己成為具有一定優(yōu)勢(shì)的人,才不會(huì)被時(shí)代淘汰哦~
最后想要了解數(shù)據(jù)可視化的更多知識(shí),歡迎關(guān)注我呀~~
數(shù)據(jù)分析師是一個(gè)綜合的崗位,除了熟悉業(yè)務(wù),還需要掌握多項(xiàng)技能,例如Excel、SQL、統(tǒng)計(jì)學(xué)及SPSS,R/Python,海量數(shù)據(jù)的情況下需要在大數(shù)據(jù)平臺(tái)下分析,所以還需要掌握Hadoop相關(guān)的技術(shù),如Hive、HBase等。
由于涉及的技術(shù)較多,一下都學(xué)完不現(xiàn)實(shí),所以,學(xué)習(xí)數(shù)據(jù)分析建議分成三個(gè)階段進(jìn)行:
1、商業(yè)數(shù)據(jù)分析
2、涉及算法的數(shù)據(jù)挖掘
3、大數(shù)據(jù)平臺(tái)下的分析
對(duì)于大部分公司來(lái)說(shuō),數(shù)據(jù)量不是很龐大,數(shù)據(jù)分析通過(guò)Excel,SPSS等工具就可以搞定,此時(shí)需要掌握的技能有Excel、MySQL、統(tǒng)計(jì)學(xué)及SPSS。
學(xué)完這些技能后,可以去很多公司做一名商業(yè)數(shù)據(jù)分析師,支撐市場(chǎng)部、運(yùn)營(yíng)部等的數(shù)據(jù)分析工作。
1、Excel
Excel這部分需要學(xué)習(xí)的內(nèi)容有3塊:Excel公式、數(shù)據(jù)透視表及Excel數(shù)據(jù)圖表。
說(shuō)明:關(guān)于每一塊需要掌握哪些技能,可以看我的另外一個(gè)回答:零基礎(chǔ)如何入門數(shù)據(jù)分析?
關(guān)于Excel的書籍、教程有很多,找?guī)妆窘?jīng)典來(lái)學(xué)習(xí)一下,重要的是練習(xí),看完教程后,一定要自己動(dòng)手做一遍,才有可能掌握。
推薦書籍:
《誰(shuí)說(shuō)菜鳥(niǎo)不會(huì)數(shù)據(jù)分析》系列
《Excel圖表之道:如何制作專業(yè)有效的商務(wù)圖表》
《別怕,Excel VBA其實(shí)很簡(jiǎn)單》
2、MySQL
作為數(shù)據(jù)分析師,需要跟數(shù)據(jù)打交道,所以懂點(diǎn)SQL也是必要的。
關(guān)于SQL的書籍、免費(fèi)資料也有很多,這里推薦2本,重點(diǎn)仍然是多動(dòng)手練習(xí)。
推薦書籍:
入門書籍:《MySQL必知必會(huì)》,人郵出版社。
進(jìn)階書籍:《SQL進(jìn)階教程》,[日]MICK。
3、統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)是必須的,不懂統(tǒng)計(jì)學(xué)根本算不上數(shù)據(jù)分析師,具體內(nèi)容有:
1、統(tǒng)計(jì)學(xué):統(tǒng)計(jì)學(xué)基礎(chǔ)、參數(shù)估計(jì)、假設(shè)檢驗(yàn)、方差分析、線性回歸、時(shí)間序列。
2、多元統(tǒng)計(jì)分析:聚類分析、主成分分析及因子分析。
從上面可以看到,統(tǒng)計(jì)學(xué)學(xué)習(xí)可以分成兩個(gè)階段進(jìn)行,統(tǒng)計(jì)學(xué)和多元統(tǒng)計(jì)分析,重點(diǎn)是多動(dòng)手做題、思考。
推薦書籍:
第一階段,推薦書籍,賈俊平的《統(tǒng)計(jì)學(xué)》,人大出版社;
第二階段,推薦書籍,何曉群的《多元統(tǒng)計(jì)學(xué)分析》,人大出版社。
PS:數(shù)學(xué)零基礎(chǔ)的童鞋,可以先看下《Head First 統(tǒng)計(jì)學(xué)》(又名《深入淺出統(tǒng)計(jì)學(xué)》)
4、SPSS
因?yàn)榻y(tǒng)計(jì)學(xué)很有些分析方法通過(guò)Excel就可以搞定;有些不行,必須通過(guò)其他工具才能搞定,例如多元線性回歸、聚類分析、主成分分析及因子分析,都需要用到SPSS。
在掌握了統(tǒng)計(jì)學(xué)的基礎(chǔ)上,在學(xué)習(xí)SPSS是很容易的,因?yàn)镾PSS只是一個(gè)工具而已。
推薦書籍:
《統(tǒng)計(jì)分析與SPSS的應(yīng)用》,薛微,人大出版社。
《PASW/SPSS Statistics中文版統(tǒng)計(jì)分析教程》,電子工業(yè)出版社。
附:數(shù)據(jù)分析必備SPSS主要知識(shí)點(diǎn)。
有些數(shù)據(jù)分析工作,需要通過(guò)統(tǒng)計(jì)算法及機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行,所以還需要掌握Python或者R。
掌握了R數(shù)據(jù)分析或者Python數(shù)據(jù)分析技能后,可以去一些公司做基于統(tǒng)計(jì)算法或者機(jī)器學(xué)習(xí)算法的數(shù)據(jù)分析及挖掘工作。
1、Python
Python數(shù)據(jù)分析主要包括Python語(yǔ)法基礎(chǔ)、常用數(shù)據(jù)分析擴(kuò)展包Numpy、Pandas、Matplotlib等、Python數(shù)據(jù)探索及預(yù)處理、Python機(jī)器學(xué)習(xí)等。
限于篇幅,具體需要掌握哪些技能這里就不詳細(xì)列出了,可以去看我的另外一個(gè)回答:怎么學(xué)習(xí)python數(shù)據(jù)分析?
推薦書籍:
《Python編程從入門到實(shí)踐,[美]Eric Matthes》
《利用Python進(jìn)行數(shù)據(jù)分析,Wes McKinney,機(jī)械工業(yè)出版社》
《Python機(jī)器學(xué)習(xí)基礎(chǔ)教程》,[德]Andreas C. Müller [美]Sarah Guido
2、R
R數(shù)據(jù)分析包括R語(yǔ)言基礎(chǔ)、R數(shù)據(jù)可視化、R數(shù)據(jù)預(yù)處理、R統(tǒng)計(jì)分析及R機(jī)器學(xué)習(xí)。
附:數(shù)據(jù)分析必備R語(yǔ)言知識(shí)點(diǎn)。
推薦書籍:
《R語(yǔ)言初學(xué)者指南》,[英]Alian
F.Zuur
等,西安交通大學(xué)出版社《R語(yǔ)言實(shí)戰(zhàn)(第2版)》,Robert
I.Kabacoff
,人民郵電出版社在一些大公司,海量數(shù)據(jù)的情況下,數(shù)據(jù)都是運(yùn)行在大數(shù)據(jù)平臺(tái)上(Hadoop),還需要懂MapReduce、Hive、HBase數(shù)據(jù)倉(cāng)庫(kù)等技術(shù)。當(dāng)然這些可以在工作學(xué)習(xí)、積累。
回答完畢!
數(shù)據(jù)分析是一項(xiàng)龐雜的任務(wù),我之前在“東軟平臺(tái)產(chǎn)品”官網(wǎng)看過(guò)DataViz這個(gè)數(shù)據(jù)可視化分析工具,感覺(jué)還挺不錯(cuò)的
一般問(wèn)出這個(gè)問(wèn)題大多是對(duì)數(shù)據(jù)分析沒(méi)有太深入的了解,甚至可以說(shuō)零基礎(chǔ),那我們就針對(duì)零基礎(chǔ)來(lái)談一談如何學(xué)習(xí)數(shù)據(jù)分析。
l零基礎(chǔ)小白的定義是這樣的:
對(duì)于小白來(lái)說(shuō),主要需要學(xué)習(xí)這些內(nèi)容:
獲取更多數(shù)據(jù)分析相關(guān)資訊歡迎關(guān)注我們的公眾號(hào):聚數(shù)云海。免費(fèi)獲取數(shù)據(jù)分析師大廠真題。
我的職位不是數(shù)據(jù)分析師,是數(shù)據(jù)運(yùn)營(yíng)。很多工作和數(shù)據(jù)分析重合,屬于既做運(yùn)營(yíng)、又做數(shù)據(jù),可能還參雜其他角色。
最開(kāi)始我是從運(yùn)營(yíng)接觸上手?jǐn)?shù)據(jù),沒(méi)有編程的基礎(chǔ),也沒(méi)有統(tǒng)計(jì)的知識(shí)。大學(xué)的幾門課我都是靠同學(xué)才過(guò)的,掩面哭??赡芪伊憬?jīng)驗(yàn)的經(jīng)歷對(duì)大部分有志于從事數(shù)據(jù)分析的朋友都是一個(gè)參考。
剛開(kāi)始工作我可是連vlookup都不會(huì),也沒(méi)人教我,excel只會(huì)很基礎(chǔ)的操作。那時(shí)要關(guān)聯(lián)多張報(bào)表,我仗著手速快,一個(gè)個(gè)對(duì)照復(fù)制黏貼的…要是數(shù)量一多肯定哭。后來(lái)我想這可不是辦法啊。于是借助萬(wàn)能的百度:
“excel怎么匹配多張表的數(shù)據(jù)?!?/p>
于是看到vlookup函數(shù)。每次用都要先看一遍網(wǎng)上的樣例,不然會(huì)有各種問(wèn)題。用了幾次才會(huì)用。
那時(shí)候運(yùn)營(yíng)方面的數(shù)據(jù)需求還好,很多都是自己間歇時(shí)間琢磨。比如什么樣的用戶愿意用我們APP。于是我希望研發(fā)能有各種報(bào)表的下載,然后我用excel關(guān)聯(lián),做一些簡(jiǎn)單的分析。
期間當(dāng)然犯了很多新手犯的錯(cuò)誤,比如相關(guān)性不代表因果性,比如極值的影響,比如樣本數(shù)量不滿足置信度。
少年不知天高地厚,不過(guò)我依舊樂(lè)在其中。做數(shù)據(jù)分析要有勃勃的好奇心。
記得是15年初,老板給了我一個(gè)任務(wù),收集各地的醫(yī)院數(shù)據(jù)。我一看網(wǎng)上醫(yī)院有幾萬(wàn)家,我又要快哭了,我手速再快也復(fù)制黏貼不了啊。于是求助了解到爬蟲(chóng)這么一個(gè)磨人的好東西。
那時(shí)水平不夠用Python+Scrapy,找來(lái)了一款火車頭的爬蟲(chóng)工具。然后按著教程走,順便了解了Html+CSS的網(wǎng)頁(yè)結(jié)構(gòu)。
加了兩天班,終于抓下來(lái)數(shù)據(jù)。
再次哭了,不是感動(dòng)的。
這都什么亂七八糟的數(shù)據(jù)。不僅有錯(cuò)位,亂碼,空格,還有重名。什么上海市第一醫(yī)院,上海第一醫(yī)院,上海市第一人民醫(yī)院,上海市第一醫(yī)院。你同一家醫(yī)院給我網(wǎng)上放四個(gè)!!更別提分院、地址不匹配等等。
后來(lái)才知道這步驟叫數(shù)據(jù)清洗。繼續(xù)用excel函數(shù)整理。我一直信奉的準(zhǔn)則是:如果能用簡(jiǎn)單的,可復(fù)用的方法,就絕對(duì)不重復(fù)操作。我堅(jiān)信永遠(yuǎn)有省時(shí)省力的方案。這期間Excel水平提高的飛快。另外也養(yǎng)成了隨時(shí)保存的好習(xí)慣,微笑臉。
雖然爬蟲(chóng)從學(xué)習(xí)到成功還是花了不少時(shí)間。但是和從網(wǎng)上拷貝下來(lái)比,那效率是高多了。
大概同一時(shí)期,我把網(wǎng)站也學(xué)習(xí)了。
我們產(chǎn)品是APP+Web框架,很多功能和活動(dòng)都是用Web頁(yè)實(shí)現(xiàn)。當(dāng)時(shí)用的是百度統(tǒng)計(jì)。系統(tǒng)的學(xué)習(xí)了漏斗轉(zhuǎn)化,訪問(wèn)路徑,跳出率退出率等。
那時(shí)針對(duì)各類活動(dòng)的分析都能迅速落地,比如活動(dòng)期間的流量,用戶的轉(zhuǎn)化率等,都是能很快獲得反饋的分析,是能對(duì)運(yùn)營(yíng)產(chǎn)生直接了解的。后續(xù)的活動(dòng)都納入了分析,也將百度統(tǒng)計(jì)的相關(guān)應(yīng)用推廣到運(yùn)營(yíng)部門。
隨著分析的深入,自己對(duì)分析也有更高的數(shù)據(jù)要求。比如什么樣的用戶更容易參加活動(dòng)?用戶流失的原因是什么?
不論是下載的報(bào)表,還是網(wǎng)頁(yè)統(tǒng)計(jì),在當(dāng)時(shí)都很難做到。很長(zhǎng)一段時(shí)間只能用粗略的描述性統(tǒng)計(jì),而不能定位到具體的人。
數(shù)據(jù)分析很多技能都能后天磨練,但我覺(jué)得一個(gè)好的數(shù)據(jù)分析師一定會(huì)有好奇心,會(huì)去提問(wèn),會(huì)想問(wèn)題,也能去解決問(wèn)題。不是為了分析而分析。
隨著公司業(yè)務(wù)線的拓展、用戶數(shù)量的提升。我用Excel做關(guān)聯(lián)越來(lái)越吃力,效率也幾何程度的降低。15年8月的時(shí)候,我再一次向研發(fā)老大提需求時(shí),他對(duì)我說(shuō):要不給你開(kāi)個(gè)數(shù)據(jù)庫(kù)權(quán)限,你自己查吧。
我:我不會(huì)SQL啊。
研發(fā):不要緊,很容易學(xué)的。
我:好啊好啊。
我內(nèi)心是很爽的,老子再也不用求你們了!
一個(gè)月后,所有部門的數(shù)據(jù)需求都不走研發(fā),而是堆疊到我這。顯然讓我用SQL是有天大的預(yù)謀??晌疫€是很感謝接觸SQL,讓我能接觸到的數(shù)據(jù)呈幾何上升。
那時(shí)期還有一個(gè)任務(wù)挑戰(zhàn),我需要搭建用戶運(yùn)營(yíng)的數(shù)據(jù)體系,包括留存、活躍、回流、分層等指標(biāo)。我網(wǎng)上一邊查運(yùn)營(yíng)指標(biāo)的應(yīng)用和解釋,一邊查SQL的實(shí)現(xiàn)。
這是我第一次開(kāi)始接觸、了解和建立以業(yè)務(wù)為核心的數(shù)據(jù)體系。
當(dāng)時(shí),我們運(yùn)營(yíng),好長(zhǎng)一段時(shí)間的推送、短信、營(yíng)銷都是全量。一故腦兒的都推給用戶,沒(méi)有細(xì)分。在指標(biāo)建立后,我們部門開(kāi)始嘗試用自己數(shù)據(jù)體系去運(yùn)營(yíng)。
舉兩個(gè)最簡(jiǎn)單的例子:比如你最近打開(kāi)過(guò)我們APP,那么我們就不會(huì)給你推最新的活動(dòng)短信,因?yàn)槲覀兡J(rèn)你能在APP中看到。
再比如,用戶用過(guò)APP很長(zhǎng)一段時(shí)間,我們冠他叫忠誠(chéng)用戶,后來(lái)突然他連續(xù)幾周不用,那么我們會(huì)找出這個(gè)用戶,電話詢問(wèn)為什么不用,嘗試喚回他。
也是從那時(shí)開(kāi)始,我有意的去衡量各類運(yùn)營(yíng)效果,比如活動(dòng)的人均成本,短信的人均效果成本,用戶價(jià)值周期等。并且不斷優(yōu)化。
利用數(shù)據(jù)建立指標(biāo),對(duì)業(yè)務(wù)最直觀的感受就是有據(jù)可依,分析和運(yùn)營(yíng)能夠有針對(duì)性。
數(shù)據(jù)多起來(lái)后,每日維護(hù)數(shù)據(jù)報(bào)表成了最花時(shí)間的事。雖然當(dāng)時(shí)我們用了Presto+Airpal的數(shù)據(jù)平臺(tái),但不管各類業(yè)務(wù)線,還是APP基礎(chǔ)數(shù)據(jù),我和我部門花費(fèi)在整理上的時(shí)間越來(lái)越多,分析越來(lái)越少,更不要說(shuō)落地和執(zhí)行。
之后則順理成章地引入BI,在此之前我都不知道BI是個(gè)什么鬼。
(圖例,當(dāng)時(shí)了解后,我就這么被BI給折服了)
BI的學(xué)習(xí)曲線沒(méi)那么陡峭,為了實(shí)現(xiàn)運(yùn)營(yíng)的數(shù)據(jù)報(bào)表自動(dòng)化(依舊是為了省時(shí)省力),請(qǐng)求研發(fā)(一頓飯)多帶帶開(kāi)了一臺(tái)服務(wù)器進(jìn)行私有化部署,連接數(shù)據(jù)庫(kù),花了大約一個(gè)月的時(shí)間將所有的報(bào)表需求都遷移到服務(wù)器上。
爽。
很多工作都簡(jiǎn)化或者剔除:能夠監(jiān)控任何的推送和短信效果,市場(chǎng)銷售的分析能夠定位到人,隨時(shí)掌握業(yè)務(wù)線的波動(dòng)。
有數(shù)據(jù)才能分析,能有充裕的人手安排監(jiān)控和觀察數(shù)據(jù),至此,運(yùn)營(yíng)的數(shù)據(jù)體系有了基礎(chǔ)。
在15下半年,我則向產(chǎn)品提出(沒(méi)請(qǐng)吃飯)需求希望布置APP和Web埋點(diǎn),通過(guò)用戶的路徑了解用戶,也彌補(bǔ)百度統(tǒng)計(jì)的缺點(diǎn)。埋點(diǎn)數(shù)據(jù)亦全不亦少,亦早不亦遲,我們埋點(diǎn)比較遲,如果早一點(diǎn),可能有更多時(shí)間進(jìn)行優(yōu)化工作。
當(dāng)時(shí)經(jīng)過(guò)考慮,埋點(diǎn)數(shù)據(jù)會(huì)比較多,要用到Hadoop,雖然從后續(xù)看,Hadoop并不是必需的選擇。但是也提前讓我了解到大數(shù)據(jù)(當(dāng)然數(shù)據(jù)本身不大,具體是相關(guān)領(lǐng)域技術(shù))。
埋點(diǎn)數(shù)據(jù)使用Hive建立離線的腳本清洗、分區(qū)、加工后導(dǎo)入到MySQL。蠻遺憾的是業(yè)務(wù)用不太到Hadoop,只是數(shù)據(jù)管理而已,所以我了解不怎么深。
到此底層的數(shù)據(jù)都已經(jīng)完善。后續(xù)都是上層的加工。
今年初,我開(kāi)始學(xué)習(xí)數(shù)據(jù)挖掘,往數(shù)據(jù)分析更高層進(jìn)階,先入手的是R。
自身沒(méi)有啥編程基礎(chǔ),基本上是工作后和研發(fā)的耳濡目染,所以學(xué)起來(lái)較為吃力。主要是敲書上的語(yǔ)句學(xué)習(xí)。整本書敲下來(lái),基本了解拿到一堆數(shù)據(jù)知道怎么清洗,怎么使用描述性統(tǒng)計(jì),怎么進(jìn)行作圖。
基礎(chǔ)學(xué)的差不多,開(kāi)始啃算法,我是應(yīng)用型為主,所以絕大部分的算法都不學(xué)習(xí)數(shù)學(xué)推導(dǎo)。當(dāng)然決策樹(shù),K聚類這種簡(jiǎn)單的都掌握。
大概所有數(shù)據(jù)挖掘的初學(xué)者,都會(huì)用到Iris Data的數(shù)據(jù),然后就是泰坦尼克的幸存者分析吧。是的話點(diǎn)個(gè)贊,哈哈。
我不是啥數(shù)據(jù)挖掘工程師,我喜歡稱自己調(diào)包俠。
后來(lái)還去參加了數(shù)據(jù)挖掘的比賽,是一個(gè)信用欺詐模型,典型的數(shù)據(jù)不平衡問(wèn)題。數(shù)據(jù)完全脫敏,從字段上無(wú)法得知業(yè)務(wù)意義。
這和平時(shí)直接拿干凈的數(shù)據(jù)源做模型完全兩回事,模型的recall一直不理想,最終也沒(méi)有什么成績(jī),最大的幫助就是知道自己有多井底之蛙。
后來(lái)重視特征選擇、特征加工這塊。好的數(shù)據(jù)和特征,能夠很大程度決定模型的優(yōu)劣。我之前練習(xí)時(shí),因?yàn)槲冶旧硎沁\(yùn)營(yíng),挑選的特征都是經(jīng)過(guò)擇優(yōu)和強(qiáng)相關(guān)的,實(shí)際特征工程是我非常大的短板。
關(guān)于數(shù)據(jù)挖掘我還在不斷學(xué)習(xí)的過(guò)程中,以后有機(jī)會(huì)再多補(bǔ)充吧。
Python的學(xué)習(xí),說(shuō)來(lái)還是歸因于研發(fā)大哥們(這次不請(qǐng)飯了)。因?yàn)槲覀儤I(yè)務(wù)線的數(shù)據(jù)比較多,產(chǎn)品改需求更多,很多表的結(jié)構(gòu)不堪入目,常用的SQL必需各種嵌套,應(yīng)用起來(lái)比較麻煩。
我不喜歡重復(fù)無(wú)意義的工作,我希望有清洗整理過(guò)的數(shù)據(jù),于是提需求。
結(jié)果當(dāng)然是需求延期。
這個(gè)讓我想起了一段經(jīng)典的對(duì)話:
產(chǎn)品&運(yùn)營(yíng):這個(gè)很簡(jiǎn)單的
研發(fā):U Can U Up
仔細(xì)思考了一下,數(shù)據(jù)清洗我肯定會(huì)不斷改需求(我就是對(duì)自己如此不自信),請(qǐng)研發(fā)大哥們的咖啡和晚飯會(huì)比較多,那還不如自己動(dòng)手,反正數(shù)據(jù)分析將來(lái)也得用Python,撩袖管UP。
下載Python,安裝GitLab,開(kāi)啟CI權(quán)限,然后進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的規(guī)劃。我自然不知道數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該是啥樣子。反正目標(biāo)是我們運(yùn)營(yíng)數(shù)據(jù)怎么用怎么爽…
繼續(xù)拿起書本,用Pandas編寫ETL和數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)代碼。期間對(duì)數(shù)據(jù)表進(jìn)行了無(wú)數(shù)次的調(diào)整,性能優(yōu)化查詢優(yōu)化,怎么樣能適應(yīng)業(yè)務(wù)的拓展,如何防止數(shù)據(jù)膨脹。
Truncate無(wú)數(shù)次,換其他公司早被砍了吧。
最終總算滿意,并且將常用的幾個(gè)清洗過(guò)程函數(shù)化,以后可以快速?gòu)?fù)用建表。比如七天內(nèi)某業(yè)務(wù)數(shù)據(jù),三十日內(nèi)某業(yè)務(wù)數(shù)據(jù)。
數(shù)據(jù)挖掘的常用特征庫(kù)一并建立,會(huì)用離線算法進(jìn)行一些業(yè)務(wù)響應(yīng)模型的預(yù)測(cè),準(zhǔn)確率達(dá)到75%以上。雖然和大牛們比不咋滴,但是作為運(yùn)營(yíng)有算法模型,感覺(jué)還是蠻爽的。
下一步,我們團(tuán)隊(duì)開(kāi)始用數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),抽象成用戶畫像。
我網(wǎng)上看過(guò)很多用戶畫像的文章,比如用戶的年齡、性別、愛(ài)好、財(cái)務(wù)狀況等畫像,可我們不是電商行業(yè),用戶的興趣對(duì)我們的業(yè)務(wù)沒(méi)有實(shí)際幫助。我則只根據(jù)自身對(duì)業(yè)務(wù)的理解制定畫像標(biāo)準(zhǔn)。
例如以經(jīng)典的RFM框架,制作標(biāo)簽:一個(gè)月沒(méi)有產(chǎn)生訂單、近期產(chǎn)生的訂單頻率較低等。幫助銷售和運(yùn)營(yíng)判定用戶需要激勵(lì)還是發(fā)展。
說(shuō)白了,我不了解其他企業(yè)的用戶畫像,可能水平再高點(diǎn),會(huì)用上主成分分析或者聚類等。但我依舊堅(jiān)持以自身運(yùn)營(yíng)的角度去分析和提煉,只要對(duì)業(yè)務(wù)有幫助就是好的用戶畫像。幸好畫像的代碼都是自己搞定,后期要改需求也是自己改,不用請(qǐng)吃飯了。
自己對(duì)數(shù)據(jù)分析的了解和深入,都是工作中一步一個(gè)腳印走下去的。有模仿前人的經(jīng)驗(yàn),也有團(tuán)隊(duì)的摸索。不敢說(shuō)自己有多少心得,從去年用MySQL到現(xiàn)在也才一年多時(shí)間,還有很多有意思的數(shù)據(jù)想嘗試和學(xué)習(xí):
網(wǎng)站數(shù)據(jù)分析和APP數(shù)據(jù)分析的異同在哪里;
我了解SEO的知識(shí),但是流量沒(méi)有實(shí)戰(zhàn)檢驗(yàn),很想用Python爬蟲(chóng)+AB測(cè)試去獲得權(quán)重;
營(yíng)銷很希望有大金額的預(yù)算操作,通過(guò)優(yōu)化不斷降低CPC;
Spark已經(jīng)是趨勢(shì),可還沒(méi)有接觸過(guò);
數(shù)據(jù)學(xué)的越多,越覺(jué)得不算入門,更別提還有運(yùn)營(yíng)的本職工作。
另外,我還知道自己的不足和局限,比如不知道大廠的數(shù)據(jù)產(chǎn)品是什么樣的,比如有沒(méi)有更棒的數(shù)據(jù)運(yùn)營(yíng)案例,都很愿意和大家一起交流。
很高興回答您的問(wèn)題。
作為一個(gè)數(shù)據(jù)分析師,結(jié)合工作我談?wù)勎易约旱目捶ā?/p>
首先,做數(shù)據(jù)分析首先得學(xué)習(xí)數(shù)據(jù)庫(kù),比較數(shù)據(jù)是最基本的資源。
其次,是數(shù)據(jù)分析相關(guān)的理論,為建?;蛘哌M(jìn)行進(jìn)一步分析打基礎(chǔ)。代數(shù)和統(tǒng)計(jì)知識(shí)要求較高。
再次,學(xué)習(xí)各種軟件。Excel是最最最基本的工具,各種函數(shù)、插件的學(xué)習(xí);SPSS、R至少掌握一種吧,個(gè)人認(rèn)為SPSS更容易上手,當(dāng)然每個(gè)行業(yè)有自己相對(duì)認(rèn)可的工具;Python建議掌握,很強(qiáng)大的工具,清洗數(shù)據(jù)、建模、可視化、爬蟲(chóng)等等都可以完成。最后建議掌握一個(gè)可視化軟件比如Tableau。當(dāng)然分析完需要寫報(bào)告,不管文字功底、概括能力、審美能力,都是有要求的。
最后,模型學(xué)習(xí),這個(gè)沒(méi)的說(shuō),要知道每個(gè)模型是用來(lái)干什么,比如決策樹(shù)做畫像是經(jīng)常會(huì)用到的。
特別想說(shuō)一點(diǎn),數(shù)據(jù)分析不能只看數(shù)據(jù),還要相對(duì)了解業(yè)務(wù),脫離業(yè)務(wù)的數(shù)據(jù)分析什么都不是。
希望對(duì)您有幫助。
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答