亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

海量實(shí)時(shí)用戶行為數(shù)據(jù)的存儲(chǔ)和分析

Aceyclee / 3057人閱讀

摘要:在短時(shí)間內(nèi)爆發(fā)大量數(shù)據(jù),這時(shí)數(shù)據(jù)資源的采集存儲(chǔ)和分析和應(yīng)用等,都是大數(shù)據(jù)行業(yè)的難點(diǎn)。挖掘數(shù)據(jù)新的價(jià)值面對(duì)海量實(shí)時(shí)行為數(shù)據(jù)的技術(shù)思考,主要是從四個(gè)角度來(lái)進(jìn)行第一,必須要以原始數(shù)據(jù)存儲(chǔ)。

在短時(shí)間內(nèi)爆發(fā)大量數(shù)據(jù),這時(shí)數(shù)據(jù)資源的采集、存儲(chǔ)和分析和應(yīng)用等,都是大數(shù)據(jù)行業(yè)的難點(diǎn)。行為數(shù)據(jù)、日志數(shù)據(jù)的處理,往往成為企業(yè)數(shù)據(jù)建設(shè)首先面對(duì)的瓶頸,這些數(shù)據(jù)不易保存,實(shí)時(shí)獲取分析難度較大,但是數(shù)據(jù)價(jià)值卻不可估量。

在大數(shù)據(jù)中,90% 以上的數(shù)據(jù)爆發(fā)來(lái)自于行為數(shù)據(jù),就像現(xiàn)在的互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、甚至在產(chǎn)生于物聯(lián)網(wǎng)中用來(lái)描述人和物的每一分每一秒的變化的數(shù)據(jù)狀態(tài),這些都是行為數(shù)據(jù)。

行為數(shù)據(jù)能用做什么?

行為數(shù)據(jù)能做什么?有一個(gè)簡(jiǎn)單的例子 —— 分析訪客行為的路徑,我們拿一個(gè)網(wǎng)站的數(shù)據(jù)進(jìn)行分析,針對(duì)網(wǎng)站的訪客,我們可以通過(guò)分析其訪問(wèn)前期、中期、后期的行為習(xí)慣去了解哪些引流的渠道需要加強(qiáng)投入,以及使用這些來(lái)指導(dǎo)內(nèi)容編輯和競(jìng)品研究分析工作。

實(shí)際上在做需求時(shí),還有更多的細(xì)節(jié)要求如:對(duì)數(shù)據(jù)的實(shí)時(shí)性的要求比較高、要求數(shù)據(jù)的熱點(diǎn)情報(bào)的準(zhǔn)確性、與客戶數(shù)據(jù)的協(xié)同分析等。

行為數(shù)據(jù)的處理方式

用戶行為數(shù)據(jù)通常具備以下特征:

用戶基數(shù)大;

高基數(shù)維度比較多;

數(shù)據(jù)量大;

時(shí)序的特征。

我們用到的高基維,其中有些維度都是上千萬(wàn)的高基維參數(shù)。用戶行為數(shù)據(jù)的處理,在支持原始數(shù)據(jù)查詢的同時(shí),也要支持原始數(shù)據(jù)的聚合能力。

原始數(shù)據(jù)的聚合分析這塊又分為兩種,一種是過(guò)去常用的做法,通過(guò)一個(gè)固化的業(yè)務(wù)模型或者主題,提前計(jì)算好的數(shù)據(jù),叫做物化視圖。

第二種是基于原始數(shù)據(jù)存儲(chǔ)之后,在實(shí)時(shí)查詢的過(guò)程中進(jìn)行多維交叉的計(jì)算,這個(gè)稱為實(shí)時(shí)聚合。

在查詢過(guò)程中對(duì)實(shí)時(shí)聚合的一個(gè)分析,也是大家在進(jìn)行數(shù)據(jù)挖掘分析中共同面臨的一個(gè)問(wèn)題,就是針對(duì)海量數(shù)據(jù)。

首先,針對(duì)這些數(shù)據(jù),需要快速的檢索出所需要的數(shù)據(jù)的行號(hào)。其次,在獲取數(shù)據(jù)所在位置之后,如何快速地把數(shù)據(jù)裝載到內(nèi)存里,最后是裝載到內(nèi)存之后通過(guò)分布式計(jì)算的方式,怎么去把我們的結(jié)果計(jì)算出來(lái)。

這些就是在做數(shù)據(jù)的實(shí)時(shí)查詢過(guò)程中的需要具備的基本技術(shù)條件。

挖掘數(shù)據(jù)新的價(jià)值

面對(duì)海量實(shí)時(shí)行為數(shù)據(jù)的技術(shù)思考,主要是從四個(gè)角度來(lái)進(jìn)行:

第一,必須要以原始數(shù)據(jù)存儲(chǔ)。為什么要基于原始數(shù)據(jù)存儲(chǔ)?因?yàn)樵谡麄€(gè)的數(shù)據(jù)分析階段,可以細(xì)分為三個(gè)階段。第一個(gè)就是傳統(tǒng)的是 BI 階段。第二個(gè)是數(shù)據(jù)的挖掘,第三個(gè)是數(shù)據(jù)的預(yù)測(cè)分析。

想解決這三個(gè)階段的過(guò)程,以傳統(tǒng)的方法是建一個(gè)數(shù)倉(cāng),基于數(shù)倉(cāng)來(lái)實(shí)施的時(shí),只能面向比較固化的業(yè)務(wù)報(bào)表模式,產(chǎn)生一些數(shù)據(jù)的分析結(jié)果,得到?jīng)Q策結(jié)果。如果想做數(shù)據(jù)挖掘時(shí),基于固化業(yè)務(wù)模式計(jì)算的結(jié)果的很難滿足數(shù)據(jù)挖掘需求,所以必須從初始階段基于原始數(shù)據(jù)去提取其特征。

基于固化的的業(yè)務(wù)報(bào)表模型所獲取數(shù)據(jù)計(jì)算的結(jié)果,對(duì)數(shù)據(jù)挖掘分析的價(jià)值不高。存儲(chǔ)引擎必須以原始數(shù)據(jù)進(jìn)行存儲(chǔ),才能既滿足 BI 階段的需求,又可以解決未來(lái)數(shù)據(jù)挖掘與數(shù)據(jù)預(yù)測(cè)分析的需求。

第二,要滿足實(shí)時(shí)多維的查詢,是為了在數(shù)據(jù)基于原始數(shù)據(jù)存儲(chǔ)之后,去做到聚合結(jié)果能夠滿足用戶對(duì)海量增量數(shù)據(jù)快速查詢的需求。

第三,快速響應(yīng)需求,在企業(yè)內(nèi)部,其實(shí)數(shù)據(jù)部門(mén)的需求量是最大的,各個(gè)業(yè)務(wù)部門(mén)的需求都往數(shù)據(jù)中心提,所以數(shù)據(jù)部門(mén)必須去解決好如何快速地響應(yīng)業(yè)務(wù)需求。

第四,數(shù)據(jù)的探索分析,以往把數(shù)據(jù),按照固化的業(yè)務(wù)報(bào)表模式所獲取的結(jié)果,做二次分析的空間量比較小。所以必須要基于原始多維的數(shù)據(jù)進(jìn)行數(shù)據(jù)的探索,挖掘數(shù)據(jù)新的價(jià)值,而不是按照已有的固化的業(yè)務(wù)模式,只是生產(chǎn)出一些固化的業(yè)務(wù)模型的數(shù)據(jù)。

平臺(tái)架構(gòu)

數(shù)果現(xiàn)在基于之前做過(guò)的一些技術(shù)的預(yù)言跟驗(yàn)證,自行研發(fā)了一個(gè)基于 Hadoop 加速引擎,稱為 Tindex。之前我也在網(wǎng)絡(luò)上做過(guò)萬(wàn)億級(jí)日志與行為數(shù)據(jù)存儲(chǔ)查詢技術(shù)剖析http://www.infoq.com/cn/artic... 的文章 ,也講解了 Tindex 是如何實(shí)現(xiàn)的。Tindex 的實(shí)現(xiàn)主要基于三點(diǎn),第一點(diǎn)基于索引,第二點(diǎn)基于類似存儲(chǔ)的方式,第三點(diǎn)做了分布式內(nèi)存計(jì)算的框架在 Tindex 中,使之能夠支持?jǐn)?shù)據(jù)的實(shí)時(shí)的多維分析的能力。

基于加速引擎這塊,在其上層做了一個(gè)適配層,有 SQL引擎。SQL 引擎支持 SQL 語(yǔ)句和表達(dá)式,還有大數(shù)據(jù)生態(tài)技術(shù),目前已經(jīng)是完全支持。基于適配層,來(lái)做不同的行業(yè)應(yīng)用。這是數(shù)果整個(gè)平臺(tái)技術(shù)架構(gòu)的一個(gè)圖。

平臺(tái)特性

平臺(tái)的特性方面,支持海量增量數(shù)據(jù)實(shí)時(shí)接入。在數(shù)據(jù)接入這塊,現(xiàn)在提供可視化埋點(diǎn),跟文件、MR 的一些數(shù)據(jù)的采集,就像我們目前在做的單進(jìn)程的接入式,基本上在 3 萬(wàn)以上,從數(shù)據(jù)的產(chǎn)生,到數(shù)據(jù)顯示、出現(xiàn)查詢結(jié)果,在 5 秒以內(nèi)即可實(shí)現(xiàn)。

第二個(gè)特性,基于明細(xì)數(shù)據(jù)的存儲(chǔ)與預(yù)聚合的存儲(chǔ)分別去搭建。為什么不僅要基于原始數(shù)據(jù)存儲(chǔ),還需要預(yù)聚合存儲(chǔ)?因?yàn)槠溆袃煞N不同的需求。第一個(gè)是面向固化的高頻查詢的數(shù)據(jù),我們可以基于預(yù)聚合存儲(chǔ)的方式,去查詢其周期跨度比較長(zhǎng)的需求,一年兩年都可以進(jìn)行查詢。但是基于近半年或者一年的數(shù)據(jù)需要進(jìn)行深度數(shù)據(jù)探索分析的,便可以基于原始明細(xì)數(shù)據(jù)做實(shí)時(shí)聚合分析。還有在基于原始明細(xì)數(shù)據(jù)進(jìn)行分析的時(shí)候,他會(huì)更佳靈活。

第三,海量數(shù)據(jù)中怎么去實(shí)現(xiàn)快速檢索,是基于搜索引擎的索引技術(shù)進(jìn)行改造的。但是在篩選方式上,目前只能支持時(shí)間篩選、文本篩選和數(shù)值篩選,例如文本篩選中支持分詞與模糊匹配,數(shù)值篩選中,數(shù)值的分組和數(shù)值的范圍這些均可支持。

這個(gè)展示的是靈活多維的分析,在這個(gè)界面中,左邊的這一列中是基于原始明細(xì)數(shù)據(jù)產(chǎn)生的所有的維度,可以根據(jù)權(quán)限去進(jìn)行顯示。而在指標(biāo)方面通過(guò)界面拖拽進(jìn)行多維實(shí)時(shí)分析,選擇想要的數(shù)據(jù)分析結(jié)果,進(jìn)行可視化的展示,可以自由地?cái)?shù)據(jù)探索。因?yàn)閿?shù)據(jù)是基于原始明細(xì)數(shù)據(jù)的存儲(chǔ),所以不需要提前預(yù)計(jì)算。可以在界面上進(jìn)行任意數(shù)據(jù)交叉分析,去了解數(shù)據(jù)的分布態(tài)是非常便捷的。

通過(guò)指標(biāo)的靈活定義,來(lái)實(shí)現(xiàn)實(shí)時(shí)響應(yīng)的業(yè)務(wù)需求,這個(gè)指標(biāo)定義這塊有幾個(gè)指標(biāo),一種叫單指標(biāo),即按照某一個(gè)維度進(jìn)行一個(gè)聚合計(jì)算,通過(guò)界面可以簡(jiǎn)單、快速完成。另一種叫復(fù)合指標(biāo),需要進(jìn)行一些四則運(yùn)算,可以通過(guò)這個(gè)界面定義出來(lái)。

在指標(biāo)這方面還有比較復(fù)雜的,需要通過(guò)多個(gè)維度進(jìn)行定義的,可以通過(guò)一些表達(dá)式,進(jìn)行快速的定義,定義完成后就通過(guò)界面,直接看到結(jié)果,獲得圖形顯示,進(jìn)行數(shù)據(jù)分析。

支持實(shí)時(shí)監(jiān)控與跟蹤告警,在多維分析界面中把分析結(jié)果定義出來(lái)后,可以直接形成一個(gè)實(shí)時(shí)監(jiān)控大屏,不需要重新開(kāi)放,多站完成各類需求。

最后一個(gè)也是最重要的一個(gè)特性,是支持二次的開(kāi)發(fā)。數(shù)果的平臺(tái)提供普通類查詢,有 Timeseries、TopN、select、groupby、firstN、scanQuery。也提供像用戶分組,用戶漏斗查詢,用戶留存查詢這類高級(jí)查詢,還支持多種條件的過(guò)濾,像日期范圍、數(shù)值范圍、地理坐標(biāo)范圍,還有字符串的精準(zhǔn)匹配。還支持多種聚合的方式。如統(tǒng)計(jì),分組,還有聚合再聚合,這類業(yè)務(wù)場(chǎng)景,也是在業(yè)務(wù)需求中經(jīng)常出現(xiàn)的。

基于平臺(tái)我們做了什么?

基于這個(gè)平臺(tái)實(shí)現(xiàn)了指標(biāo)任意定制,因?yàn)閿?shù)據(jù)是基于原始明細(xì)記錄存儲(chǔ)的,所以指標(biāo)的定制這方面,不需要提前預(yù)計(jì)算,直接通過(guò)界面,通過(guò)一些表達(dá)式便可以輕松實(shí)現(xiàn)。

維度的自由的篩選,可以通過(guò)界面,自由地拖拽數(shù)據(jù),就可以完成交叉分析。

基于平臺(tái)提供用戶行為分析模型,例如實(shí)時(shí)的用戶分群,可以通過(guò)界面快速的完成。再例如實(shí)時(shí)的路徑分析,實(shí)時(shí)的流程分析,實(shí)時(shí)的漏斗分析。提供了一個(gè)智能算法模型,相當(dāng)于在這個(gè)模塊實(shí)現(xiàn)了,將機(jī)械學(xué)習(xí)跟深度學(xué)習(xí)的算法吸收進(jìn)來(lái),跟我們的平臺(tái)打通,就可以實(shí)現(xiàn)通過(guò)界面的簡(jiǎn)單拖拽,來(lái)完成大部分算法的模型。用戶也有一些固化的模型,像用戶的擴(kuò)群,用戶 RFM 細(xì)分的模型,用戶流失預(yù)測(cè)的模型?;谶@方面也提供了一個(gè)實(shí)時(shí)大屏的模塊,能夠由用戶自由拖拽完成其實(shí)時(shí)監(jiān)控的需求。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/19632.html

相關(guān)文章

  • 新一代智能視頻云發(fā)展現(xiàn)狀分析:五大要素成關(guān)鍵

    摘要:遠(yuǎn)程醫(yī)療這一概念被提出后,已經(jīng)被廣泛應(yīng)用。但是,如何提高視頻傳輸性能,如何確保家庭基層醫(yī)療機(jī)構(gòu)和戶外應(yīng)急的遠(yuǎn)程醫(yī)療快速接入,是當(dāng)前的遠(yuǎn)程醫(yī)療業(yè)務(wù)系統(tǒng)面臨的主要挑戰(zhàn)。 編者按:近日,Gartner最新發(fā)布了一份《Five Key Essentials for the New Generation of Intelligent Video Cloud》白皮書(shū)報(bào)告,報(bào)告中針對(duì)各行業(yè)在視頻應(yīng)用...

    levy9527 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<