亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

Data Lakehouse數(shù)據(jù)湖到底是什么呢?

Tecode / 2304人閱讀

摘要:數(shù)據(jù)湖通常更大,其存儲(chǔ)成本也更為廉價(jià)。高存儲(chǔ)成本數(shù)倉(cāng)和數(shù)據(jù)湖都是為了降低數(shù)據(jù)存儲(chǔ)的成本。數(shù)據(jù)停滯在數(shù)據(jù)湖中,數(shù)據(jù)停滯是一個(gè)最為嚴(yán)重的問(wèn)題,如果數(shù)據(jù)一直無(wú)人治理,那將很快變?yōu)閿?shù)據(jù)沼澤。

數(shù)據(jù)湖(Data Lake),湖倉(cāng)一體(Data Lakehouse)儼然已經(jīng)成為了大數(shù)據(jù)領(lǐng)域最為火熱的流行詞,在接受這些流行詞洗禮的時(shí)候,身為技術(shù)人員我們往往會(huì)發(fā)出這樣的疑問(wèn),這是一種新的技術(shù)嗎,還是僅僅只是概念上的翻新(新瓶裝舊酒)呢?它到底解決了什么問(wèn)題,擁有什么樣新的特性呢?它的現(xiàn)狀是什么,還存在什么問(wèn)題呢?

帶著這些問(wèn)題,今天就從筆者的理解,為大家揭開(kāi) Data Lakehouse 的神秘面紗,來(lái)探一探其技術(shù)的本質(zhì)到底是什么?

Data Lakehouse(湖倉(cāng)一體)是新出現(xiàn)的一種數(shù)據(jù)架構(gòu),它同時(shí)吸收了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)勢(shì),數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家可以在同一個(gè)數(shù)據(jù)存儲(chǔ)中對(duì)數(shù)據(jù)進(jìn)行操作,同時(shí)它也能為公司進(jìn)行數(shù)據(jù)治理帶來(lái)更多的便利性。那么何為Data Lakehouse呢,它具備些什么特性呢?

本文參考自 https://www.xplenty.com/glossary/what-is-a-data-lakehouse/https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html。
Data Lakehouse具備什么特性?
一直以來(lái),我們都在使用兩種數(shù)據(jù)存儲(chǔ)方式來(lái)架構(gòu)數(shù)據(jù):

數(shù)據(jù)倉(cāng)庫(kù):數(shù)倉(cāng)這樣的一種數(shù)據(jù)存儲(chǔ)架構(gòu),它主要存儲(chǔ)的是以關(guān)系型數(shù)據(jù)庫(kù)組織起來(lái)的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過(guò)轉(zhuǎn)換、整合以及清理,并導(dǎo)入到目標(biāo)表中。在數(shù)倉(cāng)中,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)與其定義的schema是強(qiáng)匹配的。
數(shù)據(jù)湖:數(shù)據(jù)湖這樣的一種數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),它可以存儲(chǔ)任何類(lèi)型的數(shù)據(jù),包括像圖片、文檔這樣的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖通常更大,其存儲(chǔ)成本也更為廉價(jià)。存儲(chǔ)其中的數(shù)據(jù)不需要滿足特定的schema,數(shù)據(jù)湖也不會(huì)嘗試去將特定的schema施行其上。相反的是,數(shù)據(jù)的擁有者通常會(huì)在讀取數(shù)據(jù)的時(shí)候解析schema(schema-on-read),當(dāng)處理相應(yīng)的數(shù)據(jù)時(shí),將轉(zhuǎn)換施加其上。

現(xiàn)在許多的公司往往同時(shí)會(huì)搭建數(shù)倉(cāng)、數(shù)據(jù)湖這兩種存儲(chǔ)架構(gòu),一個(gè)大的數(shù)倉(cāng)和多個(gè)小的數(shù)據(jù)湖。這樣,數(shù)據(jù)在這兩種存儲(chǔ)中就會(huì)有一定的冗余。

Data Lakehouse的出現(xiàn)試圖去融合數(shù)倉(cāng)和數(shù)據(jù)湖這兩者之間的差異,通過(guò)將數(shù)倉(cāng)構(gòu)建在數(shù)據(jù)湖上,使得存儲(chǔ)變得更為廉價(jià)和彈性,同時(shí)lakehouse能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余。在lakehouse的構(gòu)建中,ETL起了非常重要的作用,它能夠?qū)⑽唇?jīng)規(guī)整的數(shù)據(jù)湖層數(shù)據(jù)轉(zhuǎn)換成數(shù)倉(cāng)層結(jié)構(gòu)化的數(shù)據(jù)。Data Lakehouse概念是由Databricks在此文[1]中提出的,在提出概念的同時(shí),也列出了如下一些特性:

事務(wù)支持:Lakehouse可以處理多條不同的數(shù)據(jù)管道。這意味著它可以在不破壞數(shù)據(jù)完整性的前提下支持并發(fā)的讀寫(xiě)事務(wù)。

Schemas:數(shù)倉(cāng)會(huì)在所有存儲(chǔ)其上的數(shù)據(jù)上施加Schema,而數(shù)據(jù)湖則不會(huì)。Lakehouse的架構(gòu)可以根據(jù)應(yīng)用的需求為絕大多數(shù)的數(shù)據(jù)施加schema,使其標(biāo)準(zhǔn)化。

報(bào)表以及分析應(yīng)用的支持:報(bào)表和分析應(yīng)用都可以使用這一存儲(chǔ)架構(gòu)。Lakehouse里面所保存的數(shù)據(jù)經(jīng)過(guò)了清理和整合的過(guò)程,它可以用來(lái)加速分析。同時(shí)相比于數(shù)倉(cāng),它能夠保存更多的數(shù)據(jù),數(shù)據(jù)的時(shí)效性也會(huì)更高,能顯著提升報(bào)表的質(zhì)量。

數(shù)據(jù)類(lèi)型擴(kuò)展:數(shù)倉(cāng)僅可以支持結(jié)構(gòu)化數(shù)據(jù),而Lakehouse的結(jié)構(gòu)可以支持更多不同類(lèi)型的數(shù)據(jù),包括文件、視頻、音頻和系統(tǒng)日志。

端到端的流式支持:Lakehouse可以支持流式分析,從而能夠滿足實(shí)時(shí)報(bào)表的需求,實(shí)時(shí)報(bào)表在現(xiàn)在越來(lái)越多的企業(yè)中重要性在逐漸提高。

計(jì)算存儲(chǔ)分離:我們往往使用低成本硬件和集群化架構(gòu)來(lái)實(shí)現(xiàn)數(shù)據(jù)湖,這樣的架構(gòu)提供了非常廉價(jià)的分離式存儲(chǔ)。Lakehouse是構(gòu)建在數(shù)據(jù)湖之上的,因此自然也采用了存算分離的架構(gòu),數(shù)據(jù)存儲(chǔ)在一個(gè)集群中,而在另一個(gè)集群中進(jìn)行處理。

開(kāi)放性:Lakehouse在其構(gòu)建中通常會(huì)使Iceberg,Hudi,Delta Lake等構(gòu)建組件,首先這些組件是開(kāi)源開(kāi)放的,其次這些組件采用了Parquet,ORC這樣開(kāi)放兼容的存儲(chǔ)格式作為下層的數(shù)據(jù)存儲(chǔ)格式,因此不同的引擎,不同的語(yǔ)言都可以在Lakehouse上進(jìn)行操作。
Lakehouse的概念最早是由Databricks所提出的,而其他的類(lèi)似的產(chǎn)品有Azure Synapse Analytics。Lakehouse技術(shù)仍然在發(fā)展中,因此上面所述的這些特性也會(huì)被不斷的修訂和改進(jìn)。

Data lakehouse解決了什么問(wèn)題

那說(shuō)完了Data Lakehouse的特性,它到底解決了什么問(wèn)題呢?

這些年來(lái),在許多的公司里,數(shù)倉(cāng)和數(shù)據(jù)湖一直并存且各自發(fā)展著,也沒(méi)有遇到過(guò)太過(guò)嚴(yán)重的問(wèn)題。但是仍有一些領(lǐng)域有值得進(jìn)步的空間,比如:

數(shù)據(jù)重復(fù)性:如果一個(gè)組織同時(shí)維護(hù)了一個(gè)數(shù)據(jù)湖和多個(gè)數(shù)倉(cāng),這無(wú)疑會(huì)帶來(lái)數(shù)據(jù)冗余。在最好的情況下,這僅僅只會(huì)帶來(lái)數(shù)據(jù)處理的不高效,但是在最差的情況下,它會(huì)導(dǎo)致數(shù)據(jù)不一致的情況出現(xiàn)。Data Lakehouse統(tǒng)一了一切,它去除了數(shù)據(jù)的重復(fù)性,真正做到了Single Version of Truth。

高存儲(chǔ)成本:數(shù)倉(cāng)和數(shù)據(jù)湖都是為了降低數(shù)據(jù)存儲(chǔ)的成本。數(shù)倉(cāng)往往是通過(guò)降低冗余,以及整合異構(gòu)的數(shù)據(jù)源來(lái)做到降低成本。而數(shù)據(jù)湖則往往使用大數(shù)據(jù)文件系統(tǒng)(譬如Hadoop HDFS)和Spark在廉價(jià)的硬件上存儲(chǔ)計(jì)算數(shù)據(jù)。而最為廉價(jià)的方式是結(jié)合這些技術(shù)來(lái)降低成本,這就是現(xiàn)在Lakehouse架構(gòu)的目標(biāo)。

報(bào)表和分析應(yīng)用之間的差異:報(bào)表分析師們通常傾向于使用整合后的數(shù)據(jù),比如數(shù)倉(cāng)或是數(shù)據(jù)集市。而數(shù)據(jù)科學(xué)家則更傾向于同數(shù)據(jù)湖打交道,使用各種分析技術(shù)來(lái)處理未經(jīng)加工的數(shù)據(jù)。在一個(gè)組織內(nèi),往往這兩個(gè)團(tuán)隊(duì)之間沒(méi)有太多的交集,但實(shí)際上他們之間的工作又有一定的重復(fù)和矛盾。而當(dāng)使用Data Lakehouse后,兩個(gè)團(tuán)隊(duì)可以在同一數(shù)據(jù)架構(gòu)上進(jìn)行工作,避免不必要的重復(fù)。

數(shù)據(jù)停滯(Data stagnation):在數(shù)據(jù)湖中,數(shù)據(jù)停滯是一個(gè)最為嚴(yán)重的問(wèn)題,如果數(shù)據(jù)一直無(wú)人治理,那將很快變?yōu)閿?shù)據(jù)沼澤。我們往往輕易的將數(shù)據(jù)丟入湖中,但缺乏有效的治理,長(zhǎng)此以往,數(shù)據(jù)的時(shí)效性變得越來(lái)越難追溯。Lakehouse的引入,對(duì)于海量數(shù)據(jù)進(jìn)行catalog,能夠更有效地幫助提升分析數(shù)據(jù)的時(shí)效性。

潛在不兼容性帶來(lái)的風(fēng)險(xiǎn):數(shù)據(jù)分析仍是一門(mén)興起的技術(shù),新的工具和技術(shù)每年仍在不停地出現(xiàn)中。一些技術(shù)可能只和數(shù)據(jù)湖兼容,而另一些則又可能只和數(shù)倉(cāng)兼容。Lakehouse靈活的架構(gòu)意味著公司可以為未來(lái)做兩方面的準(zhǔn)備。

Data Lakehouse存在的問(wèn)題 現(xiàn)有的Lakehouse架構(gòu)仍存在著一些問(wèn)題,其中最為顯著的是:

大一統(tǒng)的架構(gòu):Lakehouse大一統(tǒng)的架構(gòu)有許多的優(yōu)點(diǎn),但也會(huì)引入一些問(wèn)題。通常,大一統(tǒng)的架構(gòu)缺乏靈活性,難于維護(hù),同時(shí)難以滿足所有用戶的需求,架構(gòu)師通常更傾向于使用多模的架構(gòu),為不同的場(chǎng)景定制不同的范式。

并非現(xiàn)有架構(gòu)上本質(zhì)的改進(jìn):現(xiàn)在對(duì)于Lakehouse是否真的能夠帶來(lái)額外的價(jià)值仍存在疑問(wèn)。同時(shí),也有不同的意見(jiàn) - 將現(xiàn)有的數(shù)倉(cāng)、數(shù)據(jù)湖結(jié)構(gòu)與合適的工具結(jié)合 - 是否會(huì)帶來(lái)類(lèi)似的效率呢?

技術(shù)尚未成熟:Lakehouse技術(shù)當(dāng)前尚未成熟,在達(dá)到上文所提的能力之前仍有較長(zhǎng)的路要走。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/125906.html

相關(guān)文章

  • 什么我們需要數(shù)據(jù)?

    摘要:近兩年,為什么都開(kāi)始談?wù)撈疬@個(gè)新名詞了先說(shuō)我的想法,其實(shí)還是用戶需求驅(qū)動(dòng)數(shù)據(jù)服務(wù),大家開(kāi)始關(guān)注的根本原因是用戶需求發(fā)生了質(zhì)變,過(guò)去的數(shù)據(jù)倉(cāng)庫(kù)模式以及涉及到的相關(guān)組件沒(méi)有辦法滿足日益進(jìn)步的用戶需求。近兩年,為什么都開(kāi)始談?wù)撈?Data Lake 這個(gè)新名詞了?先說(shuō)我的想法,其實(shí)還是用戶需求驅(qū)動(dòng)數(shù)據(jù)服務(wù),大家開(kāi)始關(guān)注 Data Lake 的根本原因是用戶需求發(fā)生了質(zhì)變,過(guò)去的數(shù)據(jù)倉(cāng)庫(kù)模式以及涉及...

    Tecode 評(píng)論0 收藏0
  • 孔明說(shuō)天有不測(cè)風(fēng)云,我說(shuō)無(wú)災(zāi)備不上云

    摘要:題記三國(guó)時(shí)赤壁鏖戰(zhàn),孔明說(shuō),天有不測(cè)風(fēng)云,欲破曹公,宜用火攻,萬(wàn)事俱備,只欠東風(fēng)。現(xiàn)在公共云混戰(zhàn),我想說(shuō),無(wú)災(zāi)備不上云,保護(hù)數(shù)據(jù),未雨綢繆,帶了雨傘,還需雨衣。題記:三國(guó)時(shí)赤壁鏖戰(zhàn),孔明說(shuō),天有不測(cè)風(fēng)云,欲破曹公,宜用火攻,萬(wàn)事俱備,只欠東風(fēng)?,F(xiàn)在公共云混戰(zhàn),我想說(shuō),無(wú)災(zāi)備不上云,保護(hù)數(shù)據(jù),未雨綢繆,帶了雨傘,還需雨衣。未雨綢繆,到底是帶雨傘還是雨衣呢?時(shí)代在變,人的追求也在變。隨著公共云對(duì)...

    stormgens 評(píng)論0 收藏0
  • 數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別

    1、數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)倉(cāng)庫(kù)只能存儲(chǔ)經(jīng)過(guò)處理和提煉的數(shù)據(jù),而數(shù)據(jù)湖存儲(chǔ)尚未出于某種目的處理的原始數(shù)據(jù)。因此,數(shù)據(jù)湖需要比數(shù)據(jù)倉(cāng)庫(kù)大得多的存儲(chǔ)容量,且數(shù)據(jù)靈活、分析迅速,非常適合機(jī)器學(xué)習(xí)。2、加工:數(shù)據(jù)倉(cāng)庫(kù)使用寫(xiě)入時(shí)序模式的方法來(lái)處理數(shù)據(jù)以賦予其形狀和結(jié)構(gòu),而數(shù)據(jù)湖對(duì)原始數(shù)據(jù)使用讀取模式來(lái)處理它。3、成本:存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的成本可能很高,尤其是在有大量數(shù)據(jù)的情況下,而數(shù)據(jù)湖是專(zhuān)為低成本數(shù)據(jù)存儲(chǔ)而設(shè)計(jì),成本...

    白馬嘯西風(fēng) 評(píng)論0 收藏0
  • 人手一份的城市道路名稱(chēng)圖鑒——Python爬取20w+中國(guó)城市道路名數(shù)據(jù)之后

    摘要:哪些省份省級(jí)行政單位使用了最多的其它省份名作為道路名的呢山東省穩(wěn)居第一,總共使用了全國(guó)全部的省自治區(qū)直轄市特別行政區(qū)名共個(gè)。太平路排名第一。根據(jù)周?chē)牡乩硎挛餅榈缆访?,也是道路命名的一個(gè)習(xí)慣。帶有海字的路名,集中分布在東部沿海城市中。 showImg(https://segmentfault.com/img/remote/1460000019921753); 作者 | AlfredW...

    weizx 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<