亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

spark系列-結(jié)構(gòu)化數(shù)據(jù)流-基本內(nèi)容

IT那活兒 / 2426人閱讀
spark系列-結(jié)構(gòu)化數(shù)據(jù)流-基本內(nèi)容

點(diǎn)擊上方“IT那活兒”,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。?!


簡(jiǎn)  介


spark結(jié)構(gòu)化數(shù)據(jù)流是可擴(kuò)展和容錯(cuò)的,基于spark sql引擎,可以用批處理方法處理結(jié)構(gòu)化數(shù)據(jù)流,spark sql引擎負(fù)責(zé)以增量連續(xù)方式運(yùn)行,并在流數(shù)據(jù)到達(dá)進(jìn)行更新,可以使用scala、java、python或R的DataSet/DataFrame API來(lái)表示數(shù)據(jù)流聚合、時(shí)間窗口等,通過檢查點(diǎn)、預(yù)寫日志方式實(shí)現(xiàn)容錯(cuò)。
在內(nèi)部默認(rèn)結(jié)構(gòu)化流數(shù)據(jù)查詢使用微批處理引擎進(jìn)行處理,其將數(shù)據(jù)流作為一系列小批處理作業(yè),從而實(shí)現(xiàn)端到端100毫秒以下的延遲,并保證僅一次容錯(cuò)。
但是自spark2.3以來(lái),我們引入了一個(gè)稱作“Continuous Processing”新的低延遲處理模式,他可以實(shí)現(xiàn)端到端一毫秒的低延遲,并且至少一次容錯(cuò)保證。根據(jù)實(shí)際需要可以選擇使用哪一種模式。


編程模型


Structured Streaming的關(guān)鍵是將實(shí)時(shí)數(shù)據(jù)流作為無(wú)邊界的連續(xù)追加的表,這非常像批處理模型,你可以將流處理作為一個(gè)靜態(tài)表進(jìn)行處理。
基本概念
將輸入流作為源數(shù)據(jù)表,每個(gè)消息實(shí)體作為表的一行追加到表中。
針對(duì)輸入表查詢將生成結(jié)果表,每觸發(fā)一次,新的ROW DATA將被追加到輸入表中,然后更新結(jié)果表,不管什么什么時(shí)候更新,我們都希望將更新后的數(shù)據(jù)寫入到外部存儲(chǔ)器。


外部存儲(chǔ)器模式


1. Complete Mode:每次觸發(fā)整個(gè)結(jié)果表將寫入到外部存儲(chǔ)器。適用場(chǎng)景:適用于聚合查詢輸出的情況。
2. Append Mode:每次次觸發(fā)后追加到結(jié)果表中的新行才會(huì)被寫入到外部存儲(chǔ)器,適用場(chǎng)景:默認(rèn)是這種模式,該模式保證每行只輸出一次,所以適用于結(jié)果表中現(xiàn)有行不會(huì)更改的查詢。
在查詢過程中, 如果沒有使用 watermark 機(jī)制, 則不能使用聚合操作. 如果使用了 watermark 機(jī)制, 則只能使用基于 event-time 的聚合操作。
3. Update Mode:每次觸發(fā)后在結(jié)果表中較上次觸發(fā)后更新或新增的行才會(huì)寫入到外部存儲(chǔ)器。如果沒有聚合操作, 則該模式與 append 模式一致. 如果有聚合操作, 則可以基于 watermark 清理過期的狀態(tài)。

請(qǐng)注意結(jié)構(gòu)化數(shù)據(jù)流只讀取最近的可用的數(shù)據(jù)而不是整個(gè)數(shù)據(jù)表,然后更新結(jié)果表,然后就丟棄輸入數(shù)據(jù),就是結(jié)構(gòu)化數(shù)據(jù)流只保留處理最新狀態(tài)的數(shù)據(jù)。




本文作者:潘宗昊

本文來(lái)源:IT那活兒(上海新炬王翦團(tuán)隊(duì))


文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/129581.html

相關(guān)文章

  • Spark 』2. spark 基本概念解析

    摘要:原文基本概念解析寫在前面本系列是綜合了自己在學(xué)習(xí)過程中的理解記錄對(duì)參考文章中的一些理解個(gè)人實(shí)踐過程中的一些心得而來(lái)。是項(xiàng)目組設(shè)計(jì)用來(lái)表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。 原文:『 Spark 』2. spark 基本概念解析 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過程中的一些心得而來(lái)。寫這樣一個(gè)系列僅僅是為了梳理個(gè)人學(xué)習(xí)...

    Luosunce 評(píng)論0 收藏0
  • Spark 』4. spark 之 RDD

    摘要:是設(shè)計(jì)用來(lái)表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。而正因?yàn)闈M足了這么多特性,所以把叫做,中文叫做彈性分布式數(shù)據(jù)集。按照這篇論文中文譯文的解釋,窄依賴是指子的每個(gè)分區(qū)依賴于常數(shù)個(gè)父分區(qū)即與數(shù)據(jù)規(guī)模無(wú)關(guān)寬依賴指子的每個(gè)分區(qū)依賴于所有父分區(qū)。 原文鏈接 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過程中的一些心得而來(lái)。寫這樣一個(gè)系列僅僅是...

    timger 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<