亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

spark系列-結(jié)構(gòu)化數(shù)據(jù)流-數(shù)據(jù)源

IT那活兒 / 1283人閱讀
spark系列-結(jié)構(gòu)化數(shù)據(jù)流-數(shù)據(jù)源

點(diǎn)擊上方“IT那活兒”,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了?。?!

簡(jiǎn)  介


自spark2.0之后,DataFrame和DataSet可以表示靜態(tài)有界數(shù)據(jù)也可以表示無界流數(shù)據(jù),可以使用相同入口點(diǎn)SparkSession從流源創(chuàng)建DataFrame/DataSet。可以通過spark.readStream()來創(chuàng)建流。
實(shí)現(xiàn)端到端一次傳輸是結(jié)構(gòu)化數(shù)據(jù)流設(shè)計(jì)的目標(biāo)之一,為了實(shí)現(xiàn)這一目標(biāo),我們?cè)O(shè)計(jì)了數(shù)據(jù)源,接收器和執(zhí)行引擎,以可靠的跟蹤處理進(jìn)度,從而可以通過重新啟動(dòng)或重新處理來處理任何類型的故障。
每個(gè)數(shù)據(jù)源都有偏移量(例如kafka)來跟蹤流中的讀取位置,執(zhí)行引擎使用檢查點(diǎn)(checkpoint)和預(yù)寫日志(write-ahead logs)記錄每次觸發(fā)后正在處理數(shù)據(jù)的偏移范圍,接收器使用冪等接受,這樣結(jié)構(gòu)化數(shù)據(jù)流就會(huì)保證端到端一次性傳輸。


內(nèi)置數(shù)據(jù)源


1. File source:讀取目錄中的文件,將按照文件修改時(shí)間進(jìn)行處理,如果設(shè)置latestFirst,則處理文件順序?qū)㈩嵉?,支持的文件格式有text、csv、json、orc、parquet,請(qǐng)注意文件必須以原子方式放置在目錄中,大多數(shù)文件系統(tǒng)中可以通過文件移動(dòng)操作來實(shí)現(xiàn)。
2. Kafka source:讀取kafka數(shù)據(jù),兼容kafka broker0.10.0或更高版本。
3. Socket source(用于測(cè)試):從socket連接中讀取數(shù)據(jù),監(jiān)聽socket套接字,只能用于測(cè)試,因?yàn)椴恢С侄说蕉艘淮蝹鬏敱WC。
4. Rate source(用于測(cè)試):以每秒指定的行數(shù)生成數(shù)據(jù),每個(gè)輸出行包含時(shí)間戳和值。其中,timestamp是包含消息分派時(shí)間的時(shí)間戳類型,value是包含消息計(jì)數(shù)的Long類型,從0開始作為第一行。此源用于測(cè)試和基準(zhǔn)測(cè)試。


案  例


創(chuàng)建socket 流。
創(chuàng)建文件流。
可以通過DF.isStreaming來判斷數(shù)據(jù)集是否是流數(shù)據(jù)。
自spark 3.1開始,也支持根據(jù)DataStreamReader.table()來創(chuàng)建結(jié)構(gòu)化數(shù)據(jù)流。
當(dāng)讀取目錄時(shí)如果存在key=value形式的子目錄時(shí),將自動(dòng)遞歸到這些目錄中并發(fā)生分區(qū),查詢啟動(dòng)時(shí)組成分區(qū)方案的目錄必須存在,必須保持靜態(tài),例如當(dāng)/data/year=2015存在時(shí),添加/data/year=2016是沒問題的,改變分區(qū)列是無效的,例如增加目錄/data/date=2016-04。




本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團(tuán)隊(duì))

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/129582.html

相關(guān)文章

  • Spark 』4. spark 之 RDD

    摘要:是設(shè)計(jì)用來表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。而正因?yàn)闈M足了這么多特性,所以把叫做,中文叫做彈性分布式數(shù)據(jù)集。按照這篇論文中文譯文的解釋,窄依賴是指子的每個(gè)分區(qū)依賴于常數(shù)個(gè)父分區(qū)即與數(shù)據(jù)規(guī)模無關(guān)寬依賴指子的每個(gè)分區(qū)依賴于所有父分區(qū)。 原文鏈接 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過程中的一些心得而來。寫這樣一個(gè)系列僅僅是...

    timger 評(píng)論0 收藏0
  • Spark 』2. spark 基本概念解析

    摘要:原文基本概念解析寫在前面本系列是綜合了自己在學(xué)習(xí)過程中的理解記錄對(duì)參考文章中的一些理解個(gè)人實(shí)踐過程中的一些心得而來。是項(xiàng)目組設(shè)計(jì)用來表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。 原文:『 Spark 』2. spark 基本概念解析 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過程中的一些心得而來。寫這樣一個(gè)系列僅僅是為了梳理個(gè)人學(xué)習(xí)...

    Luosunce 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<