亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

SparkStreaming概述

Tecode / 2084人閱讀

摘要:但在企業(yè)中存在很多實時性處理的需求,例如雙十一的京東阿里,通常會做一個實時的數(shù)據(jù)大屏,顯示實時訂單。這種情況下,對數(shù)據(jù)實時性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。

1 Spark Streaming是什么
它是一個可擴展,高吞吐具有容錯性的流式計算框架

吞吐量:單位時間內(nèi)成功傳輸數(shù)據(jù)的數(shù)量

之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務(wù),數(shù)據(jù)一般都是在固定位置上,通常我們寫好一個腳本,每天定時去處理數(shù)據(jù),計算,保存數(shù)據(jù)結(jié)果。這類任務(wù)通常是T+1(一天一個任務(wù)),對實時性要求不高。
image.png

但在企業(yè)中存在很多實時性處理的需求,例如:雙十一的京東阿里,通常會做一個實時的數(shù)據(jù)大屏,顯示實時訂單。這種情況下,對數(shù)據(jù)實時性要求較高,僅僅能夠容忍到延遲1分鐘或幾秒鐘。

image.png
實時計算框架對比

Storm

  • 流式計算框架
  • 以record為單位處理數(shù)據(jù)
  • 也支持micro-batch方式(Trident)

Spark

  • 批處理計算框架
  • 以RDD為單位處理數(shù)據(jù)
  • 支持micro-batch流式處理數(shù)據(jù)(Spark Streaming)

對比:

  • 吞吐量:Spark Streaming優(yōu)于Storm
  • 延遲:Spark Streaming差于Storm

2 Spark Streaming的組件
Streaming Context

  • 一旦一個Context已經(jīng)啟動(調(diào)用了Streaming Context的start())就不能有新的流算子(Dstream)建立或者是添加到context中
  • 一旦一個context已經(jīng)停止不能重新啟動(Streaming Context調(diào)用了stop方法之后 就不能再次調(diào) start())
  • 在JVM(java虛擬機)中 同一時間只能有一個Streaming Context處于活躍狀態(tài) 一個SparkContext創(chuàng)建一個Streaming Context
  • 在Streaming Context上調(diào)用Stop方法 也會關(guān)閉SparkContext對象 如果只想僅關(guān)閉Streaming Context對象設(shè)置stop()的可選參數(shù)為false
  • 一個SparkContext對象可以重復(fù)利用去創(chuàng)建多個Streaming Context對象(不關(guān)閉SparkContext前提下) 但是需要關(guān)一個再開下一個

DStream (離散流)

  • 代表一個連續(xù)的數(shù)據(jù)流
  • 在內(nèi)部 DStream由一系列連續(xù)的RDD組成
  • DStreams中的每個RDD都包含確定時間間隔內(nèi)的數(shù)據(jù)
  • 任何對DStreams的操作都轉(zhuǎn)換成了對DStreams隱含的RDD的操作
  • 數(shù)據(jù)源

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/126030.html

相關(guān)文章

  • 大數(shù)據(jù)分析技術(shù)與應(yīng)用

    摘要:人工智能四常用大數(shù)據(jù)分析技術(shù)常見的大數(shù)據(jù)分析技術(shù)主要由以下幾部分構(gòu)成分布式的文件系統(tǒng)存儲海量的非結(jié)構(gòu)化數(shù)據(jù)例如等分布式的離線計算系統(tǒng),對業(yè)務(wù)數(shù)據(jù)批量處理。 CDA數(shù)據(jù)分析研究院原創(chuàng)作品 一、大數(shù)據(jù)概念 大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信...

    shinezejian 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<