亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

『 Spark 』4. spark 之 RDD

timger / 1544人閱讀

摘要:是設(shè)計(jì)用來(lái)表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。而正因?yàn)闈M(mǎn)足了這么多特性,所以把叫做,中文叫做彈性分布式數(shù)據(jù)集。按照這篇論文中文譯文的解釋?zhuān)蕾?lài)是指子的每個(gè)分區(qū)依賴(lài)于常數(shù)個(gè)父分區(qū)即與數(shù)據(jù)規(guī)模無(wú)關(guān)寬依賴(lài)指子的每個(gè)分區(qū)依賴(lài)于所有父分區(qū)。

原文鏈接

寫(xiě)在前面

本系列是綜合了自己在學(xué)習(xí)spark過(guò)程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過(guò)程中的一些心得而來(lái)。寫(xiě)這樣一個(gè)系列僅僅是為了梳理個(gè)人學(xué)習(xí)spark的筆記記錄,所以一切以能夠理解為主,沒(méi)有必要的細(xì)節(jié)就不會(huì)記錄了,而且文中有時(shí)候會(huì)出現(xiàn)英文原版文檔,只要不影響理解,都不翻譯了。若想深入了解,最好閱讀參考文章和官方文檔。

其次,本系列是基于目前最新的 spark 1.6.0 系列開(kāi)始的,spark 目前的更新速度很快,記錄一下版本好還是必要的。
最后,如果各位覺(jué)得內(nèi)容有誤,歡迎留言備注,所有留言 24 小時(shí)內(nèi)必定回復(fù),非常感謝。
Tips: 如果插圖看起來(lái)不明顯,可以:1. 放大網(wǎng)頁(yè);2. 新標(biāo)簽中打開(kāi)圖片,查看原圖哦。

1. 什么是RDD

先看下源碼里是怎么描述RDD的。

Internally, each RDD is characterized by five main properties:  
A list of partitions  
A function for computing each split   
A list of dependencies on other RDDs  
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)   
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)   

可以知道,每個(gè) RDD 有以下5個(gè)主要的屬性:

一組分片(partition),即數(shù)據(jù)集的基本組成單位

一個(gè)計(jì)算每個(gè)分片的函數(shù)

對(duì)parent RDD的依賴(lài),這個(gè)依賴(lài)描述了RDD之間的 lineage

對(duì)于key-value的RDD,一個(gè)Partitioner,這是可選擇的

一個(gè)列表,存儲(chǔ)存取每個(gè)partition的preferred位置。對(duì)于一個(gè)HDFS文件來(lái)說(shuō),存儲(chǔ)每個(gè)partition所在的塊的位置。這也是可選擇的

把上面這5個(gè)主要的屬性總結(jié)一下,可以得出RDD的大致概念:

首先,RDD 大概是這樣一種表示數(shù)據(jù)集的東西,它具有以上列出的一些屬性。是設(shè)計(jì)用來(lái)表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。為了讓 RDD 能 handle 更多的問(wèn)題,規(guī)定 RDD 應(yīng)該是只讀的,分區(qū)記錄的一種數(shù)據(jù)集合??梢酝ㄟ^(guò)兩種方式來(lái)創(chuàng)建 RDD:一種是基于物理存儲(chǔ)中的數(shù)據(jù),比如說(shuō)磁盤(pán)上的文件;另一種,也是大多數(shù)創(chuàng)建 RDD 的方式,即通過(guò)其他 RDD 來(lái)創(chuàng)建【以后叫做轉(zhuǎn)換】而成。而正因?yàn)?RDD 滿(mǎn)足了這么多特性,所以 spark 把 RDD 叫做 Resilient Distributed Datasets,中文叫做彈性分布式數(shù)據(jù)集。很多文章都是先講 RDD 的定義,概念,再來(lái)說(shuō) RDD 的特性。我覺(jué)得其實(shí)也可以倒過(guò)來(lái),通過(guò) RDD 的特性反過(guò)來(lái)理解 RDD 的定義和概念,通過(guò)這種由果溯因的方式來(lái)理解 RDD 也未嘗不可,至少對(duì)我個(gè)人而言這種方式是挺好的。

2. 理解RDD的幾個(gè)關(guān)鍵概念

本來(lái)我是想?yún)⒖?RDD 的論文和自己的理解來(lái)整理這篇文章的,可是后來(lái)想想這樣是不是有點(diǎn)過(guò)于細(xì)致了。我想,認(rèn)識(shí)一個(gè)新事物,在時(shí)間、資源有限的情況下,不必錙銖必較,可以先 focus on 幾個(gè)關(guān)鍵點(diǎn),到后期應(yīng)用的時(shí)候再步步深入。

所以,按照我個(gè)人的理解,我認(rèn)為想用好 spark,必須要理解 RDD ,而為了理解 RDD ,我認(rèn)為只要了解下面幾個(gè) RDD 的幾個(gè)關(guān)鍵點(diǎn)就能 handle 很多情況下的問(wèn)題了。所以,下面所有列到的點(diǎn),都是在我個(gè)人看來(lái)很重要的,但也許有所欠缺,大家如果想繼續(xù)深入,可以看第三部分列出的參考資料,或者直接聯(lián)系我,互相交流。

2.1 RDD的背景及解決的痛點(diǎn)問(wèn)題

RDD 的設(shè)計(jì)是為了充分利用分布式系統(tǒng)中的內(nèi)存資源,使得提升一些特定的應(yīng)用的效率。這里所謂的特定的應(yīng)用沒(méi)有明確定義,但可以理解為一類(lèi)應(yīng)用到迭代算法,圖算法等需要重復(fù)利用數(shù)據(jù)的應(yīng)用類(lèi)型;除此之外,RDD 還可以應(yīng)用在交互式大數(shù)據(jù)處理方面。所以,我們這里需要明確一下:RDD并不是萬(wàn)能的,也不是什么帶著紗巾的少女那樣神奇。簡(jiǎn)單的理解,就是一群大牛為了解決一個(gè)問(wèn)題而設(shè)計(jì)的一個(gè)特定的數(shù)據(jù)結(jié)構(gòu),that"s all

2.2 What is DAG - 趣說(shuō)有向無(wú)環(huán)圖

DAG - Direct Acyclic Graph,有向無(wú)環(huán)圖,好久沒(méi)看圖片了,先發(fā)個(gè)圖片來(lái)理解理解吧。

要理解DAG,只需弄明白三個(gè)概念就可以畢業(yè)了,首先,我們假設(shè)上圖圖二中的A,B,C,D,E都代表spark里不同的RDD:

圖:圖是表達(dá)RDD Lineage信息的一個(gè)結(jié)構(gòu),在 spark 中,大部分 RDD 都是通過(guò)其他 RDD 進(jìn)行轉(zhuǎn)換而來(lái)的,比如說(shuō)上圖圖二中,B和D都是通過(guò)A轉(zhuǎn)換而來(lái)的,而C是通過(guò)B轉(zhuǎn)換而來(lái),E的話(huà)是通過(guò)B和D一起轉(zhuǎn)換來(lái)的。

有向:有向就更容易理解了,簡(jiǎn)單來(lái)說(shuō)就是 linage 是一個(gè) top-down 的結(jié)構(gòu),而且是時(shí)間序列上的 top-down 結(jié)構(gòu),這里如果沒(méi)有理解的話(huà),我們?cè)谙旅嬷v“無(wú)環(huán)”這個(gè)概念時(shí)一起說(shuō)明。

無(wú)環(huán):這里就是重點(diǎn)要理解的地方了,spark 的優(yōu)化器在這里也發(fā)揮了很大的作用。首先,我們先理解一下無(wú)環(huán)的概念,假設(shè)有圖三中左下 B,D,E 這樣一個(gè) RDD 轉(zhuǎn)換圖,那當(dāng)我們的需要執(zhí)行 D.collect 操作的時(shí)候,就會(huì)引發(fā)一個(gè)死循環(huán)了。不過(guò),仔細(xì)想過(guò)的話(huà),就會(huì)知道,“無(wú)環(huán)”這個(gè)問(wèn)題其實(shí)已經(jīng)在“有向”這個(gè)概念中提現(xiàn)了,上面說(shuō)的“有向”,其實(shí)更詳細(xì)的說(shuō)是一個(gè)時(shí)間上的先來(lái)后到,即祖先與子孫的關(guān)系,是不可逆的。

2.3 What is Data Locality - RDD的位置可見(jiàn)性

這個(gè)問(wèn)題就不重復(fù)造輪子了,直接引用Quora上的一個(gè)問(wèn)答了:


RDD is a dataset which is distributed, that is, it is divided into "partitions". Each of these partitions can be present in the memory or disk of different machines. If you want Spark to process the RDD, then Spark needs to launch one task per partition of the RDD. It"s best that each task be sent to the machine have the partition that task is supposed to process. In that case, the task will be able to read the data of the partition from the local machine. Otherwise, the task would have to pull the partition data over the network from a different machine, which is less efficient. This scheduling of tasks (that is, allocation of tasks to machines) such that the tasks can read data "locally" is known as "locality aware scheduling".


2.4 What is Lazy Evaluation - 神馬叫惰性求值

本來(lái)不想叫“惰性求值”的,看到“惰”這個(gè)字實(shí)在是各種不爽,實(shí)際上,我覺(jué)得應(yīng)該叫"后續(xù)求值","按需計(jì)算","晚點(diǎn)搞"這類(lèi)似的,哈哈。這幾天一直在想應(yīng)該怎么簡(jiǎn)單易懂地來(lái)表達(dá)Lazy Evaluation這個(gè)概念,本來(lái)打算引用MongoDB的Cursor來(lái)類(lèi)比一下的,可總覺(jué)得還是小題大做了。這個(gè)概念就懶得解釋了,主要是覺(jué)得太簡(jiǎn)單了,沒(méi)有必要把事情搞得這么復(fù)雜,哈哈。

2.5 What is Narrow/Wide Dependency - RDD的寬依賴(lài)和窄依賴(lài)

首先,先從原文看看寬依賴(lài)和窄依賴(lài)各自的定義。

narrow dependencies: where each partition of the parent RDD is used by at most one partition of the child RDD, wide dependencis, where multiple child partitions may depend on it.

按照這篇RDD論文中文譯文的解釋?zhuān)蕾?lài)是指子RDD的每個(gè)分區(qū)依賴(lài)于常數(shù)個(gè)父分區(qū)(即與數(shù)據(jù)規(guī)模無(wú)關(guān));寬依賴(lài)指子RDD的每個(gè)分區(qū)依賴(lài)于所有父RDD分區(qū)。暫且不說(shuō)這樣理解是否有偏差,我們先來(lái)從兩個(gè)方面了解下計(jì)算一個(gè)窄依賴(lài)的子RDD和一個(gè)寬依賴(lài)的RDD時(shí)具體都有什么區(qū)別,然后再回顧這個(gè)定義。

計(jì)算方面:

計(jì)算窄依賴(lài)的子RDD:可以在某一個(gè)計(jì)算節(jié)點(diǎn)上直接通過(guò)父RDD的某幾塊數(shù)據(jù)(通常是一塊)計(jì)算得到子RDD某一塊的數(shù)據(jù);

計(jì)算寬依賴(lài)的子RDD:子RDD某一塊數(shù)據(jù)的計(jì)算必須等到它的父RDD所有數(shù)據(jù)都計(jì)算完成之后才可以進(jìn)行,而且需要對(duì)父RDD的計(jì)算結(jié)果進(jìn)行hash并傳遞到對(duì)應(yīng)的節(jié)點(diǎn)之上;

容錯(cuò)恢復(fù)方面:

窄依賴(lài):當(dāng)父RDD的某分片丟失時(shí),只有丟失的那一塊數(shù)據(jù)需要被重新計(jì)算;

寬依賴(lài):當(dāng)父RDD的某分片丟失時(shí),需要把父RDD的所有分區(qū)數(shù)據(jù)重新計(jì)算一次,計(jì)算量明顯比窄依賴(lài)情況下大很多;

3. 尚未提到的一些重要概念

還有一些基本概念上面沒(méi)有提到,一些是因?yàn)樽约哼€沒(méi)怎么弄清楚,一些是覺(jué)得重要但是容易理解的,所以就先不記錄下來(lái)了。比如說(shuō):粗粒度、細(xì)粒度;序列化和反序列化等。

4. Next

基礎(chǔ)的概念和理論都講得差不多了,該小試牛刀了,哈哈。

下幾篇的安排:

列一些學(xué)習(xí) spark 比較好的資源

詳細(xì)從 job,stage,task 的定義來(lái)談?wù)?spark 的運(yùn)行原理

準(zhǔn)備幾個(gè)稍稍復(fù)雜一點(diǎn)的例子, 例子個(gè)數(shù)根據(jù)時(shí)間安排發(fā)布

spark 在金融領(lǐng)域的應(yīng)用之 指數(shù)相似度計(jì)算

spark 在搜索領(lǐng)域的應(yīng)用之 pagerank

spark 在社交領(lǐng)域的應(yīng)用之 評(píng)分計(jì)算

開(kāi)始講 dataframe 和 datasets

5. 打開(kāi)微信,掃一掃,點(diǎn)一點(diǎn),棒棒的,^_^

參考文章

Spark技術(shù)內(nèi)幕:究竟什么是RDD

Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

RDD 論文中文版

本系列文章鏈接

『 Spark 』1. spark 簡(jiǎn)介

『 Spark 』2. spark 基本概念解析

『 Spark 』3. spark 編程模式

『 Spark 』4. spark 之 RDD

『 Spark 』5. 這些年,你不能錯(cuò)過(guò)的 spark 學(xué)習(xí)資源

『 Spark 』6. 深入研究 spark 運(yùn)行原理之 job, stage, task

『 Spark 』7. 使用 Spark DataFrame 進(jìn)行大數(shù)據(jù)分析

『 Spark 』8. 實(shí)戰(zhàn)案例 | Spark 在金融領(lǐng)域的應(yīng)用 | 日內(nèi)走勢(shì)預(yù)測(cè)

『 Spark 』9. 搭建 IPython + Notebook + Spark 開(kāi)發(fā)環(huán)境

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/37889.html

相關(guān)文章

  • Spark 』2. spark 基本概念解析

    摘要:原文基本概念解析寫(xiě)在前面本系列是綜合了自己在學(xué)習(xí)過(guò)程中的理解記錄對(duì)參考文章中的一些理解個(gè)人實(shí)踐過(guò)程中的一些心得而來(lái)。是項(xiàng)目組設(shè)計(jì)用來(lái)表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。 原文:『 Spark 』2. spark 基本概念解析 寫(xiě)在前面 本系列是綜合了自己在學(xué)習(xí)spark過(guò)程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過(guò)程中的一些心得而來(lái)。寫(xiě)這樣一個(gè)系列僅僅是為了梳理個(gè)人學(xué)習(xí)...

    Luosunce 評(píng)論0 收藏0
  • Spark 』3. spark 編程模式

    摘要:基本編程模式里有兩個(gè)很重要的概念一般簡(jiǎn)稱(chēng)為和,在上一篇文章中基本概念解析有講到??梢哉f(shuō),和貫穿了的大部分生命周期,從的初始化,到數(shù)據(jù)的清洗,計(jì)算,到最后獲取,展示結(jié)果。 寫(xiě)在前面 本系列是綜合了自己在學(xué)習(xí)spark過(guò)程中的理解記錄 + 對(duì)參考文章中的一些理解 + 個(gè)人實(shí)踐spark過(guò)程中的一些心得而來(lái)。寫(xiě)這樣一個(gè)系列僅僅是為了梳理個(gè)人學(xué)習(xí)spark的筆記記錄,所以一切以能夠理解為主,沒(méi)...

    Donald 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<