{eval=Array;=+count(Array);}
Spark Shark |即Hive onSpark
a.在實現(xiàn)上是把HQL翻譯成Spark上的RDD操作,然后通過Hive的metadata獲取數(shù)據(jù)庫里的表信息,Shark獲取HDFS上的數(shù)據(jù)和文件夾放到Spark上運算.
b.它的最大特性就是快以及與Hive完全兼容
c.Shark使用了Hive的API來實現(xiàn)queryparsing和logic plan generation,最后的Physical Plan execution階段用Spark代替Hadoop MR。
d.通過配置Shark參數(shù),Shark可以自動在內(nèi)存中緩存特定的RDD,實現(xiàn)數(shù)據(jù)重用,進而加快特定數(shù)據(jù)集的檢索。
e.Shark通過UDF實現(xiàn)特定的數(shù)據(jù)分析學(xué)習算法,使得SQL數(shù)據(jù)查詢和運算分析結(jié)合在一起,最大化RDD的重復(fù)使用。
Spark SQL
a.是基于Catalyst(翻譯為催化劑)引擎的交互式大數(shù)據(jù)SQL技術(shù),使用SchemaRDD來操作SQL,比Shark支持更過的查詢表達式。
b.支持Hive|HBase|Oracle
0
回答0
回答10
回答2
回答0
回答2
回答0
回答0
回答0
回答0
回答