回顧2012,更多開(kāi)放,更多協(xié)作,更多機(jī)會(huì)產(chǎn)生。從來(lái)沒(méi)有一項(xiàng)服務(wù)會(huì)將幾乎所有IT、互聯(lián)網(wǎng)、通信技術(shù)整合在一起,沒(méi)有合作、開(kāi)放的心態(tài)就沒(méi)有云計(jì)算。接下來(lái),將從IaaS、NoSQL與NewSQL、數(shù)據(jù)中心、大數(shù)據(jù)、安全這幾個(gè)方面對(duì)過(guò)去一年作出總結(jié)。
IaaS——群雄追趕AWS
談到IaaS,Google和AWS是公認(rèn)的業(yè)界最強(qiáng)。AWS是全球?qū)aaS這個(gè)business運(yùn)營(yíng)的較好的公司,除了技術(shù)領(lǐng)先,還要得益于其多年的B2C領(lǐng)域積累的經(jīng)驗(yàn)和口碑。而Google的強(qiáng)大在于其對(duì)技術(shù)極致的探索,從“三駕馬車”Big Table、GFS和MapReduce,到Pregel、Dremel、Big Query(與之對(duì)應(yīng)的還有Twitter的Blobstore、Cloudrea?Impala以及Apache?Drill。),能夠完成跨數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)和快速SQL查詢,毫無(wú)疑問(wèn),這些技術(shù)都是互聯(lián)網(wǎng)巨頭和IaaS服務(wù)商必須要解決的。這背后還需要強(qiáng)大的網(wǎng)絡(luò)拓?fù)?、IDC設(shè)計(jì)等等,今年Google一反常態(tài)的公布了數(shù)據(jù)中心內(nèi)部的照片和文檔,雖然信息量不大,但這足夠證明Google在數(shù)據(jù)中心PUE控制方面的自信。
圖:AWS正在與PaaS和SaaS服務(wù)結(jié)合。Redshift大數(shù)據(jù)分析工具,其成本只有Teradata IBM Oracle的十分之一。
說(shuō)了半天廢話,以下將從:私有與開(kāi)源、商業(yè)模式探索、國(guó)內(nèi)格局三個(gè)話題展開(kāi):
1、私有與開(kāi)源
2012年不得不說(shuō)的開(kāi)源項(xiàng)目之一OpenStack,這是一個(gè)基于ASF 2.0協(xié)議的開(kāi)源IaaS平臺(tái),說(shuō)白了,任何一個(gè)人通過(guò)OpenStack都可以復(fù)制出一個(gè)AWS(當(dāng)然,服務(wù)器、交換機(jī)這些還是需要的。)。正因?yàn)镺penStack巨大的魅力,包括IBM、HP、Intel、Red Hat、VMware以及國(guó)內(nèi)的新浪、華為均先后加入組織。OpenStack對(duì)于所有IT和通信廠商而言都是全新的機(jī)遇和挑戰(zhàn)。眾所周知,硬件利潤(rùn)越來(lái)越低,而VMware等虛擬化廠商卻“肥的流油”。已經(jīng)打的不可開(kāi)交HP和Dell都不想錯(cuò)過(guò)重新排定生態(tài)鏈次序的機(jī)會(huì),兩者均與Cloud Foundry合作,擴(kuò)展渠道,并在差異化上下足功夫。
和OpenStack擁有類似功能的開(kāi)源IaaS平臺(tái)還包括CloudStack、OpenNebula和Eucalyptus。這四大開(kāi)源平臺(tái)將與AWS在未來(lái)的相當(dāng)一段時(shí)間共同成長(zhǎng)。明年,CloudStack將迎來(lái)爆發(fā),更有可能成為Apache正式的項(xiàng)目。OpenNebula更顯低調(diào),Eucalyptus則專注在私有云市場(chǎng)。
另外,IBM、HP、VMware等傳統(tǒng)IT廠商私有云或共有云產(chǎn)品并不是真正的IaaS,這也是這些廠商積極投入OpenStack的原因。同時(shí),來(lái)自新浪、趣游等本土公司也在積極參與到OpenStack的貢獻(xiàn)和交流。
2、商業(yè)模式探索
AWS是全球最成功的IaaS服務(wù)商,雖然占Amazon整體的營(yíng)收比例依然很小,外界仍十分看好AWS的未來(lái)。在Amazon披露的財(cái)報(bào)中,沒(méi)有對(duì)AWS業(yè)務(wù)的營(yíng)收數(shù)據(jù)做具體描述,十分低調(diào)。只能看到:包括AWS和內(nèi)容增值服務(wù)的業(yè)務(wù),一直處于增長(zhǎng)。包括分析師、投資公司的報(bào)告普遍認(rèn)為,今年AWS的營(yíng)收將達(dá)到10-15億美元,根據(jù)一般的經(jīng)驗(yàn)判斷,這些數(shù)據(jù)的可靠性是比較高的。
之所以AWS能夠成為IaaS的領(lǐng)軍者,離不開(kāi)其多年在B2C領(lǐng)域積累的經(jīng)驗(yàn)和口碑,這點(diǎn)是Google所不具備的,國(guó)內(nèi)的阿里與AWS基因最相似。同時(shí),AWS、OpenStack的成員們都在緊密與PaaS或SaaS服務(wù)商合作。只有與用戶最接近,利潤(rùn)率才越高。如果把Saleforce看作IaaS,無(wú)疑是最賺錢的IaaS平臺(tái)。
3、國(guó)內(nèi)的IaaS格局
相對(duì)于國(guó)外的幾大陣營(yíng)和發(fā)展趨勢(shì),國(guó)內(nèi)的情況更為復(fù)雜。割裂的網(wǎng)絡(luò)、不透明的準(zhǔn)入機(jī)制、電信運(yùn)營(yíng)商的壟斷、信用卡支付壁壘、用戶習(xí)慣的培養(yǎng)等等,所有這些問(wèn)題一個(gè)問(wèn)題解決不了都可能制約IaaS運(yùn)營(yíng)商的發(fā)展。目前國(guó)內(nèi)兩大IaaS平臺(tái)分別是阿里云和盛大云,阿里的優(yōu)勢(shì)在前文已經(jīng)提到,壟斷了大量珍貴的BGP網(wǎng)絡(luò),先天優(yōu)勢(shì)明顯。
微軟Azure與世紀(jì)互聯(lián)的合作可以看作國(guó)外IaaS平臺(tái)進(jìn)入大陸的起點(diǎn),這也讓AWS進(jìn)軍國(guó)內(nèi)充滿了更多期待。
第二梯隊(duì)中Ucloud、Linkcloud、西部數(shù)碼、華云等比較有代表性。當(dāng)然,還有一個(gè)隱蔽的企業(yè)華為。全球電信運(yùn)營(yíng)商的設(shè)備大部分由華為提供,依靠多年積累的BOSS系統(tǒng)支持經(jīng)驗(yàn),以及與運(yùn)營(yíng)商的良好關(guān)系,華為IaaS上線只待更好的時(shí)機(jī)。但關(guān)鍵在于,華為幾乎沒(méi)有B2C的經(jīng)驗(yàn),這是華為必須解決的難題。
新時(shí)代的數(shù)據(jù)庫(kù)
在過(guò)去一年中隨著數(shù)據(jù)體積的爆發(fā)性增長(zhǎng),大數(shù)據(jù)技術(shù)也越發(fā)的炙手可熱。俗話說(shuō)工欲善其事必先利其器——為了實(shí)現(xiàn)對(duì)越來(lái)越多數(shù)據(jù)的挖掘和分析,2012無(wú)疑是絞盡腦汁的一年。好吧,言歸正傳。下面分幾個(gè)方面簡(jiǎn)單的討論一下2012年的數(shù)據(jù)庫(kù)發(fā)展趨勢(shì)。
SQL 、NoSQL、NewSQL
隨著NoSQL這場(chǎng)運(yùn)動(dòng)最終被定義為Not Only SQL,數(shù)據(jù)庫(kù)領(lǐng)域的人們也確定了NoSQL不是SQL的取代——更應(yīng)該作為對(duì)數(shù)據(jù)庫(kù)領(lǐng)域非關(guān)系數(shù)據(jù)類型補(bǔ)充。而隨著各個(gè)廠商以各種方式在NoSQL數(shù)據(jù)庫(kù)產(chǎn)品中添加對(duì)SQL的支持,在面對(duì)大數(shù)據(jù)帶來(lái)的挑戰(zhàn)上也終于達(dá)成了“兩手抓,兩手硬”的共識(shí)。而就目前的市場(chǎng)調(diào)研來(lái)看10gen的MongoDB仍然是更受歡迎的NoSQL數(shù)據(jù)庫(kù)。然而NoSQL的精髓在于百花齊放,用細(xì)分的技術(shù)解決各種大數(shù)據(jù)所帶來(lái)的挑戰(zhàn);所以MongoDB不能完全的代表NoSQL。期間Neo4j等產(chǎn)品也是擁有了一定的擁護(hù)度。
再看NewSQL,NewSQL概念的存在更像是對(duì)早期NoSQL的補(bǔ)充,這里需要先看一下NoSQL以及NewSQL的設(shè)置宗旨:NoSQL數(shù)據(jù)庫(kù),旨在滿足分布式系統(tǒng)結(jié)構(gòu)的可擴(kuò)展性需求和/或無(wú)模式數(shù)據(jù)管理的需求;NewSQL數(shù)據(jù)庫(kù),旨在滿足分布式體系結(jié)構(gòu)的需求,或者提高性能以便不必再進(jìn)行橫向擴(kuò)展。這就意味著在NoSQL數(shù)據(jù)庫(kù)發(fā)展為Not Only SQL的大趨勢(shì)下,NewSQL與NoSQL之間的界限就變的越發(fā)的模糊。所以再去強(qiáng)調(diào)NewSQL或者是NoSQL的意義顯然已經(jīng)不大。
數(shù)據(jù)庫(kù)發(fā)展的趨勢(shì)
在這個(gè)數(shù)據(jù)的年代,更多的數(shù)據(jù)勝過(guò)更好的算法已經(jīng)被大多數(shù)人所接受。然而面對(duì)數(shù)據(jù)這座寶山卻沒(méi)有對(duì)應(yīng)的處理和分析技術(shù),無(wú)疑只能望梅止渴。隨著數(shù)據(jù)能采集到數(shù)據(jù)體積的暴增,數(shù)據(jù)的實(shí)時(shí)處理無(wú)疑成為了重中之重。這里我們不得不提的就是數(shù)據(jù)處理工具。
快,還要更快
圖:Apache S4分布式流數(shù)據(jù)處理平臺(tái)
說(shuō)到數(shù)據(jù)分析工具就不得不提到Apache Hadoop,它的開(kāi)源和強(qiáng)大的批處理能力得到了眾多大數(shù)據(jù)玩家的喜愛(ài)。然而隨著數(shù)據(jù)的爆發(fā)性增長(zhǎng)一些數(shù)據(jù)分析產(chǎn)品相繼問(wèn)世,比如:Dremel、Storm、Impala、Apache S4和Drill;而他們共有的顯著特性就是優(yōu)于Hadoop幾倍甚至幾十倍的查詢能力。這無(wú)疑說(shuō)明了各個(gè)組織及機(jī)構(gòu)把數(shù)據(jù)分析和處理的關(guān)鍵聚焦于實(shí)時(shí)之上,并開(kāi)始著手解決望梅止渴的窘境。
是的數(shù)據(jù)的處理和分析需要快,那么數(shù)據(jù)的存儲(chǔ)呢?
可靠還要更可靠
眾所周知,Hadoop及HBase、HDFS其實(shí)是在Google的MapReduce、BigTable和GFS三篇論文的啟發(fā)下開(kāi)發(fā)出來(lái)的。而近年來(lái)Google的基礎(chǔ)機(jī)構(gòu)又有了一波新的補(bǔ)充及更新——Caffeine、Pregel和Dremel。然而Google的腳步并不僅如此,Google在OSDI 2012上公布了分布數(shù)據(jù)庫(kù)Spanner。這是第一個(gè)擴(kuò)展到世界規(guī)模的數(shù)據(jù)庫(kù)系統(tǒng),并支持了外部一致性分布式事務(wù)。然而外部事務(wù)強(qiáng)一致性的保障以及全球及的分布,無(wú)疑確定了人們對(duì)數(shù)據(jù)庫(kù)可靠性的要求越來(lái)越高。也只有全球及數(shù)據(jù)轉(zhuǎn)移才能保證大范圍自然災(zāi)害下的強(qiáng)可靠性,比如這次颶風(fēng)Sandy的過(guò)境。
數(shù)據(jù)中心在這一年中有很多精彩的內(nèi)容,比如亞馬遜三番五次宕機(jī)、谷歌歷經(jīng)7年終于開(kāi)放其數(shù)據(jù)中心等等。我們?cè)诮酉聛?lái)的內(nèi)容里將為您盤點(diǎn)幾個(gè)重要公司在數(shù)據(jù)中心方面的現(xiàn)狀、發(fā)展、技術(shù)等內(nèi)容。
圖:Google Concil Bluffs數(shù)據(jù)中心內(nèi)部
亞馬遜
亞馬遜的數(shù)據(jù)中心歷來(lái)都很神秘,對(duì)其的報(bào)道也很少很少,大家的目前都集中在它的云服務(wù)上,但這離不開(kāi)其龐大的數(shù)據(jù)中心支持。去年年底,亞馬遜已經(jīng)增加了其第七個(gè)云數(shù)據(jù)中心,作為全球數(shù)據(jù)中心容量擴(kuò)張的一部分。新設(shè)施位于美國(guó)俄勒岡州博德曼,在哥倫比亞河沿岸采用低成本的水力發(fā)電。除了廉價(jià)的水電,博德曼位于波特蘭市以東80英里,提供了充足的冷卻水供應(yīng)?,F(xiàn)代數(shù)據(jù)中心安裝較低數(shù)量的空調(diào),并經(jīng)常使用某種形式的蒸發(fā)來(lái)冷卻外界空氣,讓其在數(shù)據(jù)中心流通。通過(guò)這種方式,兩排服務(wù)器虹吸釋放出的暖空氣到熱通道,在熱通道熱空氣被收集,強(qiáng)大的風(fēng)扇將其排出建筑物。熱通道的溫度為華氏95-100度。
由于經(jīng)濟(jì)惡化,亞馬遜在2009年停止對(duì)博德曼設(shè)施的建設(shè),但在今年早先時(shí)候恢復(fù)工作并完成了中心的配置。并在十月初開(kāi)始運(yùn)營(yíng),11月9日亞馬遜開(kāi)始提供服務(wù),設(shè)置標(biāo)準(zhǔn)為IaaS:EC2的彈性計(jì)算云,簡(jiǎn)單存儲(chǔ)服務(wù),簡(jiǎn)單的數(shù)據(jù)庫(kù)服務(wù),亞馬遜簡(jiǎn)單隊(duì)列服務(wù),以及其他。
6月15日,亞馬遜北維吉尼亞的數(shù)據(jù)中心遭遇停電,由此導(dǎo)致亞馬遜網(wǎng)絡(luò)服務(wù)AWS中斷約6個(gè)小時(shí),影響波及亞馬遜彈性計(jì)算EC2、亞馬遜關(guān)系數(shù)據(jù)庫(kù)服務(wù)以及AWS Elastic Beanstalk。今年的10月,亞馬遜再次發(fā)生宕機(jī)事故,導(dǎo)致用戶信心流失不少。最后再圣誕節(jié)平安夜的時(shí)候,亞馬遜AWS位于美國(guó)東部的數(shù)據(jù)中心發(fā)生故障,其彈性負(fù)載均衡服務(wù)(Elastic Load Balancing Service)中斷,導(dǎo)致Netflix和Heroku受到影響,不過(guò)作為Netflix的競(jìng)爭(zhēng)對(duì)手,Amazon Prime Instant Video并未受到影響。
Facebook選擇俄勒岡州的高度沙漠化地區(qū)建立新數(shù)據(jù)中心,這里的夜晚是涼爽的,即使是在夏天。該設(shè)施坐落于尤金以東100英里,并成為Facebook四月聲稱要運(yùn)行一個(gè)高效的數(shù)據(jù)中心來(lái)支撐其數(shù)以百萬(wàn)計(jì)在線應(yīng)用的基礎(chǔ)。 Facebook在其開(kāi)放計(jì)算項(xiàng)目中發(fā)表了服務(wù)器架構(gòu)的細(xì)節(jié),作為它創(chuàng)造更高效數(shù)據(jù)中心的承諾的標(biāo)志。
Facebook透露,開(kāi)源服務(wù)器的有效率達(dá)到94.5%,這個(gè)成績(jī)離不開(kāi)整個(gè)數(shù)據(jù)中心的供電和散熱系統(tǒng)的幫助。和Facebook在Virginia和California的數(shù)據(jù)中心相比,Prineville的數(shù)據(jù)中心電力節(jié)省38%,成本降低24%。數(shù)據(jù)中心的PUE平均在1.6到1.8,然而Facebook的Prineville數(shù)據(jù)中心的PUE則達(dá)到在驚人1.05到1.10之間。
谷歌
過(guò)去,數(shù)據(jù)中心被Google視為核心技術(shù),因此Google對(duì)自己數(shù)據(jù)中心的細(xì)節(jié)總是三緘其口。一般而言,每當(dāng)Google公開(kāi)一項(xiàng)技術(shù),意味著Google已經(jīng)掌握了更先進(jìn)的技術(shù)。即便如此,已經(jīng)被Google“解密”的技術(shù)依然值得深入研究、學(xué)習(xí)。谷歌于今年的10月份,終于向媒體開(kāi)放了它的數(shù)據(jù)中心,并發(fā)布了一些照片。
通過(guò)照片我們可以看到,谷歌的數(shù)據(jù)中心是一個(gè)巨大的房間,而不是被分成若干獨(dú)立的區(qū)域。完全采用風(fēng)道設(shè)備,徹底避免服務(wù)器或機(jī)架產(chǎn)生的空氣泄露。冷空氣直接流入服務(wù)器,熱空氣并不會(huì)流回,而是通過(guò)熱交換器將熱量傳遞出去??諝饬鲃?dòng)控制格外重要,空氣流動(dòng)經(jīng)濟(jì)性(air-side economization)是提升散熱效率的關(guān)鍵。提高空氣流動(dòng)經(jīng)濟(jì)性的關(guān)鍵是讓冷空氣流入服務(wù)器,而不是讓服務(wù)器排出熱空氣。
Google把整個(gè)建筑視為風(fēng)道的一部分,并沒(méi)有完全棄用水冷系統(tǒng),而是將其升級(jí)進(jìn)化,從而提高水冷系統(tǒng)的效率。固然直通到機(jī)架的水冷系統(tǒng)擁有高效率,但任何一個(gè)空氣流動(dòng)經(jīng)濟(jì)系統(tǒng)都可以屏蔽戶外的熱空氣,并讓冷空氣長(zhǎng)途跋涉輸送給服務(wù)器。然而,隨著服務(wù)器密度不斷增加,單位空間的功率也隨之增長(zhǎng),水冷系統(tǒng)就十分必要了。
在微軟Azure宕機(jī)的同一天,Google Gmail用戶使用的Gtalk中斷了近5小時(shí)。Gtalk服務(wù)的控制面板頁(yè)為用戶提供了因服務(wù)中斷所導(dǎo)致的升級(jí)。Google對(duì)此也做出了道歉“請(qǐng)相信google是極度重視系統(tǒng)可靠性的,我們會(huì)更加注意提升我們系統(tǒng)的性能”。
GAE是用于開(kāi)發(fā)和托管WEB應(yīng)用程序的平臺(tái),數(shù)據(jù)中心由google管理,中斷時(shí)間是10月26日,持續(xù)4小時(shí),因?yàn)橥蝗蛔兊梅磻?yīng)緩慢,而且出錯(cuò)。受此影響,50%的GAE請(qǐng)求均失敗。google表示沒(méi)有數(shù)據(jù)丟失,應(yīng)用程序行為也有備份可以還原。google表示他們正在加強(qiáng)其網(wǎng)絡(luò)服務(wù)以應(yīng)對(duì)網(wǎng)絡(luò)延遲問(wèn)題,“我們已經(jīng)增強(qiáng)了流量路由能力,并調(diào)整了配置,這些將會(huì)有效防止此類問(wèn)題再次發(fā)生”。
微軟
微軟今年花了1.3億美元擴(kuò)展了其位于都柏林的數(shù)據(jù)中心,本次投資將新增11.2萬(wàn)平方英尺第4代設(shè)備。該數(shù)據(jù)中心全年充分利用風(fēng)能冷卻設(shè)備,降低能耗,減少微軟碳足跡。每年能耗高峰時(shí)期平均電源使用效率PUE為1.25。微軟稱,設(shè)備99%的剩余能耗將實(shí)現(xiàn)循環(huán)使用,水能耗僅相當(dāng)于同等大小的數(shù)據(jù)中心水能耗的1%。此外,微軟計(jì)劃在懷俄明州夏延 (Cheyenne)建立一個(gè)新的數(shù)據(jù)中心,預(yù)計(jì)在2013年春季開(kāi)工。
新的數(shù)據(jù)中心將幫助微軟承載更多的產(chǎn)品,而不是銷售客戶在他們自己的計(jì)算機(jī)上安裝的軟件。微軟除了提供它的PaaS產(chǎn)品、Azure、去年開(kāi)始銷售的Office 365、提供的電子郵件托管和協(xié)作服務(wù)外,它也希望能增長(zhǎng)其Bing搜索量,這就要求數(shù)據(jù)中心為用戶服務(wù)搜索結(jié)果。
2月28日,由于“閏年bug”導(dǎo)致微軟Azure在全球范圍內(nèi)大面積服務(wù)中斷,中斷時(shí)間超過(guò)24小時(shí)。雖然微軟表示該軟件BUG是由于閏年時(shí)間計(jì)算不正確導(dǎo)致,但這一事件激起了許多用戶的強(qiáng)烈反應(yīng),許多人要求微軟為此做出更合理詳細(xì)的解釋。
7月26日,Azure再次故障,導(dǎo)致西歐用戶受影響。微軟對(duì)故障的解釋是“由于錯(cuò)誤配置了網(wǎng)絡(luò)設(shè)備導(dǎo)致了西歐區(qū)域的服務(wù)網(wǎng)絡(luò)中斷”。此次中斷持續(xù)2.5小時(shí)。微軟表示此次事故中并無(wú)用戶數(shù)據(jù)丟失。
2013發(fā)展趨勢(shì)
今年的數(shù)據(jù)中心發(fā)展道路可以說(shuō)很順利,F(xiàn)acebook、谷歌紛紛向媒體公開(kāi)其數(shù)據(jù)中心,這表明未來(lái)的數(shù)據(jù)中心將是越來(lái)越開(kāi)放的。但我們也要看到發(fā)展中遇到的一些問(wèn)題,AWS今年在運(yùn)行過(guò)程中三番五次的宕機(jī),這反映出數(shù)據(jù)中心的安全運(yùn)行問(wèn)題值得迫切關(guān)注。還有一個(gè)趨勢(shì)就是清潔能源在數(shù)據(jù)中心運(yùn)行中占的比重越來(lái)越大,風(fēng)能、太陽(yáng)能等清潔能源正被更多的數(shù)據(jù)中心所使用。最后,隨著科學(xué)技術(shù)向亞太地區(qū)轉(zhuǎn)移,以及亞太地區(qū)特有的人力資源優(yōu)勢(shì),我們可以想象到隨著時(shí)間的推移更多的數(shù)據(jù)中心將向亞太地區(qū)遷移。
2012年,大數(shù)據(jù)的發(fā)展勢(shì)頭可謂“如火如荼”。因?yàn)橐苿?dòng)互聯(lián)網(wǎng)和云計(jì)算的崛起,數(shù)據(jù)量的激增讓很多企業(yè)看到了無(wú)限的商機(jī)。很多人談到大數(shù)據(jù)時(shí),首先想到的就是Hadoop,此時(shí)很多“專業(yè)人士”就會(huì)告訴你,Hadoop不是大數(shù)據(jù)的全部。當(dāng)然,我們必須認(rèn)識(shí)到Hadoop自身還有很多局限性。不過(guò)這也側(cè)面說(shuō)明:Hadoop是大數(shù)據(jù)的“超級(jí)明星”!
在2012年1月1日,CSDN對(duì)Hadoop的開(kāi)篇之作就是“Hadoop 1.0正式發(fā)布”,歷時(shí)六年,這一個(gè)較高級(jí)Apache開(kāi)源項(xiàng)目終于發(fā)布,雅虎是其最主要的貢獻(xiàn)者,它也是由前雅虎開(kāi)發(fā)者Doug Cutting(也是Nutch和Lucene的創(chuàng)始人)開(kāi)發(fā)的分布式計(jì)算平臺(tái),受Google的MapReduce和GFS啟發(fā),主要被應(yīng)用于分析大容量數(shù)據(jù)集。Hadoop被eBay、Facebook、Yahoo、AOL和Twitter等互聯(lián)網(wǎng)公司廣泛采用,今年微軟、IBM和甲骨文等也都紛紛擁抱了Hadoop。
Hadoop具備低成本和前所未有的高擴(kuò)展性,已被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái)。就像30年前SQL出現(xiàn)一樣,Hadoop正帶來(lái)了新一輪的數(shù)據(jù)革命。如今Hadoop已從初出茅廬的小象變成了行業(yè)的巨人,但Hadoop仍需繼續(xù)完善。不過(guò)今天,Hadoop已經(jīng)從初出茅廬的小象變身行業(yè)巨人。
Hadoop相關(guān)技術(shù)的那點(diǎn)事
技術(shù)干貨!如果想深入理解Hadoop集群和網(wǎng)絡(luò),那么不妨看一下Dell企業(yè)技術(shù)專家Brad Hedlund撰寫的文章,他闡述了Hadoop主要的任務(wù)部署分為3個(gè)部分,分別是:Client機(jī)器,主節(jié)點(diǎn)和從節(jié)點(diǎn)。主節(jié)點(diǎn)主要負(fù)責(zé)Hadoop兩個(gè)關(guān)鍵功能模塊HDFS、Map Reduce的監(jiān)督。當(dāng)Job Tracker使用Map Reduce進(jìn)行監(jiān)控和調(diào)度數(shù)據(jù)的并行處理時(shí),名稱節(jié)點(diǎn)則負(fù)責(zé)HDFS監(jiān)視和調(diào)度。從節(jié)點(diǎn)負(fù)責(zé)了機(jī)器運(yùn)行的絕大部分,擔(dān)當(dāng)所有數(shù)據(jù)儲(chǔ)存和指令計(jì)算的苦差。每個(gè)從節(jié)點(diǎn)既扮演者數(shù)據(jù)節(jié)點(diǎn)的角色又沖當(dāng)與他們主節(jié)點(diǎn)通信的守護(hù)進(jìn)程。守護(hù)進(jìn)程隸屬于Job Tracker,數(shù)據(jù)節(jié)點(diǎn)在歸屬于名稱節(jié)點(diǎn)。不過(guò)如果發(fā)現(xiàn)部署Hadoop還有困難,那么你就需要關(guān)注管理Hadoop集群的5大工具,它們就是Apache Ambari、Apache Mesos、Platform MapReduce、StackIQ Rocks+ Big Data以及Zettaset Orchestrator。
眾所周知,Google在2003年到2004年公布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文,這也成為后來(lái)云計(jì)算發(fā)展的重要基石,如今Google在后Hadoop時(shí)代的新“三駕馬車”——Caffeine、Pregel、Dremel再一次影響著全球大數(shù)據(jù)技術(shù)的發(fā)展潮流。?
不過(guò),CSDN總編劉江曾經(jīng)撰文:有媒體稱之為后Hadoop時(shí)代的三駕馬車Caffeine、Pregel和Dremel。當(dāng)然,這種說(shuō)法有混淆了輩份之嫌,而且并不十分科學(xué)。Pregel是圖數(shù)據(jù)庫(kù),據(jù)說(shuō)在MapReduce之外擔(dān)負(fù)了另外20%的數(shù)據(jù)處理任務(wù),與三大論文之間沒(méi)有承繼關(guān)系。其實(shí)某種程度上,Caffeine是MapReduce的演進(jìn),在今年OSDI上大火的Spanner可以視為BigTable的演進(jìn),而Dremel則是新出的。
Hadoop的相關(guān)產(chǎn)品
2012年10月24日,實(shí)時(shí)運(yùn)營(yíng)信息軟件供應(yīng)商Splunk在Strata Conference + Hadoop World上推出Splunk Hadoop Connect和Splunk App for HadoopOps。前者實(shí)現(xiàn)與Hadoop相集成,并且能夠與其進(jìn)行互動(dòng),后者監(jiān)控超越Hadoop本身的集群資源,這些都意味著Hadoop外延應(yīng)用越來(lái)越豐富。
以此同時(shí),大數(shù)據(jù)技術(shù)會(huì)議Strata Conference + Hadoop World同樣傳來(lái)消息,Cloudera發(fā)布了實(shí)時(shí)查詢開(kāi)源項(xiàng)目Impala 1.0 beta版,稱比原來(lái)基于MapReduce的Hive SQL查詢速度提升3~90倍。
再看一下微軟,他已經(jīng)將Hadoop作為自身大數(shù)據(jù)戰(zhàn)略的核心。微軟此舉的理由就是看中了Hadoop的潛力,在大數(shù)據(jù)領(lǐng)域Hadoop已經(jīng)成為分布式數(shù)據(jù)處理的標(biāo)準(zhǔn)。通過(guò)集成Hadoop技術(shù),微軟也允許客戶訪問(wèn)快速增長(zhǎng)的Hadoop生態(tài)系統(tǒng)。 讓我們一起走進(jìn)“Microsoft Azure Hadoop特性一覽”。
目前Facebook Hadoop集群內(nèi)的HDFS物理磁盤空間承載超過(guò)100PB的數(shù)據(jù)(分布在不同數(shù)據(jù)中心的100多個(gè)集群)。由于HDFS存儲(chǔ)著Hadoop應(yīng)用需要處理的數(shù)據(jù),因此優(yōu)化HDFS成為Facebook為用戶提供高效、可靠服務(wù)至關(guān)重要的因素。Facebook公開(kāi)其Hadoop與Avatarnode代碼——有效解決Namenode的頑疾。
Hadoop領(lǐng)域的那些大牛們
其實(shí)在Hadoop領(lǐng)域有很多傳奇人物,先說(shuō)說(shuō)Hortonworks的CTO Eric Baldeschwieler,Eric在2006年毅然投入雅虎Apache Hadoop項(xiàng)目的懷抱,將其從20個(gè)節(jié)點(diǎn)的原型系統(tǒng)發(fā)展為42000個(gè)節(jié)點(diǎn)的服務(wù)。而后,當(dāng)雅虎決定全力支持Apache Hadoop項(xiàng)目,并于2011年7月成立新公司Hortonworks時(shí),Eric當(dāng)之無(wú)愧地成為首任CTO。作為資深技術(shù)人士,但當(dāng)CTO的Eric感覺(jué)自己面臨了諸多挑戰(zhàn)。但他對(duì)Hadoop的前景非常樂(lè)觀,“大家多貢獻(xiàn)一點(diǎn),Hadoop將會(huì)創(chuàng)造奇跡?!?/p>
根據(jù)目前的狀況來(lái)看,Hadoop作為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)核心技術(shù),在未來(lái)的數(shù)年中將會(huì)保持持續(xù)增長(zhǎng)的勢(shì)頭。下一代的MapReduce節(jié)點(diǎn)數(shù)將從目前的4000增加到6000-10000,其次并發(fā)的任務(wù)數(shù)從目前的40000增加到100000。
Hadoop不是萬(wàn)能的
雖然Hadoop有很多忠實(shí)的擁護(hù)者。畢竟它可以輕而易舉地處理PB級(jí)別的數(shù)據(jù),它可以將運(yùn)算擴(kuò)展到數(shù)千個(gè)節(jié)點(diǎn)的分布式計(jì)算能力,它也具有存儲(chǔ)和加載數(shù)據(jù)的靈活性。但在經(jīng)歷過(guò)一系列的探索與使用之后,你會(huì)發(fā)現(xiàn),Hadoop也有自己的軟肋,下面列舉了為什么不使用Hadoop做數(shù)據(jù)分析的原因:
不過(guò)更為諷刺的是,Hadoop較大的缺點(diǎn)之一就是其較大的優(yōu)勢(shì)所在——分布式文件系統(tǒng)(HDFS)。現(xiàn)在越來(lái)越多想要取代HDFS的選項(xiàng)證明了HDFS并不是適合所有的領(lǐng)域。一些Hadoop用戶對(duì)于性能、可用性和企業(yè)級(jí)功能有嚴(yán)格的要求,而對(duì)直連存儲(chǔ)(DAS)架構(gòu)并不熱衷。而關(guān)注可用性的用戶一定特別關(guān)注方方面面,比如絕不會(huì)使用沒(méi)有內(nèi)建高可用性名稱節(jié)點(diǎn)(High Availability NameNode)的舊版本。這里就有8項(xiàng)產(chǎn)品(或方案)聲稱可以取代HDFS:Cassandra (DataStax)、CEPH、Dispersed Storage Network (Cleversafe)、GPFS(IBM)、Isilon (EMC)、Lustre、MapR File System以及NetApp Open Solution for Hadoop。
Hadoop的輝煌還能延續(xù)多久?
Hadoop的靈魂是MapReduce。但是面對(duì)數(shù)據(jù)的爆炸性增長(zhǎng),谷歌的工程師Jeff Dean和Sanjay Ghemawat架構(gòu)并發(fā)布了兩個(gè)開(kāi)創(chuàng)性的系統(tǒng):GFS和谷歌MapReduce(GMR)。前者是一個(gè)出色而實(shí)用的解決方案-使用常規(guī)的硬件擴(kuò)展并管理數(shù)據(jù),后者同樣輝煌,造就了一個(gè)適用于大規(guī)模并行處理的計(jì)算框架。不過(guò)一個(gè)有趣的現(xiàn)象是,MapReduce在谷歌已不再顯赫。當(dāng)企業(yè)矚目MapReduce的時(shí)候,谷歌好像早已進(jìn)入到了下一個(gè)時(shí)代。事實(shí)上,我們談?wù)摰倪@些技術(shù)早就不是新技術(shù)了,MapReduce也不例外。
盡管當(dāng)前大數(shù)據(jù)技術(shù)的核心依然是Hadoop,但谷歌卻已經(jīng)為我們展現(xiàn)了許多更先進(jìn)的大數(shù)據(jù)技術(shù)。谷歌開(kāi)發(fā)這些技術(shù)的本意并不是要立刻拋棄掉MapReduce,但毫無(wú)疑問(wèn)這是未來(lái)大數(shù)據(jù)技術(shù)的趨勢(shì)。盡管已經(jīng)出現(xiàn)了上述大數(shù)據(jù)技術(shù)的開(kāi)源實(shí)現(xiàn),但我們不禁要問(wèn),Hadoop的輝煌還能延續(xù)多久?
基于Hadoop的改進(jìn)以及的成果
圍繞Hadoop,產(chǎn)業(yè)鏈更加清晰。十月或許是大數(shù)據(jù)歷史上值得標(biāo)注的一個(gè)月,因?yàn)镠adoop會(huì)被重新定義:既可以是大數(shù)據(jù)批量處理的一個(gè)研究框架,也可以是結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)大規(guī)模并行分析數(shù)據(jù)高速的發(fā)動(dòng)機(jī),交互分析的產(chǎn)品。Birst、Splice Machine和Teradata這三家企業(yè)的產(chǎn)品從外延提升了Hadoop的應(yīng)用范疇。
接下來(lái),就要說(shuō)說(shuō)一些常用的開(kāi)源工具了。首先看看Storm,這是我們經(jīng)常用的一個(gè)非常有效的開(kāi)源實(shí)時(shí)計(jì)算工具,它由Twitter開(kāi)發(fā),通常被比作“實(shí)時(shí)的Hadoop”。然而Storm遠(yuǎn)比Hadoop來(lái)的簡(jiǎn)單,因?yàn)橛盟幚泶髷?shù)據(jù)不會(huì)帶來(lái)新老技術(shù)的交替。當(dāng)然對(duì)比Hadoop的批處理,Storm是個(gè)實(shí)時(shí)的、分布式以及具備高容錯(cuò)的計(jì)算系統(tǒng)。同Hadoop一樣Storm也可以處理大批量的數(shù)據(jù),然而Storm在保證高可靠性的前提下還可以讓處理進(jìn)行的更加實(shí)時(shí);也就是說(shuō),所有的信息都會(huì)被處理。Storm同樣還具備容錯(cuò)和分布計(jì)算這些特性,這就讓Storm可以擴(kuò)展到不同的機(jī)器上進(jìn)行大批量的數(shù)據(jù)處理。
不過(guò)說(shuō)到Twitter,就不得不提起近期剛剛發(fā)布的Blobstore圖片存儲(chǔ)系統(tǒng),是由Twitter開(kāi)發(fā)的一個(gè)低成本和可擴(kuò)展的的存儲(chǔ)系統(tǒng),可以用來(lái)存儲(chǔ)圖片以及其他的二進(jìn)制對(duì)象(稱為“blob”)。不過(guò)令人遺憾的是,Blobstore并不是一個(gè)開(kāi)源工具。
不過(guò)我們還有其他的選擇,F(xiàn)acebook最近在他們官方Github上發(fā)布了Corona的開(kāi)源版本,聲稱這是下一代MapReduce,他們馬上將用這一新技術(shù)替代他們的Hadoop系統(tǒng)中的MapReduce。其實(shí)Corona就是一個(gè)取代MapReduce用來(lái)調(diào)度Hadoop Job的新的系統(tǒng)。其目的是為了更好的利用集群的資源,同時(shí)能夠讓Hadoop的應(yīng)用范圍更廣。
還有上文提到的Cloudera發(fā)布了實(shí)時(shí)查詢開(kāi)源項(xiàng)目Impala。多款產(chǎn)品實(shí)測(cè)表明,比原來(lái)基于MapReduce的Hive SQL查詢速度提升3~90倍。雖然Impala是Google Dremel的模仿,但在SQL功能上青出于藍(lán)勝于藍(lán)。
大數(shù)據(jù)面臨的一個(gè)很大的問(wèn)題是大多數(shù)分析查詢都很緩慢且非交互式。Google的Dremel能以極快的速度處理網(wǎng)絡(luò)規(guī)模的海量數(shù)據(jù)。據(jù)谷歌的研究報(bào)告顯示,Dremel能以拍字節(jié)(petabyte,PB,1PB等于1024TB)的數(shù)量級(jí)來(lái)進(jìn)行查詢,而且只需幾秒鐘時(shí)間就能完成。而其對(duì)應(yīng)的開(kāi)源版本就是Drill。 Drill與MapReduce相輔相成。在谷歌,數(shù)以千計(jì)的工程師每天都在使用Dremel和MapReduce,未來(lái)也將有著更多的人來(lái)使用Drill與MapReduce。如果想了解的更多,可能你還需要看看Google Dremel?與 Apache Hadoop的對(duì)比篇。
隨著IT技術(shù)本身的發(fā)展和更加深入廣泛的生活應(yīng)用,讓我們先盤點(diǎn)下2012年計(jì)算機(jī)安全上的大事件:
隨著云計(jì)算和大數(shù)據(jù)技術(shù)的成熟,對(duì)于的安全技術(shù)也在逐漸發(fā)展,下面就一些熱門的云安全技術(shù)做下盤點(diǎn):
策略
以往的安全解決方案就是一套殺毒軟件,一套安全設(shè)施再加一套安全體系。如今,在云背景下安全早已經(jīng)上升到企業(yè)戰(zhàn)略這個(gè)高度,那么面對(duì)云計(jì)算,對(duì)企業(yè)在策略上的變化做下盤點(diǎn):
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/4019.html
摘要:國(guó)內(nèi)領(lǐng)頭企業(yè)金蝶,年上半年收入億元。金蝶自年轉(zhuǎn)型企業(yè)云服務(wù)開(kāi)始,云服務(wù)營(yíng)收占比逐年上漲。政府推動(dòng)企業(yè)上云,應(yīng)用迎來(lái)機(jī)會(huì)年月,政府頒發(fā)了推動(dòng)企業(yè)上云實(shí)施指南年,提出到年,云計(jì)算要在企業(yè)生產(chǎn)經(jīng)營(yíng)管理中的應(yīng)用廣泛普及,全國(guó)新增上云企業(yè)萬(wàn)家。經(jīng)常有人問(wèn),SaaS行業(yè)有前途嗎?先看個(gè)例子。P圖鼻祖Photoshop,大家都知道吧。打造Photoshop的Adobe公司,2018全年?duì)I收達(dá)高達(dá)90.3 ...
摘要:,普通表格近日,兩位云計(jì)算高管離職,此次離開(kāi)距離他們加入這個(gè)公司只有一年左右時(shí)間。是兩位離職高管之一,這一消息已經(jīng)從發(fā)言人那里得到確認(rèn)。走了之后,或?qū)⒉扇⌒碌牟呗浴? 近日,兩位SAP云計(jì)算高管離職,此次離開(kāi)距離他們加入這個(gè)公司只有一年左右時(shí)間。這兩位高管都是跟隨Ariba的被收購(gòu)而進(jìn)入SAP,2012年5月,SAP以 43億美元收購(gòu)Ariba。 Bob Calderon...
摘要:有市場(chǎng)分析機(jī)構(gòu)預(yù)測(cè),年國(guó)內(nèi)公有云服務(wù)市場(chǎng)規(guī)模將超過(guò)億元,增速超過(guò)。更老牌的科技巨頭華為在大會(huì)上明確表示,未來(lái)發(fā)展要構(gòu)建云生態(tài)戰(zhàn)略,主打行業(yè)云,以業(yè)務(wù)為主,每年在業(yè)務(wù)的投資將不低于億美元?! ?015年,云計(jì)算產(chǎn)業(yè)廣被熟知。更為重要的是,以往言必稱亞馬遜、谷歌、微軟的云計(jì)算市場(chǎng),由于大批國(guó)產(chǎn)廠商的崛起而備具中國(guó)特色:阿里云成阿里巴巴增長(zhǎng)最快業(yè)務(wù);騰訊云、金山云(聯(lián)合小米)、百度云全力上陣;甚至...
摘要:從技術(shù)的角度來(lái)看,當(dāng)前國(guó)內(nèi)云計(jì)算尚處于初級(jí)的階段,在鄂爾多斯市構(gòu)建一個(gè)健康的云計(jì)算產(chǎn)業(yè)鏈,不僅需要對(duì)技術(shù)有清晰的認(rèn)識(shí),而且必須嚴(yán)把安全關(guān)口。而技術(shù)的發(fā)展要符合自身的發(fā)展規(guī)律,云計(jì)算是不可能在年的時(shí)間內(nèi)迅速發(fā)展成熟的。 從技術(shù)的角度來(lái)看,當(dāng)前國(guó)內(nèi)云計(jì)算尚處于初級(jí)的階段,在鄂爾多斯市構(gòu)建一個(gè)健康的云計(jì)算產(chǎn)業(yè)鏈,不僅需要對(duì)技術(shù)有清晰的認(rèn)識(shí),而且必須嚴(yán)把安全關(guān)口。今后鄂爾多斯云計(jì)算產(chǎn)業(yè)研究院將抓大扶...
摘要:在年第三季度,來(lái)自最新公布的報(bào)告顯示,全球整體企業(yè)級(jí)存儲(chǔ)市場(chǎng)收入獲得了的增長(zhǎng),其中戴爾易安信與去年同期相比在該季度獲得了的增長(zhǎng),并以的行業(yè)份額排名第一。在戴爾易安信繼續(xù)領(lǐng)跑全球服務(wù)器市場(chǎng)的同時(shí),自然也帶來(lái)了在服務(wù)器的存儲(chǔ)銷售增長(zhǎng)與良好勢(shì)頭。云計(jì)算不但沒(méi)有將企業(yè)級(jí)存儲(chǔ)拋棄,而且還給了企業(yè)級(jí)存儲(chǔ)新的發(fā)展機(jī)會(huì)。RightScale的《2018年云狀況調(diào)查》報(bào)告分析,針對(duì)不同工作負(fù)載、不同的云,自然...
閱讀 2699·2023-04-25 15:07
閱讀 774·2021-11-24 10:21
閱讀 2392·2021-09-22 10:02
閱讀 3576·2019-08-30 15:43
閱讀 3302·2019-08-30 13:03
閱讀 2370·2019-08-29 17:18
閱讀 3647·2019-08-29 17:07
閱讀 1979·2019-08-29 12:27