本刊記者│張鵬
Hadoop如何應(yīng)對混合云框架下的大數(shù)據(jù)分析
本刊記者│張鵬
雖然混合云的存在符合企業(yè)市場的客觀發(fā)展規(guī)律,但卻給大數(shù)據(jù)分析帶來了不小挑戰(zhàn),如何在混合云框架下進(jìn)行大數(shù)據(jù)的挖掘分析成為了業(yè)界新難題。
向云遷移與大數(shù)據(jù)分析可能是2016年全球首席信息官的頭等大事。調(diào)查顯示,全世界大約90%的數(shù)據(jù)都產(chǎn)生在過去10年中,互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù)革命的影響不斷滲透到世界的各個(gè)角落,最早收益的就是IT和互聯(lián)網(wǎng)公司,但從近幾年的發(fā)展趨勢看,傳統(tǒng)產(chǎn)業(yè)IT轉(zhuǎn)型速度加快,包括電信、醫(yī)療、制造、保險(xiǎn)等,企業(yè)管理者試圖通過IT轉(zhuǎn)型捕捉關(guān)鍵數(shù)據(jù),由此產(chǎn)生更多的盈利能力和商業(yè)洞察。
Gartner在2015年2月公布了一份題為“各行各業(yè)云部署相似性多于差異性”的研究報(bào)告:預(yù)測到2018年末的近4年中,公有云IT支出的年復(fù)合增長率為18%。這也進(jìn)一步證明,云IT支出遠(yuǎn)遠(yuǎn)超過平均IT支出,而且這種趨勢沒有任何減速跡象。Ovum分析師Tony Baer也表示,云是下一波Hadoop大量采用之處?!皩S迷O(shè)備和云部署將推動下一波Hadoop和大數(shù)據(jù)分析的大量采用?!?/p>
中國市場也不例外,國內(nèi)企業(yè)在經(jīng)歷了近20年的商業(yè)化運(yùn)行之后,已經(jīng)深切體會到了信息化對于企業(yè)運(yùn)營的重要性,在云時(shí)代,目前已經(jīng)有大量企業(yè)前赴后繼地?fù)肀г朴?jì)算,從最開始的資源池、私有云到現(xiàn)階段逐漸接受以BAT為主導(dǎo)的公有云服務(wù),由此也形成了“混合云”這一市場局面,企業(yè)主們通常將核心生產(chǎn)業(yè)務(wù)存放于私有云,將需要大量計(jì)算能力和資源空間的非核心業(yè)務(wù)上傳至公有云,業(yè)界普遍認(rèn)為,混合云將是中國IT市場的新常態(tài),并將長期存在。
雖然混合云的存在符合企業(yè)市場客觀發(fā)展規(guī)律,但卻給大數(shù)據(jù)分析帶來了不小挑戰(zhàn),如何在混合云框架下進(jìn)行大數(shù)據(jù)的挖掘分析成為了業(yè)界的新難題。
一家國內(nèi)咨詢公司的CTO對通信世界全媒體記者表示:雖然企業(yè)入云是趨勢,但目前的公有云還存在很多不足,當(dāng)數(shù)據(jù)量較大時(shí),缺陷就暴露出來了——效率低下,當(dāng)月活躍數(shù)據(jù)超過1億后,查詢時(shí)間過長,影響業(yè)務(wù)時(shí)效性;單位成本高;IO瓶頸明顯,與線下集群相比,即便是高配置下的公有云性能還是相差甚多;防護(hù)策略少,大量數(shù)據(jù)存儲于云端,數(shù)據(jù)安全防護(hù)薄弱,很容易受到網(wǎng)絡(luò)攻擊。
也就是說,企業(yè)需要為可能長期存在的混合云架構(gòu),設(shè)定更加合理的大數(shù)據(jù)分析策略。目前,業(yè)界基于大數(shù)據(jù)的應(yīng)用開發(fā)大多基于Hadoop的開源平臺。對于目前以開源社區(qū)模式茁壯成長起來的Hadoop平臺,由于一直采用開源、開放的原則,近幾年得到迅速發(fā)展,但更多的IT工程師認(rèn)為,對于大數(shù)據(jù)而言,開源Hadoop僅是一塊“敲門磚”,如果需要實(shí)現(xiàn)更加完善的功能,顯然還需要更多的技術(shù)能力,或者說更深層次的產(chǎn)品開發(fā)。
很多IT企業(yè)都從中看到了商機(jī),一系列商業(yè)解決方案也不斷面市。比如“IT大鱷”微軟公司,從智能云Azure,到大數(shù)據(jù)智能的SQL Server 2016,再到混合云Windows Server 2016,以及最新推出的數(shù)據(jù)可視化PowerBI,微軟正在踐行云計(jì)算、大數(shù)據(jù)、商業(yè)智能的發(fā)展思路。
在近期召開的微軟技術(shù)大會上,微軟公司執(zhí)行副總裁,全球銷售、市場營銷和業(yè)務(wù)運(yùn)營總裁讓·菲力浦·古德華(Jean-Philippe Courtois)就表示:“全球86%的CEO相信,未來5年內(nèi),數(shù)字技術(shù)將是驅(qū)動企業(yè)轉(zhuǎn)型的首要?jiǎng)恿?。云?jì)算、大數(shù)據(jù)、人工智能,這些引領(lǐng)變革的技術(shù)趨勢超越了傳統(tǒng)IT的范疇,正在推動企業(yè)核心業(yè)務(wù)的轉(zhuǎn)型和創(chuàng)新?!?/p>
目前,Azure公有云已經(jīng)覆蓋了全球38個(gè)區(qū)域;全球“財(cái)富500強(qiáng)”企業(yè)中,有85%的企業(yè)采用了微軟云服務(wù)。在微軟亞太研發(fā)集團(tuán)首席運(yùn)營官、微軟亞太科技有限公司董事總經(jīng)理、微軟中國云計(jì)算與企業(yè)事業(yè)部總經(jīng)理申元慶看來,公有云平臺應(yīng)具備全面的解決方案能力,無論是公有云、私有云、混合云架構(gòu),還是企業(yè)級云服務(wù)、大數(shù)據(jù)分析、人工智能、物聯(lián)網(wǎng)、開發(fā)工具和移動應(yīng)用等,應(yīng)該滿足企業(yè)的各類業(yè)務(wù)需求。
Novantas是一家美國銀行領(lǐng)域的解決方案和咨詢服務(wù)提供商,其CTO Kaushik Deka表示,他們每天都在AWS上處理成千上萬的關(guān)鍵事物,通過為銀行客戶提供洞察力而獲得業(yè)務(wù)方面的增長,數(shù)據(jù)可以在公有云環(huán)境下做到靈活部署和調(diào)用,但一部分銀行客戶對數(shù)據(jù)的安全性等級有較高要求,因此他們不能將數(shù)據(jù)遷移到公有云平臺上,因此必須搭建適合混合云架構(gòu)的大數(shù)據(jù)平臺。
事實(shí)上,與Novantas擁有相同業(yè)務(wù)需求的企業(yè)并不在少數(shù),總結(jié)而言,企業(yè)跨云處理大數(shù)據(jù)通常包括以下3點(diǎn)原因:
● 降低采購、配置和維護(hù)運(yùn)行大數(shù)據(jù)應(yīng)用所需的客戶端硬件的成本;
● 增強(qiáng)數(shù)據(jù)工程師和數(shù)據(jù)分析師通過自助服務(wù)配置解決業(yè)務(wù)問題的能力;
● 實(shí)現(xiàn)向云遷移的戰(zhàn)略目標(biāo),減小公司自有數(shù)據(jù)中心的規(guī)模。
基于以上市場訴求,從事大數(shù)據(jù)分析與挖掘服務(wù)提供商Cloudera公司的聯(lián)合創(chuàng)始人、首席戰(zhàn)略官M(fèi)ike Olson也表示,混合云架構(gòu)下的大數(shù)據(jù)分析,需要企業(yè)級的大數(shù)據(jù)平臺能夠處理任何種類的大數(shù)據(jù)工作負(fù)載,無論工作負(fù)載是臨時(shí)性的還是長久性的,都能夠處理成批作業(yè)以支持建立數(shù)據(jù)采集管道,或支持先進(jìn)的SQL分析和復(fù)雜事件處理。這才是跨云而生的大數(shù)據(jù)分析能力。
電信研究院的大數(shù)據(jù)專家告訴記者,電信領(lǐng)域的大數(shù)據(jù)應(yīng)用場景近年來也在不斷增多,總體而言可以分為兩種,首先是舊平臺遷移,傳統(tǒng)經(jīng)分系統(tǒng)多承載于類似Oracle、IBM的數(shù)據(jù)庫中,伴隨數(shù)據(jù)量的逐漸增大,以及設(shè)備擴(kuò)容所帶來的成本壓力,一些運(yùn)營商會考慮將經(jīng)分系統(tǒng)逐漸遷移至開源的大數(shù)據(jù)平臺上;其次是新業(yè)務(wù),物聯(lián)網(wǎng)是電信行業(yè)全新的市場領(lǐng)域,物與物之間的全新通信方式將帶來海量的連接數(shù)據(jù),面對這部分?jǐn)?shù)據(jù)壓力,運(yùn)營商更多選擇用開源平臺來承載。
據(jù)悉,目前國內(nèi)運(yùn)營商均已分別建立了開源的大數(shù)據(jù)平臺,這其中以中國聯(lián)通最為積極和完善,盡管最初采用的都是免費(fèi)的Hadoop版本,但隨著系統(tǒng)升級和能力擴(kuò)展,運(yùn)營商也在引入大數(shù)據(jù)領(lǐng)域的合作伙伴以及采用Hadoop商用版本。
其原因在于,伴隨Hadoop平臺上的組件越來越多,運(yùn)營商需要投入更多人力和精力去維護(hù)這些組件,這很可能會加重運(yùn)營商的IT負(fù)擔(dān),如果找本土軟件商進(jìn)行二次開發(fā),由于貢獻(xiàn)代碼無法返回開源社區(qū)形成標(biāo)準(zhǔn),很容易陷入無法正常升級的尷尬境地,因此在針對擴(kuò)展性、安全性、生產(chǎn)就緒性等方面的考量時(shí),更多客戶選擇了商用版本。
在多云和混合云架構(gòu)下,越來越多的公司希望在客戶端運(yùn)行某些工作負(fù)載,在云中運(yùn)行另一些工作負(fù)載,這么做也許是為了擴(kuò)大規(guī)模、執(zhí)行開發(fā)和測試任務(wù)或者滿足服務(wù)級別協(xié)議及行業(yè)監(jiān)管要求。更重要的是,企業(yè)更不希望將數(shù)據(jù)鎖定到特定云服務(wù)中,以降低風(fēng)險(xiǎn)。
由此,諸如微軟、亞馬遜等國際公有云服務(wù)商率先推出了混合云架構(gòu)下的大數(shù)據(jù)分析能力。
微軟最近面向用PowerBI Desktop建立報(bào)告的Microsoft Azure客戶推出了新的Impala預(yù)覽版連接器。這些客戶可以利用Impala的速度優(yōu)勢,將大量類型不同、數(shù)量不等的數(shù)據(jù)置于數(shù)據(jù)分析狀態(tài)顯示板中,供任意數(shù)量用戶訪問。微軟公司總經(jīng)理Jeana Jorgensen表示:“Azure客戶認(rèn)識到,云中大數(shù)據(jù)分析可能對其業(yè)務(wù)產(chǎn)生重要影響?!?/p>
A m a z o n也聯(lián)合C l o u d e r a針對A ma zon S 3等云原生對象存儲運(yùn)行Apache Impala。這意味著,客戶現(xiàn)在可以針對Amazon S3中的數(shù)據(jù)運(yùn)行高性能SQL分析和BI工作負(fù)載,而不必轉(zhuǎn)換這些數(shù)據(jù),或在AWS上將這些數(shù)據(jù)移動到另一個(gè)位置。據(jù)悉,Cloudera還可直接針對Amazon S3中的數(shù)據(jù)運(yùn)用處理和查詢引擎Apache Hive、Apache Spark和Hiveon-Spark。
編輯|張鵬 zhangpeng@bjxintong.com.cn