文/張顥
隨著大型企業(yè)業(yè)務(wù)不斷拓展,業(yè)務(wù)部門對(duì)數(shù)據(jù)分析的需求更加多樣,對(duì)于數(shù)據(jù)分析的時(shí)效性、數(shù)據(jù)分析范圍都有更多的需求,需要在現(xiàn)有技術(shù)平臺(tái)上引入大數(shù)據(jù)技術(shù)予以支持。混合數(shù)據(jù)平臺(tái)的開(kāi)發(fā)建設(shè),在技術(shù)性、擴(kuò)展性內(nèi)容中,表現(xiàn)出了明顯的科技優(yōu)勢(shì)。但在技術(shù)成本上,也具有較高的科技型要求,并且需要兼顧開(kāi)放性、可延續(xù)性和安全性,避免受制于當(dāng)下業(yè)務(wù)目標(biāo)等因素而建立較高邊際成本的豎井式應(yīng)用。為了搭建統(tǒng)一管理的大數(shù)據(jù)開(kāi)發(fā)平臺(tái),快速高效的支持后期應(yīng)用建設(shè),并降低私有技術(shù)條件的鎖定效果,需要在私有云與物理服務(wù)器的混合狀態(tài)下,搭建起混合型的數(shù)據(jù)平臺(tái)。而這一技術(shù)條件的應(yīng)用,需要將異構(gòu)數(shù)據(jù)與云平臺(tái)技術(shù)條件作為基礎(chǔ),以此保證混合數(shù)據(jù)平臺(tái)的有效開(kāi)發(fā)。
私有云技術(shù)又被稱作“Private Clouds”,是為客戶提供單獨(dú)服務(wù)的計(jì)算機(jī)系統(tǒng),帶有數(shù)據(jù)化、安全性、服務(wù)性的基本的特征。在實(shí)際操作中,通過(guò)此項(xiàng)技術(shù)體系,可以在原有硬件基礎(chǔ)設(shè)施的基礎(chǔ)上,形成網(wǎng)絡(luò)化的應(yīng)用程序,并在私有云部署的結(jié)構(gòu)上,加設(shè)防火墻系統(tǒng),并通過(guò)安全主機(jī)的托管場(chǎng)所,完成特定資源內(nèi)容的整理與控制,實(shí)現(xiàn)用戶對(duì)于數(shù)據(jù)資料的處理。
建立條件上,私有云技術(shù)可以由專業(yè)的IT機(jī)構(gòu)作為主導(dǎo),也可以將企業(yè)作為技術(shù)核心,完成自身云服務(wù)內(nèi)容體系的構(gòu)建與組成。在形成托管模式的前提下,IBM、Sun等計(jì)算機(jī)公司,都可以在安裝、配置、運(yùn)營(yíng)中,完成獨(dú)立客戶服務(wù)中,對(duì)象私有云技術(shù)體系的搭建。
應(yīng)用私有云技術(shù)的過(guò)程中,可以形成明顯的技術(shù)優(yōu)勢(shì),并主要表現(xiàn)為以下四點(diǎn)特征。
(1)數(shù)據(jù)安全性。雖然每個(gè)公共云系統(tǒng)運(yùn)行公司,對(duì)外都宣稱自身系統(tǒng)帶有絕對(duì)的安全性,并在數(shù)據(jù)管理?xiàng)l件上具有絕對(duì)優(yōu)勢(shì)。但在實(shí)際使用中,尤其是大型企業(yè)的公有云系統(tǒng)中,其主要業(yè)務(wù)內(nèi)容與數(shù)據(jù)信息,都會(huì)受到來(lái)自網(wǎng)絡(luò)環(huán)境威脅,成為影響企業(yè)運(yùn)營(yíng)發(fā)展與技術(shù)管理的重要阻礙。而在搭建私有云系統(tǒng)之后,可將企業(yè)的數(shù)據(jù)信息從Mission-Critial中解放出來(lái),形成獨(dú)立的運(yùn)行系統(tǒng),以此,更加絕對(duì)的保證數(shù)據(jù)管理的安全狀態(tài)。在技術(shù)管理中,還可以通過(guò)私有云技術(shù)體系,形成完整的防火墻體系,從而進(jìn)一步鞏固企業(yè)網(wǎng)絡(luò)數(shù)據(jù)信息的安全狀態(tài)。
(2)服務(wù)質(zhì)量。私有云在形成防火墻程序之后,解決了數(shù)據(jù)中心設(shè)置的局限性問(wèn)題,并明顯地提升了SLA的穩(wěn)定性狀態(tài),即便是發(fā)生大規(guī)模的技術(shù)問(wèn)題,也不會(huì)對(duì)網(wǎng)絡(luò)造成毀滅性影響。
(3)資源充分開(kāi)發(fā)。在公司運(yùn)用LEGACY技術(shù)的過(guò)程中,通常使用靜態(tài)程序語(yǔ)言,在應(yīng)用私有云技術(shù)的過(guò)程中,這種語(yǔ)言程序的開(kāi)放性得到了充分補(bǔ)充很,可以在銜接與轉(zhuǎn)換的技術(shù)條件下,以Java技術(shù)為核心,完成私有云技術(shù)體系的優(yōu)化。
(4)私有云技術(shù)體系的建設(shè)基礎(chǔ)上,不會(huì)對(duì)現(xiàn)有的IT管理體系造成影響,并在串聯(lián)整體管理系統(tǒng)上,起到了積極的影響作用。
將云服務(wù)器與物理機(jī)進(jìn)行整合,應(yīng)明確兩者之間的差異與關(guān)聯(lián)性,并在形成完整技術(shù)體系的同時(shí),保證混合數(shù)據(jù)平臺(tái)的建設(shè)水平。技術(shù)條件上,要明確物理機(jī)服務(wù)器的獨(dú)立主機(jī)狀態(tài),并在維護(hù)與托管運(yùn)行的過(guò)程中,需要消耗大量的管理經(jīng)費(fèi)。而云服務(wù)器,作為一群服務(wù)器的鏡像系統(tǒng),可以在分割虛擬機(jī)的同時(shí),保證使用成本價(jià)格的穩(wěn)定狀態(tài),并在取消宕機(jī)的條件上,展現(xiàn)技術(shù)優(yōu)勢(shì)。
混合型數(shù)據(jù)平臺(tái)的框架體系構(gòu)筑中,將一其中的一部分結(jié)構(gòu)按照基本平臺(tái)設(shè)計(jì)原理,使其物理服務(wù)器的專職作用可以在數(shù)據(jù)平臺(tái)計(jì)算與存儲(chǔ)中發(fā)揮作用。而在另一部分的物理服務(wù)器系統(tǒng)中,則按照云計(jì)算技術(shù)要求完成定植,并構(gòu)筑起云計(jì)算場(chǎng)景空間。在兩批服務(wù)器體系的多個(gè)冗余對(duì)接中,完成與數(shù)據(jù)中心網(wǎng)絡(luò)的連接。將兩組服務(wù)器中共享集群的技術(shù)交接內(nèi)容,統(tǒng)一接入交換機(jī)設(shè)備,可以在Rack aware的配置條件下,使管理員與系統(tǒng)可以清楚地定位數(shù)據(jù)所處的位置信息。以此,在云技術(shù)與大數(shù)據(jù)平臺(tái)的關(guān)系上,建立起高速率的信息交換通道,保證混合數(shù)據(jù)平臺(tái)整體功能系統(tǒng)體系的建設(shè)條件。
PaaS(Platform as a Service,平臺(tái)即服務(wù)),是企業(yè)云計(jì)算重要組成部分。雖然IaaS(基礎(chǔ)設(shè)施即服務(wù))硬件管理等方面已經(jīng)較為成熟,但在部署擴(kuò)容方面卻是很復(fù)雜的。相對(duì)來(lái)說(shuō),PaaS提供完整的開(kāi)發(fā)和部署,免去服務(wù)器、操作系統(tǒng)、網(wǎng)絡(luò)和存儲(chǔ)等資源的管理,可實(shí)現(xiàn)更高資源利用率,提供更強(qiáng)大的處理能力。另外,對(duì)于大型企業(yè)而言,PaaS的整合率和經(jīng)濟(jì)性也是遠(yuǎn)高于IaaS,PaaS平臺(tái)能承載上萬(wàn)應(yīng)用,而普遍的IaaS在10-100。
但為兼顧原先平臺(tái)私有云IaaS項(xiàng)目,可采取分層式平臺(tái)架構(gòu)設(shè)計(jì)。運(yùn)用PaaS構(gòu)建大數(shù)據(jù)應(yīng)用開(kāi)發(fā)平臺(tái),提供基礎(chǔ)技術(shù)能力,向下作為基礎(chǔ)設(shè)施的IaaS層的結(jié)合與支撐,向上與應(yīng)用(SaaS)的結(jié)合與支撐。從而整合和集成已有開(kāi)發(fā)平臺(tái)體系,實(shí)現(xiàn)平臺(tái)整體的松耦合架構(gòu),使得平臺(tái)具備足夠的靈活性以支撐更多的應(yīng)用場(chǎng)景,并在最大程度防止組件之間的相互影響,提升整體系統(tǒng)的可靠性和可用性。
搭建分層式平臺(tái)結(jié)構(gòu)的過(guò)程中,可以根據(jù)功能完成技術(shù)條件的邏輯設(shè)置。上層面向應(yīng)用開(kāi)發(fā)者設(shè)置應(yīng)用開(kāi)發(fā)層,提供完善的平臺(tái)功能SDK封裝,并通過(guò)IDE開(kāi)發(fā)環(huán)境、命令行、控制臺(tái)等工具與開(kāi)發(fā)者交互,最大程度實(shí)現(xiàn)平臺(tái)與開(kāi)發(fā)者解耦;面向業(yè)務(wù)應(yīng)用設(shè)置一個(gè)訪問(wèn)中間層,向上提供應(yīng)用開(kāi)發(fā)層的能力支撐,向下通過(guò)路由控制、服務(wù)調(diào)度等組件進(jìn)行分裝,屏蔽內(nèi)部差異;并設(shè)置計(jì)算層,提供分布式計(jì)算功能,同時(shí)作為容器;資源管理層對(duì)CPU、內(nèi)存、網(wǎng)絡(luò)等資源進(jìn)行管理,實(shí)現(xiàn)資源靈活調(diào)度;存儲(chǔ)層實(shí)現(xiàn)海量數(shù)據(jù)儲(chǔ)存。另外還有運(yùn)維管理、元數(shù)據(jù)管理、安全管理等模塊。
數(shù)據(jù)平臺(tái)技術(shù)的設(shè)計(jì)中,需要形成系統(tǒng)化組件體系。將Hadoop中的HDFS與YARN作為技術(shù)核心,可在形成資源調(diào)度系統(tǒng)的同時(shí),保證整體網(wǎng)絡(luò)的系統(tǒng)化管理結(jié)構(gòu),尤其在針對(duì)控制結(jié)點(diǎn)的技術(shù)處理中,能達(dá)到高可用方案的實(shí)際操作效果。而具體技術(shù)配置設(shè)置,也可以總結(jié)為以下幾個(gè)方面
3.3.1 文件系統(tǒng)
應(yīng)用Hadoop系統(tǒng)的過(guò)程中,將其中的HDFS作為文件系統(tǒng)存儲(chǔ)功能的基本組成。在HDFS系統(tǒng)內(nèi),通過(guò)NameNode完成文件系統(tǒng)元數(shù)據(jù)的而存儲(chǔ),在向其提供熱備功能支撐的同時(shí),維護(hù)NameNode長(zhǎng)時(shí)間的在線運(yùn)行條件。而在NameNode中,還會(huì)內(nèi)置了HA系統(tǒng)。在默認(rèn)的ZKFC數(shù)據(jù)中,通過(guò)Apache Zookeeper完成集群化信息的同步鎖定技術(shù)。
在數(shù)據(jù)平臺(tái)系統(tǒng)中,也會(huì)形成以HA為核心的應(yīng)用方案。方法上,通過(guò)物理節(jié)點(diǎn)完成NameNode啟動(dòng),并在配置3個(gè)獨(dú)立結(jié)點(diǎn)日志的基礎(chǔ)上,形成“JournalNode”,維持兩個(gè)NameNode系統(tǒng)的數(shù)據(jù)同步狀態(tài)。同時(shí),還需要保證ZKFC與Zookeeper集群系統(tǒng)的活躍性狀態(tài),即便是其中一個(gè)沒(méi)有形成響應(yīng),也會(huì)在系統(tǒng)中完成主動(dòng)切換,保證運(yùn)算的執(zhí)行效果。
3.3.2 作業(yè)調(diào)度
作業(yè)調(diào)度控制系統(tǒng)中,將Hadoop YARN作為技術(shù)核心,在保證部署用戶任務(wù)自動(dòng)調(diào)節(jié)狀態(tài)的同時(shí),使其可以連接到不同的機(jī)器系統(tǒng)中。通過(guò)YARN系統(tǒng)中的資源管理器設(shè)備,完成任務(wù)資源的調(diào)度。而這一技術(shù)條件下,需要整體資源管理器設(shè)備,帶有較高的HA配置條件,并在兩個(gè)結(jié)點(diǎn)均勻化配置的前提下,通過(guò)內(nèi)置的Zookeeper集群,實(shí)現(xiàn)自動(dòng)檢測(cè)的索引,將失敗的資源內(nèi)容,轉(zhuǎn)移到處于活躍狀態(tài)的資源的管理器中。
3.3.3 查詢計(jì)算
查詢與計(jì)算的過(guò)程中,需要保證整體數(shù)據(jù)計(jì)算框架的普適性,將包括SQL在內(nèi)的多種信息形式進(jìn)行轉(zhuǎn)換,使其調(diào)整為MapReduce任務(wù)中的Apache Hive,或者應(yīng)用Spark計(jì)算框架中的原生任務(wù),形成MapReduce與Streaming。另外,在查詢與計(jì)算中,對(duì)于并不適應(yīng)命令的用戶,也可以應(yīng)用HUE機(jī)芯能夠便捷化處理,在網(wǎng)頁(yè)查詢提交的技術(shù)前提下,對(duì)于任務(wù)進(jìn)展與錯(cuò)誤信息進(jìn)行知識(shí)。而對(duì)于熟悉IPython Notebook數(shù)據(jù)形式的用戶,也可以在Jupyter Hub的結(jié)構(gòu)中,完成數(shù)據(jù)信息的交互,使其在數(shù)據(jù)樣式轉(zhuǎn)換的過(guò)程中,滿足用戶使用需要。
3.3.4 數(shù)據(jù)集成
將具體數(shù)據(jù)信息導(dǎo)入到數(shù)據(jù)平臺(tái)系統(tǒng)中,可以應(yīng)用的方式大致可以歸類為以下三種類型。
(1)對(duì)于流式數(shù)據(jù),需要應(yīng)用Apache Kafka完成實(shí)時(shí)數(shù)據(jù)交換與分享,并在導(dǎo)入數(shù)據(jù)平臺(tái)后,完成離線計(jì)算;
(2)對(duì)于結(jié)構(gòu)化數(shù)據(jù),可以應(yīng)用Apache Sqoop選取相關(guān)數(shù)據(jù)表,并盡量按照原有的表結(jié)構(gòu)轉(zhuǎn)換到數(shù)據(jù)平臺(tái)系統(tǒng)中,并在Hadoop中完成儲(chǔ)存;
(3)在其他類型的數(shù)據(jù)形式,也需要在完成格式轉(zhuǎn)換之后,才能存儲(chǔ)到數(shù)據(jù)平臺(tái)系統(tǒng)中,以此完成數(shù)據(jù)管理。
3.3.5 其他配置
訪問(wèn)控制條件下,搭建Kerberos系統(tǒng),可以完成用戶身份的驗(yàn)證。同時(shí),在對(duì)文件資料進(jìn)行管理的過(guò)程中,也可以形成用戶分組,并保證對(duì)于訪問(wèn)信息的控制。而針對(duì)Hive查詢內(nèi)容,可通過(guò)Sentery系統(tǒng)完成對(duì)于訪問(wèn)信息的控制。
在數(shù)據(jù)監(jiān)控的需求條件下,可以在系統(tǒng)結(jié)構(gòu)中布置Zabbix、netdata、Grafana等數(shù)據(jù)結(jié)構(gòu),并在完成資源實(shí)時(shí)共享的基礎(chǔ)上,對(duì)歷史數(shù)據(jù)的日志信息進(jìn)行查詢,以此保證數(shù)據(jù)的全面性。
另外,在數(shù)據(jù)系統(tǒng)的配置條件上,為了保證整體系統(tǒng)的備份狀態(tài)與恢復(fù)管理?xiàng)l件,在進(jìn)行應(yīng)用層管理的過(guò)程中,需要設(shè)置三個(gè)獨(dú)立的數(shù)據(jù)副本,以此保證整體程序的可用狀態(tài),以及數(shù)據(jù)訪問(wèn)信息的高吞吐量條件。在三個(gè)數(shù)據(jù)副本的設(shè)置中,應(yīng)將其分別放置在不同的機(jī)器結(jié)構(gòu)中,從而避免計(jì)價(jià)結(jié)構(gòu)重疊的數(shù)據(jù)丟失。而對(duì)于重要性較強(qiáng)的關(guān)鍵性數(shù)據(jù),還需要形成關(guān)系型數(shù)據(jù)庫(kù),并在搭建MySQL集群的基礎(chǔ)上,使其維持一定的可應(yīng)用性條件,使備份數(shù)據(jù)的應(yīng)用價(jià)值得到保障。
為了保證整體技術(shù)體系的應(yīng)用條件,在建立混合型大數(shù)據(jù)平臺(tái)的基礎(chǔ)上,還需要對(duì)其私有云與物理機(jī)的使用條件進(jìn)行部署與測(cè)試分析,并通過(guò)如下三個(gè)步驟,確定具體混合性大數(shù)據(jù)平臺(tái)使用過(guò)程中的實(shí)用性條件,以此保證整體技術(shù)體系分析的完整性。
數(shù)據(jù)憑條服務(wù)器的部署工作,需要按照其基本分類條件,對(duì)控制結(jié)點(diǎn)與存儲(chǔ)結(jié)點(diǎn)進(jìn)行系統(tǒng)分析。在控制結(jié)點(diǎn)處理上,需要對(duì)存取源數(shù)據(jù)進(jìn)行管理,并在對(duì)內(nèi)存與存儲(chǔ)型能保持嚴(yán)格要求的前提下,使用256GB的內(nèi)存結(jié)點(diǎn),完成4+性能結(jié)構(gòu)的搭建,并在SSD閃存固態(tài)硬盤的條件下,完成RAID10的陣列模式,以此維護(hù)整體技術(shù)體系的高容錯(cuò)率條件。
而在搭建云平臺(tái)體系的過(guò)程中,在保證實(shí)際應(yīng)用條件的前提下,提高平數(shù)據(jù)平臺(tái)的兼容性狀態(tài)。在形成彈性擴(kuò)展池結(jié)構(gòu)的同時(shí),即便是平臺(tái)資源相對(duì)較為匱乏的狀態(tài)下,也要對(duì)計(jì)算資源進(jìn)行整合,并在形成至少40臺(tái)2U服務(wù)器系統(tǒng)的基礎(chǔ)上,保證現(xiàn)代化云計(jì)算平臺(tái)的使用條件。
完成混合型大數(shù)據(jù)平臺(tái)設(shè)置的前提下,需要對(duì)其實(shí)際操作的設(shè)備配置進(jìn)行測(cè)試,以此驗(yàn)證其運(yùn)行過(guò)程中的功能條件。在進(jìn)行數(shù)據(jù)化平臺(tái)建設(shè)的過(guò)程中,應(yīng)遵照基本開(kāi)源軟件的配置條件,完成系統(tǒng)協(xié)調(diào)處理的同時(shí),提高數(shù)據(jù)處理系統(tǒng)的兼容性狀態(tài),并在符合性能預(yù)期條件的前提下,判斷測(cè)試數(shù)據(jù)性能的實(shí)際任務(wù)耗時(shí)條件。由此,在相關(guān)數(shù)據(jù)平臺(tái)結(jié)構(gòu)的性能測(cè)試中,可以對(duì)接中國(guó)科學(xué)院計(jì)算研究所的Big Data Bench程序和英特爾公司開(kāi)發(fā)的HiBench,完成具體數(shù)據(jù)的檢測(cè)處理,確定混合型大數(shù)據(jù)平臺(tái)的使用價(jià)值。尤其在多組用戶的兼容性分析中,可以在接通Hive,并產(chǎn)生MapReduce的前提下,對(duì)系統(tǒng)中的CPU、內(nèi)存、網(wǎng)絡(luò)資源鏈接等內(nèi)容都進(jìn)行應(yīng)用價(jià)值判斷,以此實(shí)現(xiàn)對(duì)于Spark框架體系的系統(tǒng)化評(píng)估。
在進(jìn)行測(cè)試的過(guò)程中,還需要對(duì)極端狀態(tài)下的運(yùn)行狀態(tài)作出判斷,并在具體內(nèi)容分析的前提下,保證數(shù)據(jù)系統(tǒng)的管理效果,使其在使用過(guò)程中,可以更好地發(fā)揮技術(shù)優(yōu)勢(shì),以此實(shí)現(xiàn)整體技術(shù)體系的應(yīng)用升級(jí)。
例如,當(dāng)混合型大數(shù)據(jù)平臺(tái)的物理集群資源處于占滿狀態(tài)下時(shí),其中新形成的任務(wù)信息,會(huì)在任務(wù)隊(duì)列中進(jìn)行等待,或是在小型資源配置條件下,完成較為緩慢的運(yùn)算處理。針對(duì)這一問(wèn)題的技術(shù)管理中,需要在物理集群飽和狀態(tài)中添加虛擬機(jī),并通過(guò)系統(tǒng)內(nèi)的調(diào)度體系,完成對(duì)于資源任務(wù)反向分配。在這一過(guò)程中,應(yīng)對(duì)主機(jī)性能作出補(bǔ)充,并在保證集群化內(nèi)容高于主機(jī)的前提下,使主機(jī)結(jié)構(gòu)中的網(wǎng)絡(luò)寬帶被限速控制在0.5Gbps內(nèi)。通過(guò)這一數(shù)據(jù)行管理,可以將物理集群技術(shù)控制在雙萬(wàn)兆聚合條件下,并達(dá)到20Gbps的數(shù)據(jù)參數(shù)。
又如,在進(jìn)行集群任務(wù)管理中,還需針對(duì)其系統(tǒng)的擴(kuò)展性能做出判斷,并通過(guò)對(duì)不同虛擬機(jī)設(shè)備啟動(dòng)條件的控制,形成實(shí)驗(yàn)對(duì)比,并在物理集群的影響條件下,利用YARN調(diào)度技術(shù),完成對(duì)于Terasort內(nèi)容的任務(wù)排序。尤其在執(zhí)行HiBench質(zhì)量的過(guò)程中,需要對(duì)任務(wù)狀態(tài)時(shí)間的變化條件進(jìn)行控制,并在參照虛擬機(jī)數(shù)量的前提下,確定運(yùn)行數(shù)據(jù)是否符合技術(shù)分析中的預(yù)期條件。同時(shí),還需對(duì)參與試驗(yàn)測(cè)試三臺(tái)物理機(jī)進(jìn)行對(duì)比,以完成物理機(jī)能力的驗(yàn)證分析。
綜上,通過(guò)對(duì)開(kāi)源軟件系統(tǒng)的設(shè)計(jì),在構(gòu)筑混合型大數(shù)據(jù)平臺(tái)設(shè)計(jì)中,添加了私有云與物理機(jī)的技術(shù)應(yīng)用條件。通過(guò)大數(shù)據(jù)平臺(tái)結(jié)構(gòu)中物理服務(wù)器的設(shè)置,保證了其基本的功能結(jié)構(gòu),并在性能分析的過(guò)程中,消除資源緊張帶來(lái)的內(nèi)容使用影響,使其可以憑借私有云平臺(tái)的擴(kuò)展,完成內(nèi)容的檢索與分析。尤其在應(yīng)用條件上,這一混合型數(shù)據(jù)平臺(tái),可以在開(kāi)源評(píng)測(cè)工作中,起到積極的影響作用,并在多性能測(cè)試工作中,形成影響調(diào)度性能的優(yōu)勢(shì)性能條件。