趙志超
(河北中信聯(lián)信息技術(shù)有限公司 河北 石家莊 050091)
電子政務(wù)大數(shù)據(jù)系統(tǒng)應(yīng)用云計算架構(gòu)
趙志超
(河北中信聯(lián)信息技術(shù)有限公司 河北 石家莊 050091)
電子政務(wù)數(shù)年的建設(shè)和發(fā)展積累了一定量的政務(wù)數(shù)據(jù),如何對其進行大規(guī)模的綜合分析、挖掘和利用,提高政府運作的效率、提高管理和決策水平已成為迫切需要解決的問題。針對這一需求,結(jié)合國民經(jīng)濟發(fā)展對電子政務(wù)大數(shù)據(jù)綜合研究專題進行了分析,提出了一種電子政務(wù)大數(shù)據(jù)云計算的實現(xiàn)架構(gòu),討論了分布式數(shù)據(jù)計算開源云平臺Hadoop于電子政務(wù)大數(shù)據(jù)計算的特性。
電子政務(wù)云計算大數(shù)據(jù)Hadoop
電子政務(wù)建設(shè)經(jīng)過數(shù)年的建設(shè)與發(fā)展,已見規(guī)模,并為政府的信息化管理和服務(wù)帶來了顯著的社會效益,但是相對獨立的業(yè)務(wù)應(yīng)用系統(tǒng)和部門管轄,缺乏對大數(shù)據(jù)的認(rèn)識和相應(yīng)的分析處理手段,無法實現(xiàn)“從數(shù)據(jù)到信息,從信息到知識”的轉(zhuǎn)化,使得這些建設(shè)難以發(fā)揮綜合效益,造成了“數(shù)據(jù)爆炸卻知識貧乏”的現(xiàn)象,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,更遑論利用數(shù)據(jù)指導(dǎo)政務(wù)工作和預(yù)測未來發(fā)展趨勢。
進行電子政務(wù)大數(shù)據(jù)應(yīng)用的專題分析,可以為區(qū)域國民經(jīng)濟和民生帶來諸多現(xiàn)實的經(jīng)濟和社會效益,并將為國計民生和持續(xù)發(fā)展提供決策支持。采用云計算架構(gòu),成功應(yīng)用于多項大數(shù)據(jù)應(yīng)用的、可以有效運行于常規(guī)硬件資源之上的開源Hadoop分布式數(shù)據(jù)計算平臺及其計算框架是當(dāng)前實現(xiàn)電子政務(wù)大數(shù)據(jù)融合應(yīng)用的適當(dāng)選擇。
為了充分發(fā)揮既有資源作用和新一代信息技術(shù)潛能,開展基于云計算的電子政務(wù)公共平臺頂層設(shè)計,繼續(xù)深化電子政務(wù)應(yīng)用,全面提升電子政務(wù)服務(wù)能力和水平,最近工信部頒發(fā)了《基于云計算的電子政務(wù)公共平臺頂層設(shè)計指南》,對電子政務(wù)大數(shù)據(jù)應(yīng)用發(fā)展云計算提出了明確的要求:積極推動云計算模式在電子政務(wù)中的應(yīng)用,充分發(fā)揮云計算虛擬化、高可靠性、通用性和高可擴展性等優(yōu)勢,建設(shè)完善電子政務(wù)公共平臺;推動數(shù)據(jù)和業(yè)務(wù)系統(tǒng)與承載的技術(shù)環(huán)境分離;電子政務(wù)公共平臺的設(shè)計應(yīng)滿足大量數(shù)據(jù)訪問、存儲和智能化處理的需要[1]。通過大數(shù)據(jù)中心建設(shè),將政務(wù)部門的數(shù)據(jù)進行匯總、清洗和比對分析后,形成信息資源,并建設(shè)一個大數(shù)據(jù)公開平臺,統(tǒng)一對社會開放政務(wù)數(shù)據(jù),提高整個社會對信息資源的開發(fā)利用已成為形勢發(fā)展所需。
電子政務(wù)大數(shù)據(jù)分析挖掘應(yīng)用需要布署海量數(shù)據(jù)的存儲池,存放跨地域的各種行業(yè)的歷史數(shù)據(jù),構(gòu)建數(shù)據(jù)倉庫,并具有駕馭對大數(shù)據(jù)進行挖掘應(yīng)用的平臺和工具。從技術(shù)層面上,云計算可以提供按需分配的彈性資源和一系列的服務(wù)集合,是當(dāng)前構(gòu)建電子政務(wù)大數(shù)據(jù)應(yīng)用的恰當(dāng)結(jié)構(gòu),根據(jù)需求[1],電子政務(wù)大數(shù)據(jù)應(yīng)用云計算平臺的體系架構(gòu)設(shè)計如圖1所示。
①電子政務(wù)基礎(chǔ)設(shè)施服務(wù):提供虛擬化的基礎(chǔ)設(shè)施支撐的服務(wù),對資源實時監(jiān)控、綜合分析、統(tǒng)一調(diào)度和快速部署,實現(xiàn)資源高效利用;
②電子政務(wù)支撐軟件服務(wù):提供集成的業(yè)務(wù)應(yīng)用開發(fā)、運行和支撐環(huán)境,滿足快速開發(fā)部門業(yè)務(wù)應(yīng)用需要;
③電子政務(wù)應(yīng)用功能服務(wù):提供直接使用的各種業(yè)務(wù)軟件,使各政務(wù)部門按照一定的授權(quán)進行部署使用,保持接口一致性和系統(tǒng)的高度可用性;
④電子政務(wù)信息資源服務(wù):提供信息資源支撐的服務(wù),滿足信息資源共享和交換;
⑤電子政務(wù)信息安全服務(wù):基于公共平臺開展業(yè)務(wù)應(yīng)用提供安全保障的服務(wù)。
電子政務(wù)大數(shù)據(jù)應(yīng)用分析應(yīng)根據(jù)數(shù)據(jù)資源完備情況、需求緊迫性、分析整合工具和平臺建設(shè),以及資金準(zhǔn)備綜合考慮進行。根據(jù)區(qū)域電子政務(wù)建設(shè)情況可以進行如下專題的研究。
①綜合實力分析:通過對歷年整體經(jīng)濟運行情況進行數(shù)據(jù)挖掘分析,反映國民經(jīng)濟發(fā)展、資源與能源、固定資產(chǎn)投資和物價管理等發(fā)展?fàn)顩r和趨勢;
②輿情分析:掌握社情民意、提高公共服務(wù)能力、解決民生關(guān)切問題及應(yīng)對突發(fā)事件;
③財稅金融分析:對財政收入和支出、金融及保險行業(yè)發(fā)展情況進行對比分析;
④產(chǎn)業(yè)發(fā)展分析:提供工業(yè)、農(nóng)業(yè)、建筑業(yè)和服務(wù)業(yè)的各項產(chǎn)業(yè)數(shù)據(jù)挖掘,實現(xiàn)產(chǎn)業(yè)經(jīng)濟發(fā)展?fàn)顩r和趨勢分析;
⑤醫(yī)療保障和教育分析:對科技創(chuàng)新、教育、文化、醫(yī)療、衛(wèi)生、體育、民生、就業(yè)及保障救濟信息綜合管理,加強信息互通,資源共享;
⑥環(huán)境保護分析:環(huán)境監(jiān)測管理、環(huán)境污染源及影響分析和環(huán)境綜合治理發(fā)展預(yù)測;
⑦安全生產(chǎn)分析:安全生產(chǎn)運行監(jiān)測與統(tǒng)計分析,事故分析與災(zāi)害預(yù)測預(yù)報;
⑧能源、節(jié)能降耗分析:各類能源資源的需求、生產(chǎn)、供應(yīng)和消費分析,監(jiān)測重點領(lǐng)域能源運行和重點單位的能效情況,統(tǒng)籌能源的供需平衡和節(jié)能減排管理;
⑨經(jīng)濟專題分析:綜合分析歷年的各類數(shù)據(jù),對整體經(jīng)濟運行情況進行分析,反映國民經(jīng)濟現(xiàn)狀和發(fā)展趨勢;
⑩城市比較分析:對區(qū)域內(nèi)重點城市的整體經(jīng)濟運行情況進行分析和排名,并可與國內(nèi)外相關(guān)城市比較分析,發(fā)現(xiàn)地域發(fā)展的優(yōu)劣勢、機會與風(fēng)險和城市規(guī)劃決策;
人力資源分析:人口總體發(fā)展情況,勞動力和知識結(jié)構(gòu)態(tài)勢,就業(yè)市場供需分析;
城市管理:城市規(guī)劃布局、防災(zāi)減災(zāi)、交通疏導(dǎo)、反恐和應(yīng)急防范處理。
借助大數(shù)據(jù)應(yīng)用的發(fā)展,提高政府預(yù)測預(yù)警能力以及應(yīng)急響應(yīng)能力,節(jié)約決策的成本,加快推進智能化電子政務(wù)服務(wù)和移動政務(wù)服務(wù)新模式的應(yīng)用,拓展個性化服務(wù),增強政府與社會、老百姓直接的雙向互動和同步交流,提升電子政務(wù)價值,提高決策的效率,提高政府決策的科學(xué)性和精準(zhǔn)性,獲得極大的社會效益和經(jīng)濟效益。
圖1電子政務(wù)大數(shù)據(jù)云計算體系架構(gòu)設(shè)計示意圖
脫胎于Google的GFS、MapReduce、BigTable技術(shù)的開源分布式處理平臺——Hadoop,是目前在互聯(lián)網(wǎng)使用廣泛的一種云計算支撐架構(gòu),借助于Hadoop,程序員可以輕松地編寫分布式并行程序,將其運行于大型計算機集群上,完成海量數(shù)據(jù)的計算。Hadoop對硬件資源要求寬松,可以在大量廉價的硬件設(shè)備組成的集群上運行應(yīng)用程序,構(gòu)建一個具有高可靠性和良好擴展性的并行分布式系統(tǒng)。這些特點非常適合選擇為電子政務(wù)大數(shù)據(jù)云計算的開發(fā)和使用平臺,提供電子政務(wù)的支撐軟件服務(wù)和應(yīng)用功能服務(wù)[2,3]。
Hadoop的HDFS(Hadoop Distributed File System),Hadoop分布式文件系統(tǒng)、MapReduc編程模型和HBase分布式數(shù)據(jù)庫是其3大核心技術(shù),Hive和Pig分別是基于Hadoop的數(shù)據(jù)倉庫工具和大規(guī)模數(shù)據(jù)分析工具[4,5]。
(1)MapReduce大數(shù)據(jù)處理框架
MapReduce采用基于能夠接受其他函數(shù)作為參數(shù)的高階函數(shù)完成程序開發(fā),2個最常用地內(nèi)置高階函數(shù)是map和reduce,MapReduce的執(zhí)行框架能自行協(xié)調(diào)map與reduce,并將其應(yīng)用于在商業(yè)服務(wù)器硬件平臺上并行處理海量數(shù)據(jù),MapReduce計算過程如圖2所示。由此,MapReduce可以看做是[6]:一個如上所述的函數(shù)式編程語言、能夠協(xié)調(diào)運行基于MapReduce思想開發(fā)的程序的運行框架、編程模型和執(zhí)行框架的實現(xiàn)。
圖2 MapReduce計算過程
MapReduce程序(mapreduce job)由客戶端提交到集群中的具體專門節(jié)點,根據(jù)集群配置及作業(yè)的屬性等選定運行環(huán)境,分mapper和reducer兩個階段處理數(shù)據(jù),鍵/值對(key-value pair)是MapReduce的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。MapReduce在大數(shù)據(jù)處理時,會根據(jù)要處理的數(shù)據(jù)文件及用戶編寫的map函數(shù)首先將數(shù)據(jù)分割為多個部分(split),而后為每一個split啟動一個map任務(wù)(map task),這些map任務(wù)由MapReduce運行環(huán)境調(diào)度著分散運行于集群中的一個或多個節(jié)點上;每個mapper執(zhí)行結(jié)束后,都可能會輸出許多的鍵值對,稱作中間鍵值對,這些中間鍵值對臨時性地存放在某出,直到所有的mapper都執(zhí)行結(jié)束;MapReduce再把這些中間鍵/值對依鍵聚合重新進行分割為一個或多個分組,同一組可以包含一個或多個鍵及其對應(yīng)的數(shù)據(jù),MapReduce運行環(huán)境會為每個分組啟動一個reduce任務(wù)(reduce task),這些reduce任務(wù)由MapReduce運行環(huán)境調(diào)度著運行于集群中的一個或多個節(jié)點上。
MapReduce先進之處還在于它利用執(zhí)行框架分離了編寫并行算法的對象和方法,程序員不需關(guān)注所有底層執(zhí)行的細(xì)節(jié),并能保證MapReduce集群處理能力隨著節(jié)點的增加而線性增長,即集群規(guī)模增長N倍其處理相同規(guī)模數(shù)據(jù)的時長也會縮短N倍,使海量數(shù)據(jù)并行處理被“分割包圍、逐個殲滅”。這些正是快速分析大數(shù)據(jù)所需要的計算能力。
(2)分布式文件系統(tǒng)HDFS
HDFS為MapReduce的計算框架而設(shè)計,將數(shù)據(jù)存儲于多個節(jié)點上,采用計算節(jié)點與存儲節(jié)點合二為一的集群模型,極大地降低了數(shù)據(jù)通過網(wǎng)絡(luò)傳送的需求。且可以在低成本設(shè)備上實現(xiàn)。HDFS的主旨是數(shù)據(jù)分塊與復(fù)制。相對于本地磁盤幾KB大的塊(block),HDFS中的塊要大得多(通常默認(rèn)64M)。HDFS存儲下來數(shù)據(jù)主要用于后續(xù)的處理分析,其訪問模型為“一次寫入、多次讀取”;因此,數(shù)據(jù)在HDFS中存儲完成后,僅能在文件尾部附加新數(shù)據(jù),而不能對文件進行修改。HDFS首先訪問namenode以確定文件存放位置。對于客戶端請求,namenode將會返回datanode節(jié)點號與塊號。客戶端根據(jù)節(jié)點號與塊號訪問對應(yīng)的datanode,獲取文件數(shù)據(jù)。需要注意的一點是文件數(shù)據(jù)傳輸只發(fā)生于客戶端與datanode之間,不經(jīng)過namenode;客戶端與namenode之間只會傳輸元數(shù)據(jù)。
圖3 HDFS架構(gòu)
HDFS通常默認(rèn)將每個數(shù)據(jù)塊在不同機架的機器上存儲3份,以確??煽啃?、可用性與性能,在規(guī)模較大的集群中,這樣可以保證單點故障或整個機架遭遇斷網(wǎng)的時候數(shù)據(jù)仍然可用,同時保證了更好的數(shù)據(jù)局部性,避免大量數(shù)據(jù)跨節(jié)點傳輸。
(3)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫HBase
HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,可實時地隨機讀/寫超大規(guī)模數(shù)據(jù)集,能夠簡單地通過增加節(jié)點來達(dá)到線性擴展。為大規(guī)??缮炜s的分布式處理設(shè)計,表可以很“高”(數(shù)十億個數(shù)據(jù)行);表可以很“寬”(數(shù)百萬個列);在表增長的時候,表會自動分裂成區(qū)域,并分布到可用的節(jié)點上。
從電子政務(wù)大數(shù)據(jù)的研究專題可以看出,內(nèi)容形式有數(shù)據(jù)、文字和圖像,甚至音視頻材料,數(shù)據(jù)類型既有結(jié)構(gòu)型的,也有非結(jié)構(gòu)型的;基本上是穩(wěn)定的歷史記錄數(shù)據(jù),不是即時交易事務(wù)型數(shù)據(jù),不存在處理過程中需要隨時增刪數(shù)據(jù)的問題。這正是大數(shù)據(jù)分析運算對象的特點,Hadoop的分布式云計算架構(gòu)正是適應(yīng)這樣需要的一種體系結(jié)構(gòu)。高速流式讀寫操作可方便地通過云計算虛擬化的節(jié)點增加來提高處理速度,而成本并不增加很多,能更好地利用既有電子政務(wù)建設(shè)的資源。
Hadoop發(fā)布至今近十年發(fā)展,取得了令人矚目的成功,增添了Hive、HBase、Zookeeper、Avro、Pig、Ambari、Sqoop、Mahout和Chukwa等子項目工具,但其編程思想和技能還未能被大眾所熟悉和掌握,在項目建設(shè)中需要考慮學(xué)習(xí)成本和風(fēng)險。
[1]信息化推進司.基于云計算的電子政務(wù)公共平臺頂層設(shè)計指南[EB/0L].http://xxhs.miit.gov.cn/,2014.
[2]封俊.基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D].太原:太原理工大學(xué),2010.
[3]ANAND R,JEFFREY D U.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].王斌,譯.北京:人民郵電出版社,2012.
[4]T0M W.Hadoop權(quán)威指南[M].周敏奇,等,譯.北京:清華大學(xué)出版社,2011.
[5]劉鵬.實戰(zhàn)Hadoop:開啟通向云計算的捷徑[M].北京:電子工業(yè)出版社,2011.
[6]JIMMY L,CHRIS D.Data-Intensive Text Processing with MapReduce[M].USA:Morgan&Claypool publishers,2010.
Application of Cloud Computing Architecture in E-government Big Data System
ZHAO Zhi-chao
(Hebei UniWin Information Technology Co.,Ltd.,Shijiazhuang Hebei 050091,China)
A certain amount of government data is accumulated with the construction and development of E-government for several years.How to synthetically analyze,mine and use the data to improve the operation efficiency,management and decision-making level of government has become an urgent problem.Aiming at this problem and combining with the development of national economy,this paper analyzes the comprehensive research topic of E-government big data,proposes the implementation architecture of cloud computing of E-government big data and discusses the characteristics of Hadoop distributed data calculation open-source cloud platform and E-government big data calculation.
E-government system;cloud computing;big data;Hadoop
TP393
A
1008-1739(2014)14-62-4
定稿日期:2014-06-26