劉 軍, 魚 濱, 關阿鵬, 范廣暉
(1. 陜西省國土資源廳 陜西陜南移民搬遷工程有限公司, 陜西 西安 710075;2.西安電子科技大學 計算機學院, 陜西 西安 710126;3.陜西通信信息技術有限公司, 陜西 西安 710075;4.西北大學 信息科學與技術學院, 陜西 西安 710127)
大數(shù)據(jù)技術在移民搬遷信息化中的應用
劉 軍1, 魚 濱2, 關阿鵬3, 范廣暉4
(1. 陜西省國土資源廳 陜西陜南移民搬遷工程有限公司, 陜西 西安 710075;2.西安電子科技大學 計算機學院, 陜西 西安 710126;3.陜西通信信息技術有限公司, 陜西 西安 710075;4.西北大學 信息科學與技術學院, 陜西 西安 710127)
運用大數(shù)據(jù)技術對陜南移民搬遷信息化系統(tǒng)中的數(shù)據(jù)進行管理、分析,簡述大數(shù)據(jù)的基本特點與關鍵技術、數(shù)據(jù)采集技術、分布式存儲技術、并行化處理技術和海量數(shù)據(jù)挖掘技術。根據(jù)信息化系統(tǒng)的體系框架,對大數(shù)據(jù)技術在陜南移民信息化系統(tǒng)中的應用進行探討,分析大數(shù)據(jù)技術的應用價值,闡述政府在大數(shù)據(jù)技術上投入的重要性。
大數(shù)據(jù);移民搬遷;數(shù)據(jù)管理
大數(shù)據(jù)浪潮正沖擊著人們的視野,越來越多的互聯(lián)網(wǎng)企業(yè)都投入到大數(shù)據(jù)產(chǎn)業(yè)的研究中,IBM、Google、微軟已研究開發(fā)出相關大數(shù)據(jù)處理產(chǎn)品,一些電商、社交平臺也正在充分利用他們手上掌握的用戶數(shù)據(jù)來挖掘其內在聯(lián)系,實現(xiàn)效益持續(xù)增加。IBM日本公司的經(jīng)濟指標預測系統(tǒng),從互聯(lián)網(wǎng)新聞中搜索影響制造業(yè)的480項經(jīng)濟數(shù)據(jù),計算出采納經(jīng)理人指數(shù)PMI預測值[1]。阿里公司根據(jù)淘寶網(wǎng)上的交易情況篩選出財務健康和誠信企業(yè),不需要擔保貸款,已放貸300多億元,壞賬率僅0.3%[1]。2013年,美國政府也開始行動投資“大數(shù)據(jù)研究計劃”,將大數(shù)據(jù)提升到國家發(fā)展戰(zhàn)略上來[1]。
2011年,陜西省委省政府為改善陜南群眾生活條件,消除貧困、修復生態(tài)、保障建設,促進經(jīng)濟持續(xù)發(fā)展,提出了陜南移民搬遷的總體規(guī)劃。此次搬遷工程規(guī)模宏大,搬遷的總人數(shù)超過陜南三市總人數(shù)的1/4,共60余萬戶,240余萬人;搬遷建筑面積達1.034 23億m2,移民搬遷投資共需1 109.4億元[2]。移民搬遷工程時間跨度長、工程數(shù)據(jù)繁雜,導致整個工程的組織管理工作異常繁重。移民搬遷信息化系統(tǒng)除了需要具備采集、整理、存儲大量移民對象、安置區(qū)、安置工程項目、安置資金使用等相關的基本信息,還需具備處理GIS空間數(shù)據(jù)、結構化常規(guī)數(shù)據(jù)、非結構化文檔、圖像類數(shù)據(jù)的能力,最后還需提供多角度查詢、多模式統(tǒng)計分析、多門類報表生成和移民信息公開等主要功能,需要處理大量的數(shù)據(jù)。所以,大數(shù)據(jù)技術在陜南移民搬遷信息化系統(tǒng)中的應用是非常必要的。
1.1 什么是大數(shù)據(jù)
隨著計算機、互聯(lián)網(wǎng)全面深入人們的生活,信息、數(shù)據(jù)呈現(xiàn)井噴式的增長,尤其近年來,移動互聯(lián)網(wǎng)、社交網(wǎng)絡、電子商務的迅速發(fā)展也極大地促進了這種瘋狂式的數(shù)據(jù)增長,“大數(shù)據(jù)”概念應運而生。大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊[3]。大數(shù)據(jù)特征:(1) Volume——數(shù)據(jù)量大,至少PB級別以上;(2)Variety——除結構化數(shù)據(jù)外,還包括大量非結構化數(shù)據(jù);(3)Value——數(shù)據(jù)量大,但有價值的數(shù)據(jù)量少;(4)Velocity——數(shù)據(jù)處理速度高,且實時性要求高。
1.2 大數(shù)據(jù)關鍵技術
大數(shù)據(jù)關鍵技術主要包括數(shù)據(jù)采集技術、分布式存儲技術、并行化處理技術、海量數(shù)據(jù)挖掘技術。數(shù)據(jù)采集主要通過收集互聯(lián)網(wǎng)、傳感器上的信息來獲取大量數(shù)據(jù);分布式存儲技術的框架包括云計算、bigTable、Google的GFS[4]和Hadoop的HDFS[5]等;目前最出色的并行處理技術是MapReduce[6];海量數(shù)據(jù)挖掘技術在普通數(shù)據(jù)挖掘算法的基礎上,需要開發(fā)、研究出新的算法,目前Hive[7]、 Mahout[8]等算法適合對數(shù)據(jù)倉庫、海量數(shù)據(jù)進行挖掘。
2.1 移民信息化系統(tǒng)的數(shù)據(jù)特征
移民信息化數(shù)據(jù)來源廣泛,具有以下特征。
(1)數(shù)據(jù)來源類型眾多
為確保移民搬遷前、中、后不同階段的信息收集及服務,移民信息化系統(tǒng)設定收集的數(shù)據(jù)來自各個方面及城市基礎信息庫。如人口、地理、房產(chǎn)、經(jīng)濟、交通等基本運行狀態(tài)數(shù)據(jù)。這其中包括各類結構化數(shù)據(jù)及眾多非結構化數(shù)據(jù),人口信息和溫濕度、氣體濃度傳感器產(chǎn)生的是結構化數(shù)據(jù),交通監(jiān)控攝像頭產(chǎn)生的是非結構化數(shù)據(jù)。
(2)數(shù)據(jù)量巨大
移民信息化系統(tǒng)的數(shù)據(jù)收集具有持續(xù)化、數(shù)據(jù)增長幾何化、數(shù)據(jù)來源不斷擴大化等特征,數(shù)據(jù)量日益增長。傳統(tǒng)的數(shù)據(jù)處理技術已無法滿足這種復雜數(shù)據(jù)的處理要求,而大數(shù)據(jù)技術正是為滿足這樣的數(shù)據(jù)處理要求應運而生的。
(3)數(shù)據(jù)實時產(chǎn)生、實時更新
移民信息化系統(tǒng)中的數(shù)據(jù)是實時采集、實時更新的,因此能確保當前系統(tǒng)中的數(shù)據(jù)是最新的。
2.2 大數(shù)據(jù)貫穿移民信息化系統(tǒng)各部分
移民信息化技術的總體架構為:云計算平臺層,數(shù)據(jù)存儲與應用層,數(shù)據(jù)采集展現(xiàn)層。其中,數(shù)據(jù)存儲與應用層分為數(shù)據(jù)共享中心管理、數(shù)據(jù)交換管理、平臺監(jiān)控功能,輔助決策分析。數(shù)據(jù)中心采用數(shù)據(jù)倉庫技術,通過數(shù)據(jù)挖掘,實現(xiàn)陜南移民搬遷數(shù)據(jù)輔助決策分析的功能。數(shù)據(jù)交換通過服務總線和數(shù)據(jù)服務提供的各種適配器,將移民對象管理,安置項目建設,資金管理等不同子系統(tǒng)的數(shù)據(jù)按照不同的資源形態(tài)(FTP、WebService、Database)通過數(shù)據(jù)交換技術存儲到共享數(shù)據(jù)中心的數(shù)據(jù)倉庫中,如圖1所示。
在系統(tǒng)的數(shù)據(jù)采集層,運用海量數(shù)據(jù)搜集工具采集移民搬遷的各類數(shù)據(jù);將基礎平臺層搭建成云計算分布式環(huán)境,為大數(shù)據(jù)技術提供最基本的物理平臺支持;在數(shù)據(jù)存儲層及數(shù)據(jù)應用層,采用Hadoop的HDFS存儲技術存儲各類非結構化數(shù)據(jù),采用海量挖掘算法對各類數(shù)據(jù)進行挖掘分析,在城市規(guī)劃、房屋建設、項目資金、地理環(huán)境監(jiān)測等方面提供決策支撐。
圖1 移民信息化系統(tǒng)技術架構
3.1 數(shù)據(jù)采集技術
在移民信息化系統(tǒng)的建設中,需要采集很多數(shù)據(jù),以便及時掌握移民搬遷各項工程的進展情況。這種數(shù)據(jù)的采集面更廣,數(shù)據(jù)量更大,對數(shù)據(jù)準確性和嚴謹性要求更高。這就需要思考如何更便捷、準確地獲取數(shù)據(jù),整合數(shù)據(jù),實現(xiàn)數(shù)據(jù)利用的最大化。
政府實際上已經(jīng)掌握大量的移民搬遷數(shù)據(jù),可以考慮實現(xiàn)移民信息化系統(tǒng)與其他信息管理系統(tǒng)的數(shù)據(jù)共享。如在人口信息采集方面,就可以與陜西省四庫之一的“人口庫”對接;地理信息數(shù)據(jù),可以與陜西省“地理信息數(shù)據(jù)庫”對接。由于政府行業(yè)的特殊性,要最大程度地實現(xiàn)數(shù)據(jù)共享和資源整合會面臨很多困難,不僅需要從技術層面上實現(xiàn)多種類型數(shù)據(jù)的有效融合,還需要協(xié)調政府各部門間的工作。涉及到數(shù)據(jù)安全的,還應配合政府相關單位,做好數(shù)據(jù)審查和保密工作。
在數(shù)據(jù)采集方面,可以借助移動終端進行實時采集,統(tǒng)一錄入。利用溫度傳感器采集地質災害信息,雨量傳感器、GPS、相機等設備,采集地質災害區(qū)的地貌特征、地理坐標等信息;采用掃描儀、高拍儀等工具以電子化方式記錄移民搬遷的相關文件資料。
3.2 數(shù)據(jù)存儲技術
移民信息化系統(tǒng)中的數(shù)據(jù)體量大,表長度過長,數(shù)據(jù)類型眾多,包含了大量文檔、圖片、視頻等非結構化數(shù)據(jù),無法存儲到結構化數(shù)據(jù)庫中,同時,移民人口信息一旦錄入到系統(tǒng)中后,更新較少,主要側重于信息檢索。分布式文件存儲技術能夠按照相應規(guī)則對數(shù)據(jù)進行分類分區(qū)存儲,讀操作大于寫操作能力,分布式存儲方式也便于日后按照標簽、索引方式檢索信息[9],有效提高了數(shù)據(jù)查詢效率。分布式文件系統(tǒng)如GFS、HDFS的數(shù)據(jù)分塊功能、追加更新方式實現(xiàn)了對其的高效存儲需求。此外,分布式存儲方式只需將足夠多的廉價服務器互聯(lián),減少了企業(yè)、政府的硬件成本投入。
3.3 數(shù)據(jù)處理技術
在后期對移民數(shù)據(jù)庫中的數(shù)據(jù)進行統(tǒng)計分析時,效率是非常重要的。傳統(tǒng)的方法分析TB級的數(shù)據(jù)需要幾個小時甚至幾天,而云計算的并行處理技術的運用,數(shù)據(jù)分析變得十分快捷。目前主流的并行式處理技術是谷歌于2004 年提出的應用于大規(guī)模集群進行大規(guī)模數(shù)據(jù)處理的并行計算的MapReduce模型,將Map命令發(fā)送到數(shù)據(jù)所在的各個節(jié)點上執(zhí)行,執(zhí)行獲得的中間文件寫在本地服務器上,本地寫操作減少了傳送中間文件數(shù)據(jù)對網(wǎng)絡帶寬的需求和時間;執(zhí)行Reduce操作時,主數(shù)據(jù)服務器將Reduce命令發(fā)送到中間文件所在的節(jié)點執(zhí)行,進一步減少了數(shù)據(jù)在網(wǎng)絡上的傳輸時間和對網(wǎng)絡帶寬的要求。此外,MapReduce模型具有很好的容錯性,當一個數(shù)據(jù)節(jié)點發(fā)生故障或者突然宕機時,MapReduce會將正在執(zhí)行的程序動態(tài)遷移到另外一個工作節(jié)點上進行。
MapReduce適合對數(shù)據(jù)的批處理分析,對于數(shù)據(jù)的實時處理分析,需要借助另外的計算模型Dremel,Dremel通過結合列存儲和多層次的查詢數(shù),能夠實現(xiàn)短時間內的海量數(shù)據(jù)分析[10],有利于提高政府應對突發(fā)事件的能力。
3.4 基于數(shù)據(jù)挖掘分析的決策技術
移民信息數(shù)據(jù)庫中的數(shù)據(jù)不只起到記錄的作用,還需對數(shù)據(jù)進行深度挖掘。分布式數(shù)據(jù)挖掘技術提供了發(fā)掘數(shù)據(jù)內在關聯(lián)性的工具,云計算平臺、分布式數(shù)據(jù)存儲、并行處理技術加上海量數(shù)據(jù)挖掘算法組成了數(shù)據(jù)處理的一整套系統(tǒng)。
數(shù)據(jù)挖掘可以對人口信息進行科學監(jiān)測和評估。陜南地區(qū)農(nóng)民工外出務工人數(shù)多,人員流動性強,基于對移民信息的科學分析,可以明確當?shù)氐娜丝诮Y構,預測未來的人口發(fā)展趨勢,對基礎醫(yī)療設施的配備、教育資源的優(yōu)化配置起到輔助決策作用。
推測出陜南地區(qū)地質災害發(fā)生的概率可以有效實現(xiàn)避災避險。大數(shù)據(jù)的實時數(shù)據(jù)分析能力滿足了陜南山區(qū)的地理數(shù)據(jù)處理要求,實現(xiàn)了大規(guī)模綜合數(shù)據(jù)分析能力,從而提高預防地質災害的能力,對移民城鎮(zhèn)選址、移民城鎮(zhèn)規(guī)劃同樣具有指導意義。
移民資金信息量大,審計困難,基于大數(shù)據(jù)的快速計算能力,可以準確掌握各項目的資金需求,及時發(fā)現(xiàn)資金的使用問題。另外,通過對已建設項目的資金使用情況進行分析,可以預測新建項目的資金需求,有效做好資金預算和配比。
經(jīng)過幾個月的工程實踐,在移民信息系統(tǒng)中采用大數(shù)據(jù)技術是可行的。主要的應用效果有以下幾方面:(1)系統(tǒng)的數(shù)據(jù)處理能力大大增強。分布式并行數(shù)據(jù)處理技術能極大的降低數(shù)據(jù)查詢、處理的時效,提高數(shù)據(jù)的實時分析能力,加強政府對應急事件的響應能力。(2)系統(tǒng)的伸縮性大大增強。系統(tǒng)采用分布式存儲方案,可根據(jù)日后的數(shù)據(jù)量情況,彈性增加數(shù)據(jù)服務器的數(shù)量,有效解決數(shù)據(jù)量增長帶來的問題。(3)系統(tǒng)的可靠性增加。采用動態(tài)遷移處理技術,可有效解決軟硬件故障帶來的影響。(4)系統(tǒng)的成本有所降低。采用廉價的服務器組成并聯(lián)網(wǎng)絡,對服務器的配置要求較低,可有效降低因購買高額服務器帶來的成本。
大數(shù)據(jù)技術在陜南移民搬遷過程中的具體應用,解決了移民搬遷相關數(shù)據(jù)存儲、共享、處理等基礎性問題,適應了統(tǒng)一管理、分布存儲、按需匯聚、關聯(lián)分析等應用需求。
[1] 李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊,2012(9):8-15.
[2] 張國棟,李玲,譚靜池.陜南移民搬遷調查報告[EB/OL].(2013-08-22). http://www.sei.gov.cn/ShowArticle2008.asp?ArticleID=232893
[3] 王鵬.大數(shù)據(jù)成功預測美國大選[EB/OL].(2014-02-25).http://www.thebigdata.cn/YeJieDongTai/8443.html
[4] Ghemawat S, Gobioff H, Leung P T. The Google file system[C]//Proceedings of the 19 ACM Symposium on Operating Systems Principles. NY ACM Press, October. 2003:29-43.
[5] Apache Hadoop. Hadoop[EB/OL].(2009-03-06)[2014-03-14].http//hadoop apache org/.
[6] Dean J, Ghemawat S. Map Reduce. Simplied data processing on large clusters[C]//OSDI04: Proceedings of the 6 Symposium on Operating System Design and Implementation. New York: ACM Press,2004:137-150.
[7] Hive Apache. Apache Hive[EB/OL].(2014-02-28)[2014-03-14]. http://en.wikipedia.rog/wiki/Apache_Hive.
[8] Mahout Apache.Apache Mahout[EB/OL].(2009-10-12) [2014-03-14].http://www.ibm.com/developerworks/ cn/java/j-mahout/.
[9] 鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].中國科技獎勵,2013(4):47-49.
[10] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[責任編輯:汪湘]
Application of big data in immigrant relocation information system
LIU Jun1, YU Bin2, GUAN Apeng3, FAN Guanghui4
(1. Southern Shaanxi Migration Relocating Co.Ltd, Department of Land and Resources of Shaanxi Province, Xi’an 710075, China; 2. School of Computer Science and Technology, Xidian University, Xi’an 710126, China; 3. Shaanxi Communication and Technology Co.Ltd, Xi’an 710075, China; 4.School of Inpormation and Technology, Northwest University, Xi’an 710127, China)
Big data technology is used in this paper for data management and analysis in the immigrant relocation information system of southern part of shaanxi province. Basic characteristics of big data and the key technology are sketched, including data collection technology, distributed storage, parallel processing technology and high-volume data mining technology. According to the framework of information system, a preliminary discussion of the application of big data in the information system is presented. The application value of big data technology and analyzed and the importance of government spending on big data technology is explained.
big data, migration, data management
10.13682/j.issn.2095-6533.2014.03.023
2014-01-14
劉軍(1969-),男,博士研究生,工程師,從事區(qū)域經(jīng)濟與水資源管理研究。E-mail: 603889717@qq.com 魚濱(1964-),男,博士,教授,從事軟件工程研究。E-mail: yubin@mail.xidian.edu.cn
TP311
A
2095-6533(2014)03-0112-04