李林陽,呂志平,陳正生,樊黎暉
(1.信息工程大學(xué) 地理空間信息學(xué)院,鄭州 450052;2.成都測繪信息中心,成都 610000)
20世紀(jì)80年代,加拿大首先提出 “主動控制系統(tǒng)”概念,并于1995年建成了第一個全球定位系統(tǒng)(global positioning system,GPS)連續(xù)運(yùn)行參考站網(wǎng)(continuous operating reference station system,CORS)。隨著差分技術(shù)、網(wǎng)絡(luò)實(shí)時動態(tài)差分法(real-time kinematic,RTK)技術(shù)的出現(xiàn)與逐步普及以及計算機(jī)技術(shù)、網(wǎng)絡(luò)通信技術(shù)的飛速發(fā)展,CORS得到了不斷發(fā)展和壯大,世界上很多國家紛紛建成了國家級、區(qū)域級、城市級的CORS[1-4]。面對規(guī)模龐大的 CORS站網(wǎng)及其連續(xù)觀測,如何對CORS數(shù)據(jù)進(jìn)行高效地存儲、組織、管理與發(fā)布,提高處理和分發(fā)的效率,緩解海量數(shù)據(jù)與有限的計算、存儲能力的矛盾 成為一個迫切需要解決的問題。
目前已建成的CORS數(shù)據(jù)管理系統(tǒng)大部分基于FTP文件格式存儲原始數(shù)據(jù),如國際全球衛(wèi)星導(dǎo)航系統(tǒng)國際服務(wù)協(xié)會(international global navigation satellite system service,IGS)和中國大陸構(gòu)造環(huán)境監(jiān)測網(wǎng)絡(luò)簡稱陸態(tài)網(wǎng)(crustal movement observation network of China,CMONOC),用戶通過FTP下載數(shù)據(jù)產(chǎn)品。這種管理模式技術(shù)成熟,但存在如下缺點(diǎn):結(jié)構(gòu)簡單,缺乏統(tǒng)一管理機(jī)制;信息安全性、完整性低,不具備并發(fā)控制與故障恢復(fù)的功能;實(shí)時性差,用戶不能實(shí)時地獲取數(shù)據(jù)。
2006年投入使用的北京全球定位綜合應(yīng)用服務(wù)系統(tǒng)(BGIAS)采用基于關(guān)系數(shù)據(jù)庫技術(shù)的實(shí)時數(shù)據(jù)存儲與應(yīng)用服務(wù)方案[6]。文獻(xiàn) [7]在關(guān)系數(shù)據(jù)庫的基礎(chǔ)上,提出適用于實(shí)時服務(wù)的數(shù)據(jù)預(yù)處理結(jié)合Huffman編碼的壓縮方法和事后數(shù)據(jù)服務(wù)的Huffman和LZ77編碼結(jié)合的壓縮方法,實(shí)現(xiàn)了CORS數(shù)據(jù)的無損壓縮。該方式組織靈活,檢索管理方便;但其對服務(wù)器性能要求高,隨數(shù)據(jù)量的增加檢索速度降低,并發(fā)共享和抗災(zāi)容錯能力較差。
綜上所述,以上三種存儲模型均采用集中式存儲,隨著CORS數(shù)據(jù)的幾何倍數(shù)增長[1]以及單個節(jié)點(diǎn)硬件設(shè)備的限制[8],這些方式在管理海量數(shù)據(jù)(Tbit甚至Pbit級)方面存在諸多限制[9],集中存儲策略已不能滿足大規(guī)模存儲應(yīng)用的需要。大型CORS網(wǎng)具有基站數(shù)量多、觀測數(shù)據(jù)多、數(shù)據(jù)共享關(guān)系復(fù)雜的特點(diǎn),基站與各數(shù)據(jù)中心相連,各數(shù)據(jù)中心又可互相通信,其本身就是一個天然的分布式系統(tǒng)[10]。本文對CORS站網(wǎng)的數(shù)據(jù)量進(jìn)行了分析,指出了集中式數(shù)據(jù)存儲管理海量CORS數(shù)據(jù)的問題;研究了CORS數(shù)據(jù)云存儲模型,提出了CORS數(shù)據(jù)云存儲集群、組織和訪問架構(gòu);基于分布式數(shù)據(jù)處理平臺Hadoop,采用多臺存儲節(jié)點(diǎn)分擔(dān)存儲負(fù)荷,突破了CORS數(shù)據(jù)集中存儲方式不易擴(kuò)展、可靠性差等缺點(diǎn),具有管理方便、組織靈活、高抗災(zāi)容錯性、高擴(kuò)展性、高數(shù)據(jù)讀取性能,支持大吞吐量數(shù)據(jù)的并發(fā)訪問,適于海量CORS數(shù)據(jù)的高性能應(yīng)用。
CORS站每天主要采集的數(shù)據(jù)類型有三種:觀測數(shù)據(jù)文件、導(dǎo)航星歷文件和氣象文件。觀測數(shù)據(jù)文件主要包括低采樣率(15s30s 和高采樣率(1s)的數(shù)據(jù)。1s采樣率的數(shù)據(jù)量較大,受限于數(shù)據(jù)中心的存儲空間,一般存儲時間短,目前只存儲1a或2a,15s或30s采樣率數(shù)據(jù)永久存儲;星歷文件一般為幾十kbit,個別包含了格洛納斯衛(wèi)星導(dǎo)航系統(tǒng)(global navigation satellite system,GLONASS)星歷的文件較大,達(dá)到幾百kbit;氣象文件一般也為幾十kbit。CORS數(shù)據(jù)量估算如表1。
表1 一個CORS站的數(shù)據(jù)量估算(僅觀測GPS衛(wèi)星)
圖1 SOPAC的數(shù)據(jù)量統(tǒng)計
以IGS站為例,截止至2014年4月,全球共有495個IGS站,假定每個站點(diǎn)采集了高采樣率的數(shù)據(jù),每站每年共接收7~14Gbit的衛(wèi)星數(shù)據(jù),全網(wǎng)每年共產(chǎn)生3.4~6.8Tbit的數(shù)據(jù)量,再加上數(shù)據(jù)分析中心發(fā)布及提供的各項產(chǎn)品和服務(wù),數(shù)據(jù)存儲服務(wù)器需要管理海量的數(shù)據(jù)和產(chǎn)品。斯克里普斯軌道和常駐陣列中心(scripps orbit and permanent array center,SOPAC)作為IGS數(shù)據(jù)操作中心之一,自1996年以來其存儲和管理的數(shù)據(jù)量如圖1所示。已建成的陸態(tài)網(wǎng)由260個連續(xù)觀測和2 000個不定期觀測站點(diǎn)構(gòu)成,單站單天30s采樣率的數(shù)據(jù)文件(d文件)大約為600kbit,2013全年30s采樣率的數(shù)據(jù)達(dá)到48Gbit。BGIAS每天觀測產(chǎn)生的數(shù)據(jù)量約為600Mbit,全年約為214Gbit。
隨著GPS現(xiàn)代化進(jìn)程加快、GLONASS系統(tǒng)恢復(fù)使用、伽利略衛(wèi)星導(dǎo)航系統(tǒng)(Galileo navigation satellite system,Galileo)和我國北斗衛(wèi)星導(dǎo)航系統(tǒng)(BeiDou navigation satellite systemBDS的投入使用,各個衛(wèi)星系統(tǒng)之間穩(wěn)步實(shí)現(xiàn)的兼容互操作為用戶提供了大量可用衛(wèi)星數(shù),CORS站觀測數(shù)據(jù)量的大小將成倍增加。目前部分IGS站和全部陸態(tài)網(wǎng)參考站采集了GLONASS數(shù)據(jù),每天接收的數(shù)據(jù)量至少增加了一倍。
面對海量CORS數(shù)據(jù)及發(fā)布的產(chǎn)品,集中式CORS數(shù)據(jù)存儲策略采用 “存儲服務(wù)器+獨(dú)立磁盤冗余陣列(redundant array of independent disk,RAID)”的方式管理CORS數(shù)據(jù)和產(chǎn)品,受單節(jié)點(diǎn)服務(wù)器性能和網(wǎng)絡(luò)帶寬的限制,中心節(jié)點(diǎn)成為系統(tǒng)的瓶頸,系統(tǒng)的擴(kuò)展性、可靠性和抗災(zāi)容錯性能不足,存在用戶訪問延遲大、數(shù)據(jù)下載速率慢等問題。
CORS數(shù)據(jù)云存儲是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將CORS系統(tǒng)中大量不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供CORS數(shù)據(jù)存儲、產(chǎn)品服務(wù)和用戶訪問的系統(tǒng)。
CORS數(shù)據(jù)云儲存平臺架構(gòu)可以劃分為:CORS數(shù)據(jù)存儲層、系統(tǒng)基礎(chǔ)管理層、CORS應(yīng)用接口層、CORS用戶訪問層,如圖2所示。
圖2 CORS數(shù)據(jù)云存儲平臺架構(gòu)
CORS數(shù)據(jù)存儲層是云存儲最基礎(chǔ)的部分。存儲設(shè)備為每個數(shù)據(jù)中心的硬件設(shè)備,每個數(shù)據(jù)中心構(gòu)成獨(dú)立的云存儲集群,分布在不同的地域,集群之間通過互聯(lián)網(wǎng)連接,進(jìn)行數(shù)據(jù)交換。統(tǒng)一的存儲設(shè)備管理層通過存儲虛擬化和集群管理技術(shù),對存儲硬件資源進(jìn)行抽象化表現(xiàn),實(shí)現(xiàn)數(shù)據(jù)和存儲設(shè)備的統(tǒng)一管理[[11-13]。
系統(tǒng)基礎(chǔ)管理層是云存儲最核心、最難實(shí)現(xiàn)的部分。通過集群系統(tǒng)、分布式文件系統(tǒng)和網(wǎng)格計算等技術(shù),實(shí)現(xiàn)云存儲設(shè)備之間的協(xié)同工作,提供同一種服務(wù)和更強(qiáng)的數(shù)據(jù)訪問性能[14];內(nèi)容分發(fā)系統(tǒng)保證CORS數(shù)據(jù)不會被未授權(quán)的用戶所訪問[15];通過數(shù)據(jù)備份、加密、容災(zāi)技術(shù)可以提高CORS數(shù)據(jù)的可靠性。
CORS應(yīng)用接口層是云存儲最靈活多變的部分,它面向用戶的各種需求。根據(jù)CORS的建設(shè)、維護(hù)和升級及各類用戶的需求,開發(fā)不同的應(yīng)用服務(wù)類型,提供不同的應(yīng)用程序編程接口(application programming interface,API)及應(yīng)用軟件,采用不同的CORS數(shù)據(jù)傳輸協(xié)議。例如在差分?jǐn)?shù)據(jù)傳輸中,可采用國際海運(yùn)事業(yè)無線電技術(shù)委員會(radio technical commission for maritime services,RTCM)數(shù)據(jù)傳輸協(xié)議[16](networked transport of RTCM via internet protocol,NTRIP)。
CORS用戶訪問層包括各類通過授權(quán)的用戶,通過標(biāo)準(zhǔn)的公用接口接入CORS數(shù)據(jù)云存儲系統(tǒng),進(jìn)行實(shí)時差分定位,下載數(shù)據(jù)和產(chǎn)品等,享受云存儲提供的服務(wù)。
在云存儲和計算方面,Hadoop是一個可以對海量數(shù)據(jù)進(jìn)行分布式處理的軟件框架[17-18],具有可靠、高效、可擴(kuò)展這三大特性,加上Hadoop開源免費(fèi)的特性,Hadoop技術(shù)迅猛發(fā)展。Hadoop采用主/從(Master/Slave)架構(gòu),其重要組成部分是分布式文件系統(tǒng)(hadoop distributed file system,HDFS),一個HDFS由一個NameNode、一個Secondary NameNode和若干個DataNode這三個守護(hù)進(jìn)程組成。
基于HDFS的運(yùn)行體系,設(shè)計了CORS云存儲集群體系架構(gòu),將一個CORS數(shù)據(jù)中心定義為一個集群,若有多個數(shù)據(jù)中心則建設(shè)多個集群。體系架構(gòu)如圖3所示。
1)數(shù)據(jù)中心的NameNode節(jié)點(diǎn)負(fù)責(zé)管理該數(shù)據(jù)中心的DataNode節(jié)點(diǎn),并以 “文件路徑/CORS數(shù)據(jù)塊集合”的形式記錄集群內(nèi)CORS數(shù)據(jù)的存儲位置;
2)Secondary NameNode節(jié)點(diǎn)是輔助Name-Node節(jié)點(diǎn),運(yùn)行在數(shù)據(jù)中心的一臺計算機(jī)上,與NameNode節(jié)點(diǎn)保持通信,按照一定時間間隔保持CORS云存儲集群元數(shù)據(jù)的快照,以備NameNode節(jié)點(diǎn)發(fā)生故障時進(jìn)行CORS數(shù)據(jù)恢復(fù)。
3)數(shù)據(jù)中心的其它硬件設(shè)備為DataNode節(jié)點(diǎn),在本地文件系統(tǒng)中以數(shù)據(jù)塊的形式存儲CORS數(shù)據(jù)產(chǎn)品,響應(yīng)用戶對CORS數(shù)據(jù)塊和元數(shù)據(jù)的請求,周期性地向NameNode報告所存儲的CORS數(shù)據(jù)塊信息。
相比傳統(tǒng)的集中式CORS數(shù)據(jù)存儲,圖3所示的CORS數(shù)據(jù)云存儲架構(gòu)具有以下技術(shù)特點(diǎn):
1)數(shù)據(jù)存儲在各數(shù)據(jù)中心的硬件設(shè)備中,各數(shù)據(jù)中心之間相互通信、獨(dú)立運(yùn)行、互相兼容,任何存儲單元均可作為存儲節(jié)點(diǎn)加入到CORS集群,大大提高了集群存儲和計算容量的擴(kuò)展性。
2)CORS數(shù)據(jù)流入、流出DataNode節(jié)點(diǎn),對數(shù)據(jù)中心的服務(wù)器要求較低,不會成為系統(tǒng)的瓶頸。
3)采用機(jī)架感知[19](rack awareness)的策略,NameNode節(jié)點(diǎn)可以確定每個DataNode節(jié)點(diǎn)所屬的機(jī)架ID,改進(jìn)了數(shù)據(jù)的可用性、可靠性和網(wǎng)絡(luò)帶寬的利用率;
4)集群啟動時,自動進(jìn)入安全模式,計算CORS數(shù)據(jù)塊數(shù)量、集群內(nèi)的可用節(jié)點(diǎn)數(shù)、可用存儲空間等,保證了CORS數(shù)據(jù)的完整性和可靠性。
5)集群運(yùn)行時,通過DataNode節(jié)點(diǎn)的塊報告(block report)和心跳檢測(heartbeat)機(jī)制,數(shù)據(jù)中心NameNode節(jié)點(diǎn)監(jiān)控各DataNode節(jié)點(diǎn)的運(yùn)行狀態(tài)、磁盤利用率、網(wǎng)絡(luò)帶寬等,均衡集群中各個計算機(jī)的存儲負(fù)載,優(yōu)化集群的運(yùn)行。
圖3 數(shù)據(jù)中心CORS數(shù)據(jù)云存儲邏輯框架
6)Secondary NameNode保持對CORS數(shù)據(jù)系統(tǒng)元數(shù)據(jù)的快照,在NameNode節(jié)點(diǎn)發(fā)生故障時進(jìn)行數(shù)據(jù)恢復(fù),提高了系統(tǒng)的健壯性。
數(shù)據(jù)中心發(fā)布的產(chǎn)品,建立products存儲目錄,再依據(jù)產(chǎn)品種類,如軌道和鐘差(預(yù)報、快速、精密)、對流層天頂延遲、電離層格網(wǎng)圖、地球自轉(zhuǎn)參數(shù)、參考站坐標(biāo)及速率等,分別建立子目錄。由于發(fā)布的產(chǎn)品種類較多、類型各異,各產(chǎn)品大小不一,最小的只有幾kbit,最大的達(dá)到數(shù)Gbit。Hadoop在存儲大文件方面,采取數(shù)據(jù)塊存儲的方式,將每個大文件分成若干個數(shù)據(jù)塊,存儲在不同的DataNode節(jié)點(diǎn),數(shù)據(jù)塊的尺寸可以調(diào)整為默認(rèn)值128Mbit(Hadoop 2.0的默認(rèn)值)的整數(shù)倍;在小文件存儲方面,可以使用Archive工具、CombineFileInputFormat類、SequenceFile格式,分別將許多小文件歸為一個HAR文件、將多個文件打包到一個分片、利用key-value合并文件,降低了集群的存儲容量開銷和總數(shù)據(jù)中心的內(nèi)存開銷。
CORS站實(shí)時采集高采樣率數(shù)據(jù)文件,實(shí)時傳輸?shù)綌?shù)據(jù)中心,進(jìn)行質(zhì)量檢核并轉(zhuǎn)換為RINEX格式,數(shù)據(jù)中心的DataNode節(jié)點(diǎn)執(zhí)行數(shù)據(jù)寫入集群操作,即可實(shí)現(xiàn)數(shù)據(jù)的實(shí)時共享;CORS數(shù)據(jù)寫入的過程是即時、動態(tài)的,滿足網(wǎng)絡(luò)RTK等實(shí)時定位技術(shù)的需求,同時實(shí)現(xiàn)了CORS數(shù)據(jù)的完全備份。CORS觀測數(shù)據(jù)的存儲目錄按年積日進(jìn)行排列,建立與觀測日期對應(yīng)的文件夾,存放觀測當(dāng)天所有CORS站的觀測數(shù)據(jù)。
當(dāng)數(shù)據(jù)副本數(shù)(dfs.replication)為3h(可設(shè)置為更大參數(shù)),部署策略是將第一個副本存放在本節(jié)點(diǎn),第二個副本放在同一機(jī)架的另一個Data-Node節(jié)點(diǎn),最后一個副本放在另一個機(jī)架的DataNode節(jié)點(diǎn)。數(shù)據(jù)文件1的3個副本的存放位置如上圖3所示。通過副本存放策略,集群具備了抗災(zāi)性和容錯性;機(jī)架的錯誤遠(yuǎn)比DataNode節(jié)點(diǎn)的錯誤少,這個策略可以防止數(shù)據(jù)中心內(nèi)的整個機(jī)架因故障失效時,不會影響到CORS數(shù)據(jù)和產(chǎn)品的可靠、可用性。
利用Hadoop的分布式數(shù)據(jù)處理模塊MapReduce,可生成采樣率是1s整數(shù)倍的觀測數(shù)據(jù)文件。因此在年積日的目錄下,可建立1s、15s、30s采樣率的文件夾,授權(quán)用戶可以下載指定采樣率和指定時間段的觀測數(shù)據(jù)文件。生成30s采樣率數(shù)據(jù)文件的流程如下圖4,分為輸入分片(input splitmapreduce和輸出(output 四個步驟。分片是將RINEX觀測文件按照測站名和觀測日期劃分為數(shù)據(jù)塊;map函數(shù)對每一分片的數(shù)據(jù)逐行進(jìn)行過濾,轉(zhuǎn)換為由文件頭信息和觀測歷元的數(shù)據(jù)組成的鍵/值對;reduce函數(shù)根據(jù)指定的采樣率和采樣時間,變更文件頭信息,提取觀測歷元,排序后生成新的觀測數(shù)據(jù)文件。多個節(jié)點(diǎn)的map和reduce共同完成整個CORS網(wǎng)觀測數(shù)據(jù)的處理。
圖4 30s采樣率文件生成流程
基于Hadoop的CORS數(shù)據(jù)云存儲技術(shù)為用戶提供了便捷的共享機(jī)制,通過訪問NameNode節(jié)點(diǎn)的50070端口進(jìn)入分布式文件系統(tǒng),可以查看集群的存儲容量、集群內(nèi)可用和失效節(jié)點(diǎn)數(shù)、集群運(yùn)行日志、集群配置和部署情況、CORS數(shù)據(jù)和產(chǎn)品總量、CORS數(shù)據(jù)文件位置等,在被授權(quán)之后,用戶可以下載CORS數(shù)據(jù)和產(chǎn)品,下載時通過檢驗(yàn)文件創(chuàng)建時的校驗(yàn)和提高了數(shù)據(jù)傳輸?shù)耐暾院涂煽啃浴?/p>
由于CORS數(shù)據(jù)分布地存儲在各個DataNode節(jié)點(diǎn),Hadoop實(shí)現(xiàn)了樹形的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)[20],通過網(wǎng)絡(luò)節(jié)點(diǎn)的規(guī)劃機(jī)制,NameNode節(jié)點(diǎn)會根據(jù)存儲節(jié)點(diǎn)與用戶之間的 “距離”和網(wǎng)絡(luò)帶寬對多個DataNode進(jìn)行排序后返回給用戶,以便從最快的存儲節(jié)點(diǎn)讀取數(shù)據(jù),減少CORS數(shù)據(jù)的傳輸時間。
為了支持在線用戶同時進(jìn)行的大吞吐量數(shù)據(jù)的并發(fā)訪問(滿足較多網(wǎng)絡(luò)RTK用戶實(shí)時需求和支持大量用戶的并發(fā)數(shù)據(jù)下載),采用了支持并發(fā)常用的多服務(wù)隊列機(jī)制,包括:
1)NameNode服務(wù)隊列。用戶接受差分定位服務(wù)和下載CORS數(shù)據(jù)產(chǎn)品時,需要從NameNode節(jié)點(diǎn)獲取文件的元數(shù)據(jù),根據(jù)系統(tǒng)訪問量合理設(shè)置dfs.namenode.handler.count參數(shù)控制的線程數(shù)量,來響應(yīng)大量用戶的并發(fā)訪問請求。
2)DataNode服務(wù)隊列。用戶在線服務(wù)以及數(shù)據(jù)的讀取均發(fā)生在各數(shù)據(jù)中心的DataNode節(jié)點(diǎn),可以啟動dfs.datanode.handler.count參數(shù)控制的線程數(shù)量,應(yīng)對CORS數(shù)據(jù)塊讀取操作。
3)用戶請求隊列等待。從1)和2)看,NameNode和DataNode都采用了服務(wù)隊列機(jī)制處理并發(fā)請求,當(dāng)用戶并發(fā)請求數(shù)超過總線程數(shù)時,請求會在隊列中等待。
通過合理配置以上3個服務(wù)隊列的數(shù)量,會有效提高CORS數(shù)據(jù)云存儲集群的服務(wù)效率。
實(shí)驗(yàn)環(huán)境:虛擬機(jī)選擇VMware Workstation10.0.1build-1379776,操作系統(tǒng)選擇Ubuntu 13.10。實(shí)驗(yàn)搭建了Hadoop完全分布式集群,由一臺NameNode(同時作為Secondary NameNode)和三臺DataNode節(jié)點(diǎn)組成,IP地址設(shè)置如下:NameNode:192.168.100.129,DataNode1: 192.168.100.130,DataNode2: 192.168.100.131,DataNode3:192.168.100.141。以陸態(tài)網(wǎng)2013年的觀測數(shù)據(jù)為例,通過HDFS API建立了存儲目錄,將全年的觀測數(shù)據(jù)寫入到集群中。集群搭建情況如圖5所示。
圖5 實(shí)驗(yàn)搭建的云存儲集群
在啟動集群,首先啟動NameNode節(jié)點(diǎn),不啟動任何DataNode節(jié)點(diǎn),通過http訪問192.168.100.129的50070端口,看到live node數(shù)為0,集群一開始會自動進(jìn)入安全模式。
隨著DataNode節(jié)點(diǎn)的啟動,當(dāng)NameNode監(jiān)測到足夠數(shù)量的數(shù)據(jù)塊,集群才會退出安全模式;本實(shí)驗(yàn)中三臺DataNode節(jié)點(diǎn)啟動后,才退出安全模式。集群運(yùn)行過程中,每隔1h,DataNode都會向NameNode發(fā)送一個心跳報告和塊報告(對應(yīng)日志文件),包含了全部DataNode磁盤中所有CORS數(shù)據(jù)塊的信息,NameNode可以跟蹤監(jiān)測數(shù)據(jù)塊的變化。
為了測試在存儲節(jié)點(diǎn)失效的時,CORS數(shù)據(jù)的完整性,在設(shè)置副本數(shù)為2的前提下,關(guān)閉某一存儲節(jié)點(diǎn)。如圖6的最下端所示,中國周邊IGS站.txt存儲在DataNode1和DataNode2節(jié)點(diǎn)。將DataNode2節(jié)點(diǎn)關(guān)閉,如圖7所示,中國周邊IGS站.txt存儲在DataNode1和DataNode3節(jié)點(diǎn)中。在關(guān)閉DataNode2節(jié)點(diǎn)的整個過程中,集群正常運(yùn)行,并未受到DataNode2節(jié)點(diǎn)失效的影響。
圖6 DataNode2節(jié)點(diǎn)關(guān)閉前文件存儲位置
圖7 DataNode2節(jié)點(diǎn)關(guān)閉后文件存儲位置
隨CORS數(shù)據(jù)量的增長,需要對集群的存儲容量和計算能力進(jìn)行擴(kuò)充,如圖8所示,只需四個步驟即可實(shí)現(xiàn)集群擴(kuò)容。
圖8 集群擴(kuò)容示意圖
同時,Ambari作為Hadoop的集群部署與監(jiān)控集成工具,最多可在1h內(nèi)安裝1 000個節(jié)點(diǎn)的存儲集群,全部操作采用界面呈現(xiàn)的形式,易于操作,可迅速實(shí)現(xiàn)展集群的擴(kuò)展。
將陸態(tài)網(wǎng)2013年前8d的觀測數(shù)據(jù)文件(d文件)合并,壓縮后大小約為1Gbit,前16d約為2Gbit,前32d約為4Gbit。分別測試了云存儲集群的下載時間和VSFTP(Ubuntu系統(tǒng)下的FTP軟件)的下載時間,下載時間取五次下載的平均值,如下圖9所示,橫軸為數(shù)據(jù)文件大小,縱軸為下載時間。
圖9 FTP和HDFS的下載時間比對
從上圖可以看出,較FTP下載方式,采用支持并發(fā)常用的多服務(wù)隊列機(jī)制的云存儲下載機(jī)制更快,更節(jié)約時間。
隨CORS數(shù)據(jù)集群規(guī)模的擴(kuò)大,當(dāng)存在大量用戶進(jìn)行并發(fā)訪問請求時,由于云存儲突破了單節(jié)點(diǎn)訪問下載的限制,可以實(shí)現(xiàn)網(wǎng)絡(luò)帶寬的最優(yōu)化利用,從而用戶的訪問延遲更小,可從最快的存儲節(jié)點(diǎn)獲取CORS數(shù)據(jù)和產(chǎn)品。
隨著國家、區(qū)域、行業(yè)型CORS的建成及連續(xù)觀測,CORS數(shù)據(jù)規(guī)模迅速增長,本文對CORS站網(wǎng)的數(shù)據(jù)量進(jìn)行了分析,針對當(dāng)前CORS數(shù)據(jù)管理系統(tǒng)普遍采用的集中管理策略,指出了其存在的問題;提出了CORS數(shù)據(jù)云存儲,設(shè)計了CORS數(shù)據(jù)云存儲集群、組織和訪問架構(gòu);可將已建成的各個參考站、數(shù)據(jù)中心納入到云存儲集群中。在虛擬機(jī)環(huán)境下搭建了Hadoop集群,分析了CORS數(shù)據(jù)云存儲的可靠性、抗災(zāi)容錯性、擴(kuò)展性和下載速率。CORS數(shù)據(jù)云存儲突破了傳統(tǒng)集中式數(shù)據(jù)存儲技術(shù)的局限,可提高CORS數(shù)據(jù)產(chǎn)品組織、管理和發(fā)布的效率和可靠性。云存儲為CORS數(shù)據(jù)分布式計算提供了源數(shù)據(jù)基礎(chǔ)和保障,為用戶在線解算提供了基礎(chǔ)平臺。
[1] 黃俊華,陳文森.連續(xù)運(yùn)行衛(wèi)星定位綜合服務(wù)系統(tǒng)建設(shè)與應(yīng)用[M].北京:科學(xué)出版社,2009:51-85.
[2] 劉經(jīng)南,劉暉.建立我國衛(wèi)星定位連續(xù)運(yùn)行參考站網(wǎng)的若干思考[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2003,28(特刊):27-31.
[3] 陳俊勇.構(gòu)建全球?qū)Ш叫l(wèi)星中國國家級連續(xù)運(yùn)行站網(wǎng)[J].測繪通報,2009(9):6-8.
[4] 陳俊勇,張鵬,武軍酈,等.關(guān)于在中國構(gòu)建全球?qū)Ш叫l(wèi)星國家級連續(xù)運(yùn)行站系統(tǒng)的思考[J].測繪學(xué)報,2007,36(4):16-19.
[5] 崔陽,呂志平,陳正生.Web Services分布式計算在大規(guī)模網(wǎng)平差中的應(yīng)用[J].大地測量與地球動力學(xué),2013,33(2):136-139.
[6] 譚志彬,戴連君,過靜珺,等.GPS連續(xù)運(yùn)行參考站網(wǎng)數(shù)據(jù)存儲[J].測繪通報,2003(11):8-10.
[7] 徐冬晨.基于CORS系統(tǒng)的數(shù)據(jù)存儲的研究[D].南京:東南大學(xué),2010:5-6.
[8] 崔陽,呂志平,陳正生,等.多核環(huán)境下的 GNSS網(wǎng)平差數(shù)據(jù)并行處理研究[J].測繪學(xué)報,2013,42(5):661-667.
[9] 岳利群.基于分布式存儲的虛擬地理環(huán)境關(guān)鍵技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2011:106-112.
[10] 呂志平,陳正生,崔陽.大型CORS網(wǎng)基線向量的分布式處理[J].測繪科學(xué)技術(shù)學(xué)報,2013,30(4):109-114.
[11] 劉琨,李愛菊,董龍江.基于 Hadoop的云存儲的研究及實(shí)現(xiàn)[J].微計算機(jī)信息,2011,27(7):228-229.
[12] 張龍立.云存儲技術(shù)探討[J].電信科學(xué),2010(增刊):77-80.
[13] 周可,王樺,李春花.云存儲技術(shù)及其應(yīng)用[J].中興通訊技術(shù),2010,16(4):29-32.
[14] 晏強(qiáng),張曉峰,丁蕊.云存儲技術(shù)研究[J].計算機(jī)信息技術(shù),2011(12):26-28.
[15] 唐箭.云存儲系統(tǒng)的分析與應(yīng)用研究[J].電腦知識與技術(shù),2009,5(20):13-14.
[16] 祁芳,林鴻.Ntrip協(xié)議在 CORS系統(tǒng)中的應(yīng)用[J].城市測繪,2008(1):85-88.
[17] DEAN J,GHEMAWAT S.Mapreduce:Simplified Data Processing on Large Clusters[EB/OL].[2014-02-18].http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf.
[18] GHEMAWAT S,GOBIOFF H,LEUNG S T.The Google File System[EB/OL].[2014-02-18].http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf.
[19] 劉敏,麥耀峰,李冀蕾.Hadoop技術(shù)內(nèi)幕[M].北京:人民郵電出版社,2013:19-28.
[20] 徐文強(qiáng).基于HDFS的云存儲系統(tǒng)研究-分布式架構(gòu)REPERA設(shè)計與實(shí)現(xiàn)[D].上海:上海交通大學(xué),2011:13-17.