田摯 王燕云 鄖曉光 梁麗芳
摘 要:隨著社會信息化的高速發(fā)展,地理空間數據呈海量增長,給數據存儲和管理帶來了巨大的挑戰(zhàn)。本文在對河北省地理信息數據存儲現狀研究的基礎上,基于傳統(tǒng)的SAN存儲架構,制定了備份策略,開發(fā)了智能磁盤讀寫引擎,使用讀寫引擎整合數據,建立特征庫,對重復數據采用鏡像存儲,實現了快速高效的數據備份,為大容量數據備份提供了切實可行的技術手段。
關鍵詞:數據;備份;讀寫引擎;研究
1 緒論
隨著社會信息化的高速發(fā)展,人們每時每刻都在產生不可估量的信息數據,隨著衛(wèi)星導航技術和物聯(lián)網技術的廣泛應用,從空天地專業(yè)傳感器擴展到物聯(lián)網中無所不在的非專業(yè)傳感器,數據獲取傳感器網形成龐大的空天地傳感器資源,產生前所未有的時空大數據。特別是衛(wèi)星遙感大數據、城市實景地圖、出行軌跡大數據等地理空間數據正呈海量增長,給數據存儲和管理帶來了巨大的挑戰(zhàn)。數以TB級的數據備份需要超長時間,數據備份成為一件費時費力的事情,同時,經統(tǒng)計,在備份的數據中,重復的地理信息數據占了較大的比重,存儲管理的成本也隨著數據的劇增急劇增加。
網絡備份系統(tǒng)的研究和開發(fā),開始于20世紀80年代中期,目前國內被采用最多的備份策略主要有以下兩種:
(1)完全備份。即定期對全部數據進行完整備份。這種方法直觀簡單,缺點是所需時間長,所占磁盤存儲空間大;優(yōu)點是恢復時間短,操作簡便。
(2)增量備份。即只備份上一次備份后增加和修改過的數據。由于沒有重復的備份數據,節(jié)省了磁盤空間和縮短了備份時間,缺點是一旦發(fā)生災難,恢復數據比較困難。
目前河北省地理信息數據備份主要采用傳統(tǒng)數據管理方式,以完全備份為主增量備份為輔,在數據管理和更新的過程中缺乏有效的技術手段,隨著地理信息數據的不斷增加,文件數量多,數據量大,在對數據進行上傳、下載和查詢的過程中需要耗費大量的時間成本,嚴重影響了地理信息數據管理的工作效率。
大容量數據高速備份方法研究,通過對地理信息數據的管理及存儲現狀的研究,規(guī)范了現有數據的存儲模式,制定了數據存儲方案,研發(fā)了適用于目前系統(tǒng)平臺的文件智能存儲系統(tǒng),通過智能磁盤讀寫引擎,對現有的各種數據進行整合,在備份數據時對數據文件的特征進行分析,根據備份數據的特征,自動采用不同的備份方案,應用重復數據檢索技術,通過智能計算,將重復的大體積的文件,進行鏡像存儲,在存儲系統(tǒng)中對重復的數據僅存儲一個數據副本,對于副本以外的重復數據采用指向副本指針的方法來有效消除其他副本,加快拷貝速度,減少數據上傳更新、下載和查詢中的時間成本,采用技術手段實現了對地理信息數據存儲的有效管理。
2 研究方法及內容
2.1 研究對象
省級地理信息數據主要包括衛(wèi)星圖像、遙感數據、三維激光掃描數據、傾斜攝影測量數據、三維模型、4D產品、瓦片數據等地理信息數據,目前采用SAN存儲架構(Storage Area Network即“存儲區(qū)域網絡”),存儲于磁盤陣列和磁帶庫中,這種架構是當前最成熟的集中存儲系統(tǒng),使用光纖存儲交換機將存儲設備和主機系統(tǒng)通過光纖連接起來,通過前端文件服務器對SAN存儲系統(tǒng)進行管理,存儲的衛(wèi)星圖像、遙感數據等地理信息數據全部以Windows目錄及文件的形式進行管理,采用本地復制和遠程傳輸的手段對地理信息數據進行更新和管理。
2.2 架構設計
2.2.1 系統(tǒng)架構
鑒于系統(tǒng)的使用、維護、升級、數據傳輸等相關情況,在程序架構上,采用C/S模式的基于網絡的應用程序架構。服務器采用穩(wěn)定、高效的Microsoft Windows 2012操作系統(tǒng)作為平臺,使用DELPHI語言描述系統(tǒng)業(yè)務邏輯。
2.2.2 智能存儲引擎設計
根據數據文件的特征,在文件拷貝的過程中,進行文件的特征分析,生成數據文件特征庫,通過智能計算,將重復的大體積的文件,進行鏡像存儲,加快拷貝速度,節(jié)省時間成本。
系統(tǒng)部署前對原有數據進行統(tǒng)一更新,并生成數據信息及數據特征庫,初步生成系統(tǒng)信息庫。后期對新數據更新時,需要和數據內已有數據內容進行對比分析,如系統(tǒng)內不存在內容相同的數據,則對數據進行上傳和記錄更新操作。系統(tǒng)內存儲內容相同的數據,數據不再進行上傳操作,只生成相應的更新記錄。
2.3 軟件功能
智能存儲系統(tǒng)主要解決文件存儲過程中大文件重復存儲的問題,利用先進的文件檢測算法,快速識別重復文件,同時提高了文件的拷貝速度。具體功能如下:
存儲管理:接管操作系統(tǒng)磁盤文件管理功能。對磁盤文件進行掃描,建立文件指紋庫。
文件輸入:外部文件可通過拖拽或者復制粘帖方式拷貝進智能存儲系統(tǒng),并存儲到磁盤。對于磁盤中存在的大文件,只建立鏈接,不重復存儲。
文件輸出:通過智能存儲系統(tǒng)的導出功能將文件拷貝到其他存儲介質,還原被鏈接的文件。
用戶管理:管理員用戶可以添加、修改、刪除用戶。
日志管理:記錄用戶的操作日志。
3 系統(tǒng)測試
3.1 測試方法
智能文件存儲系統(tǒng)具有嚴格、詳細的數據特征庫,對數據文件的內容進行詳細對比并生成特征庫,確保數據文件在系統(tǒng)中的唯一性。在數據上傳的過程中對數據進行對比分析,根據系統(tǒng)規(guī)則和分析結果對上傳數據采取不同的處理方式。根據測試內容的測試項,分別對測試文件1(1.32GB),測試文件2(1.62MB),測試文件夾1,測試文件夾2(含70M文件,主要測試在文件夾內的大文件是否可以按規(guī)則處理),進行數據上傳和導出功能測試,測試步驟如下:
文件進行上傳測試。
在不同目錄對文件進行上傳測試。
相同目錄對文件進行上傳測試。
文件和數據指針文件進行導出測試。
3.2 測試結果
本次測試對智能文件存儲系統(tǒng)的核心功能即數據處理功能進行了驗證,主要驗證結果如下:
(1)小于10M的文件處理功能。
直接上傳:目錄內無相同文件名的文件直接上傳。
覆蓋上傳:目錄內有相同文件名的文件做覆蓋處理。
(2)大于10M的文件處理功能。
直接上傳:系統(tǒng)內無相同數據特征的文件直接上傳。
生成指針文件:系統(tǒng)內數據特征庫進行對比,如有相同特征的文件不對真實文件進行上傳,同時生成數據指針文件。
實際文件:直接進行導出。
指針文件:導出真實文件內容。
與傳統(tǒng)數據備份方式相比,本系統(tǒng)在原SAN存儲框架的基礎之上,引入了智能磁盤讀寫引擎,使用讀寫引擎將數據進行整合;備份數據和文件數據分析同時進行,大大縮短了拷貝時間,增加了大容量數據備份效率;同時,考慮到大容量地理信息數據種類繁雜重復較多的特點,系統(tǒng)平臺對重復數據采用鏡像存儲,加快了存儲速度,減少了時間成本。對比傳統(tǒng)平臺單純的存儲和提取操作,本系統(tǒng)增加了條目記錄功能,每次數據上傳、更新、索引操作都會更新相應條目,使操作更加簡潔、高效。
4 結論
大容量數據高速備份方法研究,為海量地理信息數據的備份提供了有效可行的技術方法,通過研究成果的應用,加快了地理信息數據存儲和傳輸的速度,節(jié)約了時間成本,在地理國情普查、基礎測繪生產、數字城市建設、室內混合智能定位等重大項目中,有效地提高了海量數據的服務效率;同時,研究成果的應用,降低了存儲空間,節(jié)約了設備購置成本,提高了設備性能,促進地理信息更高效地為社會服務。本課題的研究成果適用于海量數據的備份工作,在這個大數據的時代,可廣泛推廣至有需求的各行業(yè),其應用前景廣闊。
參考文獻:
[1]李德仁.論時空大數據的智能處理與服務[J].地球信息科學學報,2019,21(12):1826.
基金項目:國家重點研發(fā)計劃——室內混合智能定位與室內GIS技術:室內高精度測圖與實時GIS技術(2016YFB 0502104)資助