劉 瀚
(西京學(xué)院商貿(mào)技術(shù)系,陜西 西安 710123)
大數(shù)據(jù)時代數(shù)據(jù)封存系統(tǒng)設(shè)計與研究
劉 瀚
(西京學(xué)院商貿(mào)技術(shù)系,陜西 西安 710123)
為了克服光盤數(shù)據(jù)封存系統(tǒng)在大數(shù)據(jù)時代的種種局限,通過網(wǎng)絡(luò)傳輸實現(xiàn)數(shù)據(jù)自動封存、實時封存、批量封存的功能,研發(fā)基于硬盤存儲的軟硬件一體化數(shù)據(jù)封存系統(tǒng)勢在必行。文章從彩票行業(yè)的具體應(yīng)用需求出發(fā),重點圍繞數(shù)據(jù)封存系統(tǒng)的通用性、安全性、可擴展性進(jìn)行設(shè)計,并運用大規(guī)模并行處理和無共享架構(gòu)等技術(shù)加以實現(xiàn)。給出了完整的產(chǎn)品解決方案,其測試產(chǎn)品滿足了彩票行業(yè)對數(shù)據(jù)封存的苛刻要求,因此具有可行性。
數(shù)據(jù)封存;信息安全;彩票;大規(guī)模并行處理;無共享架構(gòu)
數(shù)據(jù)封存系統(tǒng)是基于專用硬件的為用戶提供聯(lián)網(wǎng)使用的、長期安全存儲的數(shù)據(jù)存儲設(shè)備。封存中的數(shù)據(jù)具有不可更改的特點,適合于需要長期保存且不允許修改和刪除的數(shù)據(jù)存儲應(yīng)用。近年來,數(shù)據(jù)封存系統(tǒng)的應(yīng)用領(lǐng)域越來越多,如彩票業(yè)、衛(wèi)生醫(yī)療、公檢法司、教育系統(tǒng)、檔案信息化建設(shè)、證書存儲查詢等,每時每刻產(chǎn)生大量的重要數(shù)據(jù),迫切需要一個有足夠安全保障、高效率低成本的數(shù)據(jù)封存解決方案。以往采用的光盤刻錄方式,已經(jīng)無法適應(yīng)需求。基于硬盤存儲的數(shù)據(jù)封存系統(tǒng),具有速度快、容量大、成本低,易于保存、存儲介質(zhì)壽命長、對保管環(huán)境無特殊要求等優(yōu)勢,必然成為數(shù)據(jù)封存的主流方案。
財政部條法司在2012年公布了《彩票管理條例實施細(xì)則》[1],首次明確彩票銷售原始數(shù)據(jù)也要封存,且保存期限自封存之日起不得少于60個月。為了保證彩民參與開獎的安全和公平,在《彩票管理條例》[2]第22條中明確規(guī)定,彩票發(fā)行機構(gòu)、彩票銷售機構(gòu)應(yīng)當(dāng)確保彩票銷售數(shù)據(jù)的完整、準(zhǔn)確和安全。當(dāng)期彩票銷售數(shù)據(jù)封存后至開獎活動結(jié)束前,不得查閱、變更或刪除??傊?,國家對數(shù)據(jù)封存提出了四點具體要求,一是封存的強制性,二是即時封存,三是不得變更,四是保存期限至少5年。傳統(tǒng)的光盤刻錄已經(jīng)無法滿足這種需要。比如無法對即開型彩票進(jìn)行即時封存,或?qū)崿F(xiàn)成本極其高昂[3]。
為了適應(yīng)大數(shù)據(jù)時代的需要,克服傳統(tǒng)方式的種種弊端,基于硬盤存儲的安全、可靠的封裝系統(tǒng)應(yīng)運而生。數(shù)據(jù)封存系統(tǒng)作為軟硬件一體化設(shè)備應(yīng)至少滿足以下需求:
⑴ 無論是外部接入還是人員登錄,接入系統(tǒng)都需要進(jìn)行身份認(rèn)證;
⑵ 只提供數(shù)據(jù)寫入、查詢,不能對數(shù)據(jù)進(jìn)行修改和刪除;
⑶ 系統(tǒng)無法感染病毒或者被入侵;
⑷ 數(shù)據(jù)網(wǎng)絡(luò)傳輸過程安全與可靠;
⑸ 在性能允許的情況下,并發(fā)支持多個封存任務(wù);
⑹ 數(shù)據(jù)存儲可靠性高、容量大,介質(zhì)易于更換和保存;
⑺ 提供安全可靠的系統(tǒng)維護(hù)方式;
⑻ 適用范圍廣,支持多行業(yè)多領(lǐng)域的廣泛應(yīng)用;
⑼ 性能高,配置靈活,易于擴展。
安全性保障是數(shù)據(jù)封存系統(tǒng)的核心要求,因此系統(tǒng)設(shè)計首重安全性,其次兼顧通用性、可擴展性和易用性。
⑴ 限制設(shè)備接入方式;
⑵ 外部接入須身份驗證;
⑶ 只提供數(shù)據(jù)寫入、追加和查詢;
⑷ 支持日志查詢;
⑸ 網(wǎng)絡(luò)傳輸過程加密;
⑹ 提供數(shù)據(jù)完整性校驗;
⑺ 數(shù)據(jù)存儲加密;
⑻ 支持多任務(wù)調(diào)度和自動管理;
⑼ 支持多機數(shù)據(jù)同步;
⑽ 支持并機擴展性能;
⑾ 支持?jǐn)?shù)據(jù)硬盤熱插拔;
⑿ 提供數(shù)字證書管理;
⒀ 提供用于二次開發(fā)的動態(tài)鏈接庫。
⑴ 對文件系統(tǒng)進(jìn)行修改,去除文件刪除和修改的底層支持;
⑵ 禁用USB設(shè)備,去除對USB設(shè)備的支持,包括驅(qū)動程序;
⑶禁用PS2接口,去除對PS2的支持,包括驅(qū)動程序;⑷ 僅保留對網(wǎng)卡和串口設(shè)備的支持;
⑸ 禁用圖形界面,僅支持字符命令行模式;
⑹ 精簡操作系統(tǒng)的軟件包,僅支持必要的外部命令;
⑺ 定制兩個shell,分別是用戶模式和工程模式;用戶模式僅能運行幾個必需的腳本,工程模式保留對系統(tǒng)的必要底層操作;
⑻ 對外部終端的訪問記錄詳細(xì)的日志;
⑼ 優(yōu)化操作系統(tǒng)做最大化精簡,一次性燒入EPROM中,避免人為或病毒修改操作系統(tǒng)。
⑴ 默認(rèn)提供基于Webservice協(xié)議傳輸數(shù)據(jù)流的API接口;
⑵ 默認(rèn)提供基于FTP協(xié)議的文件傳輸服務(wù);
⑶ 對網(wǎng)絡(luò)傳輸協(xié)議提供SSL雙向加密認(rèn)證,在日志中記錄外部終端的身份;
⑷ 通過對用戶名和密碼、license的授權(quán),實現(xiàn)外部接入的身份認(rèn)證;
⑸ 自帶證書中心,能夠為外接終端生成密鑰對,終端只有安裝了生成的密鑰對,才能訪問系統(tǒng),以便識別和記錄終端身份。
⑴ 外部接口只有兩個千兆網(wǎng)卡和一個串口,沒有鍵盤和鼠標(biāo)以及USB接口;
⑵ 終端可通過兩個網(wǎng)卡訪問系統(tǒng),實際使用一個,另一個作為備份。串口支持RS232,可以通過串口登錄系統(tǒng)的用戶模式或工程模式;這兩個模式均為命令模式,其中用戶模式只有少數(shù)命令,包括網(wǎng)卡設(shè)置、日志查看等;工程模式不公開,用于廠家維護(hù)。
⑴ 硬盤采用RAID10,提供鏡像磁盤功能,在硬件層面確保數(shù)據(jù)讀寫的可靠性;
⑵ 對完成寫入的數(shù)據(jù)文件進(jìn)行MD5校驗,并保存到特定文件中,用于文件完整性校驗;
⑶ 在文件系統(tǒng)級別提供128位對稱加解密,寫入前加密,讀取后解密。
⑴ 支持多種網(wǎng)絡(luò)傳輸協(xié)議,除了Webservice和FTP外,可擴展支持其他協(xié)議;
⑵ 支持主備模式,一臺主機可以另行配置一臺或以上備機,提供更高的可靠性;
⑶ 支持多設(shè)備并機部署,能夠滿足高吞吐量的數(shù)據(jù)插入和查詢操作。
⑴ 通過串口的運行維護(hù)命令,實現(xiàn)對于系統(tǒng)的基本參數(shù)設(shè)置;
⑵ 對于每次的文件操作進(jìn)行日志記錄,使得文件和數(shù)據(jù)操作有跡可查;并且對日志記錄進(jìn)行加密,保證日志數(shù)據(jù)的安全性;
⑶ 對系統(tǒng)運行過程中的各種異常提供告警接口,提供資源告警、系統(tǒng)運行告警和數(shù)據(jù)異常告警。
定制服務(wù)器設(shè)備,電源、網(wǎng)卡等硬件采用雙備份,機箱前后面板加鎖。提供兩種型號的服務(wù)器,分別提供2T和6T的存儲容量。2T版本支持20000條/秒的處理能力,6T版本支持40000條/秒的處理能力。部分存儲采用IO性能極高的固態(tài)硬盤,保證數(shù)據(jù)的突發(fā)讀寫能力。
如圖1所示,數(shù)據(jù)保護(hù)系統(tǒng)由數(shù)據(jù)接入、調(diào)度中心、數(shù)據(jù)存儲、數(shù)據(jù)加解密、數(shù)據(jù)應(yīng)用和系統(tǒng)維護(hù)等部分組成。
圖1 系統(tǒng)整體結(jié)構(gòu)圖
系統(tǒng)采用大規(guī)模并行處理[4]和無共享架構(gòu)[5]來實現(xiàn)數(shù)據(jù)封存系統(tǒng)的可擴展性。如圖2所示。
圖2 系統(tǒng)技術(shù)架構(gòu)圖
如圖3所示,調(diào)度中心節(jié)點負(fù)責(zé)實現(xiàn):①建立與客戶端的連接和管理;②數(shù)據(jù)和任務(wù)的分發(fā);③寫入、查詢的解析并形成執(zhí)行計劃;④執(zhí)行計劃向存儲節(jié)點的分發(fā);⑤收集存儲節(jié)點的執(zhí)行結(jié)果;⑥只存儲數(shù)據(jù)字典和元數(shù)據(jù)。數(shù)據(jù)存儲節(jié)點負(fù)責(zé)實現(xiàn):①業(yè)務(wù)數(shù)據(jù)的存儲和存??;②用戶查詢的執(zhí)行。
圖3 調(diào)度中心節(jié)點和數(shù)據(jù)存儲節(jié)點
封存系統(tǒng)采用MPP/無共享架構(gòu),有如下優(yōu)勢:①最易于擴展;②具有自動化的并行處理機制;③數(shù)據(jù)分布在所有并行節(jié)點上,I/O處理最優(yōu)化;④所有節(jié)點并行工作,完全無共享,無I/O沖突;⑤增加節(jié)點可實現(xiàn)線性擴展存儲容量及工作性能;⑥對用戶透明。
安全性是數(shù)據(jù)封存系統(tǒng)最基本的特性,我們在以下五個級別上來實現(xiàn)安全性。
⑴ 硬件級別:只提供網(wǎng)口和串口,屏蔽其他接口方式。串口主要傳輸系統(tǒng)的配置數(shù)據(jù)信息及可信任的客戶端證書;網(wǎng)口主要傳輸系統(tǒng)的業(yè)務(wù)數(shù)據(jù)信息;實現(xiàn)控制與業(yè)務(wù)相分離的模式。
⑵ 操作系統(tǒng)級別:安裝定制的專用嵌入式系統(tǒng),該系統(tǒng)僅支持定制的命令和操作;并且不支持鍵盤、鼠標(biāo)、USB等接口,僅保留對網(wǎng)卡和串口設(shè)備的支持。
⑶ 應(yīng)用級別:對網(wǎng)絡(luò)傳輸提供SSL雙向加密認(rèn)證,日志中記錄外部主機的身份。對客戶端的接入及網(wǎng)絡(luò)傳輸提供SSL雙向加密認(rèn)證,以對稱密碼技術(shù)和公開密碼技術(shù)相結(jié)合,實現(xiàn)數(shù)據(jù)傳輸過程中的機密性、完整性和認(rèn)證性。采用串口通訊方式傳輸并配置客戶端證書。
⑷ 數(shù)據(jù)級別:為保證數(shù)據(jù)文件的完整性,對完成寫入的數(shù)據(jù)文件進(jìn)行多級校驗,文件校驗采用SHA算法。
系統(tǒng)同時對存儲數(shù)據(jù)進(jìn)行加密,采用可選的128位分組對稱加密算法。數(shù)據(jù)與日志采用不同的加密方式。
⑸ 容災(zāi)級別:為了提高數(shù)據(jù)的安全性和可靠性,系統(tǒng)能夠提供在線容災(zāi)功能。系統(tǒng)設(shè)計采用分布式集群架構(gòu),系統(tǒng)主節(jié)點采用雙機冗余熱備方式,數(shù)據(jù)記錄節(jié)點采用分布式集群方式,支持雙機備份。當(dāng)硬件發(fā)生故障后,可以從另外節(jié)點進(jìn)行恢復(fù)。系統(tǒng)支持異地分布式多級存儲結(jié)構(gòu)。
存儲容量2T版本的數(shù)據(jù)封存系統(tǒng)已通過性能及穩(wěn)定性測試。在60Mbits/s的流量下,目前已穩(wěn)定運行72小時(程序終止原因為程序升級更新)。經(jīng)過性能優(yōu)化后,該版本的數(shù)據(jù)封存系統(tǒng)目前實際處理能力為200Mbits/s,遠(yuǎn)遠(yuǎn)超過某省級彩票機構(gòu)20000條/s記錄處理能力的要求。
隨著大數(shù)據(jù)時代來臨,政府和企、事業(yè)單位每天都有大量的原始數(shù)據(jù)需要封存?;谟脖P存儲技術(shù)的數(shù)據(jù)封存系統(tǒng)為我們提供了一個高效率低成本的一體化解決方案。采用的操作系統(tǒng)定制、信息安全協(xié)議、硬盤存儲及軟件開發(fā)技術(shù)成熟、可靠,完美實現(xiàn)了系統(tǒng)的通用性、安全性和可擴展性。其可行性已經(jīng)得到實際驗證,能夠適應(yīng)我國大數(shù)據(jù)時代對數(shù)據(jù)封存的要求,極具推廣價值。
[1]財政部,民政部,國家體育總局.彩票管理條例實施細(xì)則[Z].中華人民共和國國務(wù)院,2012.
[2]中華人民共和國國務(wù)院.彩票管理條例[Z].中華人民共和國國務(wù)院,2009.
[3]譚小地.大數(shù)據(jù)時代的光存儲技術(shù)[J].紅外與激光工程,2016.9.
[4]何秉姣,童小念,舒萬能,喻成.并行處理技術(shù)研究[R].全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議,2007.8.
[5]趙卓峰,魏文飛,馬強.基于無共享架構(gòu)的海量感知數(shù)據(jù)實時處理系統(tǒng)[J].微電子學(xué)與計算機,2012.9.
Design and research of data archiving system in big data age
Liu Han
(Department of business technology,Xijing University,Xi'an,Shannxi 710123,China)
In order to overcome the limitations of CD data archiving system in the age of big data,it is imperative to realize the functions of automatic data archiving,real-time archiving,bulk archiving through the network transmission,to research and develop the data archiving system with hard disk storage based and hardware and software integrated.In this paper,starting from the specific requirements of lottery industry,the data archiving system is designed with the focus on the universality,security and scalability,and realized by using several technologies such as MPP (massively parallel processing)and SNA (shared-nothing architecture)etc.A complete solution is provided,and its testing products meet the stringent requirements of the lottery industry for data archiving,so it is feasible.
data archiving;information security;lottery;massively parallel processing;shared-nothing architecture
TP309
A
1006-8228(2017)10-01-04
2017-09-08
劉瀚(1969-),男,陜西西安人,碩士研究生,工程師,主要研究方向:計算機應(yīng)用技術(shù)。
10.16644/j.cnki.cn33-1094/tp.2017.10.001