翟中霞/河南油田物探院
?
地震資料處理數(shù)據(jù)分級(jí)存儲(chǔ)集群的建設(shè)與應(yīng)用
翟中霞/河南油田物探院
【摘 要】本文分析了河南油田地震資料處理對(duì)存儲(chǔ)系統(tǒng)的需求,根據(jù)地震資料處理的數(shù)據(jù)特點(diǎn),通過(guò)對(duì)并行存儲(chǔ)技術(shù)、分級(jí)存儲(chǔ)技術(shù)的研究,設(shè)計(jì)并建設(shè)分級(jí)存儲(chǔ)系統(tǒng),滿足地震資料處理中不同應(yīng)用對(duì)存儲(chǔ)性能的不同需求,在存儲(chǔ)容量、存儲(chǔ)速度和成本之間取得了平衡,建成了高效實(shí)用的分級(jí)存儲(chǔ)環(huán)境。
【關(guān)鍵詞】分級(jí)存儲(chǔ);地震資料處理;并行存儲(chǔ);數(shù)據(jù)備份
隨著勘探難度增加和技術(shù)的發(fā)展,野外三維高精度采集的數(shù)據(jù)量大規(guī)模的增長(zhǎng),加之地震資料處理新技術(shù)、新方法的應(yīng)用,地震資料處理對(duì)存儲(chǔ)系統(tǒng)的存儲(chǔ)容量和存儲(chǔ)性能有了更高的需求,目前河南油田地震資料處理的存儲(chǔ)系統(tǒng)在性能和容量上還有待提高,但是存儲(chǔ)系統(tǒng)的設(shè)計(jì)要考慮容量、速度和成本三個(gè)問(wèn)題。容量是存儲(chǔ)系統(tǒng)的基礎(chǔ),都希望配置盡可能大的存儲(chǔ)系統(tǒng);同時(shí)要求存儲(chǔ)系統(tǒng)的讀寫(xiě)速度能與處理器的速度相匹配;成本也應(yīng)該在一個(gè)合適的范圍之內(nèi)。但這三個(gè)目標(biāo)不可能同時(shí)達(dá)到最優(yōu)。一般情況下,存儲(chǔ)設(shè)備讀寫(xiě)速度越快,平均單位容量的價(jià)格越高,存儲(chǔ)容量越??;反之,存儲(chǔ)設(shè)備讀寫(xiě)速度越慢,平均單位容量的價(jià)格越低,存儲(chǔ)容量越大。
分析地震資料處理的數(shù)據(jù)流特點(diǎn),我們發(fā)現(xiàn):
1.在進(jìn)行疊前時(shí)間偏移、深度偏移、逆時(shí)偏移等并行作業(yè)處理時(shí),數(shù)據(jù)流表現(xiàn)為高并發(fā)IO和大聚合帶寬,需要高性能存儲(chǔ)系統(tǒng)的支撐。
2.在常規(guī)處理中的數(shù)據(jù)流相對(duì)平穩(wěn),IO吞吐量相對(duì)小,對(duì)帶寬和存儲(chǔ)的性能要求相對(duì)較低。
3.需要備份的原始數(shù)據(jù)及成果數(shù)據(jù),需要一定數(shù)量安全級(jí)別較高的存儲(chǔ)系統(tǒng)進(jìn)行數(shù)據(jù)備份。
為了在容量、速度和成本這三者之間取得平衡,需要根據(jù)其地震資料處理數(shù)據(jù)的特點(diǎn),采用分級(jí)存儲(chǔ)為不同的應(yīng)用提供不同性能的服務(wù),建成高效實(shí)用的并行存儲(chǔ)環(huán)境。
(一)體系架構(gòu)
地震資料處理數(shù)據(jù)分級(jí)存儲(chǔ)系統(tǒng)采用開(kāi)放式的存儲(chǔ)體系架構(gòu),基于分布式的Glusterfs并行文件系統(tǒng),將多臺(tái)存儲(chǔ)設(shè)備的存儲(chǔ)容量虛擬成一個(gè)具有統(tǒng)一訪問(wèn)接口的存儲(chǔ)空間。按照一定的負(fù)載均衡策略存儲(chǔ)用戶的數(shù)據(jù),將數(shù)據(jù)條帶化的存儲(chǔ)到多臺(tái)物理存儲(chǔ)設(shè)備上,從而獲得更高的并發(fā)數(shù)據(jù)訪問(wèn)性能,同時(shí)可以制定存儲(chǔ)策略進(jìn)行數(shù)據(jù)分級(jí)存儲(chǔ),對(duì)所有的存儲(chǔ)設(shè)備可以實(shí)現(xiàn)統(tǒng)一的管理和監(jiān)控。
圖 分級(jí)存儲(chǔ)體系架構(gòu)
分級(jí)存儲(chǔ)系統(tǒng)包含管理控制器、索引控制器、數(shù)據(jù)控制器和應(yīng)用服務(wù)客戶端四類(lèi)組件:
管理控制器:安裝并行存儲(chǔ)管理軟件,提供統(tǒng)一的控制管理界面,實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的集中化部署、管理、監(jiān)控和維護(hù)。
索引控制器:內(nèi)嵌高性能數(shù)據(jù)索引引擎,管理存儲(chǔ)系統(tǒng)的所有索引數(shù)據(jù)和命名空間,實(shí)現(xiàn)全局統(tǒng)一命名空間,實(shí)現(xiàn)數(shù)據(jù)索引的負(fù)載均衡和故障冗余。
數(shù)據(jù)控制器:提供數(shù)據(jù)存儲(chǔ)空間,并實(shí)現(xiàn)數(shù)據(jù)存取的動(dòng)作。
應(yīng)用服務(wù)客戶端:向上層應(yīng)用提供數(shù)據(jù)訪問(wèn)接口。
(二)配置方案
整個(gè)存儲(chǔ)系統(tǒng)包括2臺(tái)管理控制器、2臺(tái)索引控制器、22個(gè)數(shù)據(jù)控制器,總?cè)萘?197TB。分為三級(jí)存儲(chǔ)結(jié)構(gòu):
一部分為高速存儲(chǔ),高速為主要特點(diǎn),由容量較小、價(jià)格較貴而性能較高的SSD固態(tài)硬盤(pán)構(gòu)成,為實(shí)時(shí)提供高性能的數(shù)據(jù)IO能力;
一部分為在線存儲(chǔ),采用容量較大、價(jià)格較便宜而讀寫(xiě)速度較慢的SAS硬盤(pán)構(gòu)成,支持一般性數(shù)據(jù)讀寫(xiě);
一部分為備份存儲(chǔ),采用容量大,價(jià)格低廉,讀寫(xiě)速度慢的SATA硬盤(pán),創(chuàng)建高安全備份卷,存儲(chǔ)我們的原始、階段性數(shù)據(jù)、成果數(shù)據(jù)和磁帶庫(kù)數(shù)據(jù)備份。
表 分級(jí)存儲(chǔ)系統(tǒng)軟硬件配置表
(一)虛擬化管理平臺(tái)Ovirt
oVirt是一個(gè)基于x86架構(gòu)上的KVM虛擬化技術(shù)的開(kāi)源云服務(wù)平臺(tái)。它在架構(gòu)設(shè)計(jì)上由ovirt-engine和ovirt-node兩部分組成,這種Node/Engine分離的結(jié)構(gòu),方便功能的劃分與管理。
Engine是系統(tǒng)的管理者,并對(duì)外提供管理服務(wù),它掛載了自己的數(shù)據(jù)庫(kù),記錄系統(tǒng)中虛擬機(jī)的配置,各個(gè)存儲(chǔ)節(jié)點(diǎn)的狀態(tài)信息,網(wǎng)絡(luò)狀態(tài)等。通過(guò)在Engine中的設(shè)置實(shí)現(xiàn)系統(tǒng)的管理邏輯,狀態(tài)及策略控制。本存儲(chǔ)系統(tǒng)通過(guò)在管理控制器上安裝ovirt-engine來(lái)實(shí)現(xiàn)管理功能。
Node只負(fù)責(zé)功能上的實(shí)現(xiàn),不進(jìn)行狀態(tài)的記錄和策略的實(shí)現(xiàn)。oVirt里的Node可以由一個(gè)普通的Linux上安裝VDSM(Virtual Desktop Server Manager)構(gòu)成,也可以由一個(gè)專為oVirt定制的Linux系統(tǒng)構(gòu)成。本存儲(chǔ)系統(tǒng)采用安裝VDSM的方法配置數(shù)據(jù)控制器作為node節(jié)點(diǎn),實(shí)現(xiàn)網(wǎng)絡(luò)、存儲(chǔ)器、虛擬機(jī)的創(chuàng)建與修改。VDSM的功能包括組織數(shù)據(jù),實(shí)現(xiàn)存儲(chǔ)集群的數(shù)據(jù)共享與數(shù)據(jù)保護(hù),故障恢復(fù)。
(二)GlusterFS集群文件系統(tǒng)
GlusterFS是一個(gè)開(kāi)源的分布式文件系統(tǒng),具有強(qiáng)大的橫向擴(kuò)展能力,通過(guò)擴(kuò)展能夠支持?jǐn)?shù)PB存儲(chǔ)容量和處理數(shù)千客戶端。GlusterFS通過(guò)TCP/IP或者InfiniBand網(wǎng)絡(luò)將多個(gè)物理存儲(chǔ)資源匯聚在一起,使用全局統(tǒng)一命名空間來(lái)管理數(shù)據(jù)。GlusterFS可為各種不同的數(shù)據(jù)負(fù)載提供優(yōu)異的性能。
GlusterFS文件系統(tǒng)支持標(biāo)準(zhǔn)的網(wǎng)絡(luò)訪問(wèn)協(xié)議,用戶可以使用NFS/CIFS等標(biāo)準(zhǔn)協(xié)議訪問(wèn)數(shù)據(jù)。GlusterFS使得用戶擺脫原有的獨(dú)立、高成本的封閉存儲(chǔ)系統(tǒng),利用普通廉價(jià)的存儲(chǔ)設(shè)備也可以部署可擁有集中管理、橫向擴(kuò)展、虛擬化的存儲(chǔ)系統(tǒng)。
地震資料分級(jí)存儲(chǔ)系統(tǒng)采用的Glusterfs文件系統(tǒng),支持五種邏輯卷,即Distribute卷(分布式卷)、Stripe卷(條帶卷)、Replica卷(鏡像卷)、Distribute stripe卷(分布式條帶卷)和Distribute replica卷(分布式鏡像卷)。分級(jí)存儲(chǔ)系統(tǒng)搭建完成后,根據(jù)地震資料處理需要?jiǎng)?chuàng)建邏輯卷,創(chuàng)建分布式條帶卷來(lái)滿足并行處理作業(yè)時(shí)高并發(fā)IO和大聚合帶寬數(shù)據(jù)流對(duì)高性能存儲(chǔ)的需要。創(chuàng)建分布式鏡像卷作為備份存儲(chǔ)卷來(lái)存儲(chǔ)地震資料原始數(shù)據(jù)和成果數(shù)據(jù),滿足數(shù)據(jù)高安全性的需要。投入生產(chǎn)運(yùn)行后,多個(gè)處理項(xiàng)目使用了該套存儲(chǔ)系統(tǒng)進(jìn)行生產(chǎn),在項(xiàng)目結(jié)束后成果數(shù)據(jù)直接轉(zhuǎn)移至備份存儲(chǔ)卷,回收存儲(chǔ)空間。
根據(jù)河南油田地震資料處理的數(shù)據(jù)特點(diǎn),采用分級(jí)存儲(chǔ)系統(tǒng)滿足地震資料處理中不同應(yīng)用對(duì)存儲(chǔ)性能的不同需求,在存儲(chǔ)容量、存儲(chǔ)速度和成本之間取得了平衡,建成了高效實(shí)用的分級(jí)存儲(chǔ)環(huán)境。分級(jí)存儲(chǔ)系統(tǒng)在存儲(chǔ)性能、功能上滿足了生產(chǎn)項(xiàng)目的需要,取得了良好的應(yīng)用效果。
參考文獻(xiàn):
[1]楊傳輝 大規(guī)模分布式存儲(chǔ)系統(tǒng):原理解析與架構(gòu)實(shí)戰(zhàn) 機(jī)械工業(yè)出版社 2013
[2]G.Somasundaram Alok Shrivastava 信息存儲(chǔ)與管理 人民郵電出版社 2013
[3]潘紅芳,張瑜 智能分級(jí)存儲(chǔ)系統(tǒng)的研究 吉林大學(xué)出版社2014