金 弟,莊錫進(jìn),王啟迪,曹曉初,王宗仁
(中國(guó)石油杭州地質(zhì)研究院 計(jì)算機(jī)應(yīng)用研究所,杭州 310023)
在油氣勘探過程中,利用人工地震波激發(fā)采集的地震資料是一種海量數(shù)據(jù)[1].利用高性能計(jì)算集群系統(tǒng)與超大規(guī)模并行處理應(yīng)用軟件對(duì)地震資料數(shù)據(jù)進(jìn)行疊前偏移成像處理過程中,負(fù)責(zé)地震資料大數(shù)據(jù)讀寫等操作的存儲(chǔ)子系統(tǒng)成為性能瓶頸的核心環(huán)節(jié).
在存儲(chǔ)子系統(tǒng)中,當(dāng)?shù)卣鹳Y料處理系統(tǒng)中的計(jì)算節(jié)點(diǎn)客戶端大規(guī)模I/O并行請(qǐng)求地震數(shù)據(jù)寫所形成的高聚合I/O帶寬時(shí),存儲(chǔ)主機(jī)集群技術(shù)[2]能避免存儲(chǔ)主機(jī)節(jié)點(diǎn)端出現(xiàn)擁堵與單點(diǎn)故障;動(dòng)態(tài)存儲(chǔ)多路徑技術(shù)[2]能有效解決在存儲(chǔ)主機(jī)與存儲(chǔ)控制器之間的數(shù)據(jù)鏈路通道出現(xiàn)擁堵與單點(diǎn)故障;并行文件系統(tǒng)減少在Linux操作系統(tǒng)環(huán)境下的文件系統(tǒng)層出現(xiàn)大量文件讀寫的I/O排隊(duì)等待時(shí)間[2].但是這些技術(shù)解決的是存儲(chǔ)子系統(tǒng)體系結(jié)構(gòu)中單個(gè)文件系統(tǒng)層及以下底層的I/O性能提升.而對(duì)于文件系統(tǒng)池中各個(gè)文件系統(tǒng)的層面上,存在各個(gè)文件系統(tǒng)的地震數(shù)據(jù)寫吞吐量、寫頻率、寫負(fù)載以及寫容量等差別較大;各個(gè)文件系統(tǒng)的存儲(chǔ)剩余容量、存儲(chǔ)剩余容量百分比值等存在較大差異;地震數(shù)據(jù)文件容量、數(shù)量等在各個(gè)文件系統(tǒng)上的存儲(chǔ)不均衡.因此無法實(shí)現(xiàn)文件系統(tǒng)池中各個(gè)文件系統(tǒng)之間的地震數(shù)據(jù)寫負(fù)載均衡與數(shù)據(jù)分布優(yōu)化.本文首先闡述地震資料處理流程,接著分析不同常規(guī)地震數(shù)據(jù)寫策略的優(yōu)缺點(diǎn),最后提出基于概率的地震數(shù)據(jù)寫策略的優(yōu)越性并進(jìn)行實(shí)驗(yàn)驗(yàn)證.
地震資料處理是典型的數(shù)據(jù)密集型應(yīng)用,其特點(diǎn)是對(duì)陸地、海洋采集的原始海量地震數(shù)據(jù)進(jìn)行常規(guī)處理、偏移成像處理等形成準(zhǔn)確的地下構(gòu)造圖像,以便發(fā)現(xiàn)油氣藏.目前主流的地震資料處理環(huán)境中,普遍采用基于集群的高性能并行計(jì)算機(jī)系統(tǒng)[3],實(shí)現(xiàn)其計(jì)算與存儲(chǔ)分離、存儲(chǔ)共享的方式,典型的系統(tǒng)結(jié)構(gòu)如圖1.由圖1知,海量地震數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)池中,計(jì)算節(jié)點(diǎn)通過高速網(wǎng)絡(luò)向I/O節(jié)點(diǎn)請(qǐng)求I/O讀寫,多個(gè)I/O節(jié)點(diǎn)并行對(duì)文件系統(tǒng)池讀寫地震數(shù)據(jù).文件系統(tǒng)池由多個(gè)文件系統(tǒng)構(gòu)成,通常采用高性能磁盤陣列、并行文件系統(tǒng)構(gòu)建,各個(gè)節(jié)點(diǎn)像訪問多個(gè)本地文件系統(tǒng)一樣來讀寫地震數(shù)據(jù).地震資料處理系統(tǒng)的軟件體系結(jié)構(gòu)采用分層模式,如圖2所示.應(yīng)用功能層部署在多個(gè)計(jì)算節(jié)點(diǎn)上,完成常規(guī)處理、并行偏移處理等.服務(wù)控制層是其核心服務(wù)器,執(zhí)行整個(gè)軟件系統(tǒng)的控制與管理等功能.數(shù)據(jù)服務(wù)層部署在I/O節(jié)點(diǎn)上,進(jìn)行地震數(shù)據(jù)與非地震數(shù)據(jù)的讀寫與管理,直接與數(shù)據(jù)存儲(chǔ)層的文件系統(tǒng)池與關(guān)系數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)交互.
圖1 地震資料處理系統(tǒng)典型結(jié)構(gòu)
圖2 地震資料處理系統(tǒng)的軟件體系結(jié)構(gòu)
作者所在單位從2010年開始采用并行文件系統(tǒng)StorNext[4]部署文件系統(tǒng)池,目前的文件系統(tǒng)池由21個(gè)文件系統(tǒng)組成,規(guī)模達(dá)到PB級(jí)存儲(chǔ)容量.采用StorNext部署的文件系統(tǒng)池能很好的實(shí)現(xiàn)單個(gè)文件系統(tǒng)內(nèi)地震數(shù)據(jù)的均衡物理分布與多I/O節(jié)點(diǎn)并行高效讀寫.但在一個(gè)地震資料處理作業(yè)過程中,對(duì)請(qǐng)求寫的地震數(shù)據(jù)必須預(yù)先靜態(tài)的指定向哪個(gè)文件系統(tǒng)寫,無法根據(jù)多個(gè)文件系統(tǒng)的地震數(shù)據(jù)分布信息變化動(dòng)態(tài)的進(jìn)行修改調(diào)整.所以要滿足多個(gè)文件系統(tǒng)之間的地震數(shù)據(jù)負(fù)載均衡寫,數(shù)據(jù)服務(wù)層與數(shù)據(jù)存儲(chǔ)層不能感知,需要依靠地震資料處理人員的主觀判斷與手工操作干預(yù).
地震資料處理的主要流程如圖3所示.檢波器產(chǎn)生的原始地震數(shù)據(jù)存儲(chǔ)在文件系統(tǒng)池中;地震資料處理軟件通過解編生成特定私有格式地震數(shù)據(jù);讀取解編后的地震數(shù)據(jù),經(jīng)過常規(guī)處理與偏移處理產(chǎn)生若干份中間成果地震數(shù)據(jù);讀取中間成果地震數(shù)據(jù),進(jìn)行交互分析,產(chǎn)生最終處理后的成果地震數(shù)據(jù).
圖3 地震資料數(shù)據(jù)處理流程
由圖3知,地震資料處理流程主要包括原始地震數(shù)據(jù)解編、常規(guī)處理、偏移處理以及交互分析4個(gè)主要階段.原始地震數(shù)據(jù)解編消耗CPU較少,對(duì)I/O需求較大.常規(guī)處理包括靜校正、反褶積、噪音壓制等方法,需要多次讀入、計(jì)算、刪除和寫大量中間地震數(shù)據(jù),對(duì)I/O和CPU需求都比較大.偏移處理包括時(shí)間偏移、深度偏移、逆時(shí)偏移等復(fù)雜方法,需要多次并行讀入、計(jì)算、刪除和寫大量中間地震數(shù)據(jù),對(duì)存儲(chǔ)子系統(tǒng)的并行I/O與計(jì)算子系統(tǒng)的并行計(jì)算要求非常高.交互分析是讀取常規(guī)處理和偏移處理后的相關(guān)地震數(shù)據(jù),做分析修正.對(duì)I/O和CPU消耗不多.因此除交互分析外,其它三個(gè)階段都有大規(guī)模的讀、寫及刪除大量地震數(shù)據(jù)文件.這種頻繁的大規(guī)模地震數(shù)據(jù)寫、刪除等操作導(dǎo)致文件系統(tǒng)池中各個(gè)文件系統(tǒng)之間的地震數(shù)據(jù)寫不平衡與地震數(shù)據(jù)分布不平衡.
針對(duì)文件系統(tǒng)池中各個(gè)文件系統(tǒng)之間的地震數(shù)據(jù)寫與分布不平衡,結(jié)合地震資料處理的4個(gè)重要階段及其特點(diǎn),常規(guī)地震數(shù)據(jù)寫策略主要有三種.
對(duì)于文件系統(tǒng)池中所有可用的文件系統(tǒng),根據(jù)文件系統(tǒng)寫操作的時(shí)間戳,最近一次被選中寫操作以后的時(shí)間間隔值作為選擇某個(gè)文件系統(tǒng)進(jìn)行寫的依據(jù)[5],最長(zhǎng)時(shí)間間隔值的文件系統(tǒng)優(yōu)先被選中,確保各個(gè)文件系統(tǒng)之間地震數(shù)據(jù)寫負(fù)載均衡、地震數(shù)據(jù)分布優(yōu)化.
這種寫策略的優(yōu)點(diǎn)是實(shí)現(xiàn)方法簡(jiǎn)單.缺點(diǎn)是由于沒有考慮文件系統(tǒng)的總?cè)萘颗c可用剩余容量等因素.在文件系統(tǒng)池中,當(dāng)大容量文件系統(tǒng)與小容量文件系統(tǒng)混合、各個(gè)文件系統(tǒng)之間的剩余容量差值較大的情況下,大量的地震數(shù)據(jù)寫操作會(huì)存在小容量文件系統(tǒng)優(yōu)先寫滿,導(dǎo)致可用文件系統(tǒng)快速減少.同時(shí)對(duì)于成批大容量地震數(shù)據(jù)文件寫操作時(shí),小容量文件系統(tǒng)容易出現(xiàn)重負(fù)載,大容量文件系統(tǒng)容易出現(xiàn)輕負(fù)載.因此該策略在地震數(shù)據(jù)寫操作容量規(guī)模不大的情況下效果比較好.數(shù)據(jù)解編是將野外采集的地震數(shù)據(jù)正確加載到地震資料處理軟件系統(tǒng)中,進(jìn)行觀測(cè)系統(tǒng)定義,并對(duì)地震數(shù)據(jù)進(jìn)行編輯和校正的過程;交互分析主要對(duì)地震剖面、地震速度譜等進(jìn)行分析調(diào)整.這二個(gè)階段的地震數(shù)據(jù)寫規(guī)模比較小,并且是串行寫操作,比較適合使用該地震數(shù)據(jù)寫策略.而常規(guī)處理、偏移處理會(huì)產(chǎn)生大規(guī)模地震數(shù)據(jù)寫現(xiàn)象,不宜使用該地震數(shù)據(jù)寫策略.
針對(duì)最長(zhǎng)時(shí)間間隔寫策略的缺陷,在可用的文件系統(tǒng)池中,選取可用剩余容量最大百分比的文件系統(tǒng)進(jìn)行地震數(shù)據(jù)寫操作.單個(gè)文件系統(tǒng)剩余容量百分比=((單個(gè)文件系統(tǒng)總?cè)萘?單個(gè)文件系統(tǒng)已被使用容量)/單個(gè)文件系統(tǒng)總?cè)萘?*100.與最長(zhǎng)時(shí)間間隔寫策略相比,該策略考慮了各個(gè)文件系統(tǒng)的使用狀態(tài),即可用剩余容量的信息,能確保文件系統(tǒng)池中,各個(gè)文件系統(tǒng)的可用剩余容量的百分比保持均衡.避免小容量文件系統(tǒng)優(yōu)先寫滿,達(dá)到地震數(shù)據(jù)寫平衡與優(yōu)化分布.
該策略也存在缺點(diǎn),當(dāng)文件系統(tǒng)池中一個(gè)文件系統(tǒng)的可用剩余容量百分比明顯高于文件系統(tǒng)池中其它所有的文件系統(tǒng)的時(shí)候,會(huì)產(chǎn)生單個(gè)文件系統(tǒng)寫熱點(diǎn)瓶頸問題.例如當(dāng)前文件系統(tǒng)池中有3個(gè)文件系統(tǒng)d1、d2、d3,其可用剩余容量的百分比為50%、40%、40%.由于文件系統(tǒng)池?cái)U(kuò)容,新增一個(gè)新的文件系統(tǒng)d4,其可用剩余容量的百分比為99%.在這種情況下,以后所有的數(shù)據(jù)寫操作都選擇文件系統(tǒng)d4,其它的文件系統(tǒng)d1、d2、d3均處于空閑狀態(tài),直到文件系統(tǒng)d4的可用剩余容量的百分比為50%以下.因此該策略比較適合在文件系統(tǒng)池中,各個(gè)文件系統(tǒng)的剩余容量最大百分比值在初始狀態(tài)時(shí)就比較接近的情況.在地震資料處理環(huán)境中,只要文件系統(tǒng)池的狀態(tài)滿足這個(gè)條件,地震資料處理的4個(gè)主要階段都可以使用該地震數(shù)據(jù)寫策略.但在實(shí)際地震資料處理流程中,由于常規(guī)處理、偏移處理這二個(gè)階段存在反復(fù)多次大規(guī)模中間結(jié)果的地震數(shù)據(jù)輸出,而且這二個(gè)階段也會(huì)存在自身多次執(zhí)行,要滿足該數(shù)據(jù)寫策略的條件比較困難.因此該地震數(shù)據(jù)寫策略對(duì)于地震數(shù)據(jù)寫規(guī)模較小的數(shù)據(jù)解編、交互分析可以使用,而對(duì)地震數(shù)據(jù)寫規(guī)模比較大的常規(guī)處理、偏移處理不適合.
2.1 節(jié)的寫策略僅考慮時(shí)間因素,存在小容量文件系統(tǒng)優(yōu)先寫滿、文件系統(tǒng)寫操作負(fù)載不均衡的缺點(diǎn),2.2節(jié)的寫策略僅考慮容量因素,存在單個(gè)文件系統(tǒng)寫熱點(diǎn)瓶頸問題.基于時(shí)間與容量因素的寫策略同時(shí)考慮各個(gè)文件系統(tǒng)的地震數(shù)據(jù)寫操作最近一次被選中以后的時(shí)間間隔值這個(gè)時(shí)間因素和各個(gè)文件系統(tǒng)可用剩余容量值這個(gè)容量因素,結(jié)合加權(quán)可調(diào)參數(shù)計(jì)算出最終值作為選擇文件系統(tǒng)進(jìn)行地震數(shù)據(jù)寫操作的判別依據(jù).
在文件系統(tǒng)池中,假設(shè)文件系統(tǒng)的數(shù)量為n,四個(gè)可調(diào)參數(shù)為a,b,c,d.文件系統(tǒng)池容量集合Sn={s1,s2,···,sn};文件系統(tǒng)池可用剩余容量的百分比集合Bn={b1,b2,···,bn};文件系統(tǒng)池可用剩余容量集合Vn={v1,v2,···,vn},其中vi=bi×si;文件系統(tǒng)池最近一次被選中以后的時(shí)間間隔集合Tn={t1,t2,···,tn};基于時(shí)間與容量因素的文件系統(tǒng)池寫策略最終值集合Wn={w1,w2,···,wn},其 中wi={a+b×ti}×(c+d×vi).參數(shù)a,b調(diào)整的是時(shí)間因素的權(quán)重,參數(shù)c,d調(diào)整的是容量因素的權(quán)重.通過參數(shù)值調(diào)整,其適應(yīng)性比較強(qiáng),例如增大參數(shù)c及d的值,同時(shí)減少參數(shù)a及b的值,此時(shí)該寫策略趨向于基于最長(zhǎng)時(shí)間間隔寫策略[6].
該寫策略同時(shí)考慮了時(shí)間因素與容量因素,且通過加權(quán)可調(diào)參數(shù),避免了2.1節(jié)與2.2節(jié)策略的缺點(diǎn),理論上能適合應(yīng)用于地震資料處理的4個(gè)主要階段.但該策略也存在缺陷,由于引入了4個(gè)可調(diào)參數(shù),存在需要手工干預(yù)而且調(diào)整起來相對(duì)較復(fù)雜,在實(shí)現(xiàn)過程中,4個(gè)參數(shù)的優(yōu)化組合存在一定的難度與需要有一定的經(jīng)驗(yàn),可操作性差.同時(shí)該策略在參數(shù)的調(diào)整過程中,時(shí)間因素與容量因素的權(quán)值都不高的這些文件系統(tǒng)容易出現(xiàn)饑餓現(xiàn)象,即在這些文件系統(tǒng)上的寫地震數(shù)據(jù)量很小或沒有寫地震數(shù)據(jù).因此在地震資料處理流程中,交互分析階段地震數(shù)據(jù)量寫較小,該策略的4個(gè)參數(shù)的選擇相對(duì)較易,可以適用.而數(shù)據(jù)解編、常規(guī)處理以及偏移處理這三個(gè)階段的地震數(shù)據(jù)量寫逐漸變大,尤其是偏移處理都是并行地震資料處理作業(yè),涉及到多次并行地震數(shù)據(jù)寫操作,該策略的參數(shù)調(diào)整組合優(yōu)化比較困難,不太適合.
該策略運(yùn)用基于概率的思想、方法,通過計(jì)算概率值作為優(yōu)先級(jí)別值來判別優(yōu)先選擇哪個(gè)文件系統(tǒng).根據(jù)文件系統(tǒng)的寫頻繁程度、文件系統(tǒng)寫操作的動(dòng)態(tài)容量狀態(tài)信息進(jìn)行統(tǒng)籌優(yōu)化考慮.采用最長(zhǎng)時(shí)間間隔、絕對(duì)剩余容量及相對(duì)剩余容量三個(gè)關(guān)鍵變量因素分別計(jì)算概率值,然后根據(jù)地震資料處理環(huán)境中4個(gè)主要階段的實(shí)際需求,通過權(quán)重因子參數(shù)進(jìn)行調(diào)整這三個(gè)變量概率值的權(quán)重,來滿足文件系統(tǒng)池的地震數(shù)據(jù)寫平衡與優(yōu)化分布.該策略實(shí)現(xiàn)方法過程如下.
文件系統(tǒng)池中,假設(shè)文件系統(tǒng)的數(shù)量為n;文件系統(tǒng)池可用文件系統(tǒng)集合Dn={d1,d2,···,dn};文件系統(tǒng)池最近一次被選中以后的時(shí)間間隔集合Tn={t1,t2,···,tn};文件系統(tǒng)池基于最近一次被選中以后的時(shí)間間隔概率集合PTn={pt1,pt2,···,ptn};在文件系統(tǒng)池中,基于最長(zhǎng)時(shí)間間隔的第i個(gè)文件系統(tǒng)概率計(jì)算公式為:
文件系統(tǒng)池容量集合Sn={s1,s2,···,sn};文件系統(tǒng)池可用剩余容量百分比集合Bn={b1,b2,···,bn};文件系統(tǒng)池絕對(duì)剩余容量概率集合PSn={ps1,ps2,···,psn};在文件系統(tǒng)池中,第i個(gè)文件系統(tǒng)絕對(duì)剩余容量概率計(jì)算公式為:
文件系統(tǒng)池可用剩余容量最小百分比Bmin=MIN{b1,b2,···,bn};文件系統(tǒng)池可用剩余容量最大百分比Bmax=MAX{b1,b2,···,bn};文件系統(tǒng)池可用剩余容量的百分比和如下:
文件系統(tǒng)池可用相對(duì)剩余容量概率集合PBn={pb1,pb2,···,pbn};在文件系統(tǒng)池中,第i個(gè)文件系統(tǒng)可用相對(duì)剩余容量概率計(jì)算公式為:
定義概率權(quán)重因子WF,0<=WF<=1;文件系統(tǒng)池內(nèi)選擇文件系統(tǒng)進(jìn)行地震數(shù)據(jù)寫的概率集合Pn={p1,p2,···,pn};根據(jù)式(1)、(2)、(3),在文件系統(tǒng)池中,第i個(gè)文件系統(tǒng)進(jìn)行地震數(shù)據(jù)寫的概率計(jì)算公式如下:
公式(4)由三項(xiàng)構(gòu)成,第一項(xiàng)用時(shí)間比例方法計(jì)算基于最長(zhǎng)時(shí)間間隔的文件系統(tǒng)概率值pti,所占的權(quán)重是(1-WF)/2;第二項(xiàng)用剩余容量比例方法計(jì)算文件系統(tǒng)絕對(duì)剩余容量概率值psi,所占的權(quán)重是(1-WF)/2;第三項(xiàng)用最值差方法計(jì)算文件系統(tǒng)可用相對(duì)剩余容量概率值pbi,所占的權(quán)重是WF.第i個(gè)文件系統(tǒng)進(jìn)行地震數(shù)據(jù)寫的最終概率值由這三項(xiàng)各自的概率值加權(quán)再相加得到.對(duì)于WF取任何0至1之間的值,三項(xiàng)的權(quán)重和為1,各項(xiàng)所占的權(quán)重比值由WF控制與調(diào)整.
該策略考慮文件系統(tǒng)池的最長(zhǎng)時(shí)間間隔、絕對(duì)剩余容量及相對(duì)剩余容量分別作為概率變量的分布值,其值為在文件系統(tǒng)池中選擇哪個(gè)文件系統(tǒng)進(jìn)行地震數(shù)據(jù)寫的主要判別依據(jù).在此基礎(chǔ)上,運(yùn)用調(diào)整概率權(quán)重因子WF這個(gè)參數(shù)的值大小,權(quán)衡這三個(gè)主控因素的概率變量值權(quán)重,最終達(dá)到文件系統(tǒng)池內(nèi)各個(gè)文件系統(tǒng)之間地震數(shù)據(jù)寫平衡與優(yōu)化分布.而且該策略僅引進(jìn)一個(gè)概率權(quán)重因子參數(shù)WF,參數(shù)優(yōu)化調(diào)整相對(duì)簡(jiǎn)單.該策略實(shí)現(xiàn)算法流程如圖4.
為了驗(yàn)證本文提出的基于概率寫策略的效果,對(duì)該寫策略進(jìn)行實(shí)驗(yàn)測(cè)試分析.實(shí)驗(yàn)環(huán)境如下,16個(gè)IBM HS22刀片計(jì)算節(jié)點(diǎn),4個(gè)IBM x3650 I/O節(jié)點(diǎn),StorNext4.0并行文件系統(tǒng)構(gòu)建的文件系統(tǒng)池,采用地震資料處理軟件GeoVation2015[6]的并行地震數(shù)據(jù)寫軟件子模塊模擬用戶頻繁的大規(guī)模地震數(shù)據(jù)寫操作.選擇國(guó)內(nèi)某盆地采集的實(shí)際地震數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),其信息如表1所示.為方便測(cè)試,采用4個(gè)文件系統(tǒng)fs1、fs2、fs3及fs4組成的文件系統(tǒng)池,4個(gè)文件系統(tǒng)的初始狀態(tài)信息如表2;抽取所測(cè)試的地震數(shù)據(jù)文件樣本如表3,60個(gè)地震數(shù)據(jù)文件共計(jì)約1 TB地震數(shù)據(jù)容量.
圖4 基于概率地震數(shù)據(jù)寫策略算法流程
表2 文件系統(tǒng)池初始條件狀態(tài)
表3 地震數(shù)據(jù)文件樣本信息
圖5給出了在不同概率權(quán)重因子值條件下,1 TB地震數(shù)據(jù)寫操作完成后,4個(gè)文件系統(tǒng)被寫地震數(shù)據(jù)的容量分布.文件系統(tǒng)池初始狀態(tài)fs4剩余容量180 GB,fs1與fs2的剩余容量480 GB,fs4與fs1(fs2)剩余容量差值比較大,2倍多.由圖5可知,對(duì)于不同的概率權(quán)重因子值,向fs1寫地震數(shù)據(jù)容量分布范圍379.8 GB至390.6 GB;向fs2寫地震數(shù)據(jù)容量分布范圍372.6 GB至386.4 GB;向fs3寫地震數(shù)據(jù)容量分布范圍142.2 GB至156.6 GB;向fs4寫地震數(shù)據(jù)容量分布范圍81.4 GB至128.8 GB.
圖5 寫地震數(shù)據(jù)容量分布
根據(jù)不同文件系統(tǒng)的寫地震數(shù)據(jù)容量分布范圍,可知該策略避免2.1節(jié)所描述的在各個(gè)文件系統(tǒng)之間剩余容量差值較大的條件下,小容量文件系統(tǒng)優(yōu)先寫滿情況.也沒有出現(xiàn)小容量文件系統(tǒng)容易出現(xiàn)重負(fù)載,而大容量文件系統(tǒng)容易出現(xiàn)輕負(fù)載的現(xiàn)象.同時(shí)在不同權(quán)重因子值條件下,寫地震數(shù)據(jù)容量最小的文件系統(tǒng)也有81.4 GB數(shù)據(jù)寫入,避免2.3節(jié)所描述某些文件系統(tǒng)可能出現(xiàn)寫地震數(shù)據(jù)容量很小或沒有寫地震數(shù)據(jù)這種饑餓現(xiàn)象.
文件系統(tǒng)池初始狀態(tài)中,剩余容量百分比最小的fs3值為40%,剩余容量百分比最大的fs4值為90%,其差值較大.圖6顯示1 TB地震數(shù)據(jù)寫操作完成后,4個(gè)文件系統(tǒng)的剩余容量百分比分布.
由圖6可知當(dāng)概率權(quán)重因子值小于等于0.6時(shí),fs1、fs2、fs3及fs4的剩余容量百分比區(qū)間分別為14.9%至16.6%、15.6%至17.5%、13.9%至14.4%及37.9%至48.1%.當(dāng)概率權(quán)重因子值大于0.6時(shí),fs1、fs2、fs3及fs4的剩余容量百分比區(qū)間分別為18.2%至18.8%、17.9%至18.1%、16.3%至17.9%及18.4%至25.6%.可以看出當(dāng)概率權(quán)重因子值小于等于0.6時(shí),fs3和fs4的剩余容量百分比值與其初始狀態(tài)一樣仍然保持其較大的差值;當(dāng)概率權(quán)重因子值大于0.6時(shí),fs3和fs4的剩余容量百分比值比較接近,向fs4寫地震數(shù)據(jù)比較頻繁.因此為了解決2.2節(jié)所描述產(chǎn)生單個(gè)文件系統(tǒng)熱點(diǎn)寫瓶頸問題,建議調(diào)整概率權(quán)重因子值小于等于0.6.
圖6 文件系統(tǒng)池剩余容量百分比分布
文件系統(tǒng)池初始狀態(tài)中,最大剩余容量為fs1與fs2,都是480 GB,最小剩余容量fs4為180 GB.圖7顯示1 TB地震數(shù)據(jù)寫操作完成后,4個(gè)文件系統(tǒng)在不同概率權(quán)重因子值下的剩余容量分布.在不同概率權(quán)重因子值條件下,fs1與fs2的剩余容量都基本相同,寫數(shù)據(jù)非常均衡.
由圖7可知,當(dāng)概率權(quán)重因子值小于等于0.4時(shí),fs1的剩余容量區(qū)間89.4 GB至98.4 GB,fs4的剩余容量區(qū)間81.5 GB至99.8 GB.當(dāng)概率權(quán)重因子值大于0.4時(shí),fs1的剩余容量區(qū)間99.6 GB至112.8 GB,fs4的剩余容量區(qū)間36.8 GB至75.8 GB.可見當(dāng)概率權(quán)重因子值大于0.4時(shí),fs1與fs4的剩余容量值與初始狀態(tài)一樣仍然保持較大的差值;當(dāng)概率權(quán)重因子值小于等于0.4時(shí),fs1和fs4的剩余容量值比較接近.
因此在文件系統(tǒng)池的初始狀態(tài)為各個(gè)文件系統(tǒng)的剩余容量相差很大的情況下,如果需要保持各個(gè)文件系統(tǒng)的剩余容量均衡,建議調(diào)整概率權(quán)重因子值小于等于0.4;如果需要保持各個(gè)文件系統(tǒng)的寫地震數(shù)據(jù)量均衡,建議調(diào)整概率權(quán)重因子值大于0.4.
圖7 文件系統(tǒng)池剩余容量分布
通過上述實(shí)驗(yàn)結(jié)果數(shù)據(jù)分析,根據(jù)實(shí)際需要,通過調(diào)整概率權(quán)重因子,基于概率寫策略能很好的確保文件系統(tǒng)池中各個(gè)文件系統(tǒng)之間地震數(shù)據(jù)寫平衡與優(yōu)化分布,滿足地震資料處理流程中的4個(gè)主要階段的地震數(shù)據(jù)寫需求.
本文提出基于概率思想的地震數(shù)據(jù)寫策略,設(shè)置不同的概率權(quán)重因子值,對(duì)地震數(shù)據(jù)寫平衡與優(yōu)化分布有較大的影響.因此結(jié)合不同的文件系統(tǒng)池狀態(tài)、地震數(shù)據(jù)文件個(gè)數(shù)與容量以及地震數(shù)據(jù)寫順序,自動(dòng)學(xué)習(xí)調(diào)整優(yōu)化概率權(quán)重因子值是后續(xù)需要關(guān)注和研究的問題.
1趙滿.地震數(shù)據(jù)并行訪問策略的研究[碩士學(xué)位論文].大慶:東北石油大學(xué),2013.
2金弟,莊錫進(jìn),王啟迪,等.存儲(chǔ)框架模型在地震資料大數(shù)據(jù)中的應(yīng)用.計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(2):45-51.
3張軍華,臧勝濤,單聯(lián)瑜,等.高性能計(jì)算的發(fā)展現(xiàn)狀及趨勢(shì).石油地球物理勘探,2010,45(6):918-925.
4Quantum.Stor NextFile System Users Guide.Seattle,USA:Quantum Press,2010.
5Schlumberger.Omega 2015.1 Administration Guide.Houston,TX,USA:Schlumberger,2015.
6CGG.Geovation 2015 Administration Guide.Cedex FRANCE:CGG,2015.