姜麗娟 孟令霞
[摘 要] 21世紀(jì)可以稱為“大數(shù)據(jù)”(Big data)時(shí)代,隨之而來的是數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
[關(guān)鍵詞] 集群環(huán)境;數(shù)據(jù)加載;創(chuàng)新
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 07. 084
[中圖分類號(hào)] TN919.5 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2016)07- 0184- 01
1 引 言
目前,在石油勘探開發(fā)領(lǐng)域,產(chǎn)生了海量的地震數(shù)據(jù),對(duì)這些海量地震數(shù)據(jù)的重新處理挖掘產(chǎn)生了巨大的經(jīng)濟(jì)效益。例如,徐家圍子探區(qū),共有28個(gè)地震區(qū)塊,7 348平方千米,總數(shù)據(jù)大約30 TB,2006年開始重新連片處理,找到天然氣儲(chǔ)量1 000億立方米。石油地震數(shù)據(jù)挖掘工作的第一步就是數(shù)據(jù)整理和加載工作。
2 地震原始數(shù)據(jù)加載的傳統(tǒng)方式
大慶研究院地震處理系統(tǒng)傳統(tǒng)的數(shù)據(jù)準(zhǔn)備流程是地震用戶提出“加載工區(qū)原始數(shù)據(jù)申請(qǐng)”,經(jīng)有關(guān)領(lǐng)導(dǎo)批準(zhǔn)后,由計(jì)算機(jī)室磁帶組工作人員先找到原始帶,拷貝后借給處理編碼員,編碼員需要一盤盤的將帶加到主機(jī)房帶機(jī)上,并使用處理軟件將數(shù)據(jù)加載到處理系統(tǒng)中,數(shù)據(jù)加載完后將帶歸還磁帶庫。
這種數(shù)據(jù)加載方式的缺點(diǎn),一是處理系統(tǒng)主機(jī)上要連接磁帶機(jī),編碼員依靠多種處理軟件進(jìn)行加載。二是手續(xù)煩瑣,自動(dòng)化水平低,加載速度慢,編碼員勞動(dòng)強(qiáng)度大,例如,一盤3480地震原始記錄磁帶,容量為200 MB,加載到處理系統(tǒng)大約需要15分鐘,一個(gè)地震區(qū)塊平均2 000盤磁帶,為了完成科研生產(chǎn)任務(wù),幾十個(gè)GB的數(shù)據(jù)就要加載幾天幾夜才能完成。
隨著勘探開發(fā)技術(shù)的發(fā)展和勘探力度的加大,地震勘探儀器的不斷更新?lián)Q代,使野外采集覆蓋次數(shù)不斷增加,接收道數(shù)不斷增多,產(chǎn)生了海量的野外原始數(shù)據(jù)。初步統(tǒng)計(jì),大慶油田近三年的數(shù)據(jù)量是前二十年數(shù)據(jù)量的四倍。同時(shí),新的高性能CPU/GPU集群時(shí)代出現(xiàn),高效地推進(jìn)了高精度、大規(guī)模地震資料處理技術(shù)的發(fā)展,推進(jìn)了勘探海量地震數(shù)據(jù)的深度挖掘,單靠原有的處理系統(tǒng)主機(jī)掛接有限的十臺(tái)老舊磁帶機(jī)方式進(jìn)行數(shù)據(jù)加載,根本無法完現(xiàn)今每年50多TB原始數(shù)據(jù)加載任務(wù),必須采取新的數(shù)據(jù)集中加載模式。
3 海量數(shù)據(jù)準(zhǔn)備集中加載的創(chuàng)新方式
3.1 搭建海量地震數(shù)據(jù)準(zhǔn)備專網(wǎng)
以往,地震磁帶庫主要是負(fù)責(zé)野外原始數(shù)據(jù)的保存,帶庫的微機(jī)轉(zhuǎn)儲(chǔ)系統(tǒng)都是獨(dú)立的內(nèi)網(wǎng),和處理機(jī)房不通,要想直接加載到高性能集群系統(tǒng)中,首先必須要與地震處理專網(wǎng)搭建一條通道,建立地震數(shù)據(jù)準(zhǔn)備專網(wǎng),這樣在磁帶庫安裝一臺(tái)新的CISCO 2970千兆交換機(jī),下聯(lián)轉(zhuǎn)錄系統(tǒng)共七臺(tái)微機(jī),通過光纖上聯(lián)到主機(jī)房地震處理專網(wǎng)的Foundry 424千兆光纖交換機(jī),與整個(gè)地震處理系統(tǒng)形成一體。
3.2 PC-NFS文件系統(tǒng)與集群文件系統(tǒng)異構(gòu)平臺(tái)共享
通過對(duì)幾種開源軟件的試驗(yàn), Maestro Client 8.0的PC-NFS性能穩(wěn)定,具有計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)所具有的基本功能,并能夠幫助用戶訪問熟悉的Windows微機(jī)環(huán)境中的遠(yuǎn)程數(shù)據(jù),而不需關(guān)心文件的物理位置。為此,選擇該軟件作為Windows微機(jī)上的PC-NFS文件系統(tǒng)軟件平臺(tái),并結(jié)合地震數(shù)據(jù)準(zhǔn)備與機(jī)房?jī)?nèi)的各種版本linux操作系統(tǒng)情況,通過編寫客戶端安全監(jiān)控進(jìn)程,對(duì)遠(yuǎn)程訪問用戶進(jìn)行嚴(yán)格管理,建立了全新的數(shù)據(jù)準(zhǔn)備工作方式,實(shí)現(xiàn)了地震數(shù)據(jù)準(zhǔn)備從數(shù)據(jù)加載軟件到所有處理系統(tǒng)的一步到位。
3.3 網(wǎng)絡(luò)環(huán)境下海量數(shù)據(jù)集中加載負(fù)載均衡技術(shù)應(yīng)用
創(chuàng)新的數(shù)據(jù)加載方式,用戶提出“加載工區(qū)原始數(shù)據(jù)申請(qǐng)”,經(jīng)有關(guān)領(lǐng)導(dǎo)批準(zhǔn)后,磁帶組工作人員利用GDCS地震數(shù)據(jù)轉(zhuǎn)儲(chǔ)系統(tǒng)、Seisco地震數(shù)據(jù)磁帶拷貝轉(zhuǎn)錄系統(tǒng)等專用軟件直接將原始地震數(shù)據(jù)加載到集群環(huán)境下的存儲(chǔ)數(shù)據(jù)盤上,供處理人員使用。
4 實(shí)際應(yīng)用效益情況
通過搭建專用數(shù)據(jù)準(zhǔn)備網(wǎng)絡(luò)環(huán)境,運(yùn)用PC-NFS文件系統(tǒng)搭建了微機(jī)與集群存儲(chǔ)系統(tǒng)之間跨平臺(tái)數(shù)據(jù)共享通道,編寫用戶級(jí)信息安全守護(hù)程序,在國內(nèi)石油行業(yè)首家實(shí)現(xiàn)了集群環(huán)境下海量地震數(shù)據(jù)的直接加載。
新數(shù)據(jù)集中加載工作方式的改革,使得數(shù)據(jù)準(zhǔn)備速度提高了18倍,并解決了2006年HP大規(guī)模集群系統(tǒng)引進(jìn)投產(chǎn)后地震數(shù)據(jù)的輸入問題,節(jié)省新集群外部設(shè)備磁帶機(jī)引進(jìn)資金163萬元;節(jié)省用于磁帶拷貝的空白帶80 246盤,每盤按60元計(jì)算,合人民幣481萬元;2006年運(yùn)用新的加載方式總計(jì)為地震加載55 TB原始數(shù)據(jù),為A1項(xiàng)目加載10 TB數(shù)據(jù),節(jié)約加載工期17 195小時(shí),節(jié)省機(jī)時(shí)費(fèi)812萬元。僅2006年一年總計(jì)節(jié)約1 456萬元人民幣。
5 結(jié) 語
這項(xiàng)技術(shù)的使用徹底改變了傳統(tǒng)的工作方式,真正做到了數(shù)據(jù)準(zhǔn)備工作的高效、快捷、安全、穩(wěn)定,自投入生產(chǎn)以來,已經(jīng)在徐家圍子大連片、常家圍子大連片、喇嘛甸全數(shù)字高密度、長(zhǎng)垣薩爾圖高密度等地震處理中推廣應(yīng)用。到目前為止,運(yùn)用新技術(shù)為地震用戶加載原始數(shù)據(jù)量達(dá)到1 000 TB以上,不僅創(chuàng)造了巨大的經(jīng)濟(jì)效益,也為油田今后大數(shù)據(jù)重新挖掘處理做了先導(dǎo)性探索,充分挖掘大數(shù)據(jù)中的最大價(jià)值,具有重要意義。