文|于 剛 劉 巍
(作者單位:中石油西南油氣田分公司檔案中心)
油氣地質(zhì)資料中富含了實(shí)踐活動(dòng)中獲得的階段性知識(shí),盡快學(xué)習(xí)和掌握知識(shí),無(wú)論對(duì)企業(yè)生產(chǎn)降本增效,還是科學(xué)研究創(chuàng)新,都極具價(jià)值。以油氣勘探開發(fā)知識(shí)來(lái)擴(kuò)展檔案著錄項(xiàng),實(shí)現(xiàn)自動(dòng)著錄,用戶通過(guò)搜索系統(tǒng)對(duì)著錄信息進(jìn)行組合檢索,可以極大提高利用的維度和范圍,使用戶體驗(yàn)盡快得到改善。
油氣企業(yè)在勘探開發(fā)生產(chǎn)、經(jīng)營(yíng)、科研過(guò)程中,會(huì)形成大量的地質(zhì)資料檔案,忠實(shí)地大量記錄了企業(yè)活動(dòng)、人員行為和油氣地質(zhì)認(rèn)識(shí)。經(jīng)過(guò)長(zhǎng)達(dá)數(shù)年甚至幾十年真金白銀的付出和積累,大量信息中富含了地質(zhì)實(shí)踐活動(dòng)中獲得的階段性知識(shí),盡快學(xué)習(xí)和掌握知識(shí),無(wú)論對(duì)企業(yè)生產(chǎn)降本增效,還是科學(xué)研究創(chuàng)新,都極具價(jià)值。
傳統(tǒng)以紙質(zhì)檔案為主的印象還在大家的記憶深入駐留。近十年來(lái),國(guó)家對(duì)檔案中電子文件的收集非常重視,油氣地質(zhì)檔案中電子文件的數(shù)量已越來(lái)越齊全而龐大,而且通過(guò)歷年來(lái)的數(shù)字化工作,老舊資料的數(shù)字化率亦非常高,如中國(guó)石油數(shù)字檔案館于2020 年6 月完成竣工驗(yàn)收,電子檔案的時(shí)代已悄然來(lái)臨。目前完全實(shí)現(xiàn)電子文件歸檔還有距離,但是油氣資料紙電文件同時(shí)歸檔已是普遍行為,大量歸檔的電子文件,將會(huì)為檔案利用產(chǎn)生新的機(jī)遇。
隨著數(shù)據(jù)時(shí)代的到來(lái),各類結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)開始裝載進(jìn)各類數(shù)據(jù)庫(kù)中,人們使用各種技術(shù)手段去提取信息,在信息中歸納知識(shí),用知識(shí)創(chuàng)新促進(jìn)經(jīng)濟(jì)生活增長(zhǎng),似乎檔案的價(jià)值開始松動(dòng)、弱化。檔案的價(jià)值何在?這是一個(gè)問(wèn)題,如果數(shù)據(jù)是一條大河川流不息,檔案就是河岸邊一座座堡壘,保存著某時(shí)段的有價(jià)值的數(shù)據(jù)記錄集合。它既是客觀數(shù)據(jù),也是權(quán)威的主觀認(rèn)知,是當(dāng)時(shí)社會(huì)、經(jīng)濟(jì)、科技的快照,守護(hù)著數(shù)據(jù)流向遠(yuǎn)方,以后不管河流泛濫還是干枯,你總可以回到你關(guān)注的那個(gè)點(diǎn),復(fù)原當(dāng)時(shí)真實(shí)的工作場(chǎng)景和思想認(rèn)知。油田地質(zhì)資料中深藏的真知灼見、實(shí)踐經(jīng)驗(yàn),對(duì)地質(zhì)研究、油氣企業(yè)生產(chǎn)甚至國(guó)民經(jīng)濟(jì)發(fā)展,都有著非常重要的影響。這是一個(gè)挑戰(zhàn),又是一個(gè)機(jī)遇。檔案的價(jià)值不可否認(rèn),我們按照國(guó)家、企業(yè)有關(guān)規(guī)定的要求,將油氣地質(zhì)資料收齊收全,保證資料權(quán)威性的前提下,按規(guī)定的格式和質(zhì)量要求驗(yàn)收,立足自有基石。
新時(shí)代,機(jī)器計(jì)算能力的提升,人們看待數(shù)據(jù)的視角更廣闊,處理手段更多樣化,傳統(tǒng)單一依靠著錄項(xiàng)來(lái)檢索資料的方式,已難以應(yīng)對(duì)用戶需求的深刻變化,那通向未來(lái)之門在哪兒?進(jìn)入了一個(gè)數(shù)據(jù)化、信息化、智能化的時(shí)代,人們要求準(zhǔn)確快速獲取數(shù)據(jù)、信息、知識(shí),而檢索油氣地質(zhì)資料檔案中相關(guān)內(nèi)容能力,必須與之匹配。
我們的用戶在哪?是些什么人?他們?cè)谙胧裁醋鍪裁?,他們需要在檔案中得到什么,面向用戶,以獲得良好體驗(yàn)的服務(wù),才是我們新生之門。
從事油氣勘探開發(fā)的研究和工程技術(shù)人員是檔案借閱的最大用戶群,他們的目標(biāo)是油氣地質(zhì)和勘探開發(fā)技術(shù)。另一大群體是油氣企業(yè)的管理人員,他們的目標(biāo)是油氣勘探開發(fā)的管理和經(jīng)濟(jì),例如地質(zhì)技術(shù)人員想獲取在某個(gè)區(qū)域內(nèi)所有油氣勘探開發(fā)檔案,又如地質(zhì)技術(shù)人員想獲取記錄了某個(gè)區(qū)域內(nèi)某個(gè)地層的油氣勘探開發(fā)檔案,又如工程技術(shù)人員想獲取記錄了某個(gè)區(qū)域內(nèi)有油氣顯示的地層進(jìn)行了試油氣的油氣勘探開發(fā)檔案,又如管理人員要獲取某個(gè)氣藏的勘探過(guò)程的檔案,還如要收集某級(jí)組織或每個(gè)人在一定時(shí)間段內(nèi)的工作記錄的檔案,這些范圍更廣闊或者要求更細(xì)粒度的需求,確實(shí)是一個(gè)挑戰(zhàn)。
人工智能、知識(shí)學(xué)習(xí)、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)一個(gè)個(gè)炫目的名詞不斷閃耀在我們的視界中,檔案在宏大的進(jìn)程中有著不可替代的作用。由于花費(fèi)巨大,目前一般單位很難實(shí)現(xiàn)全過(guò)程數(shù)據(jù)歸檔,檔案只是這個(gè)進(jìn)程中非常關(guān)鍵的一部分,這非??简?yàn)檔案管理者的定力,在按規(guī)范收全收齊歸檔資料的基礎(chǔ)上,快速將資料投放到用戶的應(yīng)用場(chǎng)景中,實(shí)現(xiàn)更高效檔案利用才是當(dāng)務(wù)之急。
長(zhǎng)期以來(lái),利用按類和著錄項(xiàng)實(shí)現(xiàn)檔案檢索是行之有效的辦法,從紙質(zhì)目錄檢索到數(shù)據(jù)庫(kù)檢索,更快更準(zhǔn)一直是我們的目標(biāo)。目前國(guó)內(nèi)各油氣公司地質(zhì)資料檔案的著錄項(xiàng),除公共著錄項(xiàng),油氣勘探開發(fā)檔案專有著錄項(xiàng)也定義不少,在《中國(guó)石油檔案管理手冊(cè)》(2020 版)中就定義了井號(hào)、井別、井型、地區(qū)、工作區(qū)域等五十多項(xiàng),而且在中國(guó)石油檔案系統(tǒng)中還可以自定義來(lái)擴(kuò)展。在實(shí)際工作中,如果這么多項(xiàng)著錄,工作量會(huì)徒然增加,而且專有項(xiàng)著錄要查閱油氣專業(yè)資料,歸檔人員還要具備一定專業(yè)知識(shí),所以專用項(xiàng)幾乎很難全面實(shí)際著錄,更別用說(shuō)擴(kuò)展了。另外即使可以擴(kuò)展著錄項(xiàng),也難以與用戶的需求相匹配,如我們著錄了完鉆層位,但用戶需要知道某個(gè)鉆遇層位,或者需要知道有油氣顯示的層位,這種因人而異、千變?nèi)f化的需求,我們傳統(tǒng)的工作方式很難適應(yīng)。
檔案著錄,就是將歸檔資料的特征標(biāo)示出來(lái),利于管理和應(yīng)用。但著錄項(xiàng)過(guò)多,歸檔人員和檔案管理更傾向于利用自己工作的項(xiàng)目,手工著錄,精力花費(fèi)大而不靈活,不適應(yīng)以滿足用戶良好體驗(yàn)為服務(wù)目標(biāo)的趨勢(shì)。
改善著錄,讓地質(zhì)資料檔案的獨(dú)有和共性特征,能最大限度得到體現(xiàn),獨(dú)有的特征可以幫助用戶及時(shí)找到個(gè)別資料,共性特征可以幫助用戶找到有關(guān)聯(lián)的資料集合,獨(dú)有特征有些是單獨(dú)的,更多是由多個(gè)特征共同表達(dá)出的,如張XX、XX 構(gòu)造、XXXX 年、儲(chǔ)量報(bào)告,就能讓我們迅速找到由張XX 在XXXX 年參與編寫的XX 構(gòu)造的那本儲(chǔ)量報(bào)告。
首先要建立一套基本知識(shí)庫(kù),這個(gè)知識(shí)庫(kù)由油氣地質(zhì)知識(shí)、油氣鉆完井技術(shù)知識(shí)和員工信息構(gòu)成,油氣地質(zhì)知識(shí)包括井名、井別、井坐標(biāo)、構(gòu)造名、層位、巖性等,如層位,有以下字段:界、系統(tǒng)、統(tǒng)、組(階)、段、亞段,而段還應(yīng)有以下子字段(過(guò)去名稱、現(xiàn)有名稱),但在實(shí)際工作中,我們主要使用組(階)、段來(lái)描述地層情況和油氣發(fā)現(xiàn),所以在層位我們只保留組(階)、段的信息,如組(階)有“蓬萊組、遂寧組、沙溪廟組、涼高山組、自流井組”等。由于歷史上段名曾有不同命名,而自流井組的段有“過(guò)渡層、大安寨、馬鞍山、東岳廟、珍珠沖”;由于歷史上段名曾有不同命名,如“馬鞍山”就曾名為“自三”,所以保留過(guò)程名稱,有助于對(duì)歷史資料的搜索,這些段不管是過(guò)去名稱,還是現(xiàn)在名稱,都有代表符號(hào),但代表符號(hào)在資料中由于上下數(shù)標(biāo)等原因,在資料中使用不同方式處理,也不利于搜索,所以我們可以暫時(shí)舍棄。油氣鉆完井技術(shù)包括鉆頭類型及尺寸、套管類型及尺寸、鉆井液類型及密度、射孔方法及彈型;員工信息則有員工名、參加工作時(shí)間和現(xiàn)今狀態(tài)(在崗、已退休、不在崗),可以看到我們主要是依靠確定性、單值信息來(lái)增加著錄,改善利用體驗(yàn),對(duì)于連續(xù)值數(shù)據(jù)項(xiàng),我們暫不考慮。這里有一個(gè)誤區(qū)我們需要澄清,以往通過(guò)著錄,我們希望更準(zhǔn)備找到單一的檔案,但目前隨著生產(chǎn)、研究在更大范圍、更多緯度地對(duì)資料的需求,我們應(yīng)該具備搜索一定范圍內(nèi)或一定條件資料集的能力,用戶會(huì)根據(jù)自己的要求對(duì)結(jié)果集進(jìn)行判斷。另外,多條件的自然邏輯選擇,也會(huì)極大降低我們的選擇復(fù)雜度,如我們的人名,其實(shí)重名的非常多,但如果人名和資料中的地質(zhì)信息結(jié)合,由于在地質(zhì)資料上有名有姓的企業(yè)職工不會(huì)太多,重名的情況就會(huì)大為降低。
在完成了基本知識(shí)庫(kù)以后,我們應(yīng)將檔案系統(tǒng)地質(zhì)資料的基本信息遷移到我們的綜合著錄信息庫(kù)中,基本信息包括資料題目、檔案號(hào)、現(xiàn)有著錄項(xiàng)等,然后用基本知識(shí)庫(kù)的各字段來(lái)擴(kuò)展綜合著錄信息庫(kù),這些知識(shí)庫(kù)擴(kuò)展過(guò)來(lái)的字段,初始都賦為空值。
目前很多檔案系統(tǒng)都部署到了企業(yè)的云平臺(tái)上,地質(zhì)資料的電子文件已作為檔案的附件上傳到云平臺(tái)中,這些電子文件作為被搜索的對(duì)象。完成基本知識(shí)庫(kù)和綜合著錄信息庫(kù)準(zhǔn)備后,我們將編制一個(gè)自動(dòng)著錄引擎,其工作原理是這樣的:將基本知識(shí)庫(kù)的字段作為關(guān)鍵字,利用全文檢索技術(shù),在電子文件中進(jìn)行搜索,如有匹配的,則將關(guān)鍵字存入對(duì)應(yīng)文件的對(duì)應(yīng)字段中,注意由檔案系統(tǒng)遷移過(guò)來(lái)的著錄項(xiàng)值已確定就不必進(jìn)行搜索了。
基于油氣地質(zhì)知識(shí)的檔案資料搜索系統(tǒng),通過(guò)知識(shí)來(lái)擴(kuò)展著錄項(xiàng),可以極大提高用戶利用的維度和范圍,使用戶體驗(yàn)得到改善,在投入成本和開發(fā)時(shí)間上,是比較現(xiàn)實(shí)的選擇,但隨著技術(shù)的發(fā)展和用戶要求更深入,這僅僅是開了一個(gè)頭,如大家可以看到我們對(duì)不是固有的確定數(shù)值的已有知識(shí),幾乎都沒有進(jìn)行著錄,如孔隙度著錄,由于同一資料中不同地層有不同的值,既要在資料中讀到孔隙度,又要與對(duì)應(yīng)地層匹配上。目前實(shí)施的技術(shù)條件和硬件要求代價(jià)太大,當(dāng)下我們采用以較小代價(jià),選擇盡快進(jìn)行推廣利用,改善用戶體驗(yàn)的策略是符合實(shí)際的,從地質(zhì)資料中語(yǔ)義識(shí)別出地質(zhì)知識(shí)進(jìn)行著錄是我們的最終目標(biāo),我們會(huì)追蹤技術(shù)發(fā)展,進(jìn)行專題研究,在性價(jià)比可行的條件下,對(duì)系統(tǒng)進(jìn)行迭代,在改善地質(zhì)資料利用的路上,不斷前行。