梁銀平,李 杰,王 斌,岳 鵬
(國土資源實物地質(zhì)資料中心,河北 三河065201)
全國重要地質(zhì)鉆孔數(shù)據(jù)庫涵蓋了新中國成立以來我國開展的大規(guī)模地質(zhì)勘查和地質(zhì)科學研究工作所獲取的豐富地質(zhì)鉆孔資料,蘊藏著巨大的潛在價值,可為基礎(chǔ)地質(zhì)調(diào)查、礦產(chǎn)資源評價、國土資源合理開發(fā)利用、國民經(jīng)濟建設(shè)、制定區(qū)域規(guī)劃、保護人類賴以生存的地質(zhì)環(huán)境及其他相關(guān)學科研究提供有效的基礎(chǔ)地質(zhì)資料,對于保障我國礦產(chǎn)資源持續(xù)供應(yīng)和可持續(xù)發(fā)展也具有重要的數(shù)據(jù)支撐作用。在當前鉆孔數(shù)據(jù)庫建設(shè)中,數(shù)據(jù)質(zhì)量的優(yōu)劣直接影響數(shù)據(jù)庫建設(shè)的成效,也會成為決定基于該數(shù)據(jù)庫的決策水平的重要因素。明確數(shù)據(jù)庫數(shù)據(jù)質(zhì)量要求,建立完善的數(shù)據(jù)質(zhì)量控制體系,并對數(shù)據(jù)質(zhì)量控制中存在的問題提出一套正確合理的排查辦法非常必要。
數(shù)據(jù)質(zhì)量即數(shù)據(jù)的可靠性。全國重要地質(zhì)鉆孔數(shù)據(jù)庫建庫人員眾多、涉及資料量多且時間跨度大。在建庫過程中,由于鉆孔數(shù)據(jù)采集軟件功能限制、數(shù)據(jù)錄入人員操作失誤或?qū)I(yè)知識欠缺、原始數(shù)據(jù)質(zhì)量限制、資料重復(fù)利用及多地保管等多方面的因素,會導致各種數(shù)據(jù)質(zhì)量問題。從入庫數(shù)據(jù)內(nèi)容來看,地質(zhì)鉆孔數(shù)據(jù)庫數(shù)據(jù)質(zhì)量問題主要分為屬性項結(jié)構(gòu)化數(shù)據(jù)和圖表非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量檢查。屬性項結(jié)構(gòu)化數(shù)據(jù)質(zhì)量檢查主要包括重要屬性項填寫錯誤或填寫不規(guī)范、鉆孔重復(fù)錄入、相關(guān)備注填寫不完善等。圖表非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量問題主要包括入庫圖件錯誤、掃描圖件不清晰、圖件整飾不規(guī)范、入庫圖表不完整等。
現(xiàn)代數(shù)據(jù)質(zhì)量概念注重從用戶的角度衡量數(shù)據(jù)質(zhì)量,強調(diào)用戶對數(shù)據(jù)的滿意程度,一般以完整性、規(guī)范性、準確性、一致性、及時性等指標來描述數(shù)據(jù)質(zhì)量[1],同時根據(jù)具體的數(shù)據(jù)評估需求對數(shù)據(jù)質(zhì)量評估指標進行取舍。援引現(xiàn)代數(shù)據(jù)質(zhì)量概念對數(shù)據(jù)質(zhì)量的評價指標,我們對全國重要地質(zhì)鉆孔數(shù)據(jù)庫提出完整性、規(guī)范性、準確性、一致性、唯一性、客觀性等數(shù)據(jù)質(zhì)量要求。
完整性關(guān)注的重點是數(shù)據(jù)庫中是否存在多余數(shù)據(jù)、重復(fù)記錄或缺失記錄、字段的情況,不關(guān)注數(shù)據(jù)的規(guī)范性和準確度。
規(guī)范性要求數(shù)據(jù)庫中數(shù)據(jù)項的格式及填寫符合相關(guān)規(guī)范要求,圖件的掃描質(zhì)量及圖面整飾符合《圖文地質(zhì)資料掃描數(shù)字化規(guī)范(試行)》要求。
準確性指數(shù)據(jù)的準確度和可信賴度,考量的是數(shù)據(jù)的客觀性,要求入庫數(shù)據(jù)項與其對應(yīng)的原始地質(zhì)資料實際情況相符。
一致性要求某一數(shù)據(jù)項在數(shù)據(jù)庫中出現(xiàn)多次的,涉及該字段的數(shù)據(jù)必須完全一致。例如,鉆孔信息中的終孔深度應(yīng)當與柱狀圖中的終孔深度及圖內(nèi)的累積深度一致。
唯一性要求數(shù)據(jù)庫中不存在重復(fù)保管單位、項目及鉆孔記錄。
質(zhì)量檢查是數(shù)據(jù)質(zhì)量控制的重要環(huán)節(jié)。在質(zhì)量檢查過程中,首先要對數(shù)據(jù)質(zhì)量在整體上進行把握,主要從代表保管單位、項目和鉆孔的文件夾數(shù)分別與實際入庫記錄條數(shù)的對應(yīng)性以及入庫圖件總數(shù)與圖件設(shè)定數(shù)總和的對應(yīng)性兩方面對數(shù)據(jù)庫的完整性進行檢查。其次是對鉆孔資料保管單位信息、鉆孔所屬項目信息和鉆孔信息從完整性、規(guī)范性、準確性、一致性、唯一性等幾方面作具體檢查。
完整性主要檢查保管單位信息中的行政區(qū)劃代碼、組織機構(gòu)代碼、保管單位名稱、最高地勘資質(zhì)等級、所屬行業(yè)部門、通訊地址、郵政編碼、聯(lián)系人姓名、聯(lián)系電話等,項目信息中的組織機構(gòu)代碼/保管單位名稱、項目名稱、資料名稱、成果資料檔號、項目結(jié)束時間、密級等和鉆孔信息中的原始資料檔號、鉆孔編號、鉆孔類型、坐標系、孔口高程、終孔深度、終孔日期、施工單位、測井報告、原始地質(zhì)記錄表、鉆孔巖心等必填數(shù)據(jù)項是否為空;工程布置圖、勘探線剖面圖、鉆孔柱狀圖(以下簡稱三圖)和樣品分析結(jié)果表(以下簡稱一表)入庫文件數(shù)與設(shè)定數(shù)是否一致,圖表文件有無缺失;分幅掃描的三圖是否完整及能否正確銜接,樣品分析結(jié)果表有無缺頁、備注是否齊全。其中,備注完整性的檢查主要涉及以下內(nèi)容:①缺失真實坐標的鉆孔,建庫人員通過礦區(qū)平面地形地質(zhì)圖獲取鉆孔坐標或者將公開網(wǎng)絡(luò)查找的礦區(qū)中心點坐標賦予此項目下的所有鉆孔坐標的;②老舊資料,經(jīng)查找確無原始資料檔號和省館資料檔號,用成果資料檔號代替的;③歷史老舊資料,按要求掃描后達不到質(zhì)量檢查的清晰度要求的;④對于部分歷史資料,經(jīng)查實省館及地勘單位確實沒有“三圖一表”相關(guān)圖件資料的,是否在備注中對具體情況進行相關(guān)說明。
規(guī)范性檢查主要包括保管單位組織機構(gòu)代碼填寫是否規(guī)范;項目的工作程度、比例尺、主要礦種等的填寫是否規(guī)范,工程布置圖、勘探線剖面圖和樣品分析結(jié)果表的文件格式、掃描分辨率是否符合《全國重要地質(zhì)鉆孔數(shù)據(jù)庫建設(shè)工作技術(shù)要求》,資料密級的確定是否符合定密規(guī)范、柵格文件能否達到傾斜度小于1%或者圖件與原件的對角線誤差和邊長誤差小于±0.1%的圖像整飾要求等。
準確性主要檢查行政區(qū)劃代碼填寫是否正確,組織機構(gòu)代碼填寫是否正確,入庫圖表是否正確,鉆孔坐標是否正確,坐標系與孔口坐標XY是否匹配等。
一致性檢查主要包括保管單位組織結(jié)構(gòu)代碼與保管單位名稱是否一致,孔口坐標和高程、孔深與鉆孔柱狀圖中的信息是否一致,高程、坐標等非來源于柱狀圖或與柱狀圖不符的是否對數(shù)據(jù)來源進行備注。
唯一性主要檢查數(shù)據(jù)庫中是否存在重復(fù)保管單位、項目及鉆孔記錄。
值得提出的是,在數(shù)據(jù)庫建設(shè)過程中,由于建庫人員知識背景限制,存在將工程布置圖外其他圖件錄入工程布置圖的情況。因此,圖表正確性的檢查不僅要檢查入庫的圖表是否屬于本項目/鉆孔的資料,還要檢查實際入庫的圖表是否為本數(shù)據(jù)項要求的圖表。
根據(jù)檢查內(nèi)容的不同,全國重要地質(zhì)鉆孔數(shù)據(jù)庫數(shù)據(jù)質(zhì)量檢查方式主要包括計算機軟件自動檢查、人工判斷檢查和人機交互的計算機輔助檢查三類。
全國重要地質(zhì)鉆孔數(shù)據(jù)庫數(shù)據(jù)主要借助地質(zhì)鉆孔數(shù)據(jù)采集系統(tǒng)(以下簡稱采集系統(tǒng))采集入庫。采集系統(tǒng)對數(shù)據(jù)項是否必填、數(shù)據(jù)條目的格式及長度等設(shè)置了相應(yīng)的校驗規(guī)則,在數(shù)據(jù)采集入庫時可以實時對必填項的完整性以及組織機構(gòu)代碼、工作程度、比例尺、主要礦種等規(guī)范性進行檢查。如填寫內(nèi)容與該校驗規(guī)則不符,系統(tǒng)會出現(xiàn)報錯提示。根據(jù)報錯提示,建庫人員對出錯項及時修改完善,從而在建庫最初環(huán)節(jié)對數(shù)據(jù)質(zhì)量進行把關(guān)。同時,采集系統(tǒng)還對保管單位和項目分別設(shè)置了數(shù)據(jù)濾重處理邏輯,在數(shù)據(jù)匯總合并時進行濾重檢查,避免了因多個建庫人員錄入數(shù)據(jù)造成的數(shù)據(jù)重復(fù)。
人工檢查是數(shù)據(jù)檢查人員利用自身的專業(yè)知識、工作經(jīng)驗或參閱相關(guān)文件、規(guī)范要求,對入庫各類數(shù)據(jù)對照數(shù)據(jù)采集所用的原始資料進行核對,從而對數(shù)據(jù)質(zhì)量進行全面檢查。
數(shù)據(jù)檢查人員通過檢查從代表保管單位、項目和鉆孔的文件夾數(shù)分別與實際入庫記錄條數(shù)的對應(yīng)性,可以對數(shù)據(jù)的完整性在整體上進行把握。通過查閱《中華人民共和國行政區(qū)劃代碼》《中央黨政機關(guān)人民團體及其他機構(gòu)名稱代碼》可以判斷行政區(qū)劃代碼填寫是否正確,組織結(jié)構(gòu)代碼與保管單位名稱是否對應(yīng)。對照《全國重要地質(zhì)鉆孔數(shù)據(jù)庫建設(shè)工作技術(shù)要求》,判斷“三圖一表”格式、圖像整飾是否符合規(guī)范。
數(shù)據(jù)檢查人員通過仔細讀取圖件信息,可以檢查鉆孔坐標、終孔深度、高程與柱狀圖上的信息是否一致;對照入庫圖表名稱與項目名稱致,柱狀圖上鉆孔編號與入庫鉆孔編號是否一致性,可以判斷入庫圖件是否正確;對分幅掃描的圖件相鄰圖件邊緣的線條、色彩、地質(zhì)要素能否完全銜接以及柱狀圖上的層號、鉆孔回次是否連續(xù),判斷入庫圖件有無缺失。
我國的經(jīng)度范圍西起73°東至135°,可分成6度帶11個(13~23號帶),3度帶22個(24~45號帶),檢查人員通過檢查坐標系與坐標中的帶號是否對應(yīng),可以判斷坐標系或地理坐標填寫是否正確。
人機交互檢查是質(zhì)量檢查人員在借助采集系統(tǒng)、Excel和Access軟件、Mapgis軟件,以及計算機操作系統(tǒng)某些自帶功能等對數(shù)據(jù)進行一定處理后,再通過人工檢查對數(shù)據(jù)質(zhì)量做出判斷的過程。主要檢查圖件的掃描質(zhì)量,鉆孔記錄的唯一性,鉆孔坐標的正確性等。
通過操作系統(tǒng)搜索篩選功能,查找出備查數(shù)據(jù)中的所有圖件,并對其進行按“水平分辨率”升序排列。對于分辨率低于300dpi的圖件采用人工檢查方式,判斷原圖和掃描圖在1∶1情況下,各類線條是否連續(xù),圖面中的小數(shù)點是否清晰。
鉆孔編號、孔口坐標、高程和終孔深度對于鉆孔來說是非常重要的信息。對重復(fù)鉆孔的排查首先是將Access數(shù)據(jù)庫的鉆孔信息導出為.xlsx格式,然后通過Excel軟件“條件格式”功能,對“孔口坐標X”列設(shè)置“僅對唯一值或重復(fù)值設(shè)置格式”規(guī)則后,對所有記錄進行重新排序,找出坐標相同的鉆孔,結(jié)合原始資料檔號、孔口高程和終孔深度等重要字段以及鉆孔柱狀圖等信息,判斷坐標相同的鉆孔是否為重復(fù)記錄。
利用上述方法對河北省2013年重要地質(zhì)鉆孔數(shù)據(jù)進行檢查,發(fā)現(xiàn)存在鉆孔編號、孔口坐標和高程相同的兩個鉆孔,但其終孔深度不同,在進一步對照柱狀圖后,確定兩個鉆孔不是重復(fù)鉆孔,且其中一個鉆孔編號填寫錯誤。
鉆孔坐標正確性檢查可以通過采集系統(tǒng)篩選出某一項目的鉆孔,檢查該項目所有鉆孔的坐標否在相近范圍,對鉆孔坐標的正確性進行初步判斷。但最有效的方法是按鉆孔坐標分屬的不同投影帶分別投影成鉆孔點位圖,將點位圖與對應(yīng)坐標系的地理底圖套合,詳細檢查鉆孔是否沿道路、沿河、岸帶等地貌地物分布(沿道路、沿河、岸帶施工的鉆孔)),是否按勘探線或勘探網(wǎng)度規(guī)則排列(礦產(chǎn)勘查鉆孔)以及對照紙質(zhì)工程布置圖),判斷有無離群鉆孔點等來判斷鉆孔位置是否合理、正確。
全國重要地質(zhì)鉆孔數(shù)據(jù)庫建設(shè)是一項十分復(fù)雜的工作,具有信息量大、建庫人員眾多、投入高等特點。數(shù)據(jù)的質(zhì)量控制是數(shù)據(jù)庫建設(shè)中極其關(guān)鍵的環(huán)節(jié),明確數(shù)據(jù)質(zhì)量要求和鉆孔數(shù)據(jù)質(zhì)量檢查內(nèi)容,制定詳細的質(zhì)量檢查操作細則是保證入庫數(shù)據(jù)客觀真實、完整可靠的有力措施。只有建立高質(zhì)量的數(shù)據(jù)庫,才能確保全國重要地質(zhì)鉆孔數(shù)據(jù)庫數(shù)據(jù)的正確性和規(guī)范性,并最終更好地為鉆孔資料社會化服務(wù)利用提供數(shù)據(jù)支撐保障。
[1] 張華義,劉新,羅濤.數(shù)字油田建設(shè)中的數(shù)據(jù)質(zhì)量控制方法研究[J].天然氣勘探與開發(fā),2015,38(1):88-93.