王曉迪 馬 偉 陳春希 閆慶慶 董 帥
(國家測繪產(chǎn)品質(zhì)量檢驗(yàn)測試中心, 北京 100830)
元數(shù)據(jù)(Metadata),即數(shù)據(jù)的數(shù)據(jù),是關(guān)于數(shù)據(jù)和信息資源的描述性信息。測繪地理信息元數(shù)據(jù)是關(guān)于地理空間相關(guān)數(shù)據(jù)和信息資源的描述性信息[1]。它不僅是對數(shù)據(jù)簡單的描述或索引,更關(guān)系到數(shù)據(jù)成果的最終應(yīng)用。生產(chǎn)者通過其記錄測繪地理信息數(shù)據(jù)說明;使用者利用其了解測繪地理信息數(shù)據(jù)的基本特征;管理者通過其可以對測繪地理信息數(shù)據(jù)進(jìn)行有效的管理和利用;檢查者通過其了解生產(chǎn)過程,并將其與相應(yīng)成果數(shù)據(jù)對照檢查。測繪地理信息元數(shù)據(jù)的質(zhì)量關(guān)乎數(shù)字地理信息成果的應(yīng)用及共享。其生產(chǎn)正確、應(yīng)用正確,是相應(yīng)數(shù)據(jù)成果的質(zhì)量保障。因此,對測繪地理信息元數(shù)據(jù)的檢查至關(guān)重要。
本文結(jié)合測繪地理信息元數(shù)據(jù)的內(nèi)容與特點(diǎn)及檢查要求對其內(nèi)容分類。分析檢查內(nèi)容與方法,針對每類元數(shù)據(jù)提出相應(yīng)的自動化檢查方案,為高效、準(zhǔn)確地完成測繪地理信息元數(shù)據(jù)質(zhì)量檢查提供參考。
測繪地理信息元數(shù)據(jù)主要包含以下內(nèi)容:
(1)記錄相應(yīng)數(shù)據(jù)成果的名稱。項(xiàng)目名稱、產(chǎn)品生產(chǎn)單位名稱、參考資料名稱等。
(2)描述相應(yīng)數(shù)據(jù)成果的屬性。比例尺、數(shù)據(jù)格式、影像分辨率等。
(3)固定相應(yīng)數(shù)據(jù)成果的位置。經(jīng)緯度坐標(biāo)范圍、圖廓角點(diǎn)坐標(biāo)、中央子午線等。
(4)關(guān)聯(lián)相應(yīng)數(shù)據(jù)成果的精度。高程中誤差、平面位置中誤差等。
(5)標(biāo)示相應(yīng)數(shù)據(jù)成果的進(jìn)程。質(zhì)量檢查情況、外業(yè)調(diào)繪核查情況、完成日期等。
測繪地理信息元數(shù)據(jù)主要有以下特點(diǎn):
(1)內(nèi)容不完全固定。具有一定的規(guī)律性[2],但其內(nèi)容廣泛,隨相應(yīng)成果數(shù)據(jù)變化而變化,因此,并非所有內(nèi)容都是固定的。其在不同測區(qū)的中央子午線、參考資料名稱等內(nèi)容不盡相同。
(2)貫穿全流程。生產(chǎn)貫穿其相應(yīng)成果數(shù)據(jù)生產(chǎn)全流程[3],全面反映其相應(yīng)數(shù)據(jù)歷程及狀況。
(3)生產(chǎn)方式人機(jī)結(jié)合。有規(guī)律、重復(fù)的內(nèi)容可通過軟件自動化生產(chǎn)。存在變量的內(nèi)容需要人工輸入[4],如圖名、成果數(shù)據(jù)量、平面位置中誤差及高程中誤差等。
根據(jù)《基礎(chǔ)地理信息數(shù)字產(chǎn)品元數(shù)據(jù):CH/T 1007—2001》[5]以及項(xiàng)目技術(shù)設(shè)計(jì)要求,按《數(shù)字測繪成果質(zhì)量檢查與驗(yàn)收:GB/T 18316—2008》[6]中規(guī)定內(nèi)容,檢查元數(shù)據(jù)項(xiàng)及元數(shù)據(jù)各項(xiàng)內(nèi)容錯漏。檢查內(nèi)容如表1所示。
表1 元數(shù)據(jù)檢查內(nèi)容
測繪地理信息元數(shù)據(jù)生產(chǎn)人工輸入易出錯,同理,利用人工檢查的方式也弊端凸顯,效率低下且易產(chǎn)生人為誤差。
依靠軟件全過程自動化檢查難以實(shí)現(xiàn),主要原因有以下兩點(diǎn):
(1)測繪地理信息元數(shù)據(jù)的形式與內(nèi)容具有多樣性,常規(guī)的基礎(chǔ)地理信息數(shù)字產(chǎn)品(4D產(chǎn)品)元數(shù)據(jù)內(nèi)容可參考《基礎(chǔ)地理信息數(shù)字產(chǎn)品元數(shù)據(jù):CH/T 1007—2001》標(biāo)準(zhǔn),但是難以滿足不斷涌現(xiàn)的新型數(shù)字測繪成果元數(shù)據(jù)的需求。
(2)不同項(xiàng)目的需求不同,對測繪地理信息元數(shù)據(jù)也有不同的數(shù)據(jù)規(guī)定,根據(jù)自身項(xiàng)目的特點(diǎn)擴(kuò)展規(guī)則復(fù)雜。如地理國情監(jiān)測元數(shù)據(jù)層中若只包含對地表覆蓋分類數(shù)據(jù)內(nèi)業(yè)采集情況的說明,不包括其他內(nèi)容,則擴(kuò)展元數(shù)據(jù)層名稱為V_MIDCA_A。
測繪地理信息元數(shù)據(jù)包含多方面內(nèi)容,生產(chǎn)方式多樣[7],因此單一的、通用的檢查方法難以滿足檢查者的需要,應(yīng)以不同的方法分類應(yīng)對。這就需要對測繪地理信息元數(shù)據(jù)內(nèi)容進(jìn)行分類,而相關(guān)標(biāo)準(zhǔn)CH/T 1007—2001及《地理信息 元數(shù)據(jù):GB/T 19710—2005》[8]中未對其分類進(jìn)行明確規(guī)定。相關(guān)內(nèi)容中,GB/T 19710—2005對元數(shù)據(jù)的分級側(cè)重于從使用者的角度需要了解元數(shù)據(jù)的詳細(xì)程度[9];CH/T 1007—2001從生產(chǎn)者的角度對數(shù)字柵格地圖、數(shù)字正射影像圖、數(shù)字高程模型和數(shù)字線劃圖四種成果對應(yīng)的測繪地理信息元數(shù)據(jù)的內(nèi)容和格式進(jìn)行了詳細(xì)要求,未對這四類元數(shù)據(jù)各自的內(nèi)容進(jìn)行分類。
結(jié)合測繪地理信息元數(shù)據(jù)內(nèi)容及相關(guān)標(biāo)準(zhǔn),按近年來國家重大測繪地理信息項(xiàng)目對測繪地理信息元數(shù)據(jù)的質(zhì)量要求,依據(jù)其檢查方法,可分為以下四種情況:部分項(xiàng)中相同的、具有一定規(guī)律性的內(nèi)容可與項(xiàng)目設(shè)計(jì)要求的固定填寫內(nèi)容對照;坐標(biāo)值、中央子午線等內(nèi)容需按公式計(jì)算后與被檢元數(shù)據(jù)項(xiàng)比對;誤差、精度等值要通過關(guān)聯(lián)誤差統(tǒng)計(jì)表來查看;質(zhì)量問題描述內(nèi)容依據(jù)實(shí)際檢查情況整理形成。因此,從檢查者的角度可將測繪地理信息元數(shù)據(jù)內(nèi)容分為四類:
(1)固定類[10]。具有相同參數(shù)即相同內(nèi)容的元數(shù)據(jù)項(xiàng),如比例尺、產(chǎn)品生產(chǎn)單位名稱、數(shù)據(jù)格式、項(xiàng)目名稱等。實(shí)例如:基礎(chǔ)性地理國情監(jiān)測元數(shù)據(jù)中V_MBIIA層(數(shù)據(jù)生產(chǎn)單位)。
(2)計(jì)算類。利用對應(yīng)的圖號、圖幅等信息進(jìn)行計(jì)算得到的元數(shù)據(jù)項(xiàng),如根據(jù)標(biāo)準(zhǔn)分幅圖號,可以計(jì)算得到對應(yīng)的經(jīng)緯度坐標(biāo)、圖廓角點(diǎn)坐標(biāo)、中央子午線等[11];依據(jù)數(shù)據(jù)計(jì)算得到的分辨率等。實(shí)例如:基礎(chǔ)性地理國情監(jiān)測元數(shù)據(jù)中V_MDOPA層(平面位置中誤差、高程中誤差)。
(3)關(guān)聯(lián)類。從已存在的元數(shù)據(jù)項(xiàng)或其相應(yīng)成果數(shù)據(jù)中讀取并錄入有關(guān)的元數(shù)據(jù)項(xiàng)。如數(shù)據(jù)精度、生產(chǎn)日期、平面位置中誤差等。
計(jì)算類與關(guān)聯(lián)類相同之處是每個圖號、景號等信息對應(yīng)唯一的計(jì)算類和關(guān)聯(lián)類元數(shù)據(jù)項(xiàng),不同之處是計(jì)算類可以由其他元數(shù)據(jù)項(xiàng)(如標(biāo)準(zhǔn)分幅圖號)進(jìn)行計(jì)算而得到,關(guān)聯(lián)類必須借助生產(chǎn)過程中其他的記錄文件而獲取。
(4)描述類。前三類測繪地理信息元數(shù)據(jù)項(xiàng)填寫的內(nèi)容值是相對確定的,可以通過程序進(jìn)行計(jì)算或讀取相關(guān)記錄文件而得到。而描述類元數(shù)據(jù)項(xiàng)主要是根據(jù)元數(shù)據(jù)項(xiàng)定義的要求,對數(shù)據(jù)變量表達(dá)的內(nèi)容用簡潔明確的語言進(jìn)行描述。實(shí)例如:基礎(chǔ)性地理國情監(jiān)測項(xiàng)目中,元數(shù)據(jù)成果中V_MFSVL層(外業(yè)調(diào)繪核查情況)中“問題及處理意見”一項(xiàng),對外業(yè)調(diào)繪核查中遇到的問題及處理的意見進(jìn)行描述,不同的問題及處理意見對應(yīng)不同的描述。
檢查模板,是在元數(shù)據(jù)內(nèi)容分類的基礎(chǔ)上,依據(jù)不同項(xiàng)目設(shè)計(jì)要求進(jìn)行元數(shù)據(jù)項(xiàng)的擴(kuò)展及字段定義不同的約束條件形成的對元數(shù)據(jù)內(nèi)容要求的集合(圖1)。具體包括,元數(shù)據(jù)項(xiàng)及元數(shù)據(jù)內(nèi)容、類型、計(jì)算公式、枚舉值、閾值、邏輯關(guān)系等。通過以檢查模板為驅(qū)動的檢查,實(shí)現(xiàn)元數(shù)據(jù)完整性、正確性以及邏輯性的檢查[12]。
圖1 基于四類檢查模板的自動化檢查方法
(1)對于固定類的測繪地理信息元數(shù)據(jù)項(xiàng),在檢查模板中輸入正確的固定類元數(shù)據(jù)項(xiàng)內(nèi)容,讀取被檢查的元數(shù)據(jù)與元數(shù)據(jù)檢查模板中的內(nèi)容進(jìn)行一致性的比對檢查,內(nèi)容一致為正確,反之為錯誤。
(2)對于計(jì)算類的測繪地理信息元數(shù)據(jù)項(xiàng),在對應(yīng)的檢查模板中需讀取其他相關(guān)元數(shù)據(jù)項(xiàng),如標(biāo)準(zhǔn)圖號等,計(jì)算得到此類元數(shù)據(jù)項(xiàng)的正確值,與被檢查的元數(shù)據(jù)值進(jìn)行比對檢查。
(3)關(guān)聯(lián)類的測繪地理信息元數(shù)據(jù)項(xiàng)在檢查過程中無法讀取生產(chǎn)過程中的記錄文檔來進(jìn)行檢查,因此,制定檢查模板項(xiàng)時,可采用設(shè)置閾值或邏輯判斷的方法。閾值檢查法適用于元數(shù)據(jù)項(xiàng)存在限值的情況,邏輯判斷法是利用元數(shù)據(jù)項(xiàng)之間的邏輯關(guān)系來進(jìn)行判讀。
閾值檢查法通過內(nèi)設(shè)閾值,與被檢查的元數(shù)據(jù)項(xiàng)進(jìn)行比對,在其閾值范圍內(nèi)為正確,反之為錯誤。如DEM元數(shù)據(jù)中“高程中誤差”項(xiàng),若比例尺為1∶2 000,且為山地,根據(jù)標(biāo)準(zhǔn)《基礎(chǔ)地理信息數(shù)字成果 1∶500 1∶1 000 1∶2 000 數(shù)字高程模型:CH/T 9008.2—2010》中規(guī)定,高程中誤差小于1.50即為合格成果,因此在制定此項(xiàng)檢查模板時,需要結(jié)合 “比例尺”項(xiàng)內(nèi)容(元數(shù)據(jù)中無地形類別項(xiàng)),設(shè)定限值2.0為閾值(在無法判讀地形類別情況下,按照1∶2 000比例尺DEM最大高程中誤差限值設(shè)定),與被檢查項(xiàng)進(jìn)行比較,填入的地理信息元數(shù)據(jù)項(xiàng)大于0且小于2.0為正確,反之為錯誤。
邏輯判斷法是利用多個地理信息元數(shù)據(jù)項(xiàng)之間的邏輯關(guān)系檢查。如某項(xiàng)目中, “二級檢查完成日期”,需用“一級檢查完成日期”與“驗(yàn)收日期”元數(shù)據(jù)項(xiàng)所填寫的日期之間的邏輯關(guān)系判斷。二級檢查完成日期必定在一級檢查完成日期與驗(yàn)收日期之間,如果填寫的日期在這個范圍內(nèi)為正確,反之為錯誤。
(4)描述類測繪地理信息元數(shù)據(jù)項(xiàng)存在不確定性,沒有統(tǒng)一的標(biāo)準(zhǔn)或參考,難以通過上述方法完成檢查。需設(shè)置必要關(guān)鍵字,利用模糊查找的方法與必要關(guān)鍵字進(jìn)行比較,排除部分內(nèi)容后再使用人機(jī)交互的方法進(jìn)一步檢查。如基礎(chǔ)性地理國情監(jiān)測元數(shù)據(jù)成果中V_MFSVL層(外業(yè)調(diào)繪核查情況)中“問題及處理意見”一項(xiàng),可設(shè)置“已處理”“已修改”等必要關(guān)鍵詞,與被檢查元數(shù)據(jù)項(xiàng)進(jìn)行模糊查找,排除無必要關(guān)鍵詞的元數(shù)據(jù),將篩選出的疑似正確項(xiàng)結(jié)合人工檢查進(jìn)一步判定其是否正確。
以各類元數(shù)據(jù)項(xiàng)對應(yīng)得檢查模板為基礎(chǔ)的自動化檢查流程,包括模板制作、元數(shù)據(jù)讀寫、元數(shù)據(jù)檢查、結(jié)果展示四個部分。
(1)模板制作。檢查模板以相關(guān)標(biāo)準(zhǔn)為基礎(chǔ),兼容如TXT、Excel、Access、MAT等格式。根據(jù)不同項(xiàng)目、不同成果類型,按照項(xiàng)目要求進(jìn)行個性化的調(diào)整編輯、配置參數(shù),實(shí)現(xiàn)模板屬性項(xiàng)結(jié)構(gòu)定義的增加、修改、刪除及相關(guān)項(xiàng)的計(jì)算、設(shè)置閾值、關(guān)聯(lián)等功能[13]。
(2)元數(shù)據(jù)讀寫。設(shè)置元數(shù)據(jù)讀寫端口,打開被檢元數(shù)據(jù),加載制定好的對應(yīng)的模板。
(3)元數(shù)據(jù)檢查。按表1設(shè)置檢查項(xiàng),分為自動檢查項(xiàng)和交互檢查項(xiàng)。自動檢查項(xiàng)主要涉及元數(shù)據(jù)組織、可讀性、格式、命名、存儲、坐標(biāo)系統(tǒng)和部分元數(shù)據(jù)內(nèi)容檢查。交互檢查項(xiàng)主要涉及元數(shù)據(jù)內(nèi)容檢查,主觀性高于自動檢查項(xiàng)[14]。被檢元數(shù)據(jù)匹配模板對應(yīng)檢查項(xiàng)執(zhí)行檢查步驟。
(4)結(jié)果展示。實(shí)現(xiàn)對結(jié)果的瀏覽、空間分析[15]、排查操作,包括放大、縮小、屬性選擇、定位問題出處等功能,以便核查。
檢查流程如圖2所示。
圖2 檢查流程
地理國情項(xiàng)目,成果中含有元數(shù)據(jù)成果,為必查項(xiàng)。對元數(shù)據(jù)成果進(jìn)行檢查,采用自動化檢查及人機(jī)交互的方式,對元數(shù)據(jù)項(xiàng)錯漏及元數(shù)據(jù)項(xiàng)內(nèi)容錯漏進(jìn)行檢查,分析其組織、命名、個數(shù)、順序是否正確。
(1)元數(shù)據(jù)中有多種參考資料的,填寫時未用“/”隔開。屬于固定類測繪地理信息元數(shù)據(jù)項(xiàng)錯誤,模板中按技術(shù)規(guī)定要求設(shè)置填寫格式,自動化檢查后顯示在檢查結(jié)果界面,無須進(jìn)一步排查。
(2)元數(shù)據(jù)缺少圖層MDOP。屬于固定類測繪地理信息元數(shù)據(jù)項(xiàng)錯誤,模板中按技術(shù)規(guī)定要求設(shè)置層名,自動化檢查后顯示在檢查結(jié)果界面,無須進(jìn)一步排查。
測繪地理信息元數(shù)據(jù)是測繪地理信息數(shù)字產(chǎn)品中的一項(xiàng)重要成果,它全面反映了其相應(yīng)成果數(shù)據(jù)生產(chǎn)過程、數(shù)據(jù)狀況等信息。本文對測繪地理信息元數(shù)據(jù)項(xiàng)進(jìn)行分析,總結(jié)出固定類、計(jì)算類、關(guān)聯(lián)類、描述類這四類元數(shù)據(jù)項(xiàng),并結(jié)合上述四類元數(shù)據(jù)項(xiàng)的特點(diǎn),制定自動化檢查的方案,實(shí)踐證明本方案可行且通用,可有效提升各類元數(shù)據(jù)質(zhì)檢效率和成果質(zhì)量。為取得更好的質(zhì)量控制效果,自動化檢查方案還需不斷優(yōu)化、擴(kuò)展,例如:①加入質(zhì)量評價流程,對在結(jié)果展示流程核查后確保無異議的檢查結(jié)果進(jìn)行統(tǒng)計(jì)分析,輸出檢查記錄表及評分表;②在完成質(zhì)量評價流程后實(shí)現(xiàn)元數(shù)據(jù)內(nèi)容和結(jié)構(gòu)的自動修復(fù)。在今后的質(zhì)檢工作中,還需繼續(xù)深入研究,形成完整的元數(shù)據(jù)自動化檢查評估體系。