安天浩,張會瓊,孫紫堅,熊靚輝,薛陳利
(北京礦產(chǎn)地質研究院有限責任公司,北京 100012)
近年來,伴隨著信息科技的快速發(fā)展,信息技術對各行業(yè)產(chǎn)生了深遠影響?!笆濉本V要提出實施國家大數(shù)據(jù)戰(zhàn)略(趙林林等,2019),有色金屬地質工作也逐步進入數(shù)據(jù)密集型時代。在有色地質工作中,項目人員采集到的大量電子化數(shù)據(jù)需要安全存儲,數(shù)據(jù)的共享、分析、挖掘需要便捷高效的資料借閱體系支撐。因此,以紙介質為主,光盤為輔的存儲模式,以紙質目錄、簡單的電子表格作為借閱索引的傳統(tǒng)資料借閱管理模式,已經(jīng)成為了橫亙在有色地質工作者之間的“數(shù)據(jù)壁壘”(李豐丹等,2019)。北京礦產(chǎn)地質研究院有限責任公司以建設“地質云·北京有色”節(jié)點為契機,對館藏的有色地質資料開展了數(shù)字化工作,優(yōu)選其中典型、特色、代表性的資料通過“地質云·北京有色節(jié)點”向社會發(fā)布共享;在單位內部設計部署了有色地質資料借閱系統(tǒng),顯著提高了有色地質資料利用率。
在開展數(shù)字化工作前需對現(xiàn)有的資料進行全盤梳理,收集并研究有色地質資料數(shù)字化、標準化的相關標準。對資料進行分類、查重,梳理資料的工作手段、工作區(qū)位置與形成時間等要素。挑選其中具有較高價值的有色地質資料作為數(shù)字化加工對象,并根據(jù)資料的內容、涉密級別劃定其共享方式。
加工環(huán)境的部署包含加工設備的選擇、加工所需場地及網(wǎng)絡環(huán)境與安防系統(tǒng)的部署、數(shù)字化加工流程的制定。明確的數(shù)字化加工流程是保障數(shù)字化生產(chǎn)效率、質量的重要基礎,其內容是對場地內的不同工作區(qū)域進行劃分,對各環(huán)節(jié)的加工標準進行明確。各環(huán)節(jié)分區(qū)作業(yè)可避免實體資料交叉,同時可提升加工的總效率。
數(shù)字化加工設備主要有高速掃描儀、平板式掃描儀、大幅面掃描儀、切紙機、膠裝機、工作站等。高速掃描儀用于加工便于拆除裝訂的資料,平板掃描儀處理不宜拆除裝訂的資料。掃描設備最高分辨率不低于300 dpi。加工場所內建立局域網(wǎng),使用千兆交換機和六類或更高級別網(wǎng)線,接入全部掃描設備及工作站與磁盤陣列。通過局域網(wǎng)保障數(shù)字化文件在加工流轉中的傳輸效率,利用磁盤陣列備份加工的過程性文件。
完成加工環(huán)境部署,建立加工流程后,即可開展數(shù)字化加工。數(shù)字化加工分為領取資料、數(shù)字化前處理、資料掃描、圖像處理、質量檢查、資料復原、設備維護等7個環(huán)節(jié),各環(huán)節(jié)內包含的工作如圖1所示。
圖1 有色地質資料數(shù)字化流程
檔案實體資料領取需根據(jù)資料形成時間與資料實體的特點,分批次進行。同時對照紙質檔案實體,對每個批次領取的每一檔資料登記成表。
數(shù)字化前處理需要對褶皺、破損的資料進行修復、除塵并根據(jù)情況拆除裝訂。
資料掃描過程中,可拆除裝訂的紙質資料使用切紙機進行剪切,而后利用高速掃描儀進行加工,不可拆除裝訂的紙質資料使用平板式掃描儀進行加工。圖件類的紙質資料使用大幅面掃描儀加工,對超出所使用掃描儀掃描尺寸的圖件可采用更大幅面掃描儀進行掃描,如硬件條件有限,也可以采用小幅面掃描儀分幅掃描后進行圖像拼接的方式進行處理。分幅掃描時,相鄰圖像之間應留有足夠的重疊,并且采用標板等方式明確說明分幅方法;若后期采用軟件自動拼接的方式,重疊尺寸建議不小于單幅圖像對應原件尺寸的1/3。對于極其珍貴且尺寸不規(guī)則的檔案,為方便直觀顯示原件大小,可采用標板、標尺等方式標識原件大小等信息。為最大限度保留資料原件信息,便于多種方式的利用,宜全部采用彩色模式進行掃描,建議掃描分辨率不小于300 dpi,保存格式推薦為為TIFF、JPEG或JPEG2000等通用格式(黃少芳和劉曉鴻,2016)。
圖像處理環(huán)節(jié)需要對生產(chǎn)出的圖像文件進行圖像拼接、旋轉及糾偏、裁邊、去污等精細處理,力求保持檔案原貌,不建議用軟件糾偏或自動裁剪功能處理檔案原有頁面。
完成處理后需進行質量檢查,圖像質檢必須逐頁翻看檢查圖像,檢查圖像反映的文件數(shù)量、頁數(shù)是否與其目錄一致,圖像是否還原檔案原貌、文字清晰,每頁圖像的頁碼是否存在,有無漏失、多頁、不清晰、變形、偏斜、失真、頁碼錯誤等情況。根據(jù)檢查結果進行修改完善,對成品進行備份,并同步開展文件級目錄的制作。
地質資料的目錄是開展有色地質資料管理工作的基礎,是對地質資料數(shù)據(jù)描述、組織和管理的著力點(高學正等,2019),傳統(tǒng)的以案卷級目錄對地質資料進行管理的方式,已經(jīng)不能適應目前的信息化、碎片化管理需求(江云華,2019)。因此在加工的過程中,需按標準為每檔資料制作文件級目錄。在文件級目錄中,文件題名是建立電子檔案檢索系統(tǒng)、實現(xiàn)檔案信息計算機檢索目標的基本要素(田園等,2019),因此需要形成文件級目錄標準,對“題名”等字段的內容與表述結構進行規(guī)范,按統(tǒng)一標準制作文件級目錄,并完成自檢、互檢、抽檢,保證文件級目錄的質量。
元數(shù)據(jù)是有色地質資料管理工作的核心,也是提供數(shù)字化服務的根本,因此在開展元數(shù)據(jù)著錄工作前,需制定元數(shù)據(jù)標準。元數(shù)據(jù)著錄的本質是資料碎片化的過程,重點是設計元數(shù)據(jù)的字段。字段數(shù)量不宜繁冗,但需涵蓋研究對象要素、資料來源、時空位置等多角度要素,同時對各類有色地質資料具有普遍適用性。有色地質資料元數(shù)據(jù)設計為54個字段,見表1。
表1 有色地質資料元數(shù)據(jù)字段
內容相對單一的字段需規(guī)范元數(shù)據(jù)內容,如“行政區(qū)”、“礦種”等內容固定的字段,應設計字典值;對于“時間”、“坐標”等內容范圍較大的字段,應規(guī)定填寫格式;對于“內容提要”等無法確定內容范圍的字段需要規(guī)定描述的模式,例如普查、詳查、勘探類報告資料,可規(guī)定描述模式,如先描述礦床位置、大地構造,再描述主要工作量,最后描述結論與建議等。
在元數(shù)據(jù)著錄過程中,應同步設置自檢、互檢、抽檢等環(huán)節(jié),確保元數(shù)據(jù)內容準確,另外需根據(jù)提取的進度,合理安排元數(shù)據(jù)的備份。
有色地質資料管理系統(tǒng)是高效利用元數(shù)據(jù)的工具,系統(tǒng)設計的優(yōu)劣決定了資料檢索結果的準確性與全面性。因此,開展系統(tǒng)的設計工作需要明確系統(tǒng)的核心功能需求(圖2):
圖2 系統(tǒng)架構設計
①儲存管理非結構化數(shù)據(jù)及其元數(shù)據(jù)。包括數(shù)據(jù)的上傳、刪除、調用以及元數(shù)據(jù)的增、刪、改、查等。
②實現(xiàn)數(shù)據(jù)的借閱申請、審批、下載與權限管理等功能。同時,系統(tǒng)的設計需遵循國家及行業(yè)相關標準,以實用、標準、安全和可擴展為原則的前提下進行,同時為與“地質云”資源管理系統(tǒng)對接預留接口(汪艷梅,2020)。
系統(tǒng)的基礎設施即服務層包括網(wǎng)絡設備、服務器等硬件設施以及虛擬化平臺和虛擬化操作系統(tǒng)等軟件環(huán)境,提供有色地質資料管理系統(tǒng)運行的硬件、網(wǎng)絡基礎。系統(tǒng)部署在Win2008 Server R2環(huán)境的服務器內,借閱者和管理者可在局域網(wǎng)內直接訪問服務器的IIS服務,也可通過網(wǎng)關設備遠程撥號進入局域網(wǎng)使用系統(tǒng)(譚永杰,2016)。
數(shù)據(jù)即服務層包含數(shù)據(jù)庫管理系統(tǒng)SQL Server,實體數(shù)據(jù)分為結構化數(shù)據(jù)與非結構化數(shù)據(jù)。結構化數(shù)據(jù)含有兩部分內容:在數(shù)字化加工環(huán)節(jié)提取出的全體數(shù)據(jù)的元數(shù)據(jù)(繆謹勵等,2020)與有色地質資料中以數(shù)據(jù)庫形式存儲的數(shù)據(jù)(任曉霞等,2019)。非結構化數(shù)據(jù)包含數(shù)字化加工環(huán)節(jié)生產(chǎn)出的文檔、圖件等。
應用即服務層包含兩個功能模塊:有色地質數(shù)據(jù)管理模塊、有色地質資料借閱模塊。兩個模塊統(tǒng)一認證登陸。管理模塊中包含數(shù)據(jù)管理、用戶管理、權限管理、借閱審批等四方面的主要功能。數(shù)據(jù)管理功能包括對結構化與非結構化數(shù)據(jù)的增、刪、改、查。用戶管理功能包括對借閱用戶的增加、刪除與用戶角色的設置(高學正等,2018)。權限管理為資料設置權限,實現(xiàn)特定的數(shù)據(jù)只向特定的用戶組開放,如某些特定的結構化數(shù)據(jù)只對借閱用戶組開放其元數(shù)據(jù)的查詢功能,從而實現(xiàn)數(shù)據(jù)的精準管理與高效利用(高振記等,2018)。借閱審批功能包括對接收到的借閱申請進行審批、反饋意見等功能。
有色地質資料借閱模塊是地質工作者借閱資料的主模塊,包含資料檢索功能、折疊菜單分類功能。資料檢索功能包含對資料的關鍵字檢索、多條件檢索、檢索結果展示等。折疊菜單分類功能展示資料的不同類別,并設計折疊隱藏功能,單擊某一級菜單后,即可展示分布于該級菜單下的檢索結果。
有色地質資料管理系統(tǒng)已完成搭建并通過測試,系統(tǒng)界面見圖3。經(jīng)過試運行階段的探索、完善,北京有色節(jié)點制定了《有色地質數(shù)據(jù)權限管理辦法》,對資料的敏感程度及其權限的管理辦法進行明確;制定了《有色地質資料復制借閱管理辦法》,劃分不同敏感程度的有色地質資料的服務方式,補充線下共享的服務方式;制定了《有色地質數(shù)據(jù)管理系統(tǒng)運行維護管理辦法》,對系統(tǒng)的數(shù)據(jù)上傳、修改、刪除以及用戶管理、權限管理等運維工作進行了明確劃分(梁虹等,2020)。
圖3 有色地質資料管理系統(tǒng)界面
結合試運行階段的使用情況分析,對系統(tǒng)的元數(shù)據(jù)批量導入功能進行優(yōu)化,增強穩(wěn)定性。弱化對于元數(shù)據(jù)導入過程中對必填字段的檢查,提升導入效率(張麗華,2020)。
通過有色地質資料數(shù)字化與信息化建設工作,梳理查清了館藏的有色地質資料情況,完成了資料的數(shù)字化工作,并按規(guī)范提取了資料的元數(shù)據(jù)。設計建設有色地質資料管理系統(tǒng),完成元數(shù)據(jù)、數(shù)據(jù)入庫,實現(xiàn)了在線查詢、借閱、管理有色地質資料,使原有的紙介質資料,零散分布的電子資料得到充分運用(陳建平等,2017),并通過“地質云·北京有色”節(jié)點向社會發(fā)布共享。截止2020年末,提供有色地質產(chǎn)品服務3000余件次,服務對象包括高校、地勘單位、有色地勘單位等,取得了良好的社會效益。因此倡導各有色行業(yè)單位盡快開展有色地質資料數(shù)字化與信息化建設工作。
關于有色地質資料的數(shù)字化需嚴格遵守國家相關法律與《地質資料管理條例》、《涉密地質資料管理細則》等法規(guī)。對于數(shù)字化工作與信息化建設的建議如下:
(1)非涉密但內容敏感,即公開后會造成一定范圍或一定程度社會影響的有色地質數(shù)據(jù),以及涉及單位或個人利益等的有色地質數(shù)據(jù),可采取“只提供部分元數(shù)據(jù)”的方式進行共享。
(2)元數(shù)據(jù)著錄的字段及其字典值的設計建議由有色地質檔案管理人員參與完成,數(shù)字化加工完成后形成的文件級目錄、元數(shù)據(jù)、電子文檔應進行異地備份、多介質備份。
(3)系統(tǒng)設計工作需地質專家與信息化專業(yè)人員共同參與,保障系統(tǒng)滿足地質人員需求且結構穩(wěn)定易于運維。