溫雪茹,郭斯嘉,劉 冰
1.中國地質(zhì)科學(xué)院 水文地質(zhì)環(huán)境地質(zhì)研究所,河北 石家莊050061;2.自然資源部 地下水科學(xué)與工程重點(diǎn)實(shí)驗(yàn)室,河北 石家莊050061
目前,數(shù)字化進(jìn)而數(shù)據(jù)化在檔案事業(yè)中發(fā)揮著重要的作用,已成為檔案工作發(fā)展的必然趨勢.如何將紙質(zhì)檔案轉(zhuǎn)變?yōu)榉蠂覙?biāo)準(zhǔn)的電子格式,是檔案數(shù)字化的首要問題.
2006年出版的GB/T 20530—2006《文獻(xiàn)檔案資料數(shù)字化工作導(dǎo)則》[1],代表了規(guī)范檔案數(shù)字化過程的國家標(biāo)準(zhǔn)的完善,規(guī)定了文獻(xiàn)檔案資料數(shù)字化過程中涉及的標(biāo)準(zhǔn)與一般管理、數(shù)字化對象的確定原則、數(shù)字化工作的一般過程、數(shù)字化過程中適用技術(shù)的選擇、數(shù)字化成果的管理等.國家檔案局2005年出版了《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T31—2005),2017年根據(jù)信息技術(shù)發(fā)展的新要求重新修訂形成標(biāo)準(zhǔn)(DA/T31—2017),對紙質(zhì)檔案數(shù)字化過程和數(shù)字化成果管理進(jìn)行了規(guī)定[2].
地質(zhì)資料是地質(zhì)工作中取得的對地質(zhì)現(xiàn)象的認(rèn)知、描述、總結(jié)及實(shí)物等信息,是實(shí)際工作中得到的第一手資料,具有檔案和資料雙重屬性,是地質(zhì)工作者認(rèn)識地球所取得的重要知識性財(cái)富,具有重復(fù)利用、不斷開發(fā)、長期提供服務(wù)的功能,可為經(jīng)濟(jì)社會(huì)發(fā)展、工程建設(shè)、地質(zhì)找礦提供基礎(chǔ)信息,價(jià)值巨大[3].地質(zhì)檔案的形成過程耗資無數(shù),構(gòu)成內(nèi)容復(fù)雜.各種地質(zhì)勘探方法會(huì)形成大量復(fù)雜、綜合的檔案資料,包括野外記錄、采樣記錄、物化探野外觀測記錄,地質(zhì)、水文地質(zhì)鉆孔原始編錄及綜合成果,槽、井、洞及坑探原始編錄圖件,測量原始記錄、成果及圖紙,長期觀測資料,巖礦鑒定成果、化驗(yàn)數(shù)據(jù),各類設(shè)計(jì)及報(bào)告的透明圖、薄膜圖、底版圖,設(shè)計(jì)及報(bào)告的審批意見,綜合研究的材料以及專題研究論文、報(bào)告等[4].
全國地質(zhì)資料館歷時(shí)十幾年,累計(jì)投資上億元實(shí)現(xiàn)了全部館藏紙質(zhì)資料的掃描數(shù)字化工作,并已啟動(dòng)全文數(shù)據(jù)庫建設(shè),數(shù)字地質(zhì)資料館建設(shè)基本完成[5].為確保圖文地質(zhì)資料掃描數(shù)字化的質(zhì)量,使其生產(chǎn)過程規(guī)范化,全國地質(zhì)資料館與國土資源部信息中心在參考國家相關(guān)規(guī)范的基礎(chǔ)上,于2000年制定了《圖文地質(zhì)資料掃描數(shù)字化規(guī)范(試行)》[6],規(guī)定了掃描數(shù)字化過程中的文件組織、數(shù)據(jù)制作、目錄編制及數(shù)據(jù)保存的一般方法和質(zhì)量要求.全國20多家省級地質(zhì)資料館參照全國地質(zhì)資料館的工作模式已經(jīng)完成了全部館藏資料的數(shù)字化.中國地質(zhì)調(diào)查局局屬單位的資料館也陸續(xù)開展了數(shù)字化工作,一部分單位完成了全部館藏資料的數(shù)字化,一部分對館藏重要地質(zhì)資料進(jìn)行了數(shù)字化,也有一部分因?yàn)橘Y金或重視程度的問題尚未開展.
紙質(zhì)檔案:優(yōu)點(diǎn)是歷史的真實(shí)記錄,具有憑證價(jià)值[7],閱讀起來更加直觀、舒適;缺點(diǎn)是易破損,且一旦丟失無法彌補(bǔ).數(shù)字化檔案:優(yōu)點(diǎn)是能夠?qū)崿F(xiàn)多地、永久存儲(chǔ),便于廣泛共享,不易丟失,并且便于深入挖掘和集成利用;缺點(diǎn)是易篡改、易泄密.在實(shí)際應(yīng)用中,一般是兩者結(jié)合,優(yōu)勢互補(bǔ),更大的發(fā)揮檔案作用.
地質(zhì)資料管理有3個(gè)階段,第一階段是紙質(zhì)資料,第二階段數(shù)字化資料,第三階段數(shù)據(jù)化資料.數(shù)字化階段的特點(diǎn)是建設(shè)目錄數(shù)據(jù)庫,對紙質(zhì)地質(zhì)資料掃描存儲(chǔ),兩者對接形成網(wǎng)絡(luò)化的圖像瀏覽.數(shù)據(jù)化階段的特點(diǎn)是全文數(shù)據(jù)庫、圖像矢量化、數(shù)據(jù)整合和大數(shù)據(jù)平臺(tái).數(shù)據(jù)化是將圖像文件通過數(shù)據(jù)化技術(shù),轉(zhuǎn)化為計(jì)算機(jī)可以對其內(nèi)容進(jìn)行識讀、分析和挖掘的文本信息文件[8-9].目前,全國地質(zhì)資料館和部分省級地質(zhì)資料館已完成數(shù)字化階段,正在進(jìn)行數(shù)據(jù)化建設(shè).中國地質(zhì)調(diào)查局局屬單位資料館基本處于數(shù)字化或紙質(zhì)資料管理階段.
人員是一切工作的基礎(chǔ)保障,目前數(shù)字化工作有4種人員配備模式:外包、單位臨時(shí)設(shè)置專職、內(nèi)外組合、專設(shè)機(jī)構(gòu)[10].外包式,是地質(zhì)資料管理機(jī)構(gòu)與專業(yè)數(shù)字化公司簽訂合作協(xié)議,公司承包數(shù)字化前處理、數(shù)字化掃描、數(shù)字化后整理等全套業(yè)務(wù).單位臨時(shí)專職式,是抽調(diào)技術(shù)人員組成臨時(shí)工作組,開展數(shù)字化工作.內(nèi)外組合式,是以單位專職人員為主,同時(shí)從社會(huì)上聘用臨時(shí)工作人員,共同組成數(shù)字化工作小組,開展工作.專設(shè)機(jī)構(gòu)式,是在單位中設(shè)立一個(gè)專職部門,負(fù)責(zé)開展數(shù)字化處理工作.涉密資料應(yīng)避免由社會(huì)聘用人員處理,應(yīng)由單位專職人員負(fù)責(zé),或與有保密資質(zhì)的專業(yè)公司簽訂保密合作協(xié)議后由其處理.
一般館藏地質(zhì)資料數(shù)量都很大,在人力或財(cái)力有限的情況下,可遵循一定的原則布置數(shù)字化工作順序[11],如利用頻率高、使用或收藏價(jià)值大、具有典型意義、形成時(shí)間早、保管期限長、破損程度大的資料首先數(shù)字化,但某個(gè)分類里面的資料在數(shù)字化時(shí)應(yīng)系統(tǒng)完整,避免后期數(shù)字化時(shí)在核對上耗費(fèi)太多時(shí)間.當(dāng)然也應(yīng)當(dāng)考慮到存在這種情況,即不同層面的人員對資料價(jià)值的認(rèn)識不同,有時(shí)差異極大,并且隨著時(shí)間變化,原先認(rèn)為不重要的資料可能后來卻變得很重要.
對于存在不同版本的資料,如正本、定稿、草稿等,根據(jù)利用目的的不同,有的單位選擇掃描全部版本,展示資料的變化形成過程;有的單位考慮數(shù)據(jù)資源性、權(quán)威性,選擇只掃描正本,無正本的掃描定稿,無正本無定稿的掃描草稿.
掃描范圍應(yīng)遵守國家相關(guān)保密管理規(guī)定,絕密文件一般不建目錄數(shù)據(jù)庫、不掃描;機(jī)密級和秘密級文件在數(shù)字化、存儲(chǔ)和使用過程務(wù)必嚴(yán)格執(zhí)行保密規(guī)定.
掃描數(shù)字化前一般先形成地質(zhì)資料目錄數(shù)據(jù)庫,并確保目錄與紙質(zhì)資料吻合.傳統(tǒng)檔案強(qiáng)調(diào)文件內(nèi)容間的有機(jī)聯(lián)系[12],關(guān)系非常緊密的文件常常整合、裝訂在一起,作為一件來保存和利用,數(shù)字化時(shí)建議拆件后以紙質(zhì)檔案的“自然件”為單位進(jìn)行編目和掃描,根據(jù)規(guī)范要求補(bǔ)充檔號,在保證新生出的每條目錄都有編號的基礎(chǔ)上,保持文件之間的有機(jī)聯(lián)系,以及目錄與紙質(zhì)檔案的良好對應(yīng)關(guān)系.著錄時(shí)注意標(biāo)明密級等必要信息,充分利用好計(jì)算機(jī)不怕細(xì)的優(yōu)點(diǎn).著錄的同時(shí)做好摸底調(diào)查和登記、統(tǒng)計(jì)工作,例如對破損、霉變、蟲蛀情況以及嚴(yán)重程度做出登記,并統(tǒng)計(jì)數(shù)量和修復(fù)的工作量.
如果前期已經(jīng)形成了目錄數(shù)據(jù)庫,數(shù)字化前需要與紙質(zhì)資料核對.目錄信息不完整、漏缺的予以補(bǔ)充,不準(zhǔn)確的重新著錄[13].
紙質(zhì)地質(zhì)資料存在的折皺、卷曲、污損、字跡不清楚等問題,需要采取合理的措施進(jìn)行修復(fù),并且要求工作人員有一定的地學(xué)專業(yè)知識,必要的情況需請教相關(guān)專家鑒定.對于價(jià)值比較高的地質(zhì)圖件,需要做到修舊如舊,保持原貌.對于霉變較嚴(yán)重的老舊地質(zhì)圖件,在進(jìn)行掃描作業(yè)前,作業(yè)員需要根據(jù)圖件資料具體霉變情況,選用水、有機(jī)溶劑、氧化劑對臟污進(jìn)行清理.對于折皺、卷曲,我們采用壓平以及用金屬電熨斗從資料背面輕輕熨燙的方式盡可能減少折痕(要保證不傷害資料)[14].破損資料修復(fù)時(shí),根據(jù)傳統(tǒng)的修裱經(jīng)驗(yàn),黏合劑一般選擇除去面筋的小麥淀粉制作成的漿糊,這種漿糊性柔黏性適度,用以修裱可以取得柔軟、平整的效果,此黏合劑不破壞紙張酸堿度并具有可逆性[15].
拆件后需恢復(fù)的資料,必要時(shí)可做好記錄,以便有序地恢復(fù)成原貌.
在掃描之前,需要對地質(zhì)資料原件進(jìn)行整理分類,為正式開展掃描做最后的準(zhǔn)備.一方面按照涉密情況分類,分為涉密資料和公開資料,另一方面根據(jù)掃描技術(shù)要求不同分類,分為文本和圖件.也可再進(jìn)一步細(xì)分,如手寫稿和打印稿,膠片和紙質(zhì),1960年前和1960年后等,便于針對不同的類別做不同的掃描技術(shù)要求.
3.6.1 掃描色彩模式的選擇
掃描色彩模式分為彩色、灰度、黑白3種.灰度和黑白模式是早期大多采用的,主要是因?yàn)楫?dāng)時(shí)存儲(chǔ)設(shè)備、電腦系統(tǒng)運(yùn)行速度、網(wǎng)絡(luò)帶寬等條件有限.彩色模式存儲(chǔ)容量大無法大規(guī)模實(shí)現(xiàn),而灰度模式和黑白模式存儲(chǔ)容量小便于實(shí)現(xiàn).目前隨著設(shè)備、網(wǎng)絡(luò)條件的提升,主要采用彩色模式,對于字跡清晰、不帶插圖的黑白文本可用黑白模式掃描.
3.6.2 掃描分辨率的選擇
分辨率的選擇以柵格文件的清晰度為準(zhǔn),應(yīng)最大限度地接近掃描原件,具有較好的還原度.凡原件中可識別的內(nèi)容(除污跡外),在柵格文件的打印結(jié)果和屏幕顯示結(jié)果中應(yīng)可識別、無歧義[15].根據(jù)《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》[15]要求,圖紙分辨率一般不小于300 dpi;文字、照片一般不小于200 dpi,如某些文字偏小、密集、清晰度較差時(shí)則不能低于300 dpi;重要照片建議用500 dpi以上掃描,以確保照片的層次性和色彩的豐富性;需要進(jìn)行高精度仿真復(fù)制的檔案,建議不小于600 dpi,具體應(yīng)根據(jù)實(shí)際情況調(diào)整分辨率及其它相關(guān)參數(shù).對于年代久遠(yuǎn)的或質(zhì)量不佳的老資料最好用600 dpi,一步到位,以后盡量使用電子版或打印的紙質(zhì)版,減少原件的翻閱.
3.6.3 圖像存儲(chǔ)格式的選擇
《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》[15]要求:紙質(zhì)檔案數(shù)字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實(shí)際應(yīng)用的需求而定.JPEG是如今最常用的圖片格式之一,其優(yōu)點(diǎn)為兼容性高、容量小、傳輸速度快.JPEG是一種有損壓縮格式,允許用不同的壓縮比對文件壓縮,方便在圖像質(zhì)量和文件大小之間找到平衡點(diǎn).在實(shí)現(xiàn)相同清晰度的情況下,JPEG的容量相對較小.JPEG2000既支持有損壓縮也支持無損壓縮,在獲得相同圖像質(zhì)量的情況下可以比JPEG的壓縮比更大,而且能夠?qū)崿F(xiàn)圖像的漸進(jìn)傳輸[16].雖然JPEG2000在技術(shù)上有一定的優(yōu)勢,但是目前還不是很普及,在檔案部門使用得很少.TIFF的優(yōu)點(diǎn)是可以實(shí)現(xiàn)對圖像的無壓縮存儲(chǔ)或無損壓縮存儲(chǔ),圖像失真度極小,可以保存分層和透明信息,并且可以將多個(gè)圖像合并成為多頁的一個(gè)文件,其缺點(diǎn)是占用存儲(chǔ)空間很大.因此目前檔案行業(yè)最常用的是JPEG圖像存儲(chǔ)格式,一般使用75%壓縮比.
圖像一般保存兩類格式:存儲(chǔ)格式和利用格式.存儲(chǔ)格式是上面提到的JPEG、TIFF等精度高、用于長期存儲(chǔ)的格式.利用格式是PDF等便于網(wǎng)絡(luò)傳輸瀏覽、容量較小的格式.PDF格式的優(yōu)點(diǎn)是網(wǎng)絡(luò)傳輸快、適合網(wǎng)絡(luò)瀏覽,可以把多個(gè)圖像整合成一個(gè)PDF文件,適合文本和圖集的制作,缺點(diǎn)是圖像文件經(jīng)過了再壓縮處理,圖像質(zhì)量遠(yuǎn)遠(yuǎn)達(dá)不到印刷要求.
3.6.4 掃描設(shè)備的選擇
掃描儀一般有平板掃描儀、快速掃描儀、高拍儀、手持掃描儀、大幅面掃描儀等.平板掃描儀的優(yōu)點(diǎn)是清晰度高,掃描質(zhì)量好,缺點(diǎn)是需要手動(dòng)一頁一頁進(jìn)行,效率相對較低;快速掃描儀優(yōu)點(diǎn)是自動(dòng)進(jìn)紙,速度快,掃描質(zhì)量高,缺點(diǎn)是適用范圍小,只能針對紙張質(zhì)量好、能夠拆成單頁的文本;高拍儀的優(yōu)點(diǎn)是操作方便,相比平板掃描儀速度快,缺點(diǎn)是對于文本中特別細(xì)的線、特別淺的顏色、比較小的字符捕捉不清晰或有缺失;手持掃描儀的優(yōu)點(diǎn)是便于攜帶,缺點(diǎn)是文本夾縫處容易漏掃;大幅面掃描儀是針對大幅面圖紙掃描的最有利工具.在實(shí)際工作中,文本的掃描采用平板掃描儀和高拍儀結(jié)合使用的方式,適用于高拍儀的使用高拍儀,不適用于高拍儀的使用平板掃描儀,小于等于A3幅面的圖件使用平板掃描儀,大于A3幅面的圖件使用大幅面掃描儀.在檔案掃描中,很少使用數(shù)碼相機(jī),主要是圖像容易變形、質(zhì)量差,而且容量大.
圖像處理主要包括對掃描文件進(jìn)行旋轉(zhuǎn)、糾斜、調(diào)整頁邊距、去污、修補(bǔ)、拼接、勘誤工作.整飾過的字符、顏色等屬性應(yīng)盡可能與原件保持一致.整飾后應(yīng)保持圖文地質(zhì)資料的原意,不能違背.少部分原件本身就不清楚且無法考證的信息,原則上不做整飾.分類、拼接、加頁、重編頁碼等工作應(yīng)形成工作記錄,便于后續(xù)查證.
數(shù)據(jù)化分為文稿和圖紙兩種類型.文稿類采用OCR技術(shù)對圖像進(jìn)行光學(xué)字符識別[17],形成可編輯的文本.圖紙類采用MapGIS、ArcGIS、AutoCAD等制圖軟件進(jìn)行矢量化處理形成可編輯的文件.目前全國地質(zhì)資料館和一些省級地質(zhì)資料館已經(jīng)大規(guī)模開展數(shù)據(jù)化工作.OCR識別能夠解決檔案全文檢索的問題,圖像分辨率在200 dpi以上便能夠達(dá)到OCR識別要求,識別率比較高.識別成全文文本后,可對重要信息進(jìn)行人工核對,如標(biāo)題、作者、段落名稱、表格名稱等,能夠提高關(guān)鍵信息檢索的準(zhǔn)確性,同時(shí)具有全文的檢索深度.如果對全文進(jìn)行人工核對,需要的成本太高,目前不太現(xiàn)實(shí),性價(jià)比較低.識別后的文本與圖像結(jié)合制作成雙層PDF文件,上層是原始圖像,下層是文本,既可以100%保留原始版面效果,又便于建立索引數(shù)據(jù)庫,是目前常用的模式.我們平時(shí)看到PDF文件是掃描版的,卻可以復(fù)制其中的文字(偶爾會(huì)有錯(cuò)字)就是雙層PDF文件的效果.
充分進(jìn)行數(shù)據(jù)使用和存儲(chǔ)的風(fēng)險(xiǎn)評估,建立長效保護(hù)機(jī)制[18-19].一般保存兩套成果:優(yōu)化后的圖片和圖像合成的PDF文件[20].存儲(chǔ)介質(zhì)方面,光盤最穩(wěn)定,硬盤便于讀取.目前硬盤塔等存儲(chǔ)設(shè)備可以自動(dòng)進(jìn)行多份存儲(chǔ),能夠較好地保證數(shù)據(jù)安全,可以采用光盤與硬盤結(jié)合的方式進(jìn)行備份,U盤因?yàn)椴环€(wěn)定不建議作為存儲(chǔ)方式.檔案級光盤較普通光盤的容量大,有10 G、20 G、50 G等規(guī)格,壽命可達(dá)到20 a以上.在實(shí)際工作中,保存一式3套,硬盤塔1套,檔案級光盤2套(采用只讀模式,避免因能夠修改造成數(shù)據(jù)權(quán)威性降低).存儲(chǔ)介質(zhì)外部需要標(biāo)注外標(biāo)簽,注明編號、形成時(shí)間、負(fù)責(zé)人等基本信息便于查找、追溯.
紙質(zhì)地質(zhì)資料數(shù)字化、數(shù)據(jù)化后為網(wǎng)絡(luò)共享提供了基礎(chǔ)數(shù)據(jù)支撐,為地質(zhì)資料提供社會(huì)服務(wù)創(chuàng)造了更加便利的條件.地質(zhì)云、全國地質(zhì)資料館網(wǎng)站等網(wǎng)絡(luò)平臺(tái)提供了部分公開地質(zhì)資料(或資料公開部分)的在線閱覽和下載服務(wù),對于敏感或涉密的地質(zhì)資料(或資料的非公開部分)基本都是通過部門內(nèi)部的涉密電子閱覽室,在物理隔離的小局域網(wǎng)環(huán)境下提供限制性的服務(wù).
通過梳理地質(zhì)資料數(shù)字化的整體流程和技術(shù)要求,幫助地質(zhì)資料管理者更加精準(zhǔn)、科學(xué)地組織工作,對數(shù)據(jù)化趨勢和操作方法的分析更加明確了地質(zhì)資料管理的努力方向.在信息化的大背景下,數(shù)字化進(jìn)而數(shù)據(jù)化是地質(zhì)資料管理的必然趨勢,能夠使我們更加智能、更加高效地把地質(zhì)研究成果提供給社會(huì)服務(wù).