伊佳 陳軼婷 鄭義 杜俊鵬 苗春林
中國(guó)運(yùn)載火箭技術(shù)研究院 北京 100076
為支撐世界一流企業(yè)建設(shè),助推高質(zhì)量、高效率、高效益發(fā)展,航天企業(yè)檔案工作必須經(jīng)過(guò)轉(zhuǎn)型升級(jí),檔案服務(wù)模式必須從手工向智能化轉(zhuǎn)型,檔案資源開(kāi)發(fā)利用方式必須從簡(jiǎn)單型向品質(zhì)化、深度化轉(zhuǎn)型,以實(shí)現(xiàn)檔案資源的快速共享與高效傳遞,發(fā)揮檔案資源內(nèi)在價(jià)值,而加快推進(jìn)傳統(tǒng)紙質(zhì)載體檔案數(shù)字化工作即為新時(shí)期檔案工作轉(zhuǎn)型發(fā)展的第一步。
航天企業(yè)檔案館館藏文書(shū)檔案、型號(hào)產(chǎn)品檔案中20世紀(jì)六七十年代檔案由于保管時(shí)間較長(zhǎng),已出現(xiàn)脆化、破損等現(xiàn)象。這些檔案均為航天企業(yè)成立以來(lái)經(jīng)營(yíng)、管理、科研過(guò)程中最真實(shí)、最完整的記錄,有著我國(guó)航天核心產(chǎn)品的發(fā)展歷程與科研成果,是我國(guó)重要的科學(xué)儲(chǔ)備。因此,為搶救老、舊檔案配備相關(guān)的軟硬件條件,開(kāi)展紙質(zhì)檔案數(shù)字化加工工作迫在眉睫。
航天企業(yè)檔案館老舊技術(shù)文件底圖現(xiàn)僅存有紙質(zhì)文件版本,日常使用、借用、配套等工作需花費(fèi)大量人力、物力,且效率較低。開(kāi)展技術(shù)文件數(shù)字化工作,將老舊底圖數(shù)字化加工成果上傳至數(shù)字化系統(tǒng)中,可供設(shè)計(jì)師直接使用,大大提升設(shè)計(jì)師日常使用、借用效率。與此同時(shí),也可改變以往手工查找技術(shù)文件底圖管理模式,高效服務(wù)保障航天產(chǎn)品研制任務(wù)。
航天企業(yè)檔案館館藏檔案主要以航天產(chǎn)品檔案為主,主要考慮到自主知識(shí)產(chǎn)權(quán)保護(hù)及數(shù)字化加工進(jìn)度自主可控等因素,在經(jīng)濟(jì)條件和人力資源允許的條件下,建議自行開(kāi)展館藏檔案數(shù)字化工作。
按照國(guó)家檔案局《紙質(zhì)檔案數(shù)字化規(guī)范》(DA/T31-2017)要求,根據(jù)數(shù)字化加工流程合理布局各工作區(qū)域,同時(shí)按照涉密信息系統(tǒng)安全保密要求進(jìn)行綜合布線,可供內(nèi)網(wǎng)計(jì)算機(jī)接入并使用,電力、溫濕度等條件滿足該項(xiàng)目開(kāi)展。后續(xù)將按保密要求配備相應(yīng)的安全保密防護(hù)措施。
所需主要設(shè)備設(shè)施包括計(jì)算機(jī)、掃描儀、數(shù)據(jù)存儲(chǔ)等。
考慮到檔案狀態(tài)和幅面的差異性,需采購(gòu)不同類型、不同規(guī)格的掃描儀。當(dāng)紙張狀況較差,過(guò)薄、過(guò)軟或超厚,使用書(shū)刊式掃描儀或平板式掃描儀進(jìn)行掃描;當(dāng)紙張狀況較好,且幅面為A3或A4大小的,使用A4平出式掃描儀;當(dāng)單冊(cè)檔案內(nèi)幅面有大有小或幅面較大時(shí),使用A4平出式掃描儀或A0大幅面掃描儀進(jìn)行掃描。同時(shí),考慮工作效率等因素,每個(gè)數(shù)字化加工單元配備不同數(shù)量的平出式掃描儀、平板式掃描儀、大幅面工程掃描儀以及書(shū)刊掃描儀。
考慮到現(xiàn)有紙質(zhì)檔案數(shù)字化后占用的容量需求,以及后續(xù)每年新進(jìn)館檔案數(shù)字化后的增量需求,需對(duì)檔案管理系統(tǒng)服務(wù)器存儲(chǔ)空間進(jìn)行擴(kuò)容。同時(shí)按應(yīng)用系統(tǒng)備份要求,需預(yù)留數(shù)據(jù)備份的容量。
所需主要設(shè)備設(shè)施包括主機(jī)監(jiān)控與審計(jì)系統(tǒng)、防病毒系統(tǒng)、數(shù)字化掃描軟件(單機(jī)版)、數(shù)字化加工成果質(zhì)檢軟件(單機(jī)版)、OCR識(shí)別軟件、數(shù)字化成果批量掛接功能定制開(kāi)發(fā)。
按涉密信息系統(tǒng)安全保密要求,配備主機(jī)監(jiān)控與審計(jì)系統(tǒng)、防病毒系統(tǒng)。
數(shù)字化掃描軟件(單機(jī)版),實(shí)現(xiàn)數(shù)字化掃描成果圖像的快速高效自動(dòng)處理。軟件支持高速掃描儀批量掃描;支持掃描參數(shù)(如紙張大小、圖像類型、分辨率、掃描方式、亮度、對(duì)比度等)設(shè)置;支持單、雙數(shù)頁(yè)自動(dòng)旋轉(zhuǎn);支持自動(dòng)裁剪空白邊;支持圖像處理(包括剪外邊框、去黑邊、糾偏、去雜點(diǎn)、降噪等);支持圖像優(yōu)化(含對(duì)比度亮度、色相飽和度、白平衡、細(xì)化、加亮、改變文字內(nèi)容顏色、色彩調(diào)整等);支持嵌入式圖像著錄,索引目錄存儲(chǔ)在電子文件中,保證圖像掛接的準(zhǔn)確率為100%;支持批量導(dǎo)出XML元數(shù)據(jù),供瀚海之星檔案管理系統(tǒng)接收使用。
數(shù)字化加工成果質(zhì)檢軟件(單機(jī)版),實(shí)現(xiàn)數(shù)字化成果圖像的快速高效抽檢。軟件支持目錄數(shù)據(jù)檢測(cè)、電子影像檢測(cè)(包括屬性檢測(cè)、格式檢測(cè)、色彩模式檢測(cè)、圖像分辨率檢測(cè)、頁(yè)數(shù)檢測(cè)等)、匯總統(tǒng)計(jì)功能。
OCR識(shí)別軟件,用于數(shù)字化成果轉(zhuǎn)換為可編輯的文本,以實(shí)現(xiàn)紙質(zhì)檔案的全文檢索。
數(shù)字化成果批量掛接功能定制開(kāi)發(fā),在現(xiàn)有檔案管理系統(tǒng)上進(jìn)行定制開(kāi)發(fā),實(shí)現(xiàn)批量掛接數(shù)字化成果至檔案管理系統(tǒng)。
將數(shù)字化加工計(jì)算機(jī)與掃描設(shè)備接入涉密內(nèi)部網(wǎng),配備相應(yīng)的安全保密產(chǎn)品開(kāi)展掃描工作,掃描后的數(shù)字化成果按保密要求,每天數(shù)字化成果由質(zhì)檢員進(jìn)行質(zhì)量檢查,質(zhì)量檢查合格后將數(shù)字化成果批量掛接至檔案管理系統(tǒng)進(jìn)行統(tǒng)一管理。
紙質(zhì)檔案數(shù)字化加工流程如圖:
圖1 紙質(zhì)檔案數(shù)字化加工流程
3.1.1 整理。工作人員對(duì)準(zhǔn)備掃描的紙質(zhì)檔案進(jìn)行檢查,查看標(biāo)注信息是否完整,確保文件掃描過(guò)程不缺頁(yè)、漏頁(yè),文件裝訂不發(fā)生錯(cuò)誤;查看檔案紙張、裝訂的物理狀況,對(duì)掃描方式提出建議;梳理需要進(jìn)行備份的目錄,提出備份要求。
3.1.2 接收。掃描人員從工作人員手中接收待掃描的紙質(zhì)檔案,共同清點(diǎn)數(shù)量,確保數(shù)字化過(guò)程中出入庫(kù)情況記錄完整、規(guī)范。
3.1.3 掃描。數(shù)字化要求掃描后的圖像字跡清晰,內(nèi)容完整;掃描采用彩色掃描模式,文件掃描分辨率建議≥300dpi。
文件修復(fù):對(duì)已經(jīng)出現(xiàn)開(kāi)裂、破損或折痕太重?zé)o法鋪平的文件應(yīng)先進(jìn)行修復(fù)處理。
掃描方式:根據(jù)檔案幅面的大?。ˋ4、A3、A2、A1、A0、不規(guī)則圖紙),選擇相應(yīng)規(guī)格的掃描儀進(jìn)行掃描;當(dāng)紙張狀況較差,過(guò)薄、過(guò)軟或超厚的文件,采用平板掃描或非接觸掃描方式;紙張拆裝后可能無(wú)法復(fù)原的,采用非接觸掃描方式;紙張狀況好的采用高速掃描方式以提高工作效率。
存儲(chǔ)格式:圖像存儲(chǔ)為雙層PDF格式。
掃描登記:登記掃描的頁(yè)數(shù),核對(duì)每份文件的實(shí)際掃描頁(yè)數(shù)與整理時(shí)填寫(xiě)的文件頁(yè)數(shù)是否一致,不一致時(shí)應(yīng)注明具體原因和處理方法;填寫(xiě)掃描核算表單。
3.1.4 實(shí)物核對(duì)。對(duì)照紙質(zhì)檔案實(shí)體逐頁(yè)審核圖像的質(zhì)量、完整性,防止出現(xiàn)漏掃或掃描順序不對(duì)的情況。對(duì)于圖像偏斜度較大的圖像及時(shí)進(jìn)行圖像糾偏工作,對(duì)失真度較高的圖像進(jìn)行重新掃描,確保圖像的利用價(jià)值。
3.1.5 信息著錄。PDF格式圖像全部以檔號(hào)命名??墒褂密浖?duì)圖像進(jìn)行批量著錄的,需要人工審校著錄信息;老舊檔案中手寫(xiě)內(nèi)容等不支持軟件批量著錄的,需要人工手動(dòng)錄入并審校。
3.1.6 質(zhì)量檢查。設(shè)質(zhì)量專員,對(duì)所有掃描后的PDF圖像從數(shù)量和質(zhì)量?jī)蓚€(gè)方面進(jìn)行檢查,查看圖像分辨率、文件格式、色彩模式,偏斜度等技術(shù)指標(biāo)是否滿足要求。對(duì)有問(wèn)題的圖像進(jìn)行記錄和反饋。
3.1.7 數(shù)據(jù)掛接。將通過(guò)質(zhì)量檢查完成的數(shù)字化成果掛接至瀚海之星檔案管理系統(tǒng)中。
3.1.8 送回。掃描人員將已掃描完成的紙質(zhì)檔案送回,同工作人員共同清點(diǎn)檔案數(shù)量,確保出入庫(kù)情況記錄完整、規(guī)范。
3.2.1 紙質(zhì)文件掃描后的電子文件技術(shù)指標(biāo)。
3.2.1.1 紙質(zhì)檔案掃描采用彩色方式;
3.2.1.2 文件格式采用無(wú)損壓縮雙層PDF格式;
3.2.1.3 文件掃描分辨率不小于300dpi;
3.2.1.4 掃描文件及相應(yīng)的數(shù)據(jù)庫(kù)備份存儲(chǔ)在硬盤(pán)及光盤(pán)中。
3.2.2 文件名稱要求。
3.2.2.1 案卷、文件的相關(guān)信息輸入檔案管理系統(tǒng)。案卷必須輸入案卷題名,案卷編號(hào)、歸檔號(hào)、歸檔日期、立卷日期、立卷人;文件必須輸入文件名、文件編號(hào)、歸檔號(hào)、歸檔日期、主題詞,對(duì)于長(zhǎng)期和永久保存的檔案文件,必須掛接相關(guān)的電子文件;
3.2.2.2 其中的每一份文件也需要單獨(dú)創(chuàng)建目錄。
3.2.3 紙質(zhì)檔案文件拆分要求。
3.2.3.1 標(biāo)頁(yè)碼的準(zhǔn)確率應(yīng)達(dá)到100%;
3.2.3.2 頁(yè)碼字跡不影響原文檔內(nèi)容,盡量為?。?/p>
3.2.3.3 除裝訂線、訂,在有利于掃描的同時(shí),要保持原文檔的完整性。
3.2.4 紙質(zhì)檔案文件裝訂要求。
3.2.4.1 恢復(fù)文檔原樣,不漏頁(yè)、錯(cuò)頁(yè);
3.2.4.2 裝訂案卷左下方對(duì)齊,兩邊成直角,三孔一線,裝訂線先拉緊;
3.2.4.3 按照文檔內(nèi)的卷內(nèi)目錄,校對(duì)目錄,正確率達(dá)100%。
3.2.5 紙質(zhì)檔案文件掃描要求。
3.2.5.1 不多掃、漏掃,保證文檔順序準(zhǔn)確;
3.2.5.2 文檔字跡清晰可認(rèn),不能過(guò)濃或偏淡。
3.2.6 紙質(zhì)檔案文件修圖要求。
3.2.6.1 文檔清晰,無(wú)多余雜點(diǎn);
3.2.6.2 保留原文檔的字跡;
3.2.6.3 保存方式為檔號(hào)。
3.2.7 紙質(zhì)檔案文件分件要求。
3.2.7.1 按照卷內(nèi)目錄對(duì)掃描文件編號(hào);
3.2.7.2 保存方式為檔號(hào);
3.2.7.3 分件準(zhǔn)確率不低于98%。
依據(jù)國(guó)家檔案局《紙質(zhì)檔案數(shù)字化規(guī)范》(DA/T 31-2017)[1]要求,對(duì)紙質(zhì)檔案數(shù)字化加工成果進(jìn)行驗(yàn)收。驗(yàn)收內(nèi)容及要求如下。
序號(hào) 項(xiàng)目 要求1掃描色彩模式 彩色模式2文件格式 雙層PDF 3掃描分辨率 300dpi 4 目錄與數(shù)字圖像對(duì)應(yīng)人工抽檢抽檢率不低于5%;合格率100%5 數(shù)字圖像質(zhì)量人工抽檢 抽檢率不低于5%;合格率不低于95%6文件命名 以檔號(hào)為基礎(chǔ)命名,確保文件命名唯一性