劉念 齊巍 李名選
摘要:傳統(tǒng)的檔案鑒定、整編方式,不僅浪費(fèi)大量的物力、人力,而且給檔案工作者帶來(lái)了繁重的負(fù)擔(dān)。對(duì)此,本文提出檔案資源自動(dòng)收集、鑒定和整編方法,在設(shè)定檔案自動(dòng)整編規(guī)則后,按照檔案實(shí)體整編的實(shí)際業(yè)務(wù)流程,對(duì)采集的電子檔案信息進(jìn)行自動(dòng)鑒定、整編,并輔之手動(dòng)整編。
關(guān)鍵詞:電子檔案歸檔范圍自動(dòng)鑒定自動(dòng)整編
目前,人工手動(dòng)操作方式是較為普遍的檔案鑒定和整編方法,這種方式很容易出錯(cuò),極大地限制了檔案信息鑒定和整編效率。同時(shí),隨著信息技術(shù)的發(fā)展,電子文件已廣泛應(yīng)用于國(guó)家機(jī)關(guān)、企事業(yè)單位及社會(huì)組織活動(dòng)中。特別是隨著檔案管理需求的不斷提高和網(wǎng)絡(luò)技術(shù)的日新月異,傳統(tǒng)的鑒定和整編方式,不僅浪費(fèi)大量的物力、人力,而且給檔案工作者帶來(lái)了繁重的負(fù)擔(dān)。鑒于此,本文設(shè)計(jì)了一套自動(dòng)、高效的檔案鑒定和整編系統(tǒng),在設(shè)定檔案自動(dòng)整編規(guī)則后,按照檔案實(shí)體整編的實(shí)際業(yè)務(wù)流程,對(duì)采集的電子檔案信息進(jìn)行自動(dòng)鑒定、整編,并以手動(dòng)整編進(jìn)行輔助調(diào)整,保證檔案鑒定和整編準(zhǔn)確率的同時(shí),還能提高電子檔案的鑒定、整編效率。
一、檔案鑒定、整編業(yè)務(wù)自動(dòng)化的系統(tǒng)設(shè)計(jì)
檔案的自動(dòng)鑒定、整編基于自然語(yǔ)言處理技術(shù),它是一門(mén)集語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)于一體的理論和方法。通過(guò)該技術(shù),人與計(jì)算機(jī)之間可以用自然語(yǔ)言進(jìn)行直接交互。目前,自然語(yǔ)言處理技術(shù)廣泛應(yīng)用在機(jī)器翻譯、電話翻譯、人機(jī)對(duì)話、智能檢索、自動(dòng)文摘等方面,并在客戶服務(wù)、知識(shí)管理、智能軟件幫助、企業(yè)管理、網(wǎng)上營(yíng)銷(xiāo)等多個(gè)領(lǐng)域較為成熟。
自然語(yǔ)言處理技術(shù)的廣泛應(yīng)用及在相關(guān)領(lǐng)域的成功實(shí)踐,為檔案鑒定、整編業(yè)務(wù)自動(dòng)化提供了科學(xué)合理的方向性指導(dǎo)。同時(shí),考慮到檔案鑒定、整編業(yè)務(wù)本身的特征,筆者參照國(guó)家檔案局第8號(hào)令《機(jī)關(guān)文件材料歸檔范圍和文書(shū)檔案保管期限規(guī)定》(以下簡(jiǎn)稱(chēng)《歸檔范圍》)、北京市檔案局及北京市科學(xué)技術(shù)委員會(huì)對(duì)檔案鑒定、整編業(yè)務(wù)的相關(guān)規(guī)范和要求,由計(jì)算機(jī)完成《歸檔范圍》的條目拆解、關(guān)鍵詞分詞、語(yǔ)義理解過(guò)程,綜合數(shù)據(jù)分析判斷,確定文件是否符合《歸檔范圍》,并自動(dòng)獲取保管期限,存入整編數(shù)據(jù)庫(kù)中。在整編數(shù)據(jù)庫(kù)中,通過(guò)本文設(shè)置的自動(dòng)化功能,可以預(yù)先設(shè)定檔案分類(lèi)整編規(guī)則,當(dāng)散文件庫(kù)中(臨時(shí)文件庫(kù))有新文件到達(dá)后,系統(tǒng)就會(huì)按照預(yù)先指定的整編規(guī)則進(jìn)行自動(dòng)整編,完成檔案的模擬分類(lèi)、整編、裝盒過(guò)程。
由于計(jì)算機(jī)只能通過(guò)純數(shù)學(xué)的方法理解中文自然語(yǔ)言,而僅通過(guò)中文語(yǔ)義、語(yǔ)法和關(guān)鍵詞,無(wú)法保證自動(dòng)鑒定、整編的完全性和準(zhǔn)確性,例如,部分省市的檔案部門(mén)為確保檔案鑒定工作的準(zhǔn)確性,采取由不同檔案人員或者專(zhuān)家進(jìn)行綜合鑒定的模式。對(duì)此,我們采取的方式是,部分可以由計(jì)算機(jī)實(shí)現(xiàn)的,則通過(guò)計(jì)算機(jī)實(shí)現(xiàn);不能實(shí)現(xiàn)的,則需要檔案人員進(jìn)行人工輔助,例如專(zhuān)門(mén)審核和輔助調(diào)整。在電子文件接收完成后,主要包括電子文件流轉(zhuǎn)、鑒定、整編和歸檔四個(gè)步驟。(1)電子文件流轉(zhuǎn)。通過(guò)XML可擴(kuò)展標(biāo)記語(yǔ)言,整理分布在各個(gè)文件數(shù)據(jù)庫(kù)中的電子文件,統(tǒng)一數(shù)據(jù)格式,流轉(zhuǎn)進(jìn)入散文件庫(kù);(2)電子文件鑒定。對(duì)散文件庫(kù)中電子文件進(jìn)行鑒定,根據(jù)鑒定結(jié)果,對(duì)需要?dú)w檔的文件過(guò)濾進(jìn)入整編庫(kù),不需要?dú)w檔的文件過(guò)濾進(jìn)入文件資料庫(kù);(3)電子文件整編。按照既定的電子文件整編規(guī)則,對(duì)整編庫(kù)中的電子文件進(jìn)行模擬裝盒,錄入檔案信息元數(shù)據(jù),完成電子檔案整編過(guò)程;(4)對(duì)整編后的電子文件歸檔,進(jìn)入電子檔案庫(kù),形成電子檔案。
二、檔案鑒定、整編業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn)
(一)電子文件的自動(dòng)流轉(zhuǎn)
由于電子文件分屬于不同的操作系統(tǒng)、信息系統(tǒng)和數(shù)據(jù)系統(tǒng)中,具有不同的數(shù)據(jù)格式、數(shù)據(jù)標(biāo)準(zhǔn)和管理辦法,使得這些電子文件無(wú)法交互和利用,影響了資源的共享和利用。對(duì)此,本文選擇以XML文件為通用數(shù)據(jù)交換格式,將各異構(gòu)數(shù)據(jù)庫(kù)通過(guò)XML解析方式進(jìn)行統(tǒng)一,完成電子文件資源的異構(gòu)整合。
如圖1所示,本文根據(jù)共享數(shù)據(jù)庫(kù)端的數(shù)據(jù)表結(jié)構(gòu),需預(yù)先定義好用來(lái)交換共享的XML數(shù)據(jù)格式,通過(guò)數(shù)據(jù)格式轉(zhuǎn)換將數(shù)據(jù)庫(kù)中的關(guān)系表統(tǒng)一轉(zhuǎn)化為XML結(jié)構(gòu);為防止轉(zhuǎn)化中出現(xiàn)數(shù)據(jù)類(lèi)型錯(cuò)誤,可采取XML Schema或XML DTD對(duì)數(shù)據(jù)格式進(jìn)行驗(yàn)證。如驗(yàn)證有不合法的數(shù)據(jù),由異構(gòu)數(shù)據(jù)庫(kù)端重新轉(zhuǎn)換;然后將轉(zhuǎn)換合格的數(shù)據(jù)交由VPN,通過(guò)虛擬專(zhuān)用網(wǎng)絡(luò)(VPN)對(duì)網(wǎng)絡(luò)傳輸加密,可保障數(shù)據(jù)傳輸?shù)陌踩?;在共享?shù)據(jù)庫(kù)端收到VPN加密后的數(shù)據(jù)后,再進(jìn)行解密、XML格式逆轉(zhuǎn)換;最后,將XML數(shù)據(jù)轉(zhuǎn)換為關(guān)系表后,導(dǎo)入共享數(shù)據(jù)庫(kù)中。
(二)電子文件的自動(dòng)鑒定
電子文件的自動(dòng)鑒定將《歸檔范圍》拆解為固定數(shù)量的過(guò)濾規(guī)則,做成計(jì)算機(jī)可識(shí)別的歸檔范圍模板。當(dāng)不同信息系統(tǒng)的電子文件流轉(zhuǎn)時(shí),通過(guò)此歸檔范圍模板對(duì)每份電子文件進(jìn)行過(guò)濾,最終通過(guò)過(guò)濾模板的文件,是需要?dú)w檔的電子文件,將其加入整編庫(kù);不能通過(guò)過(guò)濾模板的文件,是不需要?dú)w檔的電子文件,將其加入文件資料庫(kù),作為文件資料留存。具體步驟如下:(1)假設(shè)《歸檔范圍》可以拆解為N個(gè)文件過(guò)濾模板,記為:m1,m2,m3,……mN;(2)通過(guò)中文信息關(guān)鍵詞,對(duì)m1,m2,m3,……mN這N個(gè)過(guò)濾模板進(jìn)行匹配,完成每個(gè)模板mi(1≤i≤N)的過(guò)濾過(guò)程,即如果關(guān)鍵詞匹配成功,則視為符合既定的過(guò)濾規(guī)則,通過(guò)過(guò)濾模板;反之,則視為未通過(guò)過(guò)濾模板;(3)對(duì)過(guò)濾模板集合{ m1,m2,m3,……mN },將電子文件可以通過(guò)的過(guò)濾模板記為集合{mi}(1≤i≤N),將集合{mi}的基數(shù)記為X,那么:若X≥1,則視為電子文件通過(guò)過(guò)濾規(guī)則模板,將其加入到整編庫(kù)中;若X=0,則視為電子文件未通過(guò)過(guò)濾規(guī)則模板,將其加入到文件資料庫(kù)中。
(三)電子文件的自動(dòng)整編
電子文件的自動(dòng)整編是模擬現(xiàn)實(shí)中實(shí)體檔案的整編過(guò)程,由計(jì)算機(jī)自動(dòng)完成文件的分類(lèi)、整理和裝盒。數(shù)據(jù)庫(kù)中并不存在真正的檔案盒,所以每個(gè)文件只需賦予一個(gè)盒號(hào)。電子文件的自動(dòng)整編流程可概括為:根據(jù)預(yù)先設(shè)定的檔案分類(lèi)方式,瀏覽整編庫(kù)中所有記錄,確定每條記錄對(duì)應(yīng)的分類(lèi),并將整編庫(kù)中所有文件整理裝盒插入檔案庫(kù),具體流程如圖2、圖3所示。需要說(shuō)明的是,每次檔案裝盒完畢后,最后一批檔案盒可能是未裝滿的,因?yàn)槊看窝b盒的頁(yè)數(shù)不可能剛好是N(N表示檔案盒的容量)的倍數(shù)。下次裝盒時(shí),需要找到未裝滿的檔案盒,并繼續(xù)裝入過(guò)程。對(duì)于最后一個(gè)檔案盒都可能是不滿的情況,設(shè)計(jì)關(guān)系表BoxStatus,用來(lái)表示“當(dāng)前檔案盒”(未裝滿的檔案盒)的狀態(tài)。在系統(tǒng)功能執(zhí)行時(shí),按圖2、圖3的工作流程,可以設(shè)定計(jì)算機(jī)在每天的特定時(shí)間內(nèi)完成檔案自動(dòng)鑒定、整編的過(guò)程。
參考文獻(xiàn):
[1]宋魏巍.歐洲大陸國(guó)家檔案鑒定理論與鑒定方法論發(fā)展述評(píng)[J].檔案學(xué)研究,2013(3):81-86.
[2]黃霄羽.國(guó)外檔案鑒定實(shí)踐的共同特點(diǎn)[J].北京檔案,2010(1):44-46.
[3]張蕾.對(duì)推進(jìn)機(jī)關(guān)檔案文化建設(shè)的思考[J].檔案學(xué)研究,2015(3):25-27.
[4]張妤.外國(guó)檔案鑒定理論發(fā)展研究[J].蘭臺(tái)世界, 2011(4):21-22.
[5]汪孔德.論檔案鑒定的本位原則[J].檔案學(xué)研究, 2003(5):15-18.
[6]黃霄羽.外國(guó)檔案鑒定理論的歷史發(fā)展及其規(guī)律[J].中國(guó)檔案,2003(9):28-30.
作者單位:1.北京電子科技學(xué)院
2.北京市科學(xué)技術(shù)委員會(huì)