李慧
摘 要:文章回顧我國20世紀90年代以來民國檔案資源數(shù)字化建設(shè)發(fā)展歷程,肯定這一過程取得的成就。同時也分析當(dāng)前民國檔案查閱存在的問題,提出采取一定的知識聚合措施,展望全國民國檔案資源利用的發(fā)展前景,最大限度發(fā)揮民國檔案的歷史價值和憑證價值。
關(guān)鍵詞:民國檔案;數(shù)字化;知識聚合
資源數(shù)字化是踏入信息社會的必由之路,檔案資源也不例外。民國檔案館藏多數(shù)集中保存于第二歷史檔案館,也有部分散落在各省市縣檔案館,因而民國檔案資源的數(shù)字化工作主要以全國民國檔案目錄中心和中國第二歷史檔案館為主體。館藏的多數(shù)集中性和少量分散性對全國的民國檔案資源的建設(shè)工作提出了雙重要求:既要處理好第二歷史檔案館與地方民國檔案館藏機構(gòu)的關(guān)系,協(xié)調(diào)各級檔案館工作、加強合作交流,建設(shè)全國民國檔案目錄中心,保證資源全面性、準確性;也要重視自身民國檔案資源館藏建設(shè),廣泛運用新技術(shù),提高檢索效率,提供內(nèi)容豐富的數(shù)字化檔案資源。
一、民國檔案數(shù)字化資源建設(shè)
1.全國民國檔案目錄中心
1983年,國家檔案局在“檔案事業(yè)七五計劃” 中首次明確提出建立以中國第二歷史檔案館為主的民國檔案資料目錄中心的任務(wù),該工作穩(wěn)步推進。1992年4月,全國民國檔案資料目錄中心正式成立,目錄中心圍繞全宗級、案卷級和文件級三個層級,逐級推動民國檔案目錄工作建設(shè),檔案資源信息量、內(nèi)容細致度、工作服務(wù)深度不斷加深,為民國檔案數(shù)字資源的進一步發(fā)展奠定穩(wěn)固的基礎(chǔ)。
(1)全宗級目錄資源建設(shè)階段。1992-1997年,全國民國檔案資料目錄中心主要圍繞全國民國檔案的全宗級目錄采集開展工作。開展規(guī)范性采集標準的制定:《民國檔案目錄中心數(shù)據(jù)采集標準》《全國民國檔案案卷級目錄采集方案》,采集全宗目錄卡片14522張、完成《全國民國檔案全宗通覽》初稿、建設(shè)“全國民國檔案全宗目錄數(shù)據(jù)庫”,為下一個階段的工作做好準備。該工作從效率和質(zhì)量兩個方面入手,以全國民國檔案目錄中心為核心、輻射到全國各省市縣的三級目錄中心,提高了報送的效率。
(2)案卷級目錄資源建設(shè)階段。1998年10月,中國第二歷史檔案館提出進行民國檔案的案卷級目錄采集工作。。隨后在1999年9月,國家檔案局和中央檔案館下發(fā)《關(guān)于印發(fā)<全國民國檔案案卷級目錄采集方案>的通知》,對全國的各級檔案館的案卷級采集工作的具體任務(wù)和完成時間做出具體要求,標志著案卷級采集工作的正式開展。《通知》要求在2004年完成民國檔案案卷級目錄數(shù)據(jù)制作報送工作,在“十五”期間建立一個擁有1400多萬個條目的全國民國檔案案卷級目錄數(shù)據(jù)庫,并投入運行。為了提高報送目錄的規(guī)范性,案卷級目錄報送明確要求需要按照《民國檔案目錄中心數(shù)據(jù)采集標準》進行,該標準由以下四部分組成:《民國檔案著錄細則》《民國檔案主題標引細則》《民國檔案分類細則》和《民國檔案機讀目錄軟磁盤數(shù)據(jù)交換格式》。
(3)文件級目錄資源建設(shè)階段。全宗級和案卷級目錄難以全面、準確地揭示民國檔案的內(nèi)容,造成誤檢率較高和一部分文件難以被檢索到的情況出現(xiàn),進行民國檔案的文件級目錄整理是進一步開發(fā)民國檔案信息資源的必經(jīng)之路。1999年國家檔案局和中央檔案館下發(fā)《關(guān)于印發(fā)<全國民國檔案案卷級目錄采集方案>的通知》,要求全國民國檔案的案卷級采集工作在2004年前結(jié)束,大部分檔案館在2005年開始進入文件級目錄資源建設(shè)階段。2016年制定的全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要也明確提出:“加強明清、民國和革命歷史檔案目錄中心建設(shè);開展國家重點檔案目錄資源基礎(chǔ)體系建設(shè),建立國家層面的國家重點檔案文件級目錄數(shù)據(jù)庫和專題庫” ,從國家層面肯定建立文件級目錄數(shù)據(jù)庫的重要性。三層級目錄數(shù)據(jù)庫依次推進,構(gòu)建了較為完備的民國檔案數(shù)字化資源建設(shè)體系。
2.第二歷史檔案館資源建設(shè)
我國的民國檔案主要館藏來源是中國第二歷史檔案館,民國檔案數(shù)字化資源建設(shè)離不開第二歷史檔案館的豐盈館藏。官網(wǎng)顯示:第二歷史檔案館館藏有1354個全宗,258多萬卷。第二歷史檔案館以自身館藏資源為開發(fā)重點,圍繞檔案的數(shù)字化和服務(wù)公眾開展工作。
(1)館藏資源數(shù)字化。第二歷史檔案館館藏數(shù)量巨大、種類豐富,全方位展示民國時期的社會風(fēng)貌。部分檔案由于形成時間悠久、保存不當(dāng),存在破損問題,難以直接利用。為完整保存檔案原件,提升利用率,第二歷史檔案館自上世紀90年代以來,依托國家政策與財政支撐,實行館藏民國檔案數(shù)字化工作??紤]到館藏數(shù)量巨大,數(shù)字化工作分層級開展,按照“先整理,后掃描”原則,首先針對價值大、利用率高、破損度高的檔案進行數(shù)字化,滿足公眾普遍利用需求。經(jīng)過多年的數(shù)字化工作,第二歷史檔案館已形成一大批電子版和縮微膠卷、檔案專題匯編出版物和一些反應(yīng)民國時代特征的叢書。
(2)數(shù)字資源開放化。依托數(shù)量豐富的數(shù)字檔案館藏,第二歷史檔案館進一步向公眾開放民國檔案資源,檔案開放工作主要分為實地館藏查閱、官網(wǎng)資源展示閱覽兩種。實地館藏查閱需要官網(wǎng)預(yù)約,登記身份信息。在規(guī)定時間和人數(shù)范圍內(nèi),嚴格按照操作規(guī)定進行指定范圍的檔案查閱工作,檔案查詢部分檢索項包括全宗名稱、案卷標題和文件標題三個層級。系統(tǒng)根據(jù)檢索關(guān)鍵詞和已上傳數(shù)字檔案資源匹配,檢索出結(jié)果,提供的檔案資源以JPEG的形式展示,并且提供下載服務(wù);官網(wǎng)資源展示指用戶借助虛擬展廳進行數(shù)字檔案資源展覽,瀏覽南京臨時政府、民國北京政府等不同展廳,展廳資源主要為數(shù)字化檔案圖片。
二、進一步開展資源建設(shè)的必要性
民國檔案數(shù)字資源建設(shè)以目錄中心和第二歷史檔案館建設(shè)為著重點,協(xié)同推進檔案數(shù)字化工作,數(shù)字化資源的數(shù)量和質(zhì)量明顯增加和提高,不可否認為檔案管理部門和用戶檔案查閱帶來便利性。但是,當(dāng)前數(shù)字化發(fā)展之路,也存在一些問題,尤其對于用戶而言,檢索體驗還存在改進空間。
1.檔案著錄級別有限
第二歷史檔案館提供的檔案查閱服務(wù)針對案卷級和文件級層級,查閱結(jié)果僅為原文數(shù)字化掃描件。檢索系統(tǒng)通過檢索詞與該層級匹配,文本信息的查找和篩選還需借助于人工閱讀。實地檢索發(fā)現(xiàn),國民政府時期檔案書寫習(xí)慣不同于當(dāng)前:文字豎寫、從紙張左邊向右書寫、存在部分涂改、字體辨認不便。原件的數(shù)字化操作并不能解決以上困難,用戶查閱檔案的內(nèi)容針對性有待提高。
2.檢索詞要求過高
筆者通過實地查閱第二歷史檔案館館藏檔案發(fā)現(xiàn),檔案查閱者提供的檢索詞詳細程度直接影響檢索效果,精準檢索的查準率最高,在缺乏線索的情況下,查閱效果及其不佳。以查閱先人檔案為例,后人知道的線索非常細致、瑣碎,諸如先輩的姓名和部隊番號等,但是在檔案文本中這些檢索詞并沒有以可檢索項的形式出現(xiàn),信息隱藏在數(shù)以萬計的文件里,難以直接檢索。
3.用戶查閱范圍受限
第二歷史檔案館檔案提供的檔案查閱范圍是基于館內(nèi)開放的數(shù)字化資源,會有選擇的提供給查閱者開放權(quán)限。查閱者可以通過基本檢索、目錄檢索、專題檢索三種方式進行檔案查閱。用戶進行查閱時需要提供諸如身份證等證件,然后由館內(nèi)工作人員進行人像拍照,用于制作檔案閱覽證,閱覽證有一個月的時間限制,憑閱覽證,可以在一個月內(nèi)多次查閱自己所需要的檔案。例如,查找一個軍人的照片,檔案館工作員會根據(jù)自身的理解,選擇相應(yīng)開放范圍權(quán)限,其它可能相關(guān)的散落在開放權(quán)限以外的檔案就沒有查閱的權(quán)限,主觀自主性較大。
三、知識聚合的價值
大數(shù)據(jù)時代,依靠數(shù)據(jù)挖掘技術(shù),深入挖掘檔案信息中隱含的檔案資源是當(dāng)前的重要課題。檔案知識聚合是在檔案聚合主體、檔案聚合客體和檔案聚合的協(xié)同作用下,對檔案數(shù)字資源進行知識提取,選擇適當(dāng)?shù)闹R表示方式進行處理,挖掘各個知識單元之間的顯性和隱性關(guān)系,對這些單元進行知識重組和處理。檔案資源的知識聚合主要是語義聚合。
檔案知識聚合的主體是承擔(dān)檔案資源開發(fā)的部門,這一部分的力量最為主動、重要。數(shù)字化歷程是檔案知識聚合發(fā)展中不可缺少的一個環(huán)節(jié),當(dāng)前發(fā)展的較為充分。知識聚合對于檔案部門而言,魏扣等認為檔案知識聚合分為基礎(chǔ)層、聚合層、應(yīng)用層、評估層。借助檔案知識聚合,將非結(jié)構(gòu)化的檔案信息轉(zhuǎn)化為計算機可識別的結(jié)構(gòu)化信息,擴大用戶查檢結(jié)果。
1.挖掘隱性檔案資源
檔案蘊含信息資源通??煞譃轱@性知識和隱性知識,以館藏檔案為基礎(chǔ)的數(shù)字檔案信息也可分為兩種:顯性檔案資源和隱性檔案資源。顯性檔案資源可在檔案文獻直接查找,隱性檔案資源的加工則要借助于館內(nèi)工作人員自己的知識儲備和專業(yè)知識自行歸納總結(jié)。當(dāng)前民國數(shù)字檔案的管理流程如能與后續(xù)知識聚合過程相結(jié)合,筆者認為可形成良性互動,如圖1所示。
2.資源建構(gòu)
目前,不同類別檔案蘊含的信息以信息孤島形式呈現(xiàn),難以進行資源整合。中國古代檔案文獻編纂依據(jù)不同版本的書籍進行互校,保證記載文字真實性、充實性。借助于檔案內(nèi)容的語義知識聚合,深入挖掘檔案文本隱含的檔案信息,考究不同資料中對同一時間節(jié)點或是事件的記述考證,建構(gòu)更為詳盡的檔案資源體系。
3.提高檔案查檢效率
檢索效率和檢索效果直接影響用戶查閱體驗,利用檢索詞查閱的檔案原件,檢索詞難以囊括該份檔案中出現(xiàn)的每一個詞,檢索的難度較大。在對數(shù)字化檔案資源進行知識聚合處理后,文件中的每一個字段都可以被提取為檢索詞,用戶可以進行模糊檢索,檔案的查全率和檢索效率大大提高。當(dāng)前,法國國家檔案館與斯坦福大學(xué)圖書館合作推進的“法國大革命數(shù)字檔案館”項目,將法國1789年大革命時期的印刷品、勛章、硬幣等進行數(shù)字化處理并建成數(shù)字圖像庫,可從藝術(shù)家、主題、風(fēng)格、地點等多個維度進行檢索利用,檢索維度的增加,檢索的效率隨著提高,比傳統(tǒng)的單一檢索維度高效,對于檔案檢索亦是如此。
4.提供精準服務(wù)
當(dāng)前,檔案館提供的數(shù)字化檔案查閱服務(wù)還處于被動服務(wù)的地位,檔案館只能“人云亦云”,按照用戶需求提供相應(yīng)檔案,用戶的需求直接影響提供檔案的類型及服務(wù)效果,檔案部門的影響力較小。檔案館向不同用戶提供的是無差別的,個人針對性較小,檔案館很難幫助他們更好地檢索所需要的檔案、難以根據(jù)發(fā)掘自身館藏特色,為查閱用戶提供個性化的檔案資源,提供檔案的類型及內(nèi)容同質(zhì)化嚴重。
放眼國際,一些國家及行業(yè)正在積極探索為用戶提供更深層次的個性化定制服務(wù)。以日本為例,為推動電子文件的長期保存,國立公文書館早在2004年就提出了數(shù)字檔案館項目概要,其中基于EAD的數(shù)據(jù)庫系統(tǒng)分層搜索允許用戶按照檔案材料的分層結(jié)構(gòu)查看數(shù)據(jù)庫,這個值得國內(nèi)借鑒。此外,可以嘗試對檔案進行信息檢索模塊的深層次加工,對檔案本身的文本信息也進行著錄、提煉、加工,提供給用戶原本檔案里所不具有的信息具有啟示意義。
歷史檔案館可以在充分借鑒其他信息檢索發(fā)展比較迅速的行業(yè)的基礎(chǔ)上,結(jié)合檔案自身特點發(fā)展自身的精準服務(wù)。當(dāng)前,電商追蹤用戶的購物檢索,依據(jù)用戶此前的搜索瀏覽記錄,系統(tǒng)自動分析用戶的購買意向、種類、價位,不僅節(jié)約時間,還可以增強用戶體驗。檔案館在保證檔案信息完整、安全、長期可存的基礎(chǔ)上,借鑒電商的技術(shù)經(jīng)驗,為多次進館查閱檔案的用戶提供精準服務(wù)。一部分館內(nèi)工作人員開始嘗試對已數(shù)字化的檔案信息進行信息提煉和加工,將其中蘊含的隱性知識揭示出來,試點開放。
5.檔案資源共享
2002年,文化部和財政部共同組織實施國家重大文化惠民工程——全國文化信息資源共享工程(以下簡稱“文化共享工程”)。檔案事業(yè)作為社會主要文化事業(yè)的重要組成部分,融入“文化共享工程”,可以讓民國檔案這一部分的中華文化優(yōu)秀文化在全國范圍內(nèi)實現(xiàn)無障礙的共享。雖然當(dāng)前的檔案數(shù)字化工作仍在持續(xù)推進,但是數(shù)字化資源和檔案資源的聚合并不存在完全意義上的邏輯先后順序。換言之,對于一些已經(jīng)初步完成民國檔案數(shù)字化工作的檔案館可以先少量地進行“共享試點”工作,局部探索。
四、結(jié)語
無數(shù)改變中國近代歷程的事件在民國上演,此時的社會既有中國千年歷史發(fā)展的文化烙印,也有西方世界的外部沖擊,民國檔案對研究我國近代化歷程具有無可替代的作用,應(yīng)得到最大程度挖掘。國內(nèi)民國檔案數(shù)字化資源建設(shè)已持續(xù)20多年,雖取得一定成就,但仍有一些問題,對民國檔案進行更加細致的檔案知識聚合可有效解決部分問題。宏觀而言,不論是前期進行的數(shù)字檔案資源建設(shè)還是后期我們呼吁推進的檔案知識聚合,其最終目的都是民國檔案在全國范圍內(nèi)的開放式檢索和共享,真正發(fā)揮民國檔案的價值;微觀而言,館內(nèi)工作人員逐步挖掘檔案信息中的隱性知識,加強檔案信息的知識聚合、推進館藏細致顆?;倪M程,便于用戶查找檔案信息,在此基礎(chǔ)上,進一步探索個性化定制服務(wù),最終滿足用戶的各種利用需求,完成檔案機構(gòu)為人民服務(wù)的歷史使命。相信在全國民國檔案目錄中心和第二歷史檔案館自身館藏協(xié)同發(fā)展的基礎(chǔ)上,進一步探索數(shù)字資源的知識聚合研究,開發(fā)、挖掘隱性檔案資源,一定會逐步實現(xiàn)民國時期檔案信息資源的開放共享和第二歷史檔案館的館藏信息自由流動的目標,讓民國檔案伸手可及,揭開民國的神秘面紗。
參考文獻:
[1]潘 濤.全國民國檔案資料目錄中心十年建設(shè)歷程之回顧[J].浙江檔案,2002(06):20-21.
[2]張建平,姚 紅.全國歷史檔案資料目錄中心的建立與發(fā)展[J].中國檔案,2000(06):35-36.
[3]潘 濤.民國檔案全宗級目錄數(shù)據(jù)的采集[J].陜西檔案,2004(06):31.
[4]曾凡剛.省檔案局副局長曾凡剛同志在全省民國檔案案卷級目錄采集報送培訓(xùn)班上的講話[J].黑龍江檔案,2002(04):1+4-5.
[5]丁梅君,王魯剛,劉 紅.民國檔案案卷級目錄報送工作的幾點說明[J].湖北檔案,2002(06):26-27.
[6]陳曉敏.對民國檔案文件級整理工作的思索[J].山西檔案,2006(01):35-37.
[7]全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要[J].中國檔案,2016(05):14-17.
[8]魏 扣,李子林,郝 琦.檔案知識聚合模式選擇研究[J].山西檔案,2018(02):31-35.
[9]魏 扣,李子林,郝 琦.檔案知識聚合的實踐模型構(gòu)建研究[J].北京檔案,2018(08):7-10.
[10]張娟慧.談企業(yè)檔案管理中的信息檢索[J].赤峰學(xué)院學(xué)報(漢文哲學(xué)社會科學(xué)版),2006(01):95-96.
[11]李子林,王玉玨,龍家慶.數(shù)字人文與檔案工作的關(guān)系探討[J].浙江檔案,2018(07):13-16.
[12]何文金.數(shù)字檔案館彰顯決策支持價值[J].中國教育網(wǎng)絡(luò),2011(09):62-64.