田呈彬 王寧
摘 ?要:明清檔案信息資源建設和開發(fā)的現(xiàn)狀、數(shù)字人文與明清檔案工作的特征上的契合性及數(shù)字人文與明清檔案工作之間的關系,使得在明清檔案工作中引入數(shù)字人文具有一定的現(xiàn)實基礎和意義?;跀?shù)字人文視角,明清檔案保管主體應當借鑒吸收數(shù)字人文的理念、技術與工具方法,并充分結合明清檔案工作基礎和實際要求,從不同方面進一步做好明清檔案信息資源的建設和開發(fā)。
關鍵詞:數(shù)字人文;明清檔案;信息資源建設;信息資源開發(fā)利用
Abstract: ?The current situation of the construction and development of archival information resources in the Ming and Qing dynasties, the correspondence between digital humanities and the characteristics of archival work in the Ming and Qing dynasties, and the relationship between digital humanities and archival work in the Ming and Qing dynasties make the introduction of digital humanities into archival work in the Ming and Qing dynasties have a certain practical basis and significance. Based on the perspective of digital humanities, the subject of archives preservation in the Ming and Qing dynasties should study the ideas, technology and methods of digital humanities, and fully combine the basis and actual requirements of archives work in the Ming and Qing dynasties to further improve the construction and development of archives information resources from different aspects.
Keywords: Digital humanities; Ming and Qing archives; Construction of archives information resources; Archival information resources development and utilization
1 引言
我國各級各類文化機構保存的2000余萬件明清檔案,被譽為古代文化三大發(fā)現(xiàn)之一。明清檔案是對縱跨數(shù)百年的各主體的實踐活動的記錄,書寫材料和文字豐富,形制精美,文種多樣,多項檔案被列入《世界記憶名錄》《世界記憶亞太地區(qū)名錄》《中國檔案文獻遺產名錄》。價值獨特、原始記錄性附加真實性保障的大量明清檔案,理應成為以整個人類歷史活動記錄為研究對象[1]的數(shù)字人文語料。數(shù)字人文與明清檔案工作具有相適性,運用數(shù)字人文理念可以克服明清檔案信息資源建設和開發(fā)的不足與困境。
開發(fā)明清檔案信息資源是評價檔案工作成效的重要指標。文章以明清檔案主要保管主體中國第一歷史檔案館(以下簡稱一史館)檔案工作為案例,探討應用數(shù)字人文理論與實踐建設和開發(fā)明清檔案信息資源的思路。
2 明清檔案信息資源建設與開發(fā)現(xiàn)狀
2.1 明清檔案信息資源建設狀況。一史館從20世紀80年代開始,逐步探索檔案整理與數(shù)字化一體的檔案整編工作路徑。[2]21世紀,一史館先后開展兩次大規(guī)模檔案整理與數(shù)字化工作,以滿足大規(guī)模檔案利用需求。2010年,基本實現(xiàn)館藏檔案案卷級整理,500萬件檔案秩序整理至類項,并完成約350萬件的標準化著錄。次年5月,五年檔案整理和數(shù)字化工程正式全面啟動。至2015年底,800余萬件檔案完成數(shù)字化,電子數(shù)據總量增至4PB,[3]館藏檔案文件級整理基本實現(xiàn),成體系、組織有序的明清數(shù)字檔案信息資源體系得以建立。
明清檔案數(shù)字化實現(xiàn)了模擬信號到數(shù)字信號的轉換。但受由少數(shù)民族文字、不同字體的手寫體書寫等因素影響,明清檔案數(shù)據化程度不高,可操作性不強,知識組織和可視化表達更是任重道遠。
2.2 明清檔案信息資源的開發(fā)狀況。檔案開放方面。一史館在館內外平臺開放檔案474萬件、檔案條目416萬條,以供用戶在線或來館查詢。僅2018—2022年,一史館就在局域網開放檔案上百萬件。迄今開放了《清實錄》《清會典》等16個滿漢文全文數(shù)據庫。
編研出版方面。一史館迄今已出版各類檔案出版物3000余冊。僅2010年至2015年,一史館就出版了500余冊,形成國家重點出版項目、專題史料、與地方政府及部門合作出版史料、研究著述這樣多層次的編研成果,[4]成為檔案價值實現(xiàn)的重要途徑和提供系統(tǒng)化信息服務的重要形式。
宣傳利用方面。多年來,一史館與各類研究中心、博物館和地方檔案館合作舉辦展覽或為其提供檔案展品;2004年,一史館開通官方網站,經多次改版,2022年上線最新官網;2016年正式開通官方微信平臺,至此,新媒體和傳統(tǒng)檔案網站協(xié)同發(fā)展;2022年,一史館新館傳統(tǒng)布展和現(xiàn)代化展示結合的多個檔案展覽面向社會開放;在國際檔案日等重要節(jié)點宣傳活動上同央視、新華社等中央媒體密切合作。
然而,因檔案圖像的數(shù)字化成果并不利于深層次開發(fā),缺少現(xiàn)代化信息服務;檔案開放總量提升,但局限于館內信息化平臺,互聯(lián)網開放量不足;檔案編研出版成果雖豐,但形式仍多拘泥于影印式、點校式傳統(tǒng)史料編纂和圖冊圖錄匯編,[5]網絡出版和現(xiàn)代技術運用缺位;檔案展覽呈現(xiàn)以大量靜態(tài)文字圖片為主,方式較單一,對觀眾專注力、理解力有較高要求;社交媒體展現(xiàn)形式仍是傳統(tǒng)紙媒的電子化翻版,多形式、動態(tài)化新媒體特色沒有得到很好體現(xiàn),傳播力與影響力較弱。
3 數(shù)字人文與明清檔案工作的契合性分析
3.1 數(shù)字人文能拓展明清檔案工作思路。明清檔案機構要實現(xiàn)數(shù)字轉型,建設、開發(fā)利用好檔案信息資源,需要引入應數(shù)字時代而生的數(shù)字人文理論和實踐成果,轉變明清檔案人思路觀念,創(chuàng)新工作模式,推進明清檔案工作向縱深發(fā)展以滿足新的時代需求。
具體而言,充分借鑒、利用數(shù)字人文理念、技術方法和工具,進一步優(yōu)化檔案信息資源體系,謀求檔案信息資源開發(fā)利用的多元化、創(chuàng)新性路徑舉措,共享檔案基礎業(yè)務成果,發(fā)揮檔案和檔案工作價值。隨著明清檔案逐漸走進公眾視野,基于數(shù)字人文建設開發(fā)明清檔案信息資源,為社會公眾提供更喜聞樂見的檔案服務內容具有重要意義。
3.2 數(shù)字人文與明清檔案工作在特征上有相適性。一是都重視協(xié)同合作。數(shù)字人文突破學科邊界、強調開放性和協(xié)作性。[6]數(shù)字人文語料來源于不同文化機構的圖書檔案資料、文物和藝術品等。項目目標的實現(xiàn)往往需要跨學科團隊,以吸收有不同專業(yè)技能、知識結構的成員,充分發(fā)揮各自優(yōu)勢,整合跨學科見解。同樣,明清檔案工作的開展離不開檔案學、歷史學、語言學等專業(yè)學科的融合,各項基礎業(yè)務工作也有社會力量的參與。相互合作的不同主體,共同構成明清歷史與文化的建設者與傳播者。
二是都依賴大量數(shù)據信息。大體量語料庫成為數(shù)字人文研究的重要基礎,數(shù)據類型也不再局限于結構化文本,轉而擴展至動靜態(tài)圖像、音視頻等。人文語料庫總體呈現(xiàn)出“大數(shù)據”趨勢。借由可高效處理大規(guī)模數(shù)據的數(shù)字技術,人文研究邁向更深層次,能夠從多維度形成可靠的研究成果。占有2000余萬件明清檔案資源是明清檔案保管主體的最大優(yōu)勢。各項基礎工作的開展和檔案工作價值的實現(xiàn)以及保管主體職能的發(fā)揮緊緊圍繞檔案資源。而要想更好地服務黨和國家工作,服務人民群眾,更離不開大規(guī)模易用檔案信息資源的支撐。
三是都以項目為主要途徑。數(shù)字人文以項目為要素組織形式,當下各種數(shù)字人文研究均以項目為依托,成果也以項目形式呈現(xiàn)。數(shù)字人文將各類語料庫語料、數(shù)字人文研究主體、數(shù)字人文技術方法與工具、平臺等要素集成于項目之中。同樣,明清檔案工作也常需要整合各類資源,以項目形式推進目標實現(xiàn)。
3.3 數(shù)字人文與明清檔案工作的信息需求一致。數(shù)字人文需要海量結構類型多樣的數(shù)字語料。但海量往往意味著無序。數(shù)字人文項目中,對語料的選擇、數(shù)字化、組織、分析、編輯等,[7]需要耗費不少時間精力。占有大量檔案資源的明清檔案機構的一項重要任務就是使龐雜的檔案從無序走向有序。數(shù)字人文和明清檔案工作對信息的量和質的需求有一致性。經過數(shù)代明清檔案人的努力,上千萬件明清檔案經數(shù)字化加工整理,逐漸形成完整序化的數(shù)字檔案信息資源體系。這為數(shù)字人文項目創(chuàng)造了條件。
4 數(shù)字人文視域下的明清檔案信息資源建設思路
4.1 深入推進明清檔案的數(shù)字化、數(shù)據化。數(shù)據驅動型數(shù)字人文基礎性活動和后期文本標記、知識圖譜生成構建等,[8]都以語料數(shù)據化為前提。當前明清檔案圖片式數(shù)字化成果不足以滿足數(shù)字人文項目和機構自身深度開發(fā)檔案信息的需要。一要加快完成數(shù)字化。明清檔案機構館藏檔案數(shù)字化接近尾聲 。但館藏輿圖、玉牒和部分殘檔等形制特殊或保存狀況不佳的檔案未完成數(shù)字化加工。要繼續(xù)探索該類明清檔案數(shù)字化方案,完成實體檔案資料向數(shù)字載體的數(shù)字資料轉換,建立完整的數(shù)字檔案資源體系。二要推進檔案數(shù)據化。面對多以繁體、蒙藏滿等少數(shù)民族文字手寫而成的明清檔案內容,光學字符識別技術(OCR)識別準確率不高,輿圖、玉牒、樣式雷圖檔等形制、內容特別的數(shù)據化更是困難。但要想利用數(shù)字技術實現(xiàn)檔案信息深度開發(fā)、打破信息與利用者之間的屏障,明清檔案機構就應尋求自然語言處理、圖像識別等破解數(shù)據化難題的技術方案。三要加強后端數(shù)據管理。采集明清檔案管理過程數(shù)據、用戶基本信息和行為數(shù)據,建立明清檔案大數(shù)據集,豐富數(shù)據規(guī)模和結構類型,減少數(shù)字人文研究成果的不確定性,以維護人文研究的嚴謹性,并針對性優(yōu)化明清檔案利用服務內容和方式,提高服務質量。
4.2 豐富明清檔案數(shù)據庫建設。數(shù)據庫為數(shù)字人文項目提供語料基礎和技術支撐,也是項目成果的重要呈現(xiàn)形式。檔案保管主體通過數(shù)據庫有序組織數(shù)字化檔案信息、提供檔案信息服務以及參與和開展數(shù)字人文項目。再從檔案信息的數(shù)據化語義表達到結構化知識組織,再到可視化展示以及檔案信息的整合與共享,一系列活動都難以離開數(shù)據庫。
一方面,面向不同服務對象和主題,選擇系統(tǒng)性明清檔案材料,并利用研究成果,來建設更多專題數(shù)據庫,形成有序易用的明清檔案專題數(shù)據集,提升檔案信息組織水平,幫助用戶快速準確查詢、獲取所需信息。同時專題數(shù)據庫也要隨著信息化建設的深入而優(yōu)化,建立更多全文數(shù)據庫、多媒體數(shù)據庫以及其他半結構化、非結構化數(shù)據庫,進一步發(fā)揮數(shù)據庫文獻史料準備的作用,大大減少數(shù)字人文研究前期準備時間,轉而將更多精力用于知識發(fā)現(xiàn)和問題研究。
另一方面,充分考慮歷史事件和現(xiàn)象通常并非孤立存在,而是相互關聯(lián),彼此影響,需要在海量信息中挖掘、分析組織,方能更全面地揭示歷史關系和解釋歷史現(xiàn)象。因此在專題數(shù)據庫系統(tǒng)基礎上,加以擴充或者按類項等邏輯開發(fā)數(shù)據庫,建設聯(lián)系緊密、涵蓋不同主題和檔案類型的綜合性檔案信息數(shù)據庫集群或者說綜合檔案信息資源庫。
4.3 推進明清檔案信息整合與共享。2000余萬件明清檔案散存于境內外約200家機構。其中,不到40家機構館藏逾千卷(冊),僅13家超萬卷(冊),[9]保管主體較為分散,呈信息孤島之勢,部分檔案表現(xiàn)為碎片化狀態(tài),不利于整體開發(fā)利用,價值實現(xiàn)不盡如人意。
明清檔案保管主體應貫徹執(zhí)行新修訂《中華人民共和國檔案法》中檔案信息化建設要求,建立主體協(xié)同機制,以標準規(guī)范與制度體系、現(xiàn)有或新搭建平臺探索檔案信息整合與共享模式。通過已建立起的全國明清檔案目錄中心進一步摸清明清檔案最新保存、開發(fā)利用狀況,便于做整體設計。
一方面,加強檔案信息整合。分布式明清檔案保管主體的檔案信息資源庫接入全國檔案查詢利用服務平臺或者建立其他統(tǒng)一平臺,開發(fā)和關聯(lián)異地異質數(shù)據庫,以整合不同主體和不同類型的檔案信息。
另一方面,要加強檔案信息共享。一是不斷擴展檔案開放廣度。既要使館藏檔案應開放盡開放、早開放,完善開放信息資源體系,又要從單位內網向互聯(lián)網開放延伸,擴大資源可獲取范圍和主體,不斷突破檔案利用的時空壁壘。二是要強化檔案信息開放深度。建立開放型免費數(shù)據庫系統(tǒng),并從開放目錄到開放全文網上查詢利用循序漸進,降低信息獲取門檻,讓數(shù)字人文研究者和其他檔案利用者方便快捷地經互聯(lián)網檢索高度組織的檔案信息,推動人文研究從有限的文本到無限文本的快速獲取與分析。
5 數(shù)字人文視域下的明清檔案信息資源開發(fā)思路
5.1 主動以數(shù)字人文項目帶動檔案信息開發(fā)。項目是數(shù)字人文的基本單位,也是檔案信息資源開發(fā)的重要途徑。明清檔案保管主體應利用館藏檔案天然資源優(yōu)勢、歷史學與檔案學復合型專業(yè)能力的后天條件與既往工作經驗,主動組織人力、技術和資金實施明清檔案數(shù)字人文項目,在目標導向下保持在項目過程控制中的話語權,輔助人文語料庫建設。
明清檔案多元價值的實現(xiàn)依賴不同差異化思維與技能主體從不同角度的詮釋。實踐領域專家、學者能為突破明清檔案繁體、少數(shù)民族文字的手寫體OCR技術識別轉化困境提供技術解決方案;數(shù)字人文實踐項目團隊具有利用社會化眾包參與模式嘗試檔案著錄、標記與注釋等工作的經驗[10];圖書館界、文學界積累了中文自然語言處理、語料庫語料建設方面的成功做法。圍繞文化建設、記憶保存和構建等主題,明清檔案保管主體組織人文研究者和其他主體、歷史語料等項目要素開展數(shù)字人文項目,在項目實施以及后續(xù)維護中努力保障項目順利進行和成果的長期可持續(xù)性,以項目促檔案信息開發(fā)利用。借項目組織實施,積極融入數(shù)字人文社群,在合作中積累面向不同群體需求的檔案建設與開發(fā)經驗,不斷提高信息傳遞與接收效能。
5.2 檔案業(yè)務工作中加強數(shù)字人文技術與理念應用。明清檔案保管主體不僅要嘗試在數(shù)字人文項目中運用數(shù)字人文技術方法,也要試著將其擴展至常規(guī)工作。
創(chuàng)新展覽宣傳。文字與圖像相結合的形象化、抽象化表達有時更能清晰表達意圖,也使接收者更易接受。文字為主的明清檔案內容要求受眾精讀、細讀。受眾的持續(xù)專注力、閱讀理解力、語言文字水平等直接影響檔案內容信息傳播效果。為此,可將數(shù)字人文常用的3D建模技術、虛擬現(xiàn)實(VR)與增強現(xiàn)實(AR)等數(shù)字技術用于館藏圖像類檔案,實現(xiàn)虛擬重建和可視化展示,擺脫傳統(tǒng)實體靜態(tài)的單一呈現(xiàn)方式。亦可嘗試基于分層制圖技術、知識圖譜等,從不同維度關聯(lián)、分析和闡釋歷史,營造觀眾參與式歷史故事講述情景模式。以輿圖為例,可基于輿圖內容現(xiàn)實考察,結合地理信息系統(tǒng)分析工具(GIS)、時空數(shù)據庫構造查詢功能等,為用戶營造該圖景往昔情境的相對真實的共時性觀感體驗,強化用戶對歷史流動魅力的沉浸式感受。
優(yōu)化檔案編研。數(shù)字人文成果并非海量數(shù)據的簡單整合堆砌,而是基于語料庫的知識生產和再創(chuàng)造。明清檔案編研要創(chuàng)新成果,根據現(xiàn)實需要強化編研內容的深度??山柚Y源建設成果、依托數(shù)據挖掘與可視化等技術工具手段,將編研工作重點不斷轉向注重歷史現(xiàn)象與問題研究,將單一的信息提供服務擴展至生產性知識創(chuàng)造,致力于輸出解釋性成果。數(shù)字人文一改突出文本的首要地位,轉而重在強調視圖化的知識生產與組織。[11]因此在編研成果的呈現(xiàn)方式上,要嘗試加強可視化表達,補充與豐富相對匱乏的視覺效果,走向面向普通受眾的瀏覽式、顯性化閱讀,并以更好的交互設計提升用戶的參與感,減少受眾疲態(tài)。
5.3 打造新形勢下的檔案服務利用平臺。無論數(shù)字人文還是檔案信息資源開發(fā)利用,都要依托平臺。這要求協(xié)同構建起檔案信息開發(fā)利用平臺和數(shù)字人文項目平臺。依托平臺來傳遞信息以及完成信息的加工、展演和再生產。
具體來說,可依托館內檔案信息查詢利用系統(tǒng)、官方門戶網站、微信公眾號等現(xiàn)有平臺,做好平臺的改造升級,打造集成數(shù)字人文項目實施和最終項目成果展示平臺、檔案信息加工組織以及檔案信息服務利用的綜合性平臺。官方網站和微信公眾號不能僅僅發(fā)布政務信息、提供初級檔案信息查詢利用服務和設置一些簡單粗糙的功能模塊。而是要打造成包含案例故事、人文數(shù)據庫[12]、網上展廳和有統(tǒng)一入口的分布式明清檔案信息一站式查詢利用等功能的平臺系統(tǒng)。微信公眾號不單單發(fā)布小文章、政務信息和提供部分目錄查詢,更要努力打造為可查詢檔案信息全文、網絡在線看展以及線上交互的新型檔案服務平臺。此外,數(shù)字人文項目中的溝通、圖形與視覺方面的設計師關注語言的符號化表達、概念的圖形化表達,交互/用戶體驗設計師關注接口、行為,而媒體設計師則將溝通和交互相結合。[13]因此,要在平臺設計時,留意平臺的視覺、圖形和接口設計,對文字、圖片的排列組合、閱讀的層次結構和交互導航等設計要素多加關注,力求適應用戶行為特點,提升受眾的平臺使用體驗感。
注釋與參考文獻:
[1][7][8][11][13]安妮·博迪克,約翰娜·德魯克,彼得·倫恩費爾德等.數(shù)字人文改變知識創(chuàng)新與分享的游戲規(guī)則[M].馬林青,韓若畫譯.北京:中國人民大學出版社.2018.
[2][3][4]胡旺林主編.明清檔案事業(yè)九十年——中國第一歷史檔案館發(fā)展歷程1925—2015[M],北京:人民出版社,2016.
[5]趙菁.明清檔案編纂成果的著作權保護[J].檔案管理,2022(03):63-64+67.
[6]大衛(wèi)·M·貝里,安德斯·費格約德.數(shù)字人文:數(shù)字時代的知識與批判[M].王曉光等譯.大連:東北財經大學出版社,2019.
[9]《明清檔案通覽》編委會.明清檔案通覽[M].北京:中國檔案出版社,2000.
[10]牛力,劉慧琳,曾靜怡.檔案工作參與數(shù)字人文建設的模式分析[J].檔案學通訊,2020(05):62-67.
[12]蘇依紋.檔案機構主導開發(fā)數(shù)字人文項目的方法探究——以美國馬里蘭州檔案館奴隸制文化遺產項目為例[J]浙江檔案,2020(09):21-23.
(作者單位:1.中國第一歷史檔案館 田呈彬,檔案學碩士,館員;2.山東大學歷史文化學院 王寧,檔案學博士,講師,助理研究員 來稿日期:2022-12-20)