文·周倩 唐偉鵬
“智慧檔案”起始于2008年IBM提出的“智慧地球”“智慧城市”的未來人類社會美好發(fā)展愿景。[1]2018年7月在青島舉行的第五屆全國高校青年檔案學(xué)者學(xué)術(shù)論壇隨之以“檔案與智慧社會”為主題,借鑒浙江智慧檔案與青島智慧檔案館的建設(shè)經(jīng)驗,探討在全國各地進一步推廣“智慧檔案”的理念,推進以“智慧化”為目標(biāo)的智慧檔案工作與智慧檔案館建設(shè),以應(yīng)對當(dāng)前“互聯(lián)網(wǎng)+智慧城市”的發(fā)展趨勢,促進檔案資源進一步開放和挖掘利用,讓檔案貢獻智慧的力量。習(xí)近平總書記也強調(diào),把智慧檔案建成在全國可推廣應(yīng)用的科技成果,實現(xiàn)數(shù)據(jù)資源整合與開放共享,使檔案事業(yè)朝著智能與智慧的方向邁進。[2]
檔案編纂作為傳承社會記憶的重要方式之一,隨著智慧城市、智慧檔案的建設(shè)也在潛移默化地受到影響,載體形態(tài)與傳播形式日趨豐富,但檔案編纂工作流程亟待升級。近十年來,云計算、大數(shù)據(jù)技術(shù)迅速崛起,檔案編纂可運用強大的數(shù)據(jù)處理技術(shù),改進文獻編纂的環(huán)節(jié),提升文獻校對與編輯加工的品質(zhì),并以多元化、多媒體的方式呈現(xiàn),編纂出真正符合大眾文化需求、傳承智慧城市記憶的作品,讓檔案編纂成果能以趣味性、易讀性的方式引起“暢銷書”式的活態(tài)效應(yīng),讓檔案真正貼近生活,發(fā)揮育人價值,為智慧社會服務(wù)。
2016年在韓國首爾召開的第18屆國際檔案大會以“檔案、和諧和友誼”為主題,其中“檔案行業(yè)內(nèi)外的合作”也成為本次大會學(xué)者們熱議的論題之一,說明過去檔案工作的主體——檔案館已經(jīng)不再“一家獨大”,檔案事業(yè)已經(jīng)步入了尋求跨館、跨界的社會合作和群策群力的新時代。在智慧檔案建設(shè)的當(dāng)下,檔案編纂工程的多方跨界合作尤其明顯。檔案館無疑是各載體類型檔案存儲資源相對豐富的寶庫,然而容量有限,又受歷史收藏因素影響,仍然有許多珍貴的原始資料保存在圖書館、博物館或者散存于民間,所以需要通過合作互通才能集齊原始資料。而且檔案館內(nèi)的人才儲備類型單一,對檔案編纂成果的展示形式比較陳舊,迫切需要跨界合作來各盡所長,優(yōu)勢互補,匯聚科技力量與思維的火花,創(chuàng)新檔案編纂成果的形式。近日,上海師范大學(xué)信息管理系與上海金山檔案館就合作打造了一款“紙上漁村”的游戲,該游戲的素材便來源于金山檔案館的上海漁村檔案匯編成果之中的一張?zhí)夭貦n案《海漁圖》,通過游戲的虛擬體驗讓用戶仿佛身臨其境地了解上海的漁村文化,改變了對檔案編纂成果的刻板印象,讓白紙黑字真正“活”了起來。
傳統(tǒng)的檔案編纂成果主要以書籍出版物的形式出現(xiàn),由于受到出版發(fā)行量等條件的限制,書籍出版物的傳播范圍以及傳播速度較為緩慢,造成了社會的認(rèn)知程度不高。[3]而且這類出版物通常厚重,滿頁白紙黑字,除了相關(guān)領(lǐng)域研究者會閱讀利用外,無法吸引社會大眾興趣,社會總體利用率相當(dāng)?shù)?。智慧檔案建設(shè)中的重要一環(huán)便是檔案社交媒體的推送服務(wù),許多檔案館官方微博或者微信公眾號都會主動向用戶推送本館參與編纂或者館藏的專題數(shù)字檔案匯編成果珍品,以介紹內(nèi)容或者節(jié)選精華組成專題的形式分期推送,使檔案編纂成果變被動為主動服務(wù),如云南大學(xué)民族檔案學(xué)微刊公眾號下就有“論著輯要”模塊,定期推送民族檔案學(xué)研究相關(guān)的檔案編纂出版物內(nèi)容介紹及節(jié)選精華,讓躺在圖書館的檔案編纂成果為大眾所認(rèn)識并便捷地提供利用。
在智慧檔案建設(shè)過程中,檔案編纂工作的制度法規(guī)也會不斷地調(diào)整更新,更關(guān)注網(wǎng)絡(luò)環(huán)境下涉及紙質(zhì)編纂成果的數(shù)字化轉(zhuǎn)錄版權(quán)以及其內(nèi)容是否符合檔案公開的相關(guān)規(guī)定;數(shù)字檔案編纂物的網(wǎng)絡(luò)轉(zhuǎn)載中的著作權(quán)保護;盜版數(shù)字編纂作品的出版與非法轉(zhuǎn)載等一系列問題。有的名人日記、手稿、作品匯編成果甚至牽扯到個人隱私權(quán)的保護問題。而且檔案編纂成果的載體形式越來越多種多樣,所以編纂工作的制度法規(guī)一方面將擴大受保護的檔案編纂成果的載體范圍、涉及的權(quán)利范圍,另一方面也將加強網(wǎng)絡(luò)轉(zhuǎn)載與傳播的著作權(quán)保護。
選題在檔案編纂中占有舉足輕重的地位,通常需結(jié)合社會需求、材料基礎(chǔ)、編輯力量來綜合考量選題,社會需求關(guān)系到編纂題目價值的實現(xiàn);編纂力量制約著題目完成的質(zhì)量,材料基礎(chǔ)為題目發(fā)揮價值的根本,三足鼎立共同發(fā)揮作用。如何能在智慧檔案時代海量的數(shù)據(jù)中抓取文獻編纂需要的信息來輔助選題決策,數(shù)據(jù)處理技術(shù)便派上了用場。
1.運用社交媒體征集社會需求反饋
現(xiàn)代社交媒體是人們茶余飯后必備的交流互動平臺,目前80%的檔案信息門戶網(wǎng)內(nèi)都配備了用戶反饋論壇及互動功能,檔案館可以在此發(fā)布相關(guān)備選文獻編纂主題信息,征求用戶的建議。此外,如今各大檔案館均有認(rèn)證的微信公眾平臺和微博平臺,可在網(wǎng)絡(luò)上發(fā)起關(guān)于備選編纂文獻題目的在線投票,檔案館可根據(jù)需要建立用戶數(shù)據(jù)庫,采集記錄用戶的詳細(xì)信息如過去的利用記錄、用戶的喜好和特殊需求等等,并通過相應(yīng)軟件對用戶信息進行統(tǒng)計、分析和處理。[4]以此來遴選出符合大眾期待心理的編纂選題。
2.運用智慧檔案管理工具統(tǒng)計資源藏量
材料基礎(chǔ)是指編纂選題所依據(jù)的檔案價值、數(shù)量與構(gòu)成,因此選題必須具備一定的檔案基礎(chǔ),才能保證題目順利進行并最終完成。所選檔案材料的價值越大,編纂作品越有意義。目前在智慧檔案管理平臺中配備有智能化統(tǒng)計功能的軟件平臺很多,量子偉業(yè)和光典在此方面的研發(fā)水平走在前列,尤其是光典在今年發(fā)布了基于OAIS參考模型設(shè)計的光典V5.0實力吸睛,光典V5.0開發(fā)模式參考魔方設(shè)計,將每一項檔案業(yè)務(wù)拆分為一個“鍵”,可根據(jù)客戶需求靈活組配業(yè)務(wù)功能“鍵”,部署自己的檔案業(yè)務(wù)魔方,各業(yè)務(wù)功能“鍵”還可調(diào)整,定期更新,大大降低了系統(tǒng)二次開發(fā)的成本。配備的智能化臺賬分析功能“鍵”給檔案編纂者帶來了便利,可統(tǒng)計選題相關(guān)的檔案藏量有多少,輔助決策。
3.運用大數(shù)據(jù)挖掘“時間衰變算法”預(yù)測選題預(yù)期價值
時間衰變的概念來源于德國心理學(xué)家艾賓浩斯設(shè)計的“遺忘曲線”,描述了人類大腦對新事物遺忘的規(guī)律,遺忘是有規(guī)律的,遺忘的進程很快,并且先快后慢。因此人們的興趣偏好會隨著時間的轉(zhuǎn)移而發(fā)生變化,這個數(shù)據(jù)挖掘算法最初是用來幫助電商通過計算用戶的網(wǎng)上購物瀏覽、收藏、加入購物車和購買的記錄數(shù)據(jù)以了解用戶對各種商品的興趣取向,從而根據(jù)市場需求更好地推薦商品。筆者認(rèn)為對待選題編纂成果的預(yù)期社會效應(yīng)預(yù)測與編者力量集聚也可以運用此算法,該算法以Spark實現(xiàn)模型為工具,結(jié)合業(yè)務(wù)的實際場景,可以從出版商處計算出與待選主題相近的以往出版編纂成果的市場銷售情況、編者情況,從圖書館提取待選主題相近的以往出版編纂成果的借閱次數(shù),再輔之檔案館的檔案查詢記錄數(shù)據(jù)、查詢者身份數(shù)據(jù),綜合時間的推移,計算出近期的關(guān)注熱點,通過共被引分析還能進一步分析出熱點研究方向的編者集聚,給選題的確定以及編輯的選擇帶來更多的啟發(fā),讓檔案編纂成果選題具有一定的群眾文化需求與市場、科研需求。
一般來說,與編纂題目相關(guān)的檔案文獻是客觀存在的,但因檔案資源內(nèi)容混雜、保存分散且數(shù)量巨大,編者要從海量的檔案資源中提取出目標(biāo)素材資源,需要運用一定的策略方法把握專題內(nèi)檔案文獻的分布狀況,盡可能全面而又博約得當(dāng)?shù)厮鸭瘷n案素材。
1.充分利用人工智能檢索技術(shù)
20世紀(jì)90年代以來,現(xiàn)代信息技術(shù)的革新加速推進了檔案館的信息化進程,充分掌握并運用現(xiàn)代信息檢索技術(shù)是每個檔案編纂者必須掌握的首要技能,檢索工具的演變經(jīng)歷了從原始的手工檢索到計算機檢索、網(wǎng)絡(luò)化檢索的發(fā)展,如今在往智能化檢索方向邁進,目前大部分智慧檔案管理系統(tǒng)配備的都是支持語義關(guān)聯(lián)功能的檢索系統(tǒng),即通過先進的檢索系統(tǒng)實現(xiàn)不同受控詞表和不同結(jié)構(gòu)知識組織系統(tǒng)間的兼容和轉(zhuǎn)換檢索,在檔案信息系統(tǒng)中做到直接抽詞、賦詞,并實現(xiàn)自動標(biāo)引、自動分類、自動全文檢索等功能。[5]
而由人工智能驅(qū)動的語義檢索系統(tǒng)并非傳統(tǒng)的字符匹配技術(shù),是由人工智能模擬人的認(rèn)識能力,實現(xiàn)根據(jù)檔案信息內(nèi)容及內(nèi)容關(guān)聯(lián)程度直接解決現(xiàn)實問題的功能。利用Python編程爬蟲技術(shù)可以實現(xiàn)廣泛的數(shù)據(jù)抓取,目前已經(jīng)研發(fā)出了人工智能專利檢索Patentics小程序不僅能根據(jù)元數(shù)據(jù)在全球的專利數(shù)據(jù)庫中自動匹配出相關(guān)的專利文獻,還具備類似Citespace的功能,根據(jù)用戶想要了解的諸如研究爆發(fā)點、關(guān)鍵詞、共被引、作者相關(guān)信息生成可視化集聚地圖,非常直觀。筆者認(rèn)為智能檢索技術(shù)的應(yīng)用將使檔案編纂者檢索時不僅能看到檔案原文,還能獲得相關(guān)類似編纂成果在全球的館藏、編者集聚、查閱利用程度等更為豐富的信息。
2. 檔案專題數(shù)據(jù)倉庫成為素材匯集的陣地
在智慧檔案時代,新的電子檔案資源在源源不斷地產(chǎn)生,因此電子檔案將成為檔案資源的主流。檔案專題數(shù)據(jù)庫作為跨全宗、多類別的檔案數(shù)據(jù)鏈接組合及系統(tǒng)性的檔案數(shù)字化綜合開發(fā)成果的重要形式,以各類檔案基礎(chǔ)數(shù)據(jù)庫為主要數(shù)據(jù)來源, 通過檔案信息管理系統(tǒng), 按照某一專門題材內(nèi)容編制而成的各類檔案數(shù)據(jù)集合。[6]檔案專題數(shù)據(jù)庫包括文獻數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、數(shù)值型數(shù)據(jù)庫、事實型數(shù)據(jù)庫。目前文獻數(shù)據(jù)庫與多媒體數(shù)據(jù)庫是各大檔案門戶信息網(wǎng)提供的檔案編纂利用的主要素材匯集陣地,如云南檔案網(wǎng)直接提供有涉及云南少數(shù)民族檔案、云南南僑機工及滇軍抗戰(zhàn)相關(guān)原始檔案材料的專題數(shù)據(jù)庫在線閱覽服務(wù),浙江檔案信息網(wǎng)的專題數(shù)據(jù)庫便是多媒體與文獻數(shù)據(jù)庫融合的典范,利用VR技術(shù),提供了關(guān)于“難忘浙江事”“大寫浙江人”等相關(guān)珍檔掃描原件的在線虛擬展覽,還配有二次編纂文字說明,非常生動。
但是目前各大檔案信息網(wǎng)內(nèi)的專題數(shù)據(jù)庫都是互相孤立的,所以需要技術(shù)手段的運用,將每個網(wǎng)站內(nèi)相關(guān)專題數(shù)據(jù)庫抓取出來,組成一個共建共享的檔案編纂數(shù)據(jù)倉庫,目前,國家超級計算深圳中心研發(fā)的“超算檔案云”是利用云計算技術(shù)及各種信息化手段,在實現(xiàn)智能檔案管理基礎(chǔ)上,實現(xiàn)檔案信息資源共享的超大分布式系統(tǒng),它的優(yōu)勢就是存儲容量巨大,并且采用B/S結(jié)構(gòu),支持Oracal、MS SQL Server數(shù)據(jù)庫,它內(nèi)嵌有支持檔案編纂的功能,又有國家政策和技術(shù)的支持,筆者認(rèn)為“超算檔案云”將會在數(shù)字檔案編纂倉庫組建這一領(lǐng)域占有一席之地。
1.智能化的轉(zhuǎn)錄加工
檔案文獻的轉(zhuǎn)錄加工不僅要將檔案原文字符如實地轉(zhuǎn)錄到其他載體上,還要根據(jù)出版形式的要求對其字體、行款格式、批語標(biāo)記等進行必要的技術(shù)性處理,智能化的轉(zhuǎn)錄加工將可調(diào)控一切。
(1)利用OCR光學(xué)識別進行傳統(tǒng)紙質(zhì)檔案信息的轉(zhuǎn)錄加工
OCR 光學(xué)字符識別的原理是采用光學(xué)的方式實現(xiàn)紙質(zhì)文檔--點陣圖--文本文檔的轉(zhuǎn)換。跟傳統(tǒng)的掃描技術(shù)有所區(qū)別,傳統(tǒng)的掃描技術(shù)只是將紙質(zhì)版原件轉(zhuǎn)換成了電子版原件,只有載體形態(tài)發(fā)生了改變,但不能對其文字信息與格式信息進行提取、編輯,OCR技術(shù)則不僅具有可以自動判斷、拆分、識別和還原各種通用型印刷體文本及表格的功能,還能自動分析文稿的版面布局,自動判斷出標(biāo)題、符號、段落格式等相應(yīng)屬性。目前有許多OCR軟件如Tesseract OCR、廈門云脈、白描、星如文字識別、文通慧視等,功能非常強大,能在提取文本信息的基礎(chǔ)上,對行款格式、批語標(biāo)記、標(biāo)點分段、字體字號等進行處理,大大方便了后期的編輯。
(2)利用現(xiàn)代多媒體處理軟件對新型載體檔案信息轉(zhuǎn)錄加工
現(xiàn)代新型載體的檔案主要包括照片、實物檔案轉(zhuǎn)錄圖片、音頻視頻、口述檔案轉(zhuǎn)換的多媒體文件等,對新型檔案內(nèi)容的復(fù)制與遷移需要日常磁帶備份技術(shù)或異地遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù)等來實現(xiàn), 可進行網(wǎng)絡(luò)共享備份、異地數(shù)據(jù)備份或自動智能化備份。[7]在對這些檔案進行遷移后,需進行必要的技術(shù)處理,以保證檔案編纂成品的品質(zhì)。對于照片圖片可利用ACDSee Free、光影魔術(shù)手、Adobe Photoshop CC等專業(yè)的圖片處理軟件來調(diào)整圖像的成像度、分辨率、尺寸,去掉圖片的污點與劃痕、改善褪色以及字跡模糊狀況;對于音頻可用Adobe Audition CS6來剪輯掉非公開部分的內(nèi)容,并且消除噪音,改善音質(zhì);對于視頻可用Adobe旗下的After Effects以及Premiere、愛剪輯,在盡量保持文獻原貌的前提下,增強畫面清晰度,在需注釋介紹的部分配上文字說明,依編纂邏輯順序用轉(zhuǎn)場特效進行各章節(jié)自然銜接,保持編纂成果完整性;對于口述檔案信息的轉(zhuǎn)錄可用一些可支持方言及多國語言的語音識別軟件,科大訊飛旗下的“語記”、飛訊官方的一款手機錄音軟件“錄音寶”、Speechnotes等都是直接在移動設(shè)備上就可在線錄音并即刻轉(zhuǎn)為文本的軟件,非常便捷。可配合“錄音整理校對專家”輔助使用,減少錯誤率,給讀者完美的編纂成果。
2.運用電子編輯軟件排版與定校
電子編輯軟件自身配備了海量的各類型版式模板可供使用,可以給檔案文稿擬定標(biāo)題、添加標(biāo)點、插入目錄、撰寫題解、按語或凡例等評論性的輔文、插入注釋等,做好排版設(shè)計,還可自動校對文字內(nèi)容、標(biāo)點使用是否有誤,能對插入的圖像平移、縮放、剪裁、調(diào)整顏色和亮度,更改照片的形狀,并支持Word 文檔、JPEG、PDF、xps、html等多種格式的輸入與導(dǎo)出,使用起來非常便利。Adobe InDesign 是目前國際上最常用最專業(yè)的排版軟件,但是對于非專業(yè)出版設(shè)計人員而言,使用較為困難。筆者認(rèn)為微軟的office Publisher于檔案編纂人員來說是最佳選擇,使用方式比較“傻瓜式”,工具欄設(shè)計跟word版面一樣,還能使用內(nèi)嵌的海量編輯模板,設(shè)計控件的排列可以自由控制,實現(xiàn)過程非常容易、有趣而快速,讓檔案編纂徹底從傳統(tǒng)模式中解放出來,實現(xiàn)智慧編纂。
檔案編纂是檔案提供利用的主要方式之一,所以智慧檔案管理信息系統(tǒng)都內(nèi)嵌有檔案編纂管理系統(tǒng),如今國內(nèi)涉及檔案編纂管理功能的信息系統(tǒng)能實現(xiàn)專家智能決策功能的很少,隨著元果科技、科大訊飛、光電V5.0等一批智慧檔案管理軟件系統(tǒng)的崛起,其內(nèi)嵌的檔案編纂管理功能將會越來越完善,實現(xiàn)從編者人選到選題、搜集素材、編輯加工素材、排版設(shè)計的人力資源匹配與編纂過程全流程的掌控。
智慧檔案信息系統(tǒng)的終極目標(biāo)是要打造為一個檔案知識庫,智慧檔案信息系統(tǒng)在組織信息資源過程中就加入機構(gòu)部門、主題、領(lǐng)域、責(zé)任者等方式,并能根據(jù)分類提取相關(guān)的關(guān)聯(lián)詞組,并描述出它們的上下位類和語義聯(lián)系,以方便相同類型的檔案信息進行聚類組織。[8]而且其內(nèi)置的數(shù)據(jù)統(tǒng)計功能能夠提供各專題檔案的聚類、以往二次或多次編研檔案知識模塊的集合、剛解禁檔案的集合等豐富的素材,也能統(tǒng)計出以往主題相似已出版成果的編者情況與利用情況數(shù)據(jù),作為選題參考。
智慧檔案信息系統(tǒng)內(nèi)嵌的檔案編纂管理系統(tǒng)按編纂環(huán)節(jié)實行模塊化管理,賦予不同職能環(huán)節(jié)的編纂者相應(yīng)的權(quán)限,即負(fù)責(zé)相應(yīng)編纂環(huán)節(jié)的人員只能瀏覽和修改自己權(quán)限內(nèi)的編纂內(nèi)容,系統(tǒng)日志隨時監(jiān)控每份檔案素材的編纂情況,并具有時滯控制提醒功能,一旦超時未完成預(yù)定工作任務(wù),就會自動提醒。自動編目系統(tǒng)按照編纂者給出的編排指令在線對檔案資料進行動態(tài)的虛擬編排,自動校對文字與格式錯誤,上傳指令給專家窗口審核人員進行收尾的完善。通過智能化的管控,讓檔案編纂過程實現(xiàn)定質(zhì)標(biāo)準(zhǔn)化運作,提升編纂品質(zhì)。
過去檔案編纂成果以紙質(zhì)出版物、光盤出版物為主,而現(xiàn)在主要以網(wǎng)絡(luò)出版物為主,通常掛接在各檔案信息網(wǎng)、檔案局(館)官網(wǎng)內(nèi),以專題數(shù)據(jù)庫及網(wǎng)上在線展覽的形式呈現(xiàn)為主。近年來,隨著VR虛擬技術(shù)傳入國內(nèi)掀起一股熱潮,如浙江寧海、上海靜安、香港等地均推出了“VR+檔案”應(yīng)用的活態(tài)檔案編纂成果體驗展。2017年4月,清華大學(xué)團隊結(jié)合帝王《起居注》《內(nèi)務(wù)府奏銷檔》及《圓明園內(nèi)工則例》等的記載,深入研讀文獻史料,重新發(fā)掘圓明園不為人知的歷史人文過往、園林建筑風(fēng)情,重現(xiàn)園內(nèi)昔日盛景,研發(fā)了VR圓明園移動導(dǎo)覽系統(tǒng)和圓明園虛擬游園系統(tǒng)。VR 虛擬技術(shù)可運用于網(wǎng)絡(luò)檔案編纂出版物的展示上,既可以通過挖掘編纂成果內(nèi)容,將其進行虛擬場景還原,讓人身臨其境般地體驗,也可直接做成VR書籍,進行虛擬翻閱,既節(jié)省資源,又能使其得到永久的活態(tài)保存。還可利用3D打印技術(shù)直接對一些從實物檔案上轉(zhuǎn)錄的檔案匯編進行檔案實物再現(xiàn)的活態(tài)化展示。
檔案編纂是開發(fā)利用檔案的智慧結(jié)晶,也是傳承檔案文化、發(fā)揮檔案價值的重要傳播紐帶,在互聯(lián)網(wǎng)+智慧城市快速發(fā)展的當(dāng)下,檔案編纂的發(fā)展不應(yīng)該止步不前,應(yīng)搭上智慧檔案建設(shè)的快車,依托智能的管理平臺、技術(shù)手段、傳播媒介,優(yōu)化編纂流程,并且創(chuàng)新編纂成果向社會提供利用服務(wù)的方式,讓原本束之高閣的前人智慧成果真正融入社會大眾的精神生活,傳承社會記憶,弘揚優(yōu)秀檔案文化。