藺文卓
摘 要:長期以來,檔案的編研工作尤其是歷史檔案部分的編研工作信息量大、難出成果,一直成為檔案編研工作的難點。與整個檔案工作相比相對滯后。目前信息化、數(shù)據(jù)化時代的到來,為歷史檔案編研工作帶來了全新的機遇。筆者從數(shù)據(jù)化的本質出發(fā),將數(shù)據(jù)化引入到檔案編研工作中來,提出了建立歷史檔案數(shù)據(jù)庫,運用數(shù)據(jù)化、數(shù)據(jù)追蹤、智能分析等手段開展歷史檔案編研的全新路徑。
關鍵詞:歷史檔案;編研滯后;運用智能;全新途徑
DOI:10.12249/j.issn.1005-4669.2020.26.079
歷史檔案一般是指明清以來,直至中華人民共和國新中國成立前所形成的具有保存價值的檔案。它反映了我國近6百年的發(fā)展歷史,由于歷史時段長、資料數(shù)量大,人們在歷史檔案編研時,總是在浩如煙海的歷史資料中,耗時、耗人、耗材的苦苦搜尋,在歷經(jīng)幾多艱難后,方能查到一些有價值的資料。這種傳統(tǒng)的資料查找和檔案利用方式已嚴重制約了歷史檔案的編研工作。所以為破解這一難題,為檔案的編研工作探尋更便捷的工作方式,筆者從數(shù)據(jù)化的入手,重新審視歷史檔案編研工作,提出了基于數(shù)據(jù)化,采用挖掘技術,建立數(shù)據(jù)化追溯數(shù)據(jù)庫,實現(xiàn)檔案資料文本、片段數(shù)據(jù)化等方法,打開服務編研工作的新路徑。
1 歷史檔案編研現(xiàn)狀
目前我國檔案管理機構已經(jīng)普遍開展了檔案數(shù)字化工作,并且實現(xiàn)了部分歷史檔案的數(shù)字化。但是,數(shù)字化工作的有效開展,并不意味著編研工作進入了快車道,因為從遼寧省縣級以上檔案管理機構看,大多檔案數(shù)字化只是將原有的檔案實現(xiàn)了全文掃描,只是形成了一張具有編號、目錄,而且是計算機編目下的圖片,只能實現(xiàn)在知道本頁基本信息的情況下的一種基本調閱。還沒有開展運用數(shù)據(jù)化技術。所以我們很有必要掌握,運用數(shù)據(jù)化技術,推進檔案編研工作發(fā)展的速度。檔案數(shù)據(jù)化是指,將檔案信息化轉化為計算機可以閱讀的檔案信息資源的過程,并實現(xiàn)計算機自動分析、理解和處置檔案信息,將利用檔案的途徑由“頁面閱讀”轉變?yōu)椤皟热菘刂啤薄靶畔㈤_發(fā)”,并可以進一步轉化為可制表分析的數(shù)據(jù)態(tài)檔案。就是說簡單的圖片模式的數(shù)字化不是數(shù)據(jù)化,只有可智能識讀、可分析的數(shù)據(jù)信息,才是真正意義上的數(shù)據(jù)化。也就是說目前各個檔案機大多數(shù)沒有進行歷史檔案編研數(shù)據(jù)化工作。
2 實現(xiàn)歷史檔案數(shù)據(jù)化編研的新路徑
1)建立可追溯檔案數(shù)據(jù)庫。實現(xiàn)歷史檔案的數(shù)字化,是進行數(shù)據(jù)化編研的首要條件。根據(jù)實際工作與研究預測,只有在實現(xiàn)了全文數(shù)字化之后,才能建立以數(shù)字化為基礎的全文數(shù)據(jù)化數(shù)據(jù)庫。這就需要我們以數(shù)字化為基礎,建立歷史檔案數(shù)據(jù)庫,這是實現(xiàn)檔案數(shù)據(jù)化編研的第一步。對于歷史檔案的數(shù)字化圖片,只要將其圖像承載的內容進行著錄并輸入計算機,并按照一定的編碼規(guī)律歸類,并利用OCR技術對圖片中的文字加以識別,轉變?yōu)閿?shù)字化的可處理的格式,從而實現(xiàn)歷史檔案從數(shù)字化到數(shù)據(jù)化的根本轉變。
2)采用挖掘技術,實現(xiàn)文字片段的數(shù)據(jù)追蹤。文字片段的數(shù)據(jù)追蹤,是數(shù)字化的終極目標。因為在數(shù)字化階段,雖然我們的存量檔案已經(jīng)存入了電腦,但是在數(shù)字化圖片模式下,計算機對其是不能識讀的。當利用者要查找某一內容時,當輸入關鍵字后,計算機并不會將相關的文字片段全部呈現(xiàn)在屏幕上。只有當你知道它在那本書上,這種檢索才是準確有效的。正如黃強在《數(shù)字化與數(shù)據(jù)化》(見《住宅與房地產(chǎn)》2020年5期)一文中指出的那樣,只有采用“能識別數(shù)字圖像的光學字符識別軟件來識別文本的字、詞、句和段落,如此一來,書頁的數(shù)字化圖像就轉化成了數(shù)據(jù)化文本。通過檢索和查詢,我們可以對它進行無窮無盡的文本分析;也可以揭示一個詞以及詞組第一次出現(xiàn)的時間及其成為流行詞的時間,據(jù)此發(fā)現(xiàn)幾百年來人類思維發(fā)展和思想傳播的軌跡?!睂τ跉v史檔案編研工作而言,多年來,檔案工作者都是采用人工翻閱的模式開展編研工作,每篇文章、每部作品的出爐,由于資料的查找難度大,總要花費幾個月甚至幾年的時間。如果歷史檔案全部實現(xiàn)數(shù)據(jù)化,要想開展某個專項的研究,只要在計算機的搜索欄里輸入關鍵詞或某個文本片段,文獻中關于這方面的內容就會全部顯示在屏幕上。這樣,我們查找資料就不再難了,編研工作也就輕松了許多,同時會節(jié)約大量的人力、物力。
3)建立智慧數(shù)據(jù)模型和流程模型。智慧檔案館建設的核心是建設以數(shù)據(jù)為核心,以數(shù)據(jù)化為根本的檔案資源體系和網(wǎng)絡運行體系。在大數(shù)據(jù)時代,只有加強這兩個模型的建設,才能更加有效地發(fā)揮檔案的利用效果,才能使利用的社會化和最大化成為現(xiàn)實。這兩個模型的建立,將使國家檔案局原局長關于數(shù)字化的“圖片轉化為電腦可以識讀的字,變成電腦可以任意檢索的數(shù)據(jù),讓它和其他的大數(shù)據(jù)一樣,進入到大數(shù)據(jù)系統(tǒng),可以任意檢索、主動的推送、深度的挖掘,變成人工智慧、人的外腦” 的規(guī)劃藍圖變?yōu)楝F(xiàn)實。為了實現(xiàn)上述目標,作為檔案工作者,在進行歷史檔案管理的過程中,就是要實現(xiàn)五個智慧——智慧數(shù)據(jù)導入、智慧識讀、智慧檢索、智慧文本字句段利用、智慧整理數(shù)據(jù)。
4)以數(shù)據(jù)列表追溯歷史淵源。對跨度較大且在歷史上曾多次發(fā)生的事件的產(chǎn)生、發(fā)展和演變的歷史進程的研究,一直是困擾檔案編研人員的瓶頸,使得人們對某一事件的認識始終不能完全徹底。隨著大數(shù)據(jù)和檔案數(shù)據(jù)化時代的到來,困擾人類幾百年甚至上千年的難題將迎刃而解。在歷史檔案全面實現(xiàn)數(shù)據(jù)化之后,如果我們想了解明清至1949年的580年間黃河決口和黃河遷移的歷史,只要手指輕輕一動,在計算機上輸入“黃河決口”之類的字段,關于黃河的字、詞、句和段落等內容將全部顯示在屏幕上,只要我們對取得的數(shù)據(jù)進行全面的梳理,形成規(guī)律性的編研信息就完成了一次十分有意義的編研。
3 結束語
歷史檔案編研具有資料浩繁,工作難度大、出成果慢,是困擾檔案編研工作的歷史性難題。將數(shù)據(jù)化引入歷史檔案編研工作中,不失為破解這一難題的有效途徑。筆者通過數(shù)據(jù)化應用原理的分析,概括總結了歷史檔案數(shù)據(jù)化編研的實現(xiàn)路徑和優(yōu)勢,提出了行之有效的辦法。雖然這一構想還處在理論探討階段,但我們深信,在數(shù)字技術不斷完善的未來,歷史檔案數(shù)據(jù)化編研將成為歷史的必然,而被檔案界所廣泛采用,并取得累累碩果。