(大理大學研究生處,云南 大理 671003)
回族文化歷史悠久,涉及領(lǐng)域廣闊,建樹頗多,在整個中華民族的政治文明、社會經(jīng)濟發(fā)展的歷史進程中,有著重要的、不可替代的價值與意義,并在不同時期都留下了眾多的漢文、阿拉伯文和波斯文文獻典籍,內(nèi)容包含宗教、天文、歷算、醫(yī)藥、占卜、歷史、地理、物理、化學、文學等類別。大理地區(qū)作為回族最早的聚居區(qū)之一,回族文化底蘊十分深厚,也有著豐富文獻典籍。同時,由于自然條件、地理環(huán)境、歷史變遷、宗教信仰等因素的影響,大理地區(qū)回族古籍文獻具有自己鮮明的地域特點和濃郁的民族特色,蘊含著濃厚的伊斯蘭文化特色,記載著歷史上大理地區(qū)回族與阿拉伯世界的文化交往與聯(lián)系。但是,這些古籍文獻大多散落在民間,且大都是以紙質(zhì)的形式保存,一是不易于為大眾共享,二是容易損毀、遺失,造成不可挽回的損失。因此,利用現(xiàn)代通信技術(shù)、網(wǎng)絡(luò)技術(shù)和信息技術(shù),建立大理地區(qū)回族古籍文獻數(shù)據(jù)庫,不僅對研究大理地區(qū)回族學有著重要的文獻保障作用,而且有利于大理地區(qū)回族古籍文獻的現(xiàn)代化管理、保護和利用,對認識和研究大理地區(qū)回族歷史發(fā)展全貌及民族族源問題具有重要的史料價值,也對研究大理地區(qū)回族科技創(chuàng)新具有重要的學術(shù)價值。同時,通過對大理地區(qū)回族古籍文獻開發(fā)利用,對傳承與傳播民族文化,促進邊疆地區(qū)科技進步、經(jīng)濟繁榮、社會穩(wěn)定和區(qū)域發(fā)展都具有重要的價值和意義[1]。
大理地區(qū)古籍文獻的種類主要有各類經(jīng)典典籍、碑刻銘文、匾額楹聯(lián)、經(jīng)文字畫、文書檔案等,其典藏形式有木刻、手抄、石印等多種,特色鮮明、內(nèi)涵豐富、種類齊全、蘊藏量巨大。這些古籍文獻大部分收藏于本地區(qū)的經(jīng)學世家和各個村寨清真寺,也有少部分收藏于當?shù)氐膱D書館、博物館。很多珍貴的文獻典籍在“破四舊”中被焚毀,現(xiàn)存的大多是主人冒著極大風險藏于床板下、牛圈里、草樓上才能得以保留,其中許多都是十分珍貴的孤本,且由于年代久遠,面臨著蟲蛀、脫墨、掉色的境況。因此,對其進行數(shù)字化的挖掘、整理、存儲和利用,不僅有利于保護大理地區(qū)十分珍貴的回族古籍文獻資源,而且對研究本地區(qū)回族歷史文化、推動回族地區(qū)經(jīng)濟和社會的進步也有著十分重要的意義。
2.1.1 數(shù)字化資源的獲取
要對大理地區(qū)豐富的回族古籍文獻進行數(shù)字化保護,首先就是要先獲取其數(shù)字化資源。漢文古籍歷朝歷代都受到朝廷或政府的重視,其主要古籍文獻被反復(fù)整理后收藏于圖書館、檔案館、文史館等,皆有方位、目錄可尋,故獲取資源十分容易。而目前我們所接觸到的大理地區(qū)的回族古籍文獻,無論是經(jīng)典籍著、碑銘匾聯(lián)、文書檔案,除很少部分是由民間團體或官方制作外,大多是由民間自行傳抄、刻寫、印制而成,種類繁雜,質(zhì)量不高,且大多散存民間,因此,在對這些古籍文獻的數(shù)字化資源的獲取上:首先,采取原版數(shù)據(jù)化,即通過對原版文獻進行圖形掃描或數(shù)碼拍照獲取數(shù)字化資源;其次,通過開發(fā)文字識別軟件對原版數(shù)據(jù)化資源進行文字識別,生成文檔,以便進行檢索[2]。
2.1.2 數(shù)字化資源的保存
數(shù)字化資源的保存貫穿于數(shù)字化資源的獲取、檢索和利用的整個生命周期,而且是一個動態(tài)的過程,因為數(shù)字化資源的長期保存是為了數(shù)字化資源的長效利用。而且這些資源是以多媒體形態(tài)存在的,類型有文本、圖形、圖像、語音、視頻等,數(shù)據(jù)是海量的,需要對數(shù)據(jù)進行壓縮,以保證其規(guī)模保持在可管理的范圍內(nèi)。因此,要實現(xiàn)對數(shù)字化資源的保存,首先要有海量存儲空間,其次要采用數(shù)據(jù)壓縮策略,也就是要建立一個多媒體數(shù)據(jù)庫系統(tǒng),用以實現(xiàn)快速、有效、有序、合法地保存數(shù)字化資源[3]。
2.1.3 數(shù)字化資源的利用
對大理地區(qū)回族古籍文獻的搜集、整理和錄入數(shù)據(jù)庫,只是對其數(shù)字化保護的初級階段,更重要的意義還在于對它的閱讀、研究和利用。通過構(gòu)建古籍文獻原版圖像數(shù)據(jù)庫,開發(fā)出相應(yīng)的應(yīng)用軟件,采用超鏈接的設(shè)計實現(xiàn)與正文相關(guān)內(nèi)容之間的連接、正文與注釋相關(guān)內(nèi)容的連接、不同注釋之間的連接、正文與相關(guān)知識資料之間的連接、原文與在線詞典之間的連接,甚至古籍內(nèi)容與相關(guān)網(wǎng)站的連接,進而形成完整的知識體系;此外,利用文字識別軟件將圖像文件轉(zhuǎn)換成文本文件,以便開展對古籍文獻中的字數(shù)、字頻、詞頒的統(tǒng)計分析,行文風格特色概率的統(tǒng)計,必要的背景知識資料匯聚,不同版本間的校對,以及字典詞典、歷代年表、歷史地圖等研究工具的加載等研究和利用;同時,還可將以往屬于古籍整理研究范疇的標點、勘校、箋注,甚至白話翻譯等工作,逐步讓智能化的計算機替代,讓大理地區(qū)回族古籍文獻數(shù)字化保護進程步入為回族學研究提供極大便利的“數(shù)據(jù)庫檢索時代”[4]。
2.2.1 建立數(shù)據(jù)庫
針對大理地區(qū)回族古籍文獻大多收藏于民間,保存手段良莠不齊,殘損、流失時有發(fā)生的現(xiàn)狀,對已搜集到的民間木刻本、手抄本、絕版孤本等書面載體古籍文獻,可采用掃描技術(shù)及文字識別技術(shù);對碑刻、印章等金石載體的古籍文獻,可采取照相復(fù)制方法;對贊詞、曲調(diào)等口碑載體古籍文獻,可采用錄音錄像方式獲取數(shù)字資源,并輔以文字說明,建立全媒體數(shù)據(jù)庫。
建立數(shù)據(jù)庫的流程如下:①預(yù)處理,進行掃描或救碼相機拍攝;②前處理,完成對圖像版面分析、版面分割、去污、端正;③切分,分為自動切分和人工校對切分2種方式;④文字轉(zhuǎn)換,完成圖像文字向代碼(code)文字的自動轉(zhuǎn)換;⑤校對,分為列對列校對、聚類校對和重點提示校對;⑥置標,分為XML半自動置標和人工輔助置標;⑦配置搜索引擎;⑧提交入庫。
2.2.2 檢索與利用
當今社會已經(jīng)進入信息數(shù)字化的時代,電子資源正在迅速增長,圖書、文獻的電子版已相當普及,越來越多文獻信息可以通過網(wǎng)絡(luò)獲取,極大地方便了研究人員開展相關(guān)研究。對大理地區(qū)回族古籍文獻的數(shù)字化保護,要在建立了全媒體數(shù)據(jù)庫的基礎(chǔ)上,積極探索古籍文獻檢索網(wǎng)絡(luò)化,通過一定的平臺,使相關(guān)的研究者能夠方便快捷地進行檢索,為其開展研究提供數(shù)字資源。采用數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù),建立一個大理地區(qū)回族古籍文獻檢索系統(tǒng),該系統(tǒng)的關(guān)鍵點在于網(wǎng)絡(luò)通信模型的建立。系統(tǒng)采用3層網(wǎng)絡(luò)應(yīng)用體系架構(gòu),分別為數(shù)據(jù)庫層、應(yīng)用服務(wù)層和用戶界面層,使用套接字(socket)來進行網(wǎng)絡(luò)通信程序設(shè)計,通過建立一對套接字(其中一個運行于客戶端,另一個運行于服務(wù)器端)實現(xiàn)點對點通信,進而建立服務(wù)器線程池,進行數(shù)據(jù)的接收和分析,同時維護后臺業(yè)務(wù)。通過數(shù)據(jù)通信網(wǎng)絡(luò),實現(xiàn)用戶直接使用終端的聯(lián)機檢索[5]。
系統(tǒng)包括4個核心體系∶①資源加工體系,完成對傳統(tǒng)媒體信息資源進行數(shù)字化加工,對多媒體信息進行必要的格式整理;②存儲管理體系,實現(xiàn)對數(shù)字信息的分類組織和存儲,以提供安全備份;③資源調(diào)度體系,對元數(shù)據(jù)和對象數(shù)據(jù)的資源采用分布式存儲方式,實現(xiàn)協(xié)調(diào)調(diào)度和跨平臺查詢檢索等功能;④網(wǎng)絡(luò)運營體系,基于網(wǎng)絡(luò)平臺為用戶提供各種信息的在線應(yīng)用、檢索、上傳、下載,并對數(shù)字資源進行管理,可方便地進行基于內(nèi)容的檢索[6]。
2.2.3 數(shù)字化保護中需要注意的幾個問題
(1)統(tǒng)一數(shù)字化格式。在數(shù)字化資源獲取時,由于不同載體的古籍文獻需要采用不同的方式,因此獲得的數(shù)字化資源格式就可能多種多樣,為了更方便使用者的檢索利用,必須在錄入數(shù)據(jù)庫前進行數(shù)字化格式的統(tǒng)一。文本文檔統(tǒng)一為.DOC或.PDF格式;圖像文檔統(tǒng)一為.JPG格式;聲音文檔統(tǒng)一為.AVI格式;視頻文檔統(tǒng)一為.MPEG格式[7]。
(2)為用戶提供多樣化的檢索模式。對古籍文獻進行數(shù)字化保護的目的就是要對其進行研究和利用,因此應(yīng)該為使用者提供多樣化的、便捷的檢索模式,包括條件檢索、關(guān)鍵詞檢索、邏輯檢索、模糊檢索、組配檢索和屬性檢索等。
(3)提供資源上傳和下載接口。在客戶端要提供資源上傳和下載接口,以便訪問者可以將其收集到的有價值的大理地區(qū)回族古籍文獻資源添加進數(shù)據(jù)庫,并且源源不斷地獲取數(shù)字化資源,這些資源不僅可為需要的人提供瀏覽服務(wù),還可為其提供下載服務(wù)。
(4)版權(quán)問題。大理地區(qū)很多回族古籍文獻資料是個人收藏,還有些是手抄孤本,具有較高價值,因此在收集、上傳和下載過程中應(yīng)處理好版權(quán)問題,以避免在以后的研究和利用中發(fā)生版權(quán)糾紛。
大理地區(qū)豐富多樣的回族古籍文獻,為研究和認識大理地區(qū)乃至整個云南的回族歷史文化發(fā)展全貌提供了彌足珍貴的原始資料。對該地區(qū)回族古籍文獻資源的整理、研究與利用由來已久,但進行數(shù)字化保護的研究才剛剛起步?;刈骞偶墨I數(shù)字化是回族研究者的一種需求,是解決回族古籍文獻典藏與利用的有效方式。通過對大理地區(qū)回族古籍文獻數(shù)字化保護研究,可以彰顯大理地區(qū)回族獨特的文化風采,有助于對大理地區(qū)回族古籍文獻的保護、開發(fā)和利用,也將為民族地區(qū)的經(jīng)濟社會提供強有力的信息資源和知識支持[8]。