周錄祥
(韓山師范學院 中文系,廣東 潮州 521041)
所謂廣東文獻數(shù)字化建設(shè),是指將紙質(zhì)的廣東地方文獻通過拍照、掃描、文本化,轉(zhuǎn)換成數(shù)字化的電子文獻資源(電子圖書或數(shù)據(jù)庫)。廣東文獻的數(shù)字化,是時代的趨勢,也必將是廣東文獻建設(shè)的主要方向之一,它使廣東文獻保存更加方便、傳播更加便捷、共享更加廣泛,必將使嶺南文化輻射力更強,影響力更大,也會進一步提升嶺南文化研究的水平。
廣東文獻從地域上講,包括廣府文獻、潮汕文獻、客家文獻等;從形態(tài)上分,包括圖書、報紙、期刊,還有地圖、圖片、傳單告示、票據(jù)、手稿、墨跡,拓片、唱片等;從時間上看,包括古代文獻、近現(xiàn)代文獻、當代文獻,至于館藏地,則既包括省內(nèi)各公立圖書館、博物館、高校圖書館及其他藏書機構(gòu)、私人所藏,也包括省外、國外所藏。廣東文獻不僅數(shù)量眾多,而特色明顯。廣東雖偏處南國,歷代人文、著述不算豐富,但也有唐張九齡、明湛若水、翁萬達、清屈大均等文化名人,他們都留下了豐厚的著述,而自清末、近代起,廣東得風氣之先,先后涌現(xiàn)出鄭觀應(yīng)、康有為、梁啟超等政治家、黃遵憲、丘逢甲、吳沃堯等文學家、孫中山、胡漢民、廖仲愷等民國政治家,可謂才俊輩出,群星璀璨,對于中國現(xiàn)代化進程的推動,對中國文化的發(fā)揚光大厥功至偉,在全國各省市中也是首屈一指。他們的光輝著述,都是寶貴的人類精神財富,構(gòu)成了極富特色的廣東文獻群組,是嶺南文化研究乃至于中國文化研究的重要材料。僅廣東中山圖書館特藏部(廣東地方文獻中心)就收藏有廣東地方文獻、孫中山文獻、粵人文庫、東南亞華僑史料、南海諸島資料以及清代史料、民國時期書刊等一大批史料價值高、學術(shù)性強的文獻資料。其中廣東地方文獻和孫中山文獻著稱尤為豐富,現(xiàn)收藏有廣東地方志、族譜、廣東史料、粵人著述、報紙、期刊、輿圖、圖片等地方史料8萬余種、30余萬冊,其中圖書約6萬多種,14萬多冊,報刊1萬多種,輿圖2千多種;孫中山著作、傳記、評論研究、手跡、圖片、唱片及有關(guān)辛亥革命資料等4000余冊(件)①。這些文獻資料,很大一部分都是國內(nèi)其他館稀有罕見的,在提倡信息共享的今天,有必要以數(shù)字化的形式傳播。而散藏于省外的廣東文獻也為數(shù)不少,本省學者借閱不便,也有必要組織力量,進行數(shù)字化,以利閱讀與研究。
1.廣東文獻數(shù)字化可有效保護珍貴文獻。傳統(tǒng)紙質(zhì)文獻的大量閱讀必然或多或少造成損傷。許多廣東文獻年代久遠,其狀態(tài)岌岌可危,即使是民國的圖書報刊,也多是或紙質(zhì)脆化,或斷線散頁,翻閱稍有不當,便會帶來無法挽回的損害,亟需加強保護。而一味地提高借閱條件,設(shè)置借閱障礙,以減少借閱帶來的損傷,又違背圖書館文獻收藏的初衷。怎樣才能兩全其美?一個最佳的解決方案就是,將這些廣東文獻數(shù)字化,向讀者提供數(shù)字化的版本,則可減少對原件的借閱,既保護珍貴文獻,又不影響讀者的閱讀和研究,誠為一勞永逸。
2.廣東文獻數(shù)字化便于存儲、閱讀與共享。數(shù)字化文獻利用計算機技術(shù)進行存儲,占用空間很小,一塊硬盤,即可存儲G級數(shù)據(jù)、數(shù)以萬計的書籍。而電子數(shù)據(jù)的復制、傳播非常便捷,較之以往紙質(zhì)文獻的掃描、復印、影印,都方便得多。且可利用網(wǎng)絡(luò)進行遠程傳輸,提供方便而及時的文獻服務(wù)(必要時,可以收取適當?shù)馁M用),這樣異地讀者可以足不出戶,可以獲取相關(guān)的廣東文獻資料。文獻資源利用更加頻繁,充分發(fā)揮了其價值,客觀上也省去了讀者來往交通的時間、金錢,節(jié)約了大量的社會成本,同時提高了研究效率。
3.廣東文獻數(shù)字化有利于嶺南文化的傳播與研究。嶺南文化的核心是敢為人先、天下為公、開放多元,廣東文獻的數(shù)字化建設(shè),與嶺南文化的理念頗有異曲同工之妙。廣東文獻研究和文化研究不能光靠省內(nèi)學者,而是要面向全國乃至世界。數(shù)字化后的廣東文獻,其傳播與共享方式突破了空間與傳統(tǒng)介質(zhì)的限制,具有傳統(tǒng)文獻載體無法企及的便捷性與發(fā)散性,直接面向受眾,而不是資料獨享,有利于打破閱讀壁壘,將廣東文獻迅捷地傳播開來,既可使海內(nèi)外眾多研究者快速獲得大量文獻資料,進一步拓寬研究的范圍,提升研究的水平;又可以帶動數(shù)字化廣東文獻上所承載的嶺南文化、嶺南人自信、包容與開放的心態(tài)向全國乃至世界輻射傳播,擴大嶺南文化的影響力,將嶺南文化發(fā)揚光大,將嶺南精神彰顯無遺。
1.文獻數(shù)字化技術(shù)已經(jīng)成熟。
經(jīng)過多年的探索與發(fā)展,時至今日,文獻數(shù)字化技術(shù)已經(jīng)相當成熟。電子古籍的掃描與制作方面,“中美百萬”可謂其代表。2000年12月中美兩國計算機專家共同發(fā)起了“中美百萬冊數(shù)字圖書館合作計劃(China-US Million Book Digital Library Project)”。該計劃由中美兩國共建達百萬冊中英文圖書的數(shù)字圖書館,以提供便捷的全球可訪問的全文圖書瀏覽服務(wù)。與中國高等學校文獻保障體系(CALIS)一起,構(gòu)成中國高等教育數(shù)字化圖書館的框架。同時項目名稱定為“高等學校中英文圖書數(shù)字化國際合作計劃”(英文簡稱CADAL)。百萬冊圖書規(guī)模的數(shù)字資源建設(shè)主要服務(wù)于高校的教學和科研,同時兼顧到民族優(yōu)秀文化遺產(chǎn)的保存與傳承。截至2007年10月,該數(shù)據(jù)庫里有古籍190405冊、民國圖書114202冊、民國期刊6578冊、現(xiàn)代圖書401550冊、學位論文136098冊、繪畫3427件、視頻69種、英文44338冊②。 文獻數(shù)據(jù)庫建設(shè)方面,上海人民出版社和迪志公司出品的文淵閣《四庫全書》全文電子版、愛如生公司的《中國基本古籍庫》可謂佼佼者。前者可收書3千多種,可實現(xiàn)7億字的全文檢索,后者總計收書約16萬卷,版本12800多個,全文約17億字,影像約1千萬頁,擁有強大的檢索系統(tǒng)、完備的功能平臺和靈活的糾錯機制,可通過多條路徑、采用多種方法進行快速海量檢索,可輕松實現(xiàn)古籍瀏覽、???、標注、分類、編輯、下載、打印的全電子化作業(yè),并可隨時進行軟件升級和數(shù)據(jù)更新以確保在持續(xù)改進中日臻完善③??傊鞣N方式的文獻數(shù)字化技術(shù)已經(jīng)日臻成熟,廣東文獻的數(shù)字化建設(shè)在技術(shù)上沒有太多的難題。
2.廣東省財政可為廣東文獻數(shù)字化提供必要資金保障。
文獻數(shù)字化建設(shè)需要必要的資金、經(jīng)費支持,主要是三個方面:一是購置設(shè)備所需費用,如掃描儀、相機等。二是勞務(wù)費,從事規(guī)劃、掃描、制作的工作人員報酬。三是底本費或信息費。使用某些圖書館、博物館的文獻資料,照例會要求付給一定的費用。這個費用應(yīng)作統(tǒng)一規(guī)定,或統(tǒng)籌之后適當減免,或以交換文獻的方式抵充。數(shù)量眾多的廣東文獻,要全部實現(xiàn)數(shù)字化,必須有足夠的財政、經(jīng)費投入作為支撐。廣東處于中國改革開放的前沿,三十年來經(jīng)濟持續(xù)繁榮,社會各項事業(yè)蒸蒸日上。近年廣東省國民經(jīng)濟持續(xù)、快速、健康發(fā)展,綜合經(jīng)濟實力連續(xù)多年居全國前列,生產(chǎn)總值、社會消費品零售總額、工業(yè)增加值、居民儲蓄存款、稅收、財政收入、全社會固定資產(chǎn)投資額、貨運量、科技發(fā)明專利申請量等重要經(jīng)濟指標均居全國第一。據(jù)《關(guān)于廣東省2011年度省級預算執(zhí)行和其他財政收支的審計工作報告》,2011年“省級預算執(zhí)行和其他財政收支情況總體較好,省級財政收入1220.86億元……加上上級補助、下級上解、債券收入、上年結(jié)余(結(jié)轉(zhuǎn))、調(diào)入資金等,省級財政總收入3479.83億。”④在創(chuàng)建經(jīng)濟強省的同時,廣東省也在爭創(chuàng)文化大省,不斷加大對科教文化方面建設(shè)的撥款力度。所以廣東文獻數(shù)字化建設(shè)所需的相關(guān)資金資金、經(jīng)費完全可以保證。
3.大型文獻數(shù)字化項目可提供寶貴經(jīng)驗。
除上述“中美百萬”項目外,國內(nèi)外不少大型文獻數(shù)字化項目都已成功組織多個部門,匯集各方資料,建設(shè)海量文獻數(shù)據(jù)庫,可以為廣東文獻數(shù)字化建設(shè)提供寶貴經(jīng)驗。如“IDP”(international dunhuang project,國際敦煌項目),“是一個開創(chuàng)性的國際性協(xié)作項目,目標是使敦煌及絲綢之路東段其他考古遺址出土的寫本、繪畫、紡織品以及藝術(shù)品的信息與圖像能在互聯(lián)網(wǎng)上自由地獲取,并通過教育與研究項目鼓勵使用者利用這些資源?!雹菟狭酥?、英、法、俄、日、德等多國文獻資料,截止2009年10月7日,已存儲并開放247712幅圖片資料,極大地促進了國際敦煌學的發(fā)展。又如愛如生系列數(shù)據(jù)庫·地方文獻系列中的《浙江文獻》數(shù)據(jù)庫,網(wǎng)羅浙江區(qū)域相關(guān)之歷史文獻,包括記述浙江歷史地理之史籍志書,以及歷代浙江籍貫人之著述和在浙江建功立業(yè)人之著述,共計800種。每種皆據(jù)善本制成數(shù)碼全文,附以原版影像,配備可以進行條目檢索、全文檢索、高級檢索的快速檢索系統(tǒng)和可以進行版本對照、標點批注、分類收集、編輯下載、原文打印等作業(yè)的功能平臺,為浙江文獻研究提供了重要的資料保證⑥。此外,許多圖書館及高校藏書都已經(jīng)數(shù)字化,如國家圖書館的部分方志、上海圖書館的部分善本古籍,都通過拍照等方式數(shù)字化,讀者可在其網(wǎng)站瀏覽閱讀,美國哈佛燕京圖書館、日本東京大學、早稻田大學等高校的古籍,都已經(jīng)制成電子掃描本,發(fā)布于網(wǎng)站,可供讀者方便獲取。以上皆可為廣東文獻數(shù)字化建設(shè)提供借鑒。
一是鍵盤輸入,形成文本。將文獻內(nèi)容,逐字通過鍵盤錄入,其優(yōu)勢是以文本方式存儲文獻信息,一是形成的文本可方便進行復制等操作,二是所需存儲空間較小,三是檢索非常方便,可以逐字檢索,查全率、查準率高,且檢索速度快。但此種方式有明顯的缺點,一是轉(zhuǎn)換速度較慢,需要大量人力投入,二是錄入過程中會有較多的文字錯誤,需要較大的校對工作量。三是不能保留文獻的原貌以及原文獻的字體。這種方式比較適合一些部頭較小的廣東文獻,或散見于大部頭典籍中的單篇廣東文獻。
二是圖像掃描后制作成電子古籍。將每頁紙質(zhì)文獻用掃描儀掃描成圖片格式保存,再合并,制作成PDG、PDF或DJVU格式的電子書籍,既可方便復制、傳輸與閱讀,也可保護紙本文獻。中美百萬等已經(jīng)大量運作,某些電子文獻愛好者個人也可制作,比較方便易行。大量的嶺南文獻可通過這種方式化身億萬,出現(xiàn)在省內(nèi)大小圖書館,乃至于供省外、國外機構(gòu)使用。采用圖像格式的優(yōu)點是可以再現(xiàn)其原貌,制作技術(shù)相對簡單,制作成本相對低。缺點是占用存貯空間較大,影響傳遞速度,不過隨著存儲技術(shù)、網(wǎng)絡(luò)寬帶的發(fā)展,這些問題將逐步解決。大多數(shù)廣東文獻,尤其是難以識別的手寫體文獻、圖表較多的文獻都適合采用圖像掃描的方式完成數(shù)字化。
三是圖像掃描后OCR識別。先以圖像格式保存數(shù)字化文獻,并通過OCR轉(zhuǎn)換成文本形式,并編制自動索引,輔以人工標引。尤其是全息文件技術(shù)的發(fā)展,以文件格式保存數(shù)字化文獻,能夠較為全面地將印刷型文獻的內(nèi)容、版面版式信息都體現(xiàn)出來,可完成自動標引,并提供讀者摘錄功能,具有很強的優(yōu)越性。缺點是制作難度很大,主要原因是各種文獻字體不一、大小迥異,掃描后難以識別,且古籍中用字復雜,異體字、繁難字難以納入普通字庫,所以制作過程中非常容易出現(xiàn)訛字,處理不好,文獻價值大打折扣。采用鉛字印刷的清末、民國廣東文獻和刻印比較工整、字體比較規(guī)范、易于識別的明清刻本,比較適合采用這種方式實現(xiàn)數(shù)字化,但后期的校勘復核工作需尤為仔細。
四是將多個文本整合成數(shù)據(jù)庫。通過OCR技術(shù)轉(zhuǎn)換大量文獻后,精心???,可按各種目的,整合成各種數(shù)據(jù)庫,能夠?qū)崿F(xiàn)全數(shù)據(jù)庫的單字檢索、組合檢索,如陜西師范大學歷史文化學院袁林、張宇等開發(fā)的《漢籍全文檢索系統(tǒng)》,可實現(xiàn)千余種圖書的全文檢索與組合查詢,復制也很方便。而文淵閣《四庫全書》全文檢索版則更是典范之作,可實現(xiàn)7億字文獻的全文檢索,非常便捷。這種方式是文獻數(shù)字化的最高境界,也應(yīng)是廣東文獻資源數(shù)字化的方向,目前廣東的歷代方志可以再全文掃描識別后,制成廣東方志數(shù)據(jù)庫;也可以整合部分民國圖書、報刊,制成民國文獻數(shù)據(jù)庫。
1.摸清家底,擬定目錄,避免重復。需將廣東文獻的具體情況先掌握清楚,具體可以《廣東文獻綜錄》⑦為基礎(chǔ),再增加該書未收的報紙、期刊、碑帖等文獻。其中有些廣東文獻,已經(jīng)有數(shù)字化版本的,則不必重復勞動。如收入《四庫》系列叢書(《四庫全書》、《續(xù)修四庫全書》、《四庫全書存目叢書》、《四庫禁毀書叢刊》、《四庫未收書輯刊》等)的粵人著述,都已有PDF或DJVU格式的電子版,不必再重新數(shù)字化。又如屈大均編《廣東文選》、明萬歷鄒守愚刻本翁萬達《東涯集》等,已收入《北京圖書館古籍珍本叢刊》,已有電子版,則不必重復勞動。凡此,皆需專人對網(wǎng)絡(luò)已有傳播的廣東文獻作詳細調(diào)查,屆時可避免重復勞動,這樣事半功倍,既能加快速度,又可節(jié)約成本。
2.精選內(nèi)容,分清緩急,按期進行。廣東文獻數(shù)量眾多,具體數(shù)字化操作時,如果沒有統(tǒng)一規(guī)劃,而是隨機掃描、制作,必然雜亂無序,不成體系。所以分清輕重緩急,制定分期規(guī)劃很有必要。具體原則應(yīng)有兩個,一是重要性原則,二是稀缺度原則。具體說,首先要精選出影響較大的、使用比較頻繁的、具有代表性的特色廣東文獻,優(yōu)先掃描、制作、數(shù)字化,這樣短期內(nèi)即可初顯廣東文獻的概貌。另一方面,部分廣東文獻非常稀缺,存世量極少,可以同時優(yōu)先數(shù)字化??上日湎”?、后易見本;先善本,后普本。往往普本存量較大,各地圖書館多有收藏,查閱相對方便。而善本、珍本、稿本、抄本等,存世數(shù)量較少,甚至僅有孤本行世,彌足珍貴,讀者查閱、研究不便,應(yīng)優(yōu)先進行數(shù)字化,以便化身億萬,既保護文獻原本,又滿足讀者借閱與研究需要。分清輕重緩急后,根據(jù)不同選擇,安排數(shù)字化的先后次序,制定具體時期,有條不紊地進行,可以充分滿足社會需要,既有鮮明的廣東文獻特色,又能面向全國、全球,有步驟、有計劃地建設(shè),可使有限的人力物力發(fā)揮最大效果。
3.統(tǒng)籌安排,統(tǒng)一認識,調(diào)集書籍。政府文化部分和相關(guān)機構(gòu)要充分認識到廣東文獻數(shù)字化對于保存廣東地方文獻、促進學術(shù)交流、弘揚嶺南文化的意義,積極牽頭,籌措資金,加大投入,并協(xié)調(diào)各館藏單位,統(tǒng)一調(diào)集圖書。圖書館、博物館等藏書單位要顧全大局,服從安排,不得壟斷資源,而應(yīng)該革除以往某些圖書館將館藏的古籍視為本館私有物品,甚至囤積居奇,或收取高昂閱覽費的現(xiàn)象,方不至于妨礙文獻流通和學術(shù)研究的開展,違背了公共圖書館設(shè)立的本意。當然,是調(diào)集圖書集中數(shù)字化,還是分配任務(wù),各收藏單位分別進行,需視具體技術(shù)力量和文獻數(shù)量而定,收藏文獻較少較為零散的單位,技術(shù)力量不足,可統(tǒng)一集中數(shù)字化;而收藏文獻較多較集中的單位,有條件的話,可通過培訓,在本館完成,以免大規(guī)模調(diào)書造成散失與損傷。
4.認真制作,查漏補缺,實現(xiàn)提升。文獻逐頁掃描與OCR識別過程是艱巨而枯燥的任務(wù),稍一疏忽,就容易造成漏掃缺頁、誤掃重復的現(xiàn)象,所以在制作過程中,需認真仔細,每件文獻掃制完成后,要認真查漏補缺,力求盡善盡美。如人力物力充足,可以投入編輯力量,進行二次文獻、三次文獻的創(chuàng)作與組合,根據(jù)具體需要,將零散的多個文獻整合成專題數(shù)據(jù)庫或大型數(shù)據(jù)庫,這樣才能夠進一步提升紙質(zhì)文獻的利用價值,而不是單純的把紙質(zhì)文獻轉(zhuǎn)為數(shù)字信息。
5.創(chuàng)建平臺,提供下載,促進傳播。最終數(shù)字化形態(tài)是電子圖書或數(shù)碼照片格式的廣東文獻,可存儲于服務(wù)器中,并建立相應(yīng)的網(wǎng)站,提供下載,并鼓勵下載者發(fā)表研究成果,互相討論、交流。如將部分廣東文獻制成數(shù)據(jù)庫形式,也應(yīng)面向互聯(lián)網(wǎng)開放,提供遠程檢索功能,最好既能提供文本格式,又能提供對應(yīng)的圖像格式,以便檢核。當然也可講數(shù)據(jù)庫制作成光盤形式,提供給相關(guān)的科研機構(gòu),以便于廣東文獻的研究與嶺南文化的傳播。
總之,廣東文獻的數(shù)字化對于文獻的保藏、傳播、共享,對于嶺南文化的傳播、弘揚與研究,都有著積極而深遠的意義。作為經(jīng)濟強省、文化大省的廣東,完全有能力,也有責任,積極推行廣東文獻數(shù)字化建設(shè),為信息共享工程作出應(yīng)有的貢獻。
注釋:
①詳見廣東省立中山圖書館介紹:http://www.zslib.com.cn/html/lib_jianjie/20081014/67.html.
②詳見http://www.cadal.zju.edu.cn/Index.action.
③詳見愛如生網(wǎng)站介紹:http://www.er07.com/article/notice.jsp?typeId=23.
④藍佛安.關(guān)于廣東省2011年度省級預算執(zhí)行和其他財政收支的審計工作報告[N].見網(wǎng)頁:http://www.rd.gd.cn/rdgz/jdgk/201207/t20120731_125789.html.
⑤詳見其網(wǎng)站:http://idp.nlc.gov.cn/.
⑥詳見http://www.er07.com/article/notice.jsp?typeId=378.
⑦駱偉.廣東文獻綜錄[M].廣東:中山大學出版社,2000.