嚴(yán)令耕
(南京中醫(yī)藥大學(xué) 圖書(shū)館,江蘇 南京 210023)
目前,古籍?dāng)?shù)字化迎來(lái)了新的技術(shù)革命時(shí)代,從起初的影像照片、圖文對(duì)照等形式發(fā)展到智能化、網(wǎng)絡(luò)化,以實(shí)現(xiàn)古籍資源的共建共享。美國(guó)于2014年頒布《文化遺產(chǎn)資料數(shù)字化技術(shù)指南》,從不同種類文化遺產(chǎn)資料的數(shù)字化規(guī)則、文件格式、元數(shù)據(jù)等方面全面制定數(shù)字化工作指南[1]。國(guó)際檔案理事會(huì)于2016年呼吁全球檔案機(jī)構(gòu)利用虛擬現(xiàn)實(shí)技術(shù),立體化、動(dòng)態(tài)化地呈現(xiàn)數(shù)字資源和特色館藏,方便公眾在線訪問(wèn)[2-3]。加拿大于2020年提出要促進(jìn)文化服務(wù)數(shù)字轉(zhuǎn)型[4]。我國(guó)也有相應(yīng)規(guī)定,“十三五”時(shí)期要求借助高新技術(shù),促進(jìn)古籍?dāng)?shù)字化資源共享和利用[5];2023年提出要利用智能化技術(shù)推動(dòng)古籍?dāng)?shù)字化利用轉(zhuǎn)型升級(jí),打造公共文化數(shù)字資源庫(kù)群[6-7]??梢?jiàn),新技術(shù)為古籍?dāng)?shù)字化賦予新的活力,促使古籍?dāng)?shù)字化向智能化轉(zhuǎn)變,應(yīng)思考新技術(shù)背景下古籍?dāng)?shù)字化如何進(jìn)行建設(shè),從而讓更多的古籍資源被利用,順應(yīng)時(shí)代發(fā)展的需求。
我國(guó)古籍?dāng)?shù)字化的概念最早由劉煒[8]于1997年提出,主要工作是將古籍資源通過(guò)掃描寫(xiě)入光盤(pán)。經(jīng)過(guò)多年發(fā)展,古籍?dāng)?shù)字化已成為古籍保護(hù)和利用的共識(shí),對(duì)古籍?dāng)?shù)字化的定義主要從靜態(tài)、動(dòng)態(tài)兩個(gè)維度出發(fā)。靜態(tài)維度上就是制成古籍?dāng)?shù)據(jù)庫(kù)[9]。喬紅霞[10]認(rèn)為古籍?dāng)?shù)字化是利用數(shù)據(jù)庫(kù)技術(shù)、光盤(pán)存儲(chǔ)技術(shù)等將紙質(zhì)文獻(xiàn)轉(zhuǎn)化為數(shù)字化。動(dòng)態(tài)維度上,劉琳等[11]認(rèn)為古籍?dāng)?shù)字化是將古籍文字符號(hào)輸入計(jì)算機(jī),實(shí)現(xiàn)存儲(chǔ)、傳輸、檢索等功能。段澤勇等[12]認(rèn)為古籍?dāng)?shù)字化是將文字轉(zhuǎn)化成數(shù)字符號(hào)的過(guò)程。目前,通用的定義認(rèn)為,古籍?dāng)?shù)字化是通過(guò)計(jì)算機(jī)技術(shù)將古籍中的要素制成數(shù)據(jù)庫(kù)[13],包括制定古籍著錄的數(shù)字化標(biāo)準(zhǔn),建立資源載體,并向用戶開(kāi)放,方便使用[14]。
我國(guó)在古籍資源方面有獨(dú)特的優(yōu)勢(shì),與其他國(guó)家相比,具有儲(chǔ)藏量大、文化底蘊(yùn)深厚、用戶群體廣等突出特征,其數(shù)字化必將走在世界前列。需要利用古籍?dāng)?shù)字化這個(gè)契機(jī),把握儲(chǔ)藏量大和需求量多的特色化優(yōu)勢(shì),完成向網(wǎng)絡(luò)化、智能化的過(guò)渡。
國(guó)內(nèi)外古籍?dāng)?shù)字化研究集中于以下2個(gè)方面:(1)新技術(shù)對(duì)古籍?dāng)?shù)字化的影響。日本正明柏村[15]于1999年提出使用圖像處理技術(shù)修復(fù)古籍掃描件;耿洪旭[16]探究OCR等人工智能技術(shù)用于漁鷗古籍?dāng)?shù)字化建設(shè)。(2)古籍?dāng)?shù)字化建設(shè)案例研究。美國(guó)最早于1978年編制了《朱熹大學(xué)》等數(shù)字化目錄[17];之后英國(guó)圖書(shū)館也計(jì)劃進(jìn)行館藏文獻(xiàn)數(shù)字化[18];國(guó)內(nèi)愛(ài)如生公司開(kāi)發(fā)了出版史學(xué)等數(shù)據(jù)庫(kù)。
古籍?dāng)?shù)字化在使用新技術(shù)的同時(shí),也暴露了不少問(wèn)題,如古籍?dāng)?shù)字化缺乏統(tǒng)一標(biāo)準(zhǔn),知識(shí)產(chǎn)權(quán)保護(hù)不力,產(chǎn)品質(zhì)量參差不齊等[19]。究其原因,與古籍?dāng)?shù)字化建設(shè)過(guò)程相關(guān),需要從宏觀和微觀方面做好布局,協(xié)調(diào)發(fā)展。
筆者通過(guò)檢索中國(guó)知網(wǎng)、維普、萬(wàn)方等數(shù)據(jù)平臺(tái),以“古籍”“典籍”“數(shù)字化”“數(shù)據(jù)庫(kù)”等進(jìn)行主題詞檢索,時(shí)間設(shè)定為2000年1月1日至2022年6月30日,共得到相關(guān)文獻(xiàn)941種;其中,期刊論文621篇,博碩論文148篇,會(huì)議論文45篇,報(bào)紙文獻(xiàn)16篇,成果文獻(xiàn)35篇。因此,認(rèn)為目前古籍?dāng)?shù)字化分為3個(gè)階段。
第一個(gè)階段為“十三五”前的初創(chuàng)摸索期(1970—2014年):自20世紀(jì)70年代末,美國(guó)和中國(guó)學(xué)者相繼將計(jì)算機(jī)技術(shù)運(yùn)用于古籍?dāng)?shù)字化。1995年開(kāi)始探討了字符集、語(yǔ)料庫(kù)、OCR 識(shí)別、自動(dòng)校勘等古籍?dāng)?shù)字化技術(shù)。1999 年開(kāi)始探討元數(shù)據(jù)、C語(yǔ)言等的相關(guān)技術(shù)問(wèn)題,并利用中文信息處理技術(shù)出版了《文淵閣四庫(kù)全書(shū)》電子書(shū)。這段時(shí)間還出版發(fā)行了其他一些古籍?dāng)?shù)字化影像書(shū)籍,但古籍?dāng)?shù)字化的理論和技術(shù)還處于不斷完善之中。
第二個(gè)階段為“十三五”建設(shè)發(fā)展期(2015—2020年):“十三五”時(shí)期,古籍?dāng)?shù)字化堅(jiān)持依法保護(hù)和科學(xué)保護(hù)。這段時(shí)間,DCT 和 DWT 域水印算法[20]、圖像檢索技術(shù)[21]、地理信息系統(tǒng)技術(shù)[22]等新型技術(shù)陸續(xù)與古籍?dāng)?shù)字化融合,如表1所示。產(chǎn)生一批珍貴古籍縮微復(fù)制和數(shù)字化成果,并制定出臺(tái)一系列數(shù)字化專業(yè)技術(shù)標(biāo)準(zhǔn),從形式向服務(wù)轉(zhuǎn)變。這一時(shí)期,無(wú)論是古籍?dāng)?shù)字化的建設(shè)和數(shù)字化技術(shù)研究都有了較大發(fā)展。
表1 “十三五”古籍?dāng)?shù)字化建設(shè)要點(diǎn)
第三個(gè)階段為“十四五”完善成熟期(2021年至今):“十四五”規(guī)劃時(shí)期,古籍?dāng)?shù)字化新技術(shù)迭代發(fā)展,涌現(xiàn)出自然語(yǔ)言處理等技術(shù)[23]和元宇宙、區(qū)塊鏈等智能化管理古籍技術(shù)[24]。古籍?dāng)?shù)字化全面共建共享,標(biāo)準(zhǔn)規(guī)范體系基本健全,產(chǎn)生知識(shí)挖掘、可視化呈現(xiàn)等新技術(shù)(見(jiàn)表2)。
表2 “十四五”古籍?dāng)?shù)字化建設(shè)要點(diǎn)
版本問(wèn)題是古籍?dāng)?shù)字化建設(shè)中的核心和靈魂。過(guò)去主要關(guān)注的是古籍?dāng)?shù)據(jù)庫(kù)圖片是否清晰、文字是否正確,其實(shí)這些都取決于擇取的底本是否精善。如果選擇的版本有問(wèn)題,后續(xù)的努力都是白費(fèi)。因此古籍版本的鑒定具有權(quán)威性,有利于古籍資源的正確利用與傳播。在進(jìn)行古籍?dāng)?shù)字化建設(shè)之前,首先要選用善本作為底本。
3.2.1 有利于古籍的保護(hù)和利用
古籍?dāng)?shù)字化的戰(zhàn)略目標(biāo)是保護(hù)古籍資源,并用于科研。大多數(shù)單位進(jìn)行古籍?dāng)?shù)字化都把古籍保護(hù)作為目標(biāo),如果工作停留在對(duì)資源本體進(jìn)行整理出版階段就不能適應(yīng)時(shí)代、技術(shù)與政策發(fā)展的需要,應(yīng)該將“保護(hù)核心,利用至上”的理念在古籍?dāng)?shù)字化建設(shè)中體現(xiàn)。深入運(yùn)用現(xiàn)代信息技術(shù),對(duì)古籍知識(shí)內(nèi)容進(jìn)行多維度的組織和再發(fā)現(xiàn),加快古籍的轉(zhuǎn)化應(yīng)用,梳理和挖掘古籍的精髓,做到致力于解決主要矛盾,才能勁往一處使,使古籍?dāng)?shù)字化發(fā)展的效益最大化。
3.2.2 戰(zhàn)略規(guī)劃與古籍特征的融合
戰(zhàn)略規(guī)劃要能夠?qū)崿F(xiàn),必須與古籍特征相融合。目前,古籍?dāng)?shù)字化技術(shù)日新月異,國(guó)家在“十四五”古籍保護(hù)戰(zhàn)略規(guī)劃中出臺(tái)大量古籍?dāng)?shù)字化政策。智能技術(shù)或國(guó)家政策與古籍特征相融合,才能達(dá)到保護(hù)古籍的目標(biāo)。武漢大學(xué)根據(jù)古籍特征,提出進(jìn)行智慧化技術(shù)創(chuàng)造,塑造古籍?dāng)?shù)字化知識(shí)服務(wù)體系。
3.2.3 戰(zhàn)略定位與古籍服務(wù)個(gè)性化特征
戰(zhàn)略定位與戰(zhàn)略任務(wù)相輔相成,古籍?dāng)?shù)字化應(yīng)根據(jù)古籍本體合理定位,制定戰(zhàn)略任務(wù)。由于古籍?dāng)?shù)字化的最終目的是方便用戶使用,因此要體現(xiàn)服務(wù)個(gè)性化特征。東南大學(xué)研究和設(shè)計(jì)數(shù)字化古籍書(shū)庫(kù)系統(tǒng),為用戶提供個(gè)性化服務(wù)。古籍?dāng)?shù)字化與科技的融合程度進(jìn)一步加深,促進(jìn)古籍?dāng)?shù)字化更大發(fā)展。人工智能中的深度學(xué)習(xí)可根據(jù)用戶的需求、歷史行為,主動(dòng)給用戶提供、匹配相關(guān)的古籍資源。
3.3.1 分期建設(shè),由點(diǎn)到面
古籍?dāng)?shù)字化工程浩大,覆蓋面廣,不能一蹴而就,必須要按部就班,分期建設(shè),由點(diǎn)到面,循序漸進(jìn)。優(yōu)先對(duì)善本開(kāi)展數(shù)字化,促進(jìn)資源共享[25],體現(xiàn)了古籍?dāng)?shù)字化建設(shè)的階段性,最終形成全面的智能化、網(wǎng)絡(luò)化目標(biāo)體系。
3.3.2 優(yōu)先項(xiàng)的選擇
在戰(zhàn)略規(guī)劃中,不同階段任務(wù)不同,因此優(yōu)先等級(jí)也不同。在“十三五”時(shí)期,古籍?dāng)?shù)字化建設(shè)重點(diǎn)在于制定技術(shù)標(biāo)準(zhǔn),在“十四五”時(shí)期,側(cè)重于古籍?dāng)?shù)據(jù)共享,此時(shí),技術(shù)是建設(shè)好古籍?dāng)?shù)字化資源的強(qiáng)大支撐。建設(shè)古籍?dāng)?shù)字化,根本的挑戰(zhàn)還是技術(shù)性的,二級(jí)優(yōu)先項(xiàng)可以是團(tuán)隊(duì)建設(shè)、人才培養(yǎng)等,三級(jí)優(yōu)先項(xiàng)主要是一些具體的措施。
古籍?dāng)?shù)字化的目的在于公眾很難接觸到古籍原著的情況下,更好地為公眾服務(wù)。構(gòu)建以技術(shù)為核心的古籍?dāng)?shù)字化系統(tǒng),是為了賦能古籍保護(hù)和利用,實(shí)現(xiàn)基于用戶行為和需求的古籍自我優(yōu)化模式。目前,戰(zhàn)略規(guī)劃中出現(xiàn)的項(xiàng)目?jī)H局限于古籍?dāng)?shù)字化單位內(nèi)部的技術(shù)建設(shè),如何通過(guò)數(shù)字化手段促進(jìn)古籍利用必須作為戰(zhàn)略規(guī)劃的重要任務(wù),否則,古籍?dāng)?shù)字化建設(shè)的成果將是一堆材料和一個(gè)沒(méi)有智能內(nèi)涵的外殼,無(wú)法實(shí)現(xiàn)為用戶共享服務(wù)的目標(biāo)。
古籍?dāng)?shù)字化的資源、技術(shù)和人才分布不均衡。重點(diǎn)古籍收藏單位設(shè)備和平臺(tái)建設(shè)相對(duì)完善,小型古籍收藏單位甚至沒(méi)有智能設(shè)備,古籍資源也不豐富,專業(yè)人才缺乏,沒(méi)有適合的古籍?dāng)?shù)字化戰(zhàn)略發(fā)展規(guī)劃,嚴(yán)重阻礙古籍收藏單位智能網(wǎng)絡(luò)系統(tǒng)的建立。
由于古籍的收藏單位是分散的、眾多的,而古籍?dāng)?shù)字化的技術(shù)和相關(guān)設(shè)備投入的成本較高,如果依靠單位或個(gè)人自身實(shí)力,以及政府的投入還是無(wú)法有效推動(dòng)古籍?dāng)?shù)字化的發(fā)展,因此需要一些有技術(shù)實(shí)力的數(shù)字化公司參與該項(xiàng)工作。古籍擁有方與數(shù)字化公司就版權(quán)問(wèn)題要進(jìn)行協(xié)調(diào)。數(shù)字化開(kāi)發(fā)前期投入大,銷售困難,資金回收期長(zhǎng),商業(yè)的推廣和營(yíng)銷策略跟不上市場(chǎng)的發(fā)展,往往收效欠佳,因此應(yīng)該走社會(huì)化協(xié)同合作之路,即古籍擁有者和數(shù)字化相關(guān)單位參與聯(lián)合共建共享,協(xié)作共贏。
古籍?dāng)?shù)字化成果知識(shí)產(chǎn)權(quán)保護(hù)問(wèn)題主要出現(xiàn)在數(shù)字化過(guò)程和用戶使用過(guò)程中,包括古籍擁有者和數(shù)字化加工方的知識(shí)產(chǎn)權(quán)糾紛、惡意下載、非法傳播等。在數(shù)字化過(guò)程中,大量學(xué)者和工作人員參與校勘、句讀、掃描等工作,付出的勞動(dòng)理應(yīng)得到回報(bào),但盜版侵權(quán)損害了他們的權(quán)益,影響古籍?dāng)?shù)字化的工作積極性。主要原因是目前知識(shí)產(chǎn)權(quán)的法律保護(hù)意識(shí)比較薄弱,也沒(méi)有給古籍?dāng)?shù)字化相應(yīng)的法律法規(guī)。
古籍?dāng)?shù)字化的核心在于人,在于在合適的時(shí)間、合適的地點(diǎn)以合適的方式向讀者提供所需要的古籍資源和服務(wù),知識(shí)服務(wù)能精準(zhǔn)地推送給需要的用戶。戰(zhàn)略規(guī)劃除了考慮服務(wù)的技術(shù)和形式,還要考慮服務(wù)的內(nèi)容和質(zhì)量,重點(diǎn)聚焦以用戶共享為中心,同時(shí)考慮用戶隱私、技術(shù)是否符合用戶的需要等。
目前,古籍?dāng)?shù)字化如火如荼,但缺乏統(tǒng)一標(biāo)準(zhǔn)和規(guī)范。各種數(shù)據(jù)庫(kù)采用的文本格式、圖像格式無(wú)法兼容,信息資源共享受阻[26]。針對(duì)這種情況,首先要制定古籍?dāng)?shù)字化標(biāo)準(zhǔn)和規(guī)范,包括版本標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)等;其次,要求古籍?dāng)?shù)字化單位遵守古籍?dāng)?shù)字化標(biāo)準(zhǔn)和規(guī)范,促進(jìn)資源有效整合和共享,提高古籍資源的利用率。
只有評(píng)估古籍?dāng)?shù)字化的服務(wù)能力和智慧,才能衡量新技術(shù)賦能古籍?dāng)?shù)字化的深度和廣度,檢驗(yàn)古籍?dāng)?shù)字化的質(zhì)量和效果。推進(jìn)古籍?dāng)?shù)字化,建立科學(xué)規(guī)范的評(píng)價(jià)體系,集思廣益,聽(tīng)取用戶的需求。始終牢記用戶的需求對(duì)評(píng)價(jià)古籍?dāng)?shù)字化的重要性,推動(dòng)古籍?dāng)?shù)字化評(píng)價(jià)體系的標(biāo)準(zhǔn)化、規(guī)范化。
古籍?dāng)?shù)據(jù)庫(kù)開(kāi)發(fā)種類多樣,多由各單位自主開(kāi)發(fā),難以形成領(lǐng)域內(nèi)數(shù)據(jù)和知識(shí)的共享,目前只能稱之為數(shù)據(jù)庫(kù),還不能稱之為知識(shí)庫(kù),需要依托于大數(shù)據(jù)技術(shù),形成規(guī)范化、系統(tǒng)化的知識(shí)網(wǎng)絡(luò)體系,實(shí)現(xiàn)對(duì)古籍更為深層次的開(kāi)發(fā)和利用,建立共建共享系統(tǒng)。另外,在共建共享系統(tǒng)中要加強(qiáng)知識(shí)產(chǎn)權(quán)保護(hù),提高古籍?dāng)?shù)字化的積極性。
古籍?dāng)?shù)字化開(kāi)展智能化建設(shè)是時(shí)代發(fā)展的大勢(shì)所趨,是保障古籍?dāng)?shù)字化可持續(xù)發(fā)展的必由之路。文章梳理了古籍?dāng)?shù)字化建設(shè)的發(fā)展歷程,分析了新技術(shù)背景下古籍?dāng)?shù)字化參與發(fā)展規(guī)劃的重要性,并提出優(yōu)化策略,今后還需要古籍?dāng)?shù)字化從業(yè)人員的不斷探索。