●王麗英 ,王東海
(魯東大學(xué) a.圖書(shū)館;b.文學(xué)院,山東 煙臺(tái) 264000)
數(shù)字資源庫(kù)建設(shè)是圖書(shū)館工作的核心之一,而承載中國(guó)文化與文明的古籍資料的數(shù)字化建設(shè)與智能化使用又是工作重心。古籍?dāng)?shù)字資料庫(kù)建設(shè)既可減少古籍整理、保護(hù)、使用方面的財(cái)力、人力、物力成本,又可為用戶(hù)提供更方便、智能的檢索和輸出功能,提高了效率,更好地體現(xiàn)出圖書(shū)資源服務(wù)社會(huì)的功能。
我們認(rèn)為,古籍資料庫(kù)資源的建設(shè)必須緊跟用戶(hù)的需求,在充分開(kāi)展用戶(hù)需求分析后,再有的放矢地建設(shè),這樣才能提高古籍資料庫(kù)的針對(duì)性和應(yīng)用價(jià)值。隨著計(jì)算機(jī)技術(shù)及古籍整理工作的發(fā)展,古籍?dāng)?shù)字資料庫(kù)建設(shè)的目標(biāo)和原則都發(fā)生了很大變化,要滿(mǎn)足不斷發(fā)展變化的使用需要,就要進(jìn)行改革與創(chuàng)新;另外,當(dāng)前古籍資料庫(kù)的重復(fù)建設(shè)情況比較嚴(yán)重,互相抄襲拷貝文本數(shù)據(jù)的情況大有泛濫之勢(shì),在這方面需要建立明確的評(píng)價(jià)鑒定標(biāo)準(zhǔn),以防止這種低水平的重復(fù)建設(shè)。我們擬從數(shù)字資料庫(kù)輔助工具的特性出發(fā),以語(yǔ)文詞典的編纂對(duì)古籍資料庫(kù)的需求為解剖對(duì)象,探討當(dāng)前圖書(shū)館古籍?dāng)?shù)字資料庫(kù)建設(shè)和質(zhì)量評(píng)價(jià)的八個(gè)要求。
歷史語(yǔ)文詞典的編纂需要什么樣的語(yǔ)料庫(kù)?
首先要區(qū)別開(kāi)第一代語(yǔ)料庫(kù)和第二代語(yǔ)料庫(kù)。第一代語(yǔ)料庫(kù)主要是生語(yǔ)料庫(kù),即將紙制印刷文本電子化,提供各種全文搜索功能。第二代語(yǔ)料庫(kù)是利用計(jì)算機(jī)給生語(yǔ)料自動(dòng)加上分詞、詞性、語(yǔ)義特征、句法、語(yǔ)篇、語(yǔ)用等屬性標(biāo)記(目前做得最成熟的是詞性標(biāo)注),基于這些語(yǔ)言學(xué)標(biāo)記,可進(jìn)行各種數(shù)理統(tǒng)計(jì)、形式分析。例如自動(dòng)統(tǒng)計(jì)文本字頻、詞頻,對(duì)詞語(yǔ)搭配進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),自動(dòng)提取文本常用句樹(shù)(句型形式樹(shù))、句型(常用搭配角度)、句模(句義角度)、句類(lèi)(語(yǔ)用角度)等。當(dāng)前流行的古籍?dāng)?shù)字資料庫(kù)屬于第一代語(yǔ)料庫(kù)。
詞典編纂是一項(xiàng)實(shí)用性很強(qiáng)的工作。當(dāng)代詞典由于所編纂的內(nèi)容都是活生生的使用態(tài)的語(yǔ)言,所以對(duì)語(yǔ)言事實(shí)和規(guī)律的描寫(xiě)要求細(xì)致全面,因此有各種語(yǔ)言屬性標(biāo)記賦碼的第二代語(yǔ)料庫(kù)就是首選。而歷史性語(yǔ)文詞典的編纂核心是詞義的引申變化,對(duì)語(yǔ)料庫(kù)的要求有所不同。
第一,目前在古籍語(yǔ)料庫(kù)計(jì)算機(jī)技術(shù)方面,除了少數(shù)古文今譯方面的應(yīng)用需要建立古今漢語(yǔ)對(duì)齊平衡語(yǔ)料庫(kù)(即文言文本和白話翻譯的對(duì)齊)外,其余資料庫(kù)的開(kāi)發(fā)重心都集中在古籍資料文本化、版面還原、文本版面與原籍版面的對(duì)應(yīng)保真、檢索關(guān)鍵詞異體字關(guān)聯(lián)、大型數(shù)據(jù)庫(kù)索引與檢索技術(shù)五大方面,并沒(méi)有向二代語(yǔ)料庫(kù)過(guò)渡。這一思路是對(duì)的。對(duì)于中文信息處理技術(shù)來(lái)講,古籍歷史文本歷時(shí)跨度大,綿延幾千年,難以用一套定型的分詞和詞性標(biāo)注標(biāo)準(zhǔn)進(jìn)行統(tǒng)一標(biāo)注,所以進(jìn)行賦碼的難度較高,可操作性較弱。
第二,歷史語(yǔ)文詞典的編纂中,詞義和詞用信息的厘定和釋義主要依靠詞典編纂者的主觀經(jīng)驗(yàn),即使在語(yǔ)料庫(kù)大行其道的今天,人們也不能否定主觀經(jīng)驗(yàn)在詞典編纂中不可替代的作用。歷史詞典的編纂要求主觀推斷和客觀驗(yàn)證緊密結(jié)合,“語(yǔ)料庫(kù)至上論”在歷史性語(yǔ)文詞典編纂中是行不通的。
第三,歷史詞典編纂要?dú)w納詞義的引申變化,最關(guān)心的是詞用語(yǔ)境的時(shí)間性屬性,而這一屬性是靠資料文本中的書(shū)證進(jìn)行標(biāo)記的,編纂者對(duì)于文本分詞、詞性標(biāo)注等賦碼沒(méi)有太多要求。
第四,即使有人做過(guò)古籍文本的賦碼工作,也只適合個(gè)別詞的個(gè)案分析,不適用于大范圍的詞典編纂工作,因?yàn)殡S著語(yǔ)料庫(kù)文本賦碼的增多,有時(shí)不但不會(huì)引導(dǎo)形成正確的結(jié)論,反而會(huì)形成很多不必要的干擾信息,而且還影響到檢索效率以及檢索結(jié)果呈現(xiàn)的簡(jiǎn)明性。
結(jié)合以上四點(diǎn)意見(jiàn),作為第一代語(yǔ)料庫(kù)的古籍資料庫(kù)基本能滿(mǎn)足歷史詞典編纂需要,目前無(wú)必要也無(wú)可能將歷史語(yǔ)文詞典的編纂所依據(jù)的古籍資料庫(kù)提升到二代語(yǔ)料庫(kù)水平,但這并不意味著現(xiàn)在的古籍資料庫(kù)就能很好滿(mǎn)足歷史語(yǔ)文詞典編纂的需要。
國(guó)內(nèi)歷史性語(yǔ)文詞典編纂中使用比較多的是四大綜合性數(shù)字資料庫(kù)——“四庫(kù)全書(shū)”“四部叢刊”“國(guó)學(xué)寶典”“中國(guó)基本古籍庫(kù)”。一些新的文本化數(shù)據(jù)庫(kù)工程還在不斷開(kāi)發(fā)過(guò)程中,舊有的數(shù)據(jù)庫(kù)工程也在不斷完善與擴(kuò)容。這些數(shù)據(jù)庫(kù)工程在為文史哲的研究和應(yīng)用方面提供了重要的材料支撐,根本性地改變,甚至顛覆了傳統(tǒng)史料學(xué)的存在形態(tài)及使用機(jī)制。不過(guò)也存在不少問(wèn)題,如重復(fù)性建設(shè)、互相抄襲數(shù)據(jù)等,但這并不是最大的不足。
數(shù)字資料庫(kù)最大的價(jià)值體現(xiàn)在兩方面:一是內(nèi)容,二是服務(wù),以上這些資料庫(kù)的建立定位并不是為語(yǔ)文詞典編纂服務(wù),而是以服務(wù)于知識(shí)主題檢索為主,所以大都追求擴(kuò)大收錄文獻(xiàn)的篇目數(shù)量和文字字?jǐn)?shù),而在內(nèi)容的平衡性和服務(wù)的多樣化方面做得還有所欠缺,特別是用戶(hù)需求分析不夠,缺少明顯的針對(duì)性,同質(zhì)化現(xiàn)象嚴(yán)重,這些才是最大的問(wèn)題。
古籍資料庫(kù)的建設(shè)工程浩大,僅為詞典編纂這一單一用戶(hù)服務(wù)的思路是不切實(shí)際的,但將資料庫(kù)的建設(shè)與詞典編纂需求緊密結(jié)合,適當(dāng)增加功能,在技術(shù)上是完全可行的。
數(shù)字資料庫(kù)建設(shè)在資料收錄方面追求“人無(wú)我有,人有我優(yōu),人優(yōu)我特”的目標(biāo),這是無(wú)可厚非的。但對(duì)于詞典編纂來(lái)講,必須優(yōu)先考慮語(yǔ)料庫(kù)內(nèi)容的平衡性。庫(kù)內(nèi)文本沒(méi)有平衡性就沒(méi)有代表性,歷史語(yǔ)文詞典的編纂要基于平衡性的資料庫(kù),其釋義才能準(zhǔn)確客觀,符合歷史語(yǔ)言事實(shí)和語(yǔ)言規(guī)律的原貌,否則就會(huì)犯以偏概全的錯(cuò)誤。具體的建設(shè)原則和要求如下:
(1)語(yǔ)篇內(nèi)容要盡量保持主題類(lèi)別的平衡(語(yǔ)域平衡)。語(yǔ)文詞典的編纂對(duì)義項(xiàng)的語(yǔ)域使用情況比較關(guān)注,例如“保辜”一詞是法律術(shù)語(yǔ),如果法律語(yǔ)域的語(yǔ)篇數(shù)量不足,則其釋義難免偏頗,因此,建立一個(gè)庫(kù)中語(yǔ)篇的主題分類(lèi)知識(shí)本體(Ontology)至關(guān)重要。建庫(kù)者從主題分類(lèi)樹(shù)上即可觀察:哪些分支的語(yǔ)篇量不足,哪些葉子節(jié)點(diǎn)出現(xiàn)空位等,然后進(jìn)行適當(dāng)?shù)难a(bǔ)充。
當(dāng)前的古籍分類(lèi)主要依據(jù)的是“經(jīng)史子集”四部法,例如“四庫(kù)全書(shū)”電子版。從保真性、還原性的原則看,這一分類(lèi)是必須的。但這一傳承自古代的分類(lèi)體系顆粒度比較大,相對(duì)粗疏。例如,在“四庫(kù)全書(shū)”電子版中,很多“四部”總目下只有一二個(gè)分類(lèi)層次,而更多語(yǔ)篇的主題內(nèi)容則沒(méi)有做類(lèi)別標(biāo)記,這直接導(dǎo)致定向檢索范圍過(guò)大,檢索結(jié)果過(guò)多,冗余數(shù)據(jù)影響詞典編纂的效率;另外,分類(lèi)標(biāo)準(zhǔn)混雜,集部下層分類(lèi)分為“楚辭”類(lèi)和“別集類(lèi)”,而二者的下位,一個(gè)是直接列專(zhuān)書(shū),一個(gè)是按照時(shí)代標(biāo)準(zhǔn)再次分類(lèi),不同的分類(lèi)標(biāo)準(zhǔn)存在于一個(gè)分類(lèi)體系中,這不利于觀察平衡性。
可以適當(dāng)借鑒現(xiàn)代圖書(shū)館分類(lèi)索引使用的敘詞表、主題詞表的分類(lèi)模式來(lái)建構(gòu)古籍分類(lèi)體系,但由于古今差別,具體內(nèi)容不能照搬,如果能夠建立一個(gè)古籍主題詞知識(shí)本體,各類(lèi)文獻(xiàn)都可以根據(jù)這一分類(lèi)體系進(jìn)行比附,形成語(yǔ)篇分類(lèi)樹(shù),即可評(píng)價(jià)各語(yǔ)篇所占比重,較易實(shí)現(xiàn)語(yǔ)篇內(nèi)容的基本平衡。
(2)成書(shū)年代屬性要盡量保持平衡。歷史語(yǔ)文詞典編纂的一項(xiàng)基礎(chǔ)工作是根據(jù)提取書(shū)證的源語(yǔ)篇的年代屬性來(lái)確立義項(xiàng)的排列順序,因此資料庫(kù)中語(yǔ)篇的成書(shū)年代屬性是最為關(guān)鍵的影響因子;另外,歷史語(yǔ)文詞典一般需要列出首出書(shū)證,這也需要對(duì)語(yǔ)篇的年代屬性進(jìn)行準(zhǔn)確認(rèn)定。缺少一個(gè)時(shí)代的資料,義項(xiàng)的引申義列中可能就會(huì)出現(xiàn)缺環(huán),同時(shí)也無(wú)法保證例證的首見(jiàn)性,所以,標(biāo)注語(yǔ)篇的年代屬性對(duì)于古籍資料庫(kù)建設(shè)尤為重要。要根據(jù)年代屬性進(jìn)行語(yǔ)篇類(lèi)聚,衡量哪些年代的古籍資料會(huì)有所缺欠,然后積極開(kāi)展搜集、文本化等工作,對(duì)其進(jìn)行完善。
古籍資料庫(kù)年代屬性的確定不同于現(xiàn)代語(yǔ)篇,這要求做好兩方面工作:
第一,在浩瀚的古籍資料中,古籍的偽造、損毀、亡佚等現(xiàn)象都會(huì)直接影響到成書(shū)年代的確定,所以文獻(xiàn)資料索引入庫(kù)前,一定要仔細(xì)鑒偽??山Y(jié)合已有《四庫(kù)總目提要》、各種藏書(shū)索引等資料對(duì)成書(shū)年代進(jìn)行考證,做到資料庫(kù)中的每一古籍語(yǔ)篇的成書(shū)年代都有確考,還要將時(shí)代屬性落實(shí)到具體朝代年號(hào)上,并換算成具體的公元紀(jì)年。
第二,對(duì)古籍的內(nèi)容文本的時(shí)代屬性進(jìn)行鑒別。這主要是針對(duì)一些類(lèi)書(shū)、政書(shū)、資料長(zhǎng)編等輯佚類(lèi)古籍,其中輯錄的文本本身就是泛時(shí)性的,并非都是一個(gè)時(shí)代,如果根據(jù)類(lèi)書(shū)的成書(shū)年代來(lái)判斷文本或書(shū)證的年代,只能是貽笑大方。另外,還要關(guān)注訓(xùn)釋類(lèi)文本的時(shí)代屬性鑒別。原文和注釋的作者并非同一時(shí)代的人,所以成文年代不同,但在語(yǔ)篇中,它們卻是共現(xiàn)的,提取書(shū)證時(shí)極易出錯(cuò)。很多已有資料庫(kù)已經(jīng)關(guān)注到訓(xùn)釋類(lèi)語(yǔ)篇的特點(diǎn),將原文和注文用大小字或單雙行排版的方式進(jìn)行區(qū)分并分別檢索,如果能進(jìn)一步標(biāo)記原文與一度訓(xùn)釋、再度訓(xùn)釋材料的時(shí)代屬性,效果更好。如果無(wú)法對(duì)語(yǔ)篇內(nèi)泛時(shí)文本進(jìn)行全面的時(shí)間屬性標(biāo)注,一定要對(duì)這種類(lèi)型的古籍語(yǔ)篇設(shè)置提醒標(biāo)記,以防止國(guó)學(xué)基礎(chǔ)薄弱者將文本年代屬性與成書(shū)年代相等同,從而誤用語(yǔ)料導(dǎo)致詞典內(nèi)容錯(cuò)誤。
做好這兩方面工作,還有助于完善資料庫(kù)檢索功能。根據(jù)年代屬性測(cè)查是每個(gè)歷史性語(yǔ)文詞典編纂者使用最多的基礎(chǔ)檢索,但現(xiàn)在的資料庫(kù)大多沒(méi)有提供這一功能。
(3)語(yǔ)篇典型性要盡量保持平衡。當(dāng)前已有的資料庫(kù)大多崇尚收錄經(jīng)典文獻(xiàn),甚至追求經(jīng)典版本,有的資料庫(kù)將所有能夠找到的版本都進(jìn)行錄入,因而產(chǎn)生資料同質(zhì)化、相似性過(guò)高的問(wèn)題,這將古籍資料庫(kù)的建設(shè)囿于文獻(xiàn)學(xué)研究的范圍。
詞典編纂對(duì)資料庫(kù)的要求是詞義的使用語(yǔ)境要有豐富的類(lèi)型,詞匯語(yǔ)用特征要有多樣性,經(jīng)典文獻(xiàn)并不都能全面準(zhǔn)確地反映當(dāng)時(shí)的主流語(yǔ)言現(xiàn)象,一些非經(jīng)典文獻(xiàn)可能對(duì)當(dāng)時(shí)的語(yǔ)言事實(shí)和重要規(guī)律反映得更加明顯。因此詞典編纂要求的資料必須是全面的,要將經(jīng)典文獻(xiàn)與非經(jīng)典文獻(xiàn)、主流文獻(xiàn)與非主流文獻(xiàn)的收錄按照一定的比例初步平衡起來(lái)。
可以根據(jù)文獻(xiàn)的影響面、流通度、知曉度、重要性等因素建立一個(gè)評(píng)價(jià)標(biāo)注體系,最好等級(jí)化和參數(shù)化,這樣可以允許用戶(hù)根據(jù)語(yǔ)篇重要性的閾值設(shè)置檢索參數(shù),進(jìn)行對(duì)比檢索,以保證被釋詞的義域的廣度、釋義的豐度以及例證的代表性。
(4)語(yǔ)體色彩要盡量保持平衡。很多資料庫(kù)排斥古白話作品,認(rèn)為其不登大雅之堂,這種做法是不可取的。
歷史語(yǔ)文詞典側(cè)重描寫(xiě)歷史詞匯歷時(shí)發(fā)展演變或歷史上某一時(shí)期的詞匯情況,觀察和描寫(xiě)的范圍應(yīng)該包括所有的詞匯,文言詞(雅言)、口語(yǔ)詞、方言詞、語(yǔ)法功能詞等類(lèi)型都應(yīng)按照一定的收詞標(biāo)準(zhǔn)進(jìn)行適當(dāng)收錄,這是詞典收詞平衡性的體現(xiàn),這就要求使用這些詞的古籍文本不能在資料庫(kù)中失衡。如果只收錄經(jīng)典文言作品,由于其以模仿上古語(yǔ)體風(fēng)格為榮(如唐朝的古文運(yùn)動(dòng)文風(fēng)、乾嘉學(xué)派文風(fēng)、清朝桐城派文風(fēng)莫不如此),文言詞居多,與當(dāng)時(shí)的共時(shí)語(yǔ)言現(xiàn)象疏離,如果僅依靠文言語(yǔ)體風(fēng)格的文本,歷史詞典就無(wú)法準(zhǔn)確、客觀地反映出詞義的全面發(fā)展?fàn)顩r。
(5)難易度要盡量保持平衡。詞匯學(xué)中測(cè)量現(xiàn)代語(yǔ)篇傳播度和難易度的常用方法是詞匯密度法。語(yǔ)篇的詞匯密度是通過(guò)一個(gè)語(yǔ)篇或語(yǔ)句中實(shí)詞數(shù)量占整個(gè)語(yǔ)篇或語(yǔ)句總單詞數(shù)的百分比來(lái)表示,[1]如果比值高,說(shuō)明其所含信息豐富,如果比值低,則信息量較低。一般信息密度高的文本較難解,而信息密度低的較易懂?,F(xiàn)代文本中,科技語(yǔ)篇的詞匯密度是最高的,而日常交際口語(yǔ)語(yǔ)篇的詞匯密度則最低。
仿照這種方法,也可對(duì)資料庫(kù)語(yǔ)篇的難易度進(jìn)行測(cè)查并標(biāo)記。由于古代漢語(yǔ)中很多字、詞有同形同體的特點(diǎn),所以可用每個(gè)古代語(yǔ)篇所用的生僻字字?jǐn)?shù)除以全文總字?jǐn)?shù)的比值來(lái)標(biāo)記語(yǔ)篇的難易度。如果僻字占比大,文字密度就高,文章難解度就高,使用面就比較窄;而生僻字占比少,文字密度小,則較易解讀,流通面也就相對(duì)廣泛。
詞典編纂需要的資料庫(kù)要求難易度平衡,也就是文字密度屬性平衡,這可以輔助考察詞典被釋詞在平易性文獻(xiàn)、中等難度文獻(xiàn)、高難度文獻(xiàn)的分布度,提供更多的詞匯信息。例如一個(gè)詞在難度高的文獻(xiàn)中分布度過(guò)高,說(shuō)明這個(gè)詞的文雅度比較高,一般可以設(shè)為雅詞;而一個(gè)詞在平易性文獻(xiàn)中分布度高,說(shuō)明此詞可能更為通用,有可能是當(dāng)時(shí)的基本詞匯中的一員。
這項(xiàng)工作可利用計(jì)算機(jī)自動(dòng)完成,在索引每個(gè)語(yǔ)篇入庫(kù)時(shí),系統(tǒng)可自動(dòng)提取字表,并提供字種與字頻、總字種數(shù)與總字?jǐn)?shù)等方面的信息,最后計(jì)算出每個(gè)語(yǔ)篇的文字密度。所有的語(yǔ)篇進(jìn)行文字密度標(biāo)注后,還可以衡量古籍資料庫(kù)整體內(nèi)容難易度,成為評(píng)估資料庫(kù)的一個(gè)重要的參數(shù)。
資料庫(kù)的服務(wù)不是指產(chǎn)品的售前或售后服務(wù),而是功能服務(wù)。詞典編纂需要古籍資料庫(kù)能提供多樣化的定向檢索服務(wù)。大一統(tǒng)的檢索模式只能造成檢索結(jié)果的混亂蕪雜,給人工排檢、聚類(lèi)帶來(lái)麻煩。當(dāng)前資料庫(kù)大多將古籍以文本數(shù)據(jù)存儲(chǔ),輔以主流的關(guān)鍵詞檢索,有些提供表達(dá)式檢索功能,但這些檢索服務(wù)同質(zhì)化現(xiàn)象比較嚴(yán)重,也沒(méi)有關(guān)照到應(yīng)用的個(gè)性需求,還需要做好定向檢索技術(shù)的開(kāi)發(fā)。定向檢索技術(shù)可分為主動(dòng)型檢索和自動(dòng)型檢索兩種。
在檢索方面要注意三方面的開(kāi)發(fā)原則和要求。
主動(dòng)型檢索由用戶(hù)主導(dǎo),按自己感興趣的關(guān)鍵詞檢索。這種檢索也是一種主動(dòng)創(chuàng)造。因?yàn)闄z索結(jié)果不是預(yù)期的,當(dāng)出現(xiàn)大量檢索結(jié)果超出自己的預(yù)期,就將產(chǎn)生“發(fā)現(xiàn)”的喜悅。在詞典編纂中,這些檢索結(jié)果將極大地超出其原有經(jīng)驗(yàn),大量的語(yǔ)言事實(shí)不斷豐富完善詞典編纂者的經(jīng)驗(yàn),同時(shí)也使詞典的釋義信息不斷豐化。
基本的主動(dòng)定向檢索服務(wù)就是關(guān)鍵詞檢索,這是資料庫(kù)提供的基本功能。有些數(shù)據(jù)庫(kù),提供了一些可選擇的定向檢索服務(wù),如允許用戶(hù)在指定作者、指定著作、指定分類(lèi)中進(jìn)行定向檢索,這是非常符合用戶(hù)需要的,能使檢索的指向更集中,檢索結(jié)果更具針對(duì)性,但能提供的定向條件太少了,這也成了當(dāng)前資料庫(kù)的最大應(yīng)用“短板”。
衡量一個(gè)資料庫(kù)檢索服務(wù)的水平,很重要的標(biāo)準(zhǔn)是其定向檢索條件的多樣性,這需要建立語(yǔ)篇屬性的多維度、多角度、多特征的立體標(biāo)記法。
多維度主要指的是用戶(hù)維度。要建立多用戶(hù)觀念,分清文獻(xiàn)研究用戶(hù)、古代文學(xué)研究用戶(hù)、古代史研究用戶(hù)、漢語(yǔ)史研究用戶(hù)、文字學(xué)研究用戶(hù)、歷史性詞典編纂用戶(hù)等,這樣可以保證一庫(kù)多用,在增強(qiáng)資料庫(kù)用戶(hù)群的適用面的同時(shí),又不影響其服務(wù)的針對(duì)性。維度在檢索時(shí)可由用戶(hù)自主選擇,而各維度中和用戶(hù)無(wú)關(guān)的角度和屬性標(biāo)記則忽略不計(jì),這樣可以實(shí)現(xiàn)檢索的精確化。
每個(gè)用戶(hù)還可根據(jù)需要,設(shè)定語(yǔ)篇標(biāo)注角度和具體的語(yǔ)篇屬性特征群,如語(yǔ)篇載體角度,要建好語(yǔ)篇名、內(nèi)容的主題分類(lèi)、文體類(lèi)型、版本、總字?jǐn)?shù)、字種數(shù)、難易度與文字密度、語(yǔ)體風(fēng)格屬性、文獻(xiàn)典型性等特征群;時(shí)間角度要建好成書(shū)年代、朝代及年號(hào)、公元紀(jì)年、文本內(nèi)容年代屬性等特征群;作者角度要建好作者名、作者時(shí)代、性別、籍貫等特征群……這些屬性特征要以關(guān)鍵詞的形式確定,最后形成關(guān)鍵詞表。有了詞表,就能初步體現(xiàn)主動(dòng)型檢索的定制性和多樣性的特點(diǎn)。例如根據(jù)基于內(nèi)容主題分類(lèi)標(biāo)記就可以類(lèi)聚同語(yǔ)域文獻(xiàn),如選擇“立法文獻(xiàn)”,則《法經(jīng)》《唐律疏議》《宋刑統(tǒng)》《通制條格》《大明律》《大清律例》等材料就會(huì)自動(dòng)類(lèi)聚成一個(gè)小型立法法律資料庫(kù);選擇“司法文獻(xiàn)”,則《龍筋鳳髓判》《棠陰比事》《折獄龜鑒》等材料就會(huì)自動(dòng)類(lèi)聚成一個(gè)古代司法資料庫(kù),為歷史語(yǔ)文詞典中的法律百科詞的編纂提供了幫助。
有了語(yǔ)篇屬性的立體標(biāo)記群,還可進(jìn)行跨類(lèi)系聯(lián)檢索。例如查找“凌遲”一詞時(shí),除了在前面所說(shuō)的法律文獻(xiàn)子庫(kù)中進(jìn)行查詢(xún),也可自動(dòng)跨庫(kù)系聯(lián)二十四史中的“刑法志”、類(lèi)書(shū)《文苑英華》中的判詞等材料進(jìn)行擴(kuò)展測(cè)查,提供這些法律詞語(yǔ)在司法語(yǔ)境中的使用情況。目前,“北大法寶”[2]最新的技術(shù)就是開(kāi)發(fā)了法規(guī)條文和相關(guān)案例、裁判文書(shū)、法學(xué)文獻(xiàn)等信息之間的關(guān)聯(lián)功能,不僅能直接查找到目標(biāo)關(guān)鍵詞,還可鏈接與此相關(guān)的其他法律、法規(guī)、司法解釋、案例、裁判文書(shū)、法律釋義、實(shí)務(wù)指南和法學(xué)論文,能快速、全面、準(zhǔn)確地提供使用者所需要的相關(guān)法律知識(shí)。但在古籍?dāng)?shù)字資料庫(kù)中,這種自動(dòng)的跨類(lèi)檢索還沒(méi)有做過(guò)探索和嘗試。
另外,有了多維度的特征標(biāo)注集,還可以實(shí)現(xiàn)自由的組合檢索,不同的組合檢索將產(chǎn)生不同的檢索結(jié)果,從而以材料的獨(dú)特發(fā)現(xiàn)保證詞典內(nèi)容的新穎性,這樣編纂出來(lái)的詞典與同類(lèi)詞典相比創(chuàng)新性更為突出,更具競(jìng)爭(zhēng)優(yōu)勢(shì)。
主動(dòng)檢索是檢索的主要方式,但畢竟是有目的的檢索,需要用戶(hù)有充足的預(yù)備知識(shí),而且有既定思路。這一思路有時(shí)會(huì)因檢索者知識(shí)儲(chǔ)備的不足或盲區(qū),遺漏一些重要的語(yǔ)言事實(shí)和語(yǔ)言現(xiàn)象,自動(dòng)型檢索可很好地彌補(bǔ)這一缺陷。
詞語(yǔ)在一種語(yǔ)言中都是處于一個(gè)復(fù)雜的語(yǔ)義網(wǎng)絡(luò)中,詞和詞之間通過(guò)類(lèi)義、同義、反義等最多達(dá)幾十種語(yǔ)義關(guān)系進(jìn)行復(fù)雜的線性和非線性聯(lián)系。近些年已經(jīng)建立了很多大型的“語(yǔ)義網(wǎng)”知識(shí)庫(kù),如詞網(wǎng)、知網(wǎng)等?;谡Z(yǔ)義網(wǎng)的檢索在詞典編纂中尤其重要。
詞典編纂是一個(gè)系統(tǒng)工程,詞條的釋義并非是個(gè)體獨(dú)立的,詞和詞義都處于一個(gè)復(fù)雜的網(wǎng)絡(luò)中,任何一個(gè)人都不可能憑個(gè)人力量掌握所有的已有詞匯信息。而有了語(yǔ)義網(wǎng),就可以對(duì)海量文本數(shù)據(jù)進(jìn)行自動(dòng)的知識(shí)挖掘和數(shù)據(jù)挖掘,將與搜索關(guān)鍵詞有語(yǔ)義關(guān)系的其他詞的用例全部類(lèi)聚出來(lái),從而使檢索擁有了“語(yǔ)義聯(lián)想”的功能。這一自動(dòng)型聯(lián)想機(jī)制所形成的擴(kuò)展檢索不是由用戶(hù)控制的,而是由計(jì)算機(jī)自動(dòng)提供的,既可為用戶(hù)提供重要的二次檢索的線索,也可為用戶(hù)提供大量知識(shí)儲(chǔ)備以外的檢索線索,從而彌補(bǔ)用戶(hù)知識(shí)面的不足。如果與主動(dòng)檢索的方式相結(jié)合,效果更好。
對(duì)于古籍資料庫(kù),建立這樣的語(yǔ)義網(wǎng)絡(luò)是有基礎(chǔ)的,因?yàn)楝F(xiàn)在已經(jīng)有大量的紙媒知識(shí)庫(kù),如人名詞典、地名詞典、職官名詞典、文化詞典以及雅書(shū)等類(lèi)型資料匯編和辭書(shū),如果能用現(xiàn)代知識(shí)本體理念整合這些已有的歷史語(yǔ)言知識(shí)工程,建立一個(gè)全面的、層次清晰的古代詞匯語(yǔ)義網(wǎng)是可能實(shí)現(xiàn)的。誰(shuí)先擁有這樣一個(gè)知識(shí)工程,誰(shuí)將領(lǐng)導(dǎo)下一代古籍?dāng)?shù)字資料庫(kù)的發(fā)展方向,同時(shí)對(duì)詞典編纂者的吸引力也就最大。
目前,李鐸在這方面做了一些研究,[3]如在《資治通鑒》中,結(jié)合擴(kuò)充的正史、墓志、地方志、家譜、年譜、筆記等文獻(xiàn),可以要求計(jì)算機(jī)自動(dòng)報(bào)告唐代皇族世系關(guān)系,生成一個(gè)以李淵為根的一個(gè)大型樹(shù)狀結(jié)構(gòu),不僅如此,再由母系“戚”的關(guān)系聯(lián)絡(luò)到李氏以外的人物,一個(gè)唐代社會(huì)結(jié)構(gòu)圖也會(huì)由此而產(chǎn)生。這一研究為服務(wù)于詞典編纂的古籍?dāng)?shù)字資料庫(kù)的建設(shè)提供了借鑒的樣板。
主動(dòng)型和自動(dòng)型檢索可以稱(chēng)為用戶(hù)的主檢索行為,要提高一個(gè)古籍語(yǔ)料庫(kù)對(duì)詞典編纂的服務(wù)水平,還要設(shè)計(jì)全面的輔助檢索功能。例如,歷史語(yǔ)文詞典收詞包括常用詞和偏僻詞,這兩種詞的處理對(duì)資料庫(kù)的檢索功能的要求是不同的。
在資料庫(kù)中檢索生僻詞時(shí),結(jié)果不會(huì)太多,處理起來(lái)較容易。但要保證兩方面目標(biāo)的實(shí)現(xiàn):
第一,查全率。即資料要全,詞典所收錄的生僻詞盡量都能在資料庫(kù)中檢索到用例。
第二,查準(zhǔn)率。古漢語(yǔ)字、詞多同形,生僻詞在文字層面很多時(shí)候指的是生僻字,生僻字的最大特點(diǎn)是異體字多,與其他字之間的“通”“同”等字際關(guān)系比較復(fù)雜,所以常出現(xiàn)查錯(cuò)現(xiàn)象。為此,我們?cè)?jīng)做過(guò)專(zhuān)門(mén)的研究。[4]很多資料庫(kù)在檢索時(shí)都建好了字際關(guān)系整理表,查找一個(gè)關(guān)鍵字時(shí),其異體關(guān)系也都在檢索范圍之內(nèi),這是一個(gè)很好的解決思路。
但字際關(guān)系是很復(fù)雜的,現(xiàn)在的系聯(lián)工作還不夠全面和細(xì)致。其中有一點(diǎn)至關(guān)重要,那就是一個(gè)字往往是多音、多義、多用字,而字際關(guān)系往往發(fā)生在某一個(gè)具體的義項(xiàng)上,所以系聯(lián)時(shí)不能簡(jiǎn)單化地以詞位來(lái)對(duì)應(yīng),而應(yīng)該落實(shí)到詞項(xiàng),即以音帶義,以義定用,嚴(yán)格按照這一原則建立一個(gè)字際關(guān)系網(wǎng)絡(luò),對(duì)于提高古籍檢索的查準(zhǔn)率和查全率都有裨益。為實(shí)現(xiàn)這一目標(biāo),我們正在研制基于Unicode大字符集的“字網(wǎng)”。
古漢語(yǔ)常用詞的數(shù)目大體是固定的,幾千年來(lái)基本詞匯因其穩(wěn)定性特點(diǎn),詞種變化不是太大。在一個(gè)巨型資料庫(kù)中檢索常用詞,常會(huì)出現(xiàn)幾萬(wàn)甚至幾十萬(wàn)條的數(shù)據(jù),而一般人手工處理檢索結(jié)果的數(shù)目最高閾值在2000條左右,這使常用詞語(yǔ)例的利用反而更困難。這種不足主要是由兩種原因造成:
第一,重復(fù)用例。例如后世古籍經(jīng)常會(huì)引用前世古籍,就會(huì)產(chǎn)生大量重復(fù)的例句,即使不是原句的重復(fù),固定搭配字串的重復(fù)率也非常高,所以檢索結(jié)果重復(fù)率的控制以及重復(fù)檢索結(jié)果的有效過(guò)濾一直是資料庫(kù)所要面對(duì)的重要問(wèn)題。
第二,呈現(xiàn)方式。當(dāng)前資料庫(kù)檢索結(jié)果的呈現(xiàn)方式一般是采用篇目呈現(xiàn),而不是例句。使用檢索結(jié)果時(shí)需要逐一打開(kāi)才能看到例句及其上下文,這種呈現(xiàn)方式當(dāng)然也就無(wú)法應(yīng)用“關(guān)鍵詞居中”技術(shù)。另外,這種顯示方式整體性差,無(wú)法對(duì)檢索結(jié)果產(chǎn)生直觀的印象,而詞典編纂有時(shí)特別倚重語(yǔ)感,語(yǔ)感往往就是由這些直觀印象觸發(fā)的。
可有針對(duì)性地采用以下措施對(duì)檢索結(jié)果進(jìn)行限制:
第一,過(guò)濾重復(fù)結(jié)果。如果古籍文獻(xiàn)有句讀,可以順利地過(guò)濾掉完全重復(fù)的例句,如果沒(méi)有句讀,根據(jù)古文獻(xiàn)短句多的特點(diǎn),將檢索跨距設(shè)置為5—8個(gè)字符(5字串以下詞匯單位所占比例較大),然后類(lèi)聚相同的詞匯串,最后過(guò)濾重復(fù)的詞匯串用例。
第二,抽樣提取。如果檢索結(jié)果數(shù)量過(guò)大,用戶(hù)可設(shè)定例句提取的間隔行,如每n行提取一條例句,這樣雖可能有遺漏,但便于詞典編纂者總體了解一個(gè)常用詞的大體使用情況,根據(jù)一些抽樣出來(lái)的線索,再進(jìn)行二次定向檢索。
第三,二次檢索??筛鶕?jù)語(yǔ)篇屬性的立體特征群對(duì)海量檢索結(jié)果進(jìn)行二次檢索。二次檢索常用到組合檢索方式。詞典編纂者大多是文科出身,所以最好將多特征組合檢索所要用的表達(dá)式直觀化,設(shè)置好窗口界面的編程控件,讓用戶(hù)通過(guò)簡(jiǎn)單的點(diǎn)擊操作就可完成合取、析取、排除檢索、跨距等方面的設(shè)置。
第四,檢索結(jié)果以例句的形式顯示。例句及其前后語(yǔ)境是詞典編纂的第一關(guān)注點(diǎn),一屏顯示多個(gè)例句并減少操作步驟,這本身也是約束常用詞過(guò)多檢索結(jié)果的便捷處理方式。
綜上所述,我們提出了圖書(shū)館古籍?dāng)?shù)字資料庫(kù)服務(wù)于語(yǔ)文詞典編纂的建設(shè)方向,即內(nèi)容方面要滿(mǎn)足五個(gè)方面的平衡性要求,服務(wù)方面要滿(mǎn)足主動(dòng)檢索、自動(dòng)檢索、輔助檢索的功能需要。圍繞這一建設(shè)方向進(jìn)行圖書(shū)館古籍?dāng)?shù)字資料庫(kù)的開(kāi)發(fā)和應(yīng)用,才能形成開(kāi)發(fā)者和用戶(hù)多贏的局面。同時(shí)這八方面的要求也會(huì)成為評(píng)價(jià)圖書(shū)館古籍?dāng)?shù)字資料庫(kù)質(zhì)量的重要參數(shù)或參考標(biāo)準(zhǔn)。
[1] Eggins Suzanne.An Introduction to Systemic Functional Linguistics[M].London:Pinter,1994:61.
[2]“北大法寶——中國(guó)法律檢索系統(tǒng)”能幫我們做什么 [EB/OL].[2010-11-23].http://www.chinalaw info.com/bdfb/Lib_02.asp.
[3]李鐸.從檢索到分析——計(jì)算機(jī)知識(shí)服務(wù)的時(shí)代[J].文學(xué)遺產(chǎn),2009(1):135-137.
[4]王東海.古文獻(xiàn)數(shù)字語(yǔ)料庫(kù)的異形字處理[J].語(yǔ)言文字應(yīng)用,2005(4):116-120.