化振紅
(南京師范大學 文學院,江蘇 南京 210093)
近20年來,中文古籍語料庫為包括漢語史在內(nèi)的諸多學術(shù)領(lǐng)域提供了極大便利,由此激發(fā)了學術(shù)界對古代漢語語料庫建設(shè)問題的濃厚興趣,到目前為止,投入使用的或正在建設(shè)的中文古籍語料庫已達數(shù)十種之多;從技術(shù)層面看,早期的語料庫比較簡單,主要是將紙質(zhì)文獻輸入計算機,利用較簡單的檢索軟件進行文本搜讀,為研究者提供字、詞、句方面的例證及其具體語境,習慣上稱之為平面型語料庫。隨著超文本技術(shù)的發(fā)展,又出現(xiàn)了一些XML文檔數(shù)據(jù)庫,實現(xiàn)了傳統(tǒng)語言學工具書的多層級組合檢索。但是,現(xiàn)有數(shù)據(jù)庫的缺陷也顯而易見:基本上只能用來閱讀或搜尋文本,很少添加詞性、義項、語法地位等比較復雜的語言學信息。為了滿足實際研究的需要,國內(nèi)逐步開始建設(shè)深加工的古代漢語語料庫。在這樣的學術(shù)背景下,我們以國家社科基金重大項目“深加工中古漢語語料庫建設(shè)研究”為依托,展開了中古漢語語料庫的研制工作。建設(shè)過程中,發(fā)現(xiàn)了許多值得思考的問題。本文擬就其中的語料選取、詞語切分及分詞規(guī)范等問題,進行一些討論。
無論是不作標注的生語料庫,還是添加各種標注的熟語料庫,語料的選擇都是影響語料庫質(zhì)量的重要因素。概而言之,語料的選擇實際上包含了兩方面的考量:選取怎樣的語料、怎樣選取語料。前者指的是選擇語料時所依據(jù)的基本原則,后者偏重于選取語料的具體操作過程。關(guān)于語料選擇的一般性原則,國內(nèi)外學者已經(jīng)進行了較為深入的研究,取得了不少共識。結(jié)合這些共識,在全面考慮中古漢語及中古典籍具體情況的基礎(chǔ)上,我們確定了選取語料的四條原則,進而確定了進入語料庫的中古文獻。
第一,語料樣本的代表性。
首先,所選語料能夠反映漢語史特定階段的基本特點,對中古漢語語料庫而言,所選語料必須既能從整體上反映中古漢語的真實面貌,又能展示中古漢語局部的各種較突出的特點。眾所周知,中古漢語包括口語和書面語兩個系統(tǒng),各階段的口語是通過書面語體現(xiàn)出來的。漢語史的研究對象實際上是包含著不同數(shù)量口語成分的書面語??谡Z化程度較低的文獻以史書為代表,語言風格較典雅規(guī)范,夾雜了少量的口語用法;口語化程度較高的文獻主要是部分漢譯佛典、筆記小說、尺牘作品、俗文學作品、醫(yī)農(nóng)雜著等。不同題材、不同體裁的文獻又有各自的語言特色,詞匯方面尤為突出。語料庫中的文獻必須充分展現(xiàn)所有類型文獻的詞匯、語法特征。換句話說,對語料庫中全部或部分語料進行研究之后,其分析結(jié)果可以概括為中古漢語整體或某一指定部分的語言特點。
其次,所選語料在漢語史領(lǐng)域受到普遍關(guān)注,同時對中國古代社會具有重要影響。中古漢語語料庫的目標用戶是從事漢語史研究的學者群,主要用于中古漢語詞匯史、語法史研究,也可用作上古漢語、近代漢語研究的輔助性工具。因此,語料的選取雖然無法囊括所有的中古語料,卻必須覆蓋中古階段各種類型的語料,以滿足漢語史領(lǐng)域內(nèi)不同層次、不同旨趣研究者的實際需要;從更廣闊的角度看,中古漢語語料庫作為人文社會科學領(lǐng)域國家級重大課題之一,未來的使用者不能僅局限于漢語史領(lǐng)域,還需要為中古時期史學、考古學、思想史、科技史、文化史等相關(guān)學術(shù)領(lǐng)域提供值得信賴的原始材料。為了實現(xiàn)這一目標,所選語料必須是受到各個領(lǐng)域高度重視、應用極為廣泛的文獻?;谏鲜稣J識,中古漢語語料庫以官修正史作為最重要的語料類型;同時遴選了一定數(shù)量的漢譯佛經(jīng)文獻,代表口語化程度較高的中古作品;以部分筆記小說、雜帖作品、南北朝詩歌代表中古俗文學作品;以《齊民要術(shù)》、《肘后備急方》等代表各種專門文獻。這就基本覆蓋了中古階段最具代表性的文獻類型。
第二,文本類型的平衡性。
一個語料庫是否具有較高的學術(shù)價值,關(guān)鍵在于其中的語料能夠在多大程度上與當時的現(xiàn)實語言相吻合,既能宏觀反映最重要的語言規(guī)律,又能微觀展示盡可能多的語言事實。漢語史上的語言現(xiàn)象、語言事實主要是通過歷代文獻體現(xiàn)出來的。選用多少語料樣本才能充分反映各方面的語言特點,目前還沒有公認的標準。因此,只能根據(jù)對中古漢語的總體認識、以往的建庫經(jīng)驗進行主觀判斷,大致確定各種類型文獻的比例,盡量保持不同類型文本之間的平衡性。中古漢語的基本特點是,大多數(shù)文獻以文言為主體,摻雜著或多或少的口語成分;部分文獻顯示了古白話的興起,包含著大量的口語用法;純粹口語化的文獻在中古階段雖然逐漸增多,其絕對數(shù)量卻難以同文言作品并駕齊驅(qū);出土文獻和傳世文獻的語言存在較大差異。與這些特點相對應,中古漢語語料庫中的文獻,最重要的類型是代表文言系統(tǒng)的正史作品,入庫文獻7種,總字數(shù)約350萬;第二是包含較多口語成分的子部作品,如漢譯佛經(jīng)、中土佛道作品、筆記小說、詩歌等,入庫文獻近30種,總計約300萬字;第三是強調(diào)實用、口語性較突出的醫(yī)農(nóng)雜著等,入庫文獻3種,約30萬字;最后是具有一定口語性、語言風格與傳世文獻存在較大差異的出土文獻,主要包括敦煌吐魯番文獻、魏晉至隋唐的碑刻文獻等,約80萬字。從入庫文獻的字數(shù)統(tǒng)計看,上述四類文獻在入庫文獻中所占比例大致為46%、40%、4%、10%。
第三,語料之間的關(guān)聯(lián)性與區(qū)別度。
任何大型語料庫都不可能囊括所有文獻,如鄭家恒所說:“不管語料庫規(guī)模多大,建立時經(jīng)過多么仔細的設(shè)計,都不可能覆蓋語言的所有現(xiàn)象和模式,也不可能準確地按比例表示這些現(xiàn)象?!保?]因此,語料庫規(guī)模的擴大固然很有意義,卻不是最重要的。更為關(guān)鍵的是語料是否具有代表性,就文獻樣本的選取而言,主要體現(xiàn)在兩個方面:
首先,同類文獻保持一定的關(guān)聯(lián)度,有利于提供足夠的語言研究信息。語言研究不光需要說明語言中存在著什么樣的語言事實,還常常需要掌握這些事實的出現(xiàn)概率。頻率統(tǒng)計目前已經(jīng)成為中古詞匯、語法研究不可或缺的手段,數(shù)據(jù)統(tǒng)計、定量分析的物質(zhì)基礎(chǔ)就是各種類型的數(shù)據(jù)庫。因此,中古漢語語料庫不僅應該覆蓋中古絕大多數(shù)詞匯、語法現(xiàn)象,而且每種特定語言現(xiàn)象在語料庫中的頻率也應達到一定數(shù)量,才能為各種角度的定量分析提供堅實的文獻基礎(chǔ)。根據(jù)這樣的現(xiàn)實需求,中古漢語語料庫中,篇幅較大的語料至少需要選取兩種以上的同類文獻,如官修正史、漢譯佛經(jīng)中的律藏作品等;篇幅較小的語料則需要較多的同類文獻,同時應盡量避免那些題材過于冷僻、中古階段難以找到同類文獻的語料。較典型者如中古階段的醫(yī)農(nóng)雜籍,往往只有一兩種題材相同的作品。如果出現(xiàn)這種情況,則需要在相近時代的文獻中遴選同類性質(zhì)的作品。以唐人韓鄂《四時纂要》為例,據(jù)繆啟愉考證,成書約在唐末五代初[2],這在漢語史上已屬于近代漢語早期,超出了中古漢語的范疇,但存世的中古農(nóng)書只有賈思勰《齊民要術(shù)》,為了保持入庫語料的平衡性,只有考慮將《四時纂要》增補入庫。
其次,不同文獻保持一定的區(qū)別度,以保證對語言事實足夠高的覆蓋率。中古漢語語料庫如同其他語料庫一樣,需要為中古漢語研究提供豐富的中古漢語詞匯、語法樣本,雖然難以覆蓋中古漢語詞匯、語法的所有模式,也無法按照準確比例表示中古漢語各種詞匯、語法現(xiàn)象,但為了盡量接近這樣的目標,其中的文本必須包含中古漢語研究所需的各種類型語料,不能讓任何一種文本占據(jù)絕對優(yōu)勢地位。從語料庫建設(shè)的操作層面看,無論人工操作或機器操作,增加同類性質(zhì)的文獻較容易擴大語料庫規(guī)模;相反,語料庫中文獻的區(qū)別度越大,操作過程越復雜,難度就會隨之增加。但對一個深加工的語料庫而言,顯然不能過分看重語料庫的規(guī)模。為了貫徹這一原則,中古漢語語料庫以傳世文獻中的正史作品、佛經(jīng)作品為主體,也選取了一定數(shù)量的筆記小說、文學作品,兼顧了醫(yī)書、農(nóng)書等專門性較為突出的文獻;從語體角度看,比較典雅的文言作品占了相當大比例,也包含較口語化的白話作品,還吸收了整體語言風格與傳世文獻存在較大差異、能夠體現(xiàn)不同類型文獻之間區(qū)別度的敦煌吐魯番出土文獻等作品。
第四,入庫文獻的特色性。
如前所述,國內(nèi)已經(jīng)研制了多種古代文獻語料庫,部分語料庫使用得相當普遍,如四庫全書電子版、國學寶典、二十五史全文檢索系統(tǒng)、大正藏全文檢索系統(tǒng)、漢籍檢索、中國基本古籍庫、龍語瀚堂典籍數(shù)據(jù)庫等。由于研究旨趣、使用對象不同,各語料庫在選取入庫文獻時均體現(xiàn)出了各自的特色,如:國學寶典的文獻較駁雜,以古代語料為主,兼收部分現(xiàn)代語料;大正藏檢索系統(tǒng)、二十五史檢索系統(tǒng)分別以佛教典籍、官修正史為主體;漢籍檢索系統(tǒng)收錄了先秦至民國的經(jīng)史子集文獻;中國基本古籍庫收錄了民國以前的歷代名著及各學科基本文獻;龍語瀚堂系統(tǒng)收入了部分出土文獻。這些語料庫中的文獻既有大量重疊,也都有一些罕見于其他語料庫的特色文獻。得益于此,古代典籍的電子化程度越來越高,為包括漢語史在內(nèi)的眾多學術(shù)領(lǐng)域提供了極大便利。到目前為止的古代文獻語料庫,基本上以傳世文獻為主,其中絕大多數(shù)為刻本文獻。為了更全面地反映中古漢語的實際面貌,中古漢語語料庫除了傳世文獻外,增加了部分出土文獻,主要是吐魯番出土文書、漢魏六朝至隋唐的碑刻文獻,還收錄了以六朝雜帖作品為主的未見于其他語料庫的部分抄本文獻,這兩部分文獻共80多萬字,對于中古漢語研究來說,數(shù)量已相當可觀。這部分文獻由于未經(jīng)整理,以往很少有人涉足,語料價值基本上沒有得到利用。中古漢語語料庫的收錄、整理,可望在很大程度上改變這一被動局面。
基于上述原則,本課題組分批次確定了下列入庫文獻:(1)官修正史:《后漢書》、《三國志》、《魏書》、《南齊書》、《北齊書》、《梁書》、《陳書》;(2)漢譯佛經(jīng):《中本起經(jīng)》、《雜譬喻經(jīng)》、《撰集百緣經(jīng)》、《生經(jīng)》、《賢愚經(jīng)》、《雜寶藏經(jīng)》、《十誦律》;(3)中土佛道作品:《高僧傳》、《洛陽伽藍記》、《經(jīng)律異相》、《法顯傳》、《觀世音應驗記三種》、《太平經(jīng)》、《神仙傳》;(4)筆記雜著:《論衡》、《列子》、《西京雜記》、《抱樸子內(nèi)篇》、《世說新語》、《顏氏家訓》、《水經(jīng)注》、《幽明錄》、《冥祥記》、《殷蕓小說》、《拾遺記》;(5)詩歌雜帖:魏晉南北朝詩歌、魏晉南北朝雜帖;(6)醫(yī)農(nóng)典籍:《齊民要術(shù)》、《四時纂要》、《肘后備急方》;(7)出土文獻:部分敦煌吐魯番文獻、漢魏至隋唐碑刻文獻。除上述語料外,還有部分文獻處于遴選階段,會分批次增補進去。中古漢語語料庫最終的原始語料共約1 000萬字,語料庫總庫容預計將達1 600萬字。
對于標注詞性、詞義、語法地位等多種語言研究信息的熟語料庫來說,詞的切分是所有標注工作的前提。所謂“詞的切分”,是指按照特定的規(guī)范,對漢語中連續(xù)的字串進行切分并重新組合成詞串的過程[3],這是中文信息處理中特有的基礎(chǔ)性課題。英語文本中,詞(word)與詞(word)之間存在“空格”這樣的自然分界符,詞的辨識基本上不存在什么障礙;漢語文本則以漢字為書寫單位,一個接一個地按句連寫,詞與詞之間沒有形式上的界限標記,難以簡單而準確地辨識;就其本身而言,漢語的詞缺乏形態(tài)變化,不具備純客觀的切分條件。因此,任何一個標注型漢語語料庫,都無法回避“詞的切分”這一關(guān)鍵問題。
相對于古代漢語來說,現(xiàn)代漢語的情況較為簡單。切分詞的時候,往往可以借助比較一致的語感做出判斷;基于現(xiàn)代漢語的各種語法規(guī)則也相對明晰。因此,現(xiàn)有的各種現(xiàn)代漢語語料庫,通常采用基于詞典的機械分詞方法:依靠語感及各種現(xiàn)代漢語詞典,事先編制一個詞表,貯存在電腦系統(tǒng)中,處理入庫文本時,根據(jù)這一詞表進行比對及判斷[4],雖然還存在著詞表中未登錄詞的識別、歧義詞語的判定等問題,但總體而言,電腦系統(tǒng)自動切分之后,通過人工干預進行校正,足以得到普遍認可的結(jié)果。詞表制作的理論基礎(chǔ)是1990年頒布的國家標準《信息處理用現(xiàn)代漢語分詞規(guī)范》(GB/T13715-92),部分學者根據(jù)語料庫的操作實踐對這一標準進行了更為細致的解釋、說明①俞士汶等以《北京大學現(xiàn)代漢語語料庫基本加工規(guī)范》為題,全文發(fā)表了《人民日報》語料庫的加工規(guī)范《現(xiàn)代漢語語料庫加工規(guī)范——詞語切分與詞性標注》,該規(guī)范1999年3月制訂、2001年7月修訂,詳參《中文信息學報》2002年第5期、第6期。后來又發(fā)表了2003版《北大語料庫加工規(guī)范:切分·詞性標注·注音》,進行了較大的修訂,大幅度擴充了標記集,詞性標記總數(shù)由40個左右增加到105個左右,為現(xiàn)代漢語語料庫的精細化打下了堅實基礎(chǔ)。??傮w上看,現(xiàn)代漢語語料庫的加工已經(jīng)有了一整套科學性、通用性較高的分詞規(guī)范。源于現(xiàn)代漢語語料庫的這套分詞規(guī)范,也為古代漢語語料庫提供了不少值得借鑒的經(jīng)驗。
古代漢語與現(xiàn)代漢語又有著顯著差別,在古代漢語語料庫建設(shè)過程中,詞的切分不可能照搬現(xiàn)代漢語的做法。古代漢語中,對詞的切分及標注存在較大影響的詞的特點,體現(xiàn)在兩個方面:
第一,詞類劃分尚未形成統(tǒng)一的認識。國內(nèi)比較通行的語法體系中,詞類數(shù)量有種種不同說法。《暫擬漢語語法教學系統(tǒng)》將漢語的詞劃分為11類:名詞、動詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、助詞、嘆詞。大學語法教科書一般分為12~14類,黃伯榮、廖序東分為14類,胡裕樹分為13類。部分語法著作劃分得更細,如朱德熙分17類,郭銳分19類。古代漢語詞類相對少一些,《馬氏文通》分9類,之后各種語法體系通常增加1到2類,如殷國光分11類。針對古代漢語的具體情況,往往還會在較復雜的詞類下面細分若干小類,如郭錫良把代詞分成了人稱代詞、指示代詞、疑問代詞、無定代詞4個小類,副詞分為程度副詞、范圍副詞等6個小類。此外,古代漢語中還包含較普遍的兼類、活用現(xiàn)象,同樣是一個相當棘手的問題。
第二,詞和詞組缺乏客觀性的判斷標準。這一問題從20世紀50年代起開始困擾漢語詞匯研究,至今未得到圓滿解決。陸志韋《北京話單音詞詞匯》序言較早提出這個問題,引發(fā)了學術(shù)界的熱烈討論,王力、呂叔湘、林漢達、孫常敘先后提出了一些區(qū)分詞和詞組的具體方法。80年代以后,這方面研究更加深入。劉叔新提出“準詞”概念以指稱那些處于從自由詞組向詞過渡的中間狀態(tài)的語言單位。也有不少學者討論古代漢語中詞和詞組的界限,張永言提出以詞的分離性為主要標準、以結(jié)構(gòu)的整體性為補充標準、以意義的整體性為輔助標準;殷國光提出“過渡詞”之說②關(guān)于古代漢語詞和詞組的界限的上述討論,分別見于:張永言 .詞匯學簡論[M].武漢:華中工學院出版社,1982:33;殷國光.呂氏春秋詞類研究[M].北京:華夏出版社,1997:7。殷先生把“過渡詞”的主要特征歸納為形式上很不穩(wěn)定。具體表現(xiàn)為:使用頻率較低,構(gòu)成成分以單用為主,兩個成分的位置可以顛倒,還可以代換、擴展。,與劉叔新的“準詞”可謂殊途同歸。這些研究對中古漢語語料庫中詞的切分具有重要的參考價值。
簡而言之,學者們對辨別詞和詞組的方法達成了幾點共識:(1)擴展法:能插入其他成分進行擴展的是詞組,反之,是復合詞;(2)詞組的意義能夠通過字面綜合出來,復合詞的意義則不能通過構(gòu)成成分的簡單相加而得出;(3)詞組的構(gòu)成成分能夠顛倒次序,復合詞則不能;(4)詞組的內(nèi)部結(jié)構(gòu)比較松散,復合詞的內(nèi)部結(jié)構(gòu)比較緊密;(5)組成成分里有粘著語素的,一般是復合詞。成分都是自由語素的,結(jié)合其他條件來辨別是詞組還是復合詞。這些方法基本上可以解決現(xiàn)代漢語中詞和詞組的界限問題。用于中古漢語,仍然存在一些問題,主要原因在于中古階段相當多的詞語經(jīng)歷了從自由詞組到詞的凝固過程,中間確實存在亦此亦彼的“準詞”狀態(tài)。對于每一個具體的詞,這個漸進的過程何時完成,雖然有時可以借助工具書,并綜合其特定時期的出現(xiàn)頻率以及上下文語境做出初步判定,但在更多情況下,這種判定仍然存在很大的難度。
這些懸而未決的問題對于漢語詞匯研究是至關(guān)重要的,但短時間內(nèi)又不能得到徹底解決。中古漢語語料庫主要是為學界提供一個中古漢語詞匯、語法的語料平臺,其中的大多數(shù)詞語,學術(shù)界并沒有太大爭議;本課題組無意也不可能對詞類劃分、詞的切分等問題得出終極性結(jié)論;組內(nèi)成員從較優(yōu)秀的碩士生到博士生再到專業(yè)教師,學術(shù)修養(yǎng)存在一定差異。因此,必須建立一套符合語言學基本要求的、便于組內(nèi)成員具體操作的規(guī)則,前者保證語料庫具有較高的學術(shù)價值,后者則使整個課題能夠順利地進行下去。經(jīng)過長時間反復討論,課題組內(nèi)部大致形成了下列共識:
第一,詞類劃分采用漢語史學者普遍認可的、比較容易操作的標準,共分13類。與之相對應,建立一套面向中古漢語語料庫的、規(guī)范的詞類標記集,以減少數(shù)據(jù)轉(zhuǎn)換的麻煩,所劃分的詞類及其標注符號為:名詞(n)、動詞(v)、形容詞(a)、數(shù)詞(m)、量詞(q)、代詞(r)、副詞(d)、介詞(p)、連詞(c)、助詞(u)、語氣詞(y)、嘆詞(e)、擬聲詞(o)。需要說明的是,這套詞類劃分及其標記集,主要是為了解決中古漢語語料庫數(shù)據(jù)交換過程中詞類標記的統(tǒng)一問題而建立起來的,并不能看作中古漢語詞類的規(guī)范,也不妨礙對古代漢語詞類的深入研究。此外,隨著中古漢語語料庫建設(shè)的發(fā)展,將來必然會對現(xiàn)有的詞類進行更為細致的劃分,因此,這個詞類劃分及標記集,應該具有一定的可擴展性。我們的思路是,借鑒現(xiàn)代漢語語料庫的做法,對部分較為復雜的詞類預設(shè)出若干小類及相應的標記符號:名詞之下,預設(shè)了專有名詞(np)、普通名詞(ng)、時間名詞(nt)、處所名詞(ns)、方位名詞(nl);動詞之下,預設(shè)了助動詞(vu)、趨向動詞(vd)、系動詞(vl)、不及物動詞(vi)、及物動詞(vt);形容詞之下,預設(shè)了性質(zhì)形容詞(aq)、狀態(tài)形容詞(as);數(shù)詞之下,預設(shè)了基數(shù)詞(mc)、序數(shù)詞(mo)、助數(shù)詞(mu);量詞之下,預設(shè)了名量詞(qn)、動量詞(qv)、時量詞(qt);代詞之下,預設(shè)了人稱代詞(rh)、指示代詞(rd)、疑問代詞(rw);助詞之下,預設(shè)了結(jié)構(gòu)助詞(us)、動態(tài)助詞(ua)、語氣助詞(um)①標記符號借鑒了國家語委發(fā)布的“信息處理用現(xiàn)代漢語詞類標記集規(guī)范”中的部分規(guī)定,同時結(jié)合中古漢語詞匯研究的實際情況,作出了局部的調(diào)整。如,專有名詞之下不設(shè)立團體機構(gòu)名,形容詞之下不設(shè)非謂形容詞、唯謂形容詞,數(shù)詞之下不設(shè)數(shù)量數(shù)詞,基數(shù)詞之下不設(shè)系數(shù)詞、位數(shù)詞,等等。參見:國家語委語言文字應用研究所計算語言學研究室 .信息處理用現(xiàn)代漢語詞類標記集規(guī)范[J].語言文字應用,2001(3);靳光瑾,郭曙綸,等 .語料庫加工中的規(guī)范問題[J].語言文字應用,2003(4)。。這一處理方式,基本上解決了中古時期的個體詞語在現(xiàn)階段語料庫中的詞性問題,也為將來的細化分類及研究留下了足夠空間。目前,為了使中古漢語語料庫建設(shè)能夠順利進行,在實際操作過程中,除了用來滿足特定知識檢索的需要而設(shè)立的專有名詞外,各個詞類之下原則上不再劃分次類。這樣的詞類劃分體系,是根據(jù)中古漢語語料庫建設(shè)的具體情況,對黃伯榮、廖序東《現(xiàn)代漢語》的詞類劃分、中古漢語詞類的固有特點進行折中的結(jié)果,雖然帶有一定的雜糅色彩,卻在很大程度上提高了語料庫建設(shè)的可操作性。對于中古漢語中較為常見的兼類、活用現(xiàn)象,遵循“依句辨品”的原則:根據(jù)詞語在句子中的語法功能確認其詞性②一些古代漢語語料庫曾經(jīng)在部分詞類下邊增加了若干功能標記:將名詞活用為動詞、形容詞活用為動詞、數(shù)詞活用為動詞等分別標記為動名詞、動形詞、動數(shù)詞。對于完全采用人工標注的語料庫來說,這種做法是基本可行的。對于大規(guī)模地利用系統(tǒng)軟件進行標注的中古漢語語料庫則是很難實現(xiàn)的;同時,這種處理方式增加了一些新的語法術(shù)語,帶來了更多的概念界定問題。因此,整體上并不是一種理想的做法。;典故詞、成語等不予切分,同樣按照在句子中的語法功能標注其詞性。
第二,以分詞單位作為中古漢語語料庫的基本單位。分詞單位包括中古漢語階段全部的詞和少量使用頻率及凝固程度較高的詞組。這個概念借鑒了現(xiàn)代漢語語料庫的做法,主要是為了避免陷入詞和詞組的爭議。因為在實際操作過程中,界定分詞單位通常比界定詞或詞組更容易把握;也有利于解決本身相當棘手、詞匯語法研究較少關(guān)注的專有名詞、專名詞組、成語、習語等問題,同時便于系統(tǒng)軟件對規(guī)則的理解和應用。
第三,分詞單位的成員主體是詞。關(guān)于詞的切分,按照下列步驟依次展開:(1)分離出《漢語大詞典》包含中古用例的所有詞條及其義項,初步建立一個中古漢語詞語義項數(shù)據(jù)庫。(2)分離出蔡鏡浩《魏晉南北朝詞語例釋》、方一新《東漢魏晉南北朝史書詞語箋釋》、王云路、方一新《中古漢語語詞例釋》、董志翹、蔡鏡浩《中古虛詞語法例釋》、丁福保《佛學大辭典》、李維琦《佛經(jīng)詞語匯釋》中收錄的詞語及其義項。由于我們的義項庫屬于動態(tài)數(shù)據(jù)庫,下一階段還將陸續(xù)分離出江藍生《魏晉南北朝小說詞語匯釋》、王云路《六朝詩歌語詞研究》、張永言《世說新語辭典》、江藍生、曹廣順《唐五代語言詞典》、李維琦《佛經(jīng)釋詞》及《佛經(jīng)續(xù)釋詞》等斷代研究或?qū)n}研究成果中的詞語及其義項,并密切關(guān)注《中國語文》、《語言研究》、《古漢語研究》等專業(yè)期刊,及時梳理中古詞語研究的最新成果。剔除上述成果中與《漢語大詞典》詞語、義項數(shù)據(jù)庫重合的條目,其余條目分別補入數(shù)據(jù)庫,從而建立起中古語料庫專用的中古詞語義項數(shù)據(jù)庫。需要說明的是,在建立專用義項庫的過程中,在詞條的立目、義項的分合、釋義的表述等方面,必然遇到大量的《漢語大詞典》與其他工具書、學術(shù)論著不盡一致的情況,處理這些問題的基本原則是:以《漢語大詞典》為主要標準,其他工具書、論著的成果則主要用來彌補《漢語大詞典》的某些不足,如增補《漢語大詞典》失收詞條、糾正比較明顯的釋義錯誤等。當《漢語大詞典》與其他工具書義項分合不一、釋義差異較大的時候,同樣強調(diào)以《漢語大詞典》的義項設(shè)立、釋義表達為主要標準,盡量避免過多地陷入具體問題的爭議之中。(3)確定分詞單位時,堅持適當從嚴的原則。具體切分時,每一個切分出來的詞語均需與中古漢語詞語義項數(shù)據(jù)庫中的詞條進行比對,以確認是否成詞。凡義項庫中未登錄的詞語,尤其是數(shù)量眾多的同義復詞、專業(yè)性較強的行業(yè)術(shù)語、代表地名或人名的專有名詞,經(jīng)組內(nèi)專家與理論組(本項目的子課題組之一)集中討論,共同認定其性質(zhì)。排除了誤切的條目之后,將確認無誤的條目補充到義項庫中,同時以備注形式逐一添加統(tǒng)一標識。為將來建立未登錄詞數(shù)據(jù)庫積累原始數(shù)據(jù)。同時強調(diào)不能因為中古詞語義項數(shù)據(jù)庫收錄了某個詞,就把文本中同一形體的語言單位機械地認定為分詞單位。
第四,為了盡可能地保持一致的切分標準,制定了若干比較具體的分詞規(guī)則:(1)除專名詞語、外來詞語外,由四個以上音節(jié)構(gòu)成的詞組,一律不作為分詞單位,必須予以切分;四音節(jié)的語言單位,如果結(jié)合較緊密、使用頻率較高或者存在增義、轉(zhuǎn)義現(xiàn)象,一律視為分詞單位不再切分,理論上視為分詞單位中的詞組。(2)來自異族語言的音譯外來詞,不予切分。(3)“阿、第、有”后加單音節(jié)名詞構(gòu)成的詞或詞組,不予切分;“頭、子、然、復、如、爾”前加單音節(jié)名詞、動詞、形容詞、連詞、副詞構(gòu)成的詞或詞組,不予切分。(4)普通名詞:結(jié)合緊密,分開后如果違背原有組合意義的名詞性詞組,一律視為分詞單位,不予切分。一年的十二個月份,一律作為分詞單位,不予切分。民族名、國名、地名中的“族、人、國、郡、州、縣、邑、城、里、江、河、山”等,單獨劃分。只有兩個字的民族名、國名、地名,一律不予切分,如:《世說新語·言語》“昔武王伐紂,遷頑民于洛邑”中的“洛邑”指洛陽城,視為一個分詞單位,不予切分;《洛陽伽藍記·凝玄寺》“洛陽城東北有上商里,殷之頑民所居處也”中的“洛陽城”切分為“洛陽”、“城”兩個分詞單位。帝王年號與后邊的附加成分,一律予以切分,如:《高僧傳·神異上·竺佛圖澄傳》“以晉懷帝永嘉四年來適洛陽,志弘大法”中的“永嘉四年”切分為“永嘉”、“四年”兩個分詞單位;與此類似的“永嘉末”、“永嘉中”、“永嘉之初”等,同樣應予切分。(5)專有名詞,以《世說新語》的語料為例:人名、表字、封號、謚號、職官名,均作為分詞單位,不予切分;與姓氏連用時,也看作一個整體,不予切分。如,李膺、李元禮(李膺,字元禮),王安豐(王戎,封為安豐侯),晉文王(司馬昭,死后謚文),裴令公(裴楷,曾任中書令),陳太丘(東漢陳寔,曾任太丘長),祖光祿(祖納,時任光祿大夫),桓常侍(桓彝,官至散騎常侍),王丞相(王導,曾任丞相);尊號也不予切分,如,郗公(郗鑒,曾任司空、太尉等職);含有地名的封號、職官名,其中的地名應予切分,如,扶風王(扶風,郡名),荊州刺史(荊州,州名)。(6)動詞:動詞前的否定副詞,一律予以切分。動詞與趨向動詞結(jié)合的詞組,一律予以切分。動賓結(jié)構(gòu)、動補結(jié)構(gòu)的詞或詞組,中間如果可以插入其他成分,應予切分??煞癫迦耄瓌t上根據(jù)中古文獻中有無實際用例進行判斷。如:《高僧傳·譯經(jīng)上·攝摩騰傳》“既而游方弘化,遍歷諸國”中的“游方”,《漢語大詞典》雖然已經(jīng)單獨立目,但中古文獻的很多用例中尚未完全凝固,中間可以插入其他成分,基本意思保持不變?!额伿霞矣枴ば值堋罚骸胺狡溆滓?,父母左提右挈,前襟后裾,食則同案,衣則傳服,學則連業(yè),游則共方,雖有悖亂之人,不能不相愛也?!备鶕?jù)《顏氏家訓》的用例,原則上將南北朝文獻中的“游方”視為應予切分的詞組。單音節(jié)動詞后加“為、作、成、得、至”等成分的動補結(jié)構(gòu),使用頻率、凝固程度較高的,可以作為一個分詞單位,不予切分;反之,則予以切分。(7)形容詞:兩個單音節(jié)形容詞并列且改變詞性的,一律不予切分。(8)數(shù)詞:數(shù)詞和量詞一律切分;數(shù)位詞一律不予切分。
以上條款是在中古漢語語料庫建設(shè)過程中處理部分語言現(xiàn)象時的一些具體思路。我們的目標是根據(jù)一個能夠為多數(shù)學者接受的語法體系,制定出若干便于操作的切詞規(guī)則,最終形成一個比較通用、實用的、覆蓋中古絕大部分語言現(xiàn)象的、較為科學的分詞規(guī)范。由于古代漢語和現(xiàn)代漢語、語言理論與語言事實、語法的理論研究與實踐應用、語言事實的人腦分析與電腦軟件分析之間的巨大差異,中古漢語分詞規(guī)范的建立,必然是一個相當復雜、需要不斷探索的過程。目前的這些規(guī)則,僅僅是一個粗線條的框架,其中還包含著一些不盡合理的地方,但它們對于中古漢語語料庫的建設(shè)卻具有比較重要的意義。因為中古漢語語料庫建設(shè)過程中,對語料的加工處理,通常包含著兩個環(huán)節(jié):一是人工作業(yè)環(huán)節(jié),由組內(nèi)成員對中古語料進行切分、標注等工作,積累經(jīng)驗,逐漸形成一些切詞、標注的操作規(guī)范;二是程序作業(yè)環(huán)節(jié),根據(jù)人工作業(yè)的經(jīng)驗,開發(fā)出相應的電腦軟件,實現(xiàn)由電腦軟件取代人工作業(yè),并使用抽樣分析的方法隨時進行人工干預,發(fā)現(xiàn)并校正程序作業(yè)中的各種問題。尤其是在電腦程序處理這個環(huán)節(jié),制定一套便于操作的分詞及標注規(guī)范顯得更為重要。
目前的分詞規(guī)范中一個較大的問題是:如何判斷詞或詞組的使用頻率、凝固程度的高或低?有沒有可能為使用頻率、凝固程度提供一個最理想的數(shù)值?從理論上說,這樣的數(shù)值是不存在的。因為中古漢語語料庫選取的文獻不過是現(xiàn)存中古文獻的一部分,現(xiàn)存中古文獻又只是中古文獻的一小部分;中古漢語階段,不少詞或詞組的使用頻率本來就比較低,文獻數(shù)量的不足進一步加大了凝固程度的判斷難度;同時,還存在著文獻真?zhèn)?、字詞舛誤、異文辨正、語感不足、人機對話的技術(shù)障礙等一系列難題。但是,隨著時間的推移、學術(shù)的進步,可以利用的中古文獻會越來越多,辨別文獻真?zhèn)巍⒆衷~舛誤的證據(jù)越來越充足,對中古漢語的語感越來越接近中古漢語的實際,因此,為中古漢語語料庫建立一個較科學的分詞規(guī)范、動態(tài)性的分詞詞表,是完全有可能的。一旦建立起了這樣的分詞規(guī)范、分詞詞表,中古漢語語料庫的容量將迅速擴大,中古詞匯、語法諸領(lǐng)域的基礎(chǔ)數(shù)據(jù)也將海量增加。
[1] 鄭家恒 .智能信息處理——漢語語料庫加工技術(shù)及應用[M].北京:科學出版社,2010:8.
[2] 繆啟愉 .四時纂要校釋[M].北京:農(nóng)業(yè)出版社,1981:2.
[3] 郭曙綸 .漢語語料庫的建設(shè)及應用[M].上海:上海外語教育出版社,2011:8.
[4] 黃昌寧、趙海 .中文分詞十年回顧[J].中文信息學報,2007(3):8-19.