柳建鈺,秦 冕
(渤海大學(xué) 文學(xué)院,遼寧 錦州 121013)
字料庫(Chinese Character Form Database)是指以文字的整理和文字學(xué)的研究為目標(biāo),按照語言學(xué)和文字學(xué)的原則,收集實際使用中能夠代表特定文字或文字變體的真實出現(xiàn)過的文字書寫形態(tài),運用計算機技術(shù)建成的具有一定規(guī)模的大型電子文字資源庫[1]。字料庫的出現(xiàn)為新時代的漢字學(xué)研究提供了嶄新的研究方法與手段。字料庫不僅可以存儲和加工海量字料數(shù)據(jù),而且可以在此基礎(chǔ)上為漢字字際關(guān)系研究提供強有力的平臺與數(shù)據(jù)支撐,是當(dāng)前漢字字際關(guān)系研究不可或缺的有力工具。
異體關(guān)系是漢字字際關(guān)系典型類型之一,也是目前所有字際關(guān)系中最受學(xué)者關(guān)注、研究難度相當(dāng)大的一種類型。在建設(shè)字書字料庫的過程中,我們對學(xué)界漢字異體關(guān)系研究的理論與實踐進(jìn)行了深入考察,并對字料庫異體關(guān)系標(biāo)注問題進(jìn)行了充分探討[2]。隨著研究的不斷深入,我們對字料庫異體關(guān)系整理的相關(guān)問題有了新的思考。比如對于異體關(guān)系層級系統(tǒng)的標(biāo)注與圖形化展示就是當(dāng)前一個非常值得關(guān)注的問題。李國英先生根據(jù)異體字形成的方式,將異體字分為異構(gòu)字和異寫字兩種類型,并認(rèn)為整理異體字最好把異構(gòu)、異寫的層級關(guān)系描寫清楚,排比出譜系[3]。周曉文等學(xué)者從漢字字形整理的角度將字形分為字種、字式、字樣三級單位,通過選取字種代表字串聯(lián)起整個異體關(guān)系層級系統(tǒng),其中代表字下一級為字式組(異構(gòu)關(guān)系),字式組下一級為字樣組(異寫關(guān)系),由此將一組異體字分成三個層級[4]。郭敬燕在此基礎(chǔ)上在代表字下又分出一級異體字、二級異體字等層級,其中一級異體字只有異構(gòu)字,二級(或以上)異體字主要為異寫字[5]。孫建偉認(rèn)為區(qū)分異寫字、異構(gòu)字的核心標(biāo)準(zhǔn)為構(gòu)形理據(jù),由此他進(jìn)一步指出,異寫字包括筆畫層面的異體字和靜態(tài)的構(gòu)件層面的異體字兩類,異構(gòu)字指動態(tài)的構(gòu)件層面的異體字。同時,他對古文隸定字與傳承字、手寫變異字與傳承字、避諱字與傳承字、訛字與正字、造意本不同但在使用中功能重合之字的異寫、異構(gòu)關(guān)系進(jìn)行了討論[6]。邱龍升認(rèn)為同一異體字組的異體字產(chǎn)生有先有后,應(yīng)該從異體字的動態(tài)演變順序來構(gòu)建異體關(guān)系層級系統(tǒng)。他認(rèn)為異體字主要有三級,每一層級與本字之間的關(guān)系逐漸疏遠(yuǎn)[7]。這些學(xué)者的研究成果為我們進(jìn)一步研究該問題打下了堅實基礎(chǔ)。
本文將以渤海大學(xué)CCFD 字書字料庫異體關(guān)系的標(biāo)注為研究對象,介紹字料庫異體關(guān)系界面現(xiàn)有標(biāo)注系統(tǒng),總結(jié)其優(yōu)點與不足。在此基礎(chǔ)上,提出增加“異體關(guān)系拓?fù)鋱D”界面的優(yōu)化意見,并詳細(xì)闡述這一界面所包含的主要內(nèi)容、標(biāo)注流程、標(biāo)注示例以及應(yīng)用價值等相關(guān)問題。
本部分主要介紹字書字料庫現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng),包括九個基本字段以及三大標(biāo)注層次,并歸納現(xiàn)有系統(tǒng)的優(yōu)點與不足。
渤海大學(xué)CCFD 字書字料庫是國內(nèi)首個字書字料庫系統(tǒng),它以歷代字書中真實出現(xiàn)過的字料為收錄對象,對字料進(jìn)行了包括字頭基本信息、字頭構(gòu)形信息和字際關(guān)系信息在內(nèi)的全方位標(biāo)注。目前,字書字料庫已收錄歷代字書近70 部,標(biāo)注完成的字料信息達(dá)200 多萬條。字書字料庫將所需標(biāo)注的漢字基本屬性如“字體類別”“構(gòu)形模式”“筆畫數(shù)”“構(gòu)件組合類型”等都設(shè)計成字段存放于不同的界面之中?,F(xiàn)有異體關(guān)系界面標(biāo)注系統(tǒng)所設(shè)計的基本屬性字段如圖1 所示。
圖1 字書字料庫現(xiàn)有異體關(guān)系標(biāo)注界面
具體來說,包括字頭列表、異體字頭、狹義或部分、異體產(chǎn)生原因、異體產(chǎn)生途徑、異體關(guān)系大類、異體關(guān)系中類、異體關(guān)系小類、相關(guān)參證文獻(xiàn)等九種。基本標(biāo)注框架可分為三個層次,每個層次之間相對獨立,可以相互組配,以求最大限度地標(biāo)注出每個異體字的區(qū)別性特征。
第一層次:將異體字分為“狹義異體字”與“部分異體字”。這組名稱來源于裘錫圭先生,他將用法(音義)完全相同的字稱為狹義異體字,將用法(音義)部分相同的字稱為部分異體字,兩者合在一起稱為廣義異體字[8]。設(shè)計這一字段的主要原因在于要兼顧漢字整理層面與學(xué)術(shù)研究層面兩方面的需要。
第二層次:根據(jù)異體字的產(chǎn)生原因及途徑對異體字進(jìn)行劃分,“漢字系統(tǒng)自身原因”下對應(yīng)“造字方法不同”“字體演變”“使用流通”“其他原因”四種途徑;“漢字系統(tǒng)外因”下對應(yīng)“歷史原因”“地域原因”“社會政治原因”“其他原因”四種途徑(本部分主要參考了章瓊先生《現(xiàn)代漢語通用字對應(yīng)異體字整理》的研究成果)[9]。
第三層次:根據(jù)漢字構(gòu)形學(xué)理論進(jìn)行劃分,首先將異體關(guān)系分為“異寫字”“異構(gòu)字”“復(fù)生異體字”三大類?!爱悩?gòu)字”下可分為“構(gòu)形方式相同”與“構(gòu)形方式不同”兩個中類?!爱悓懽帧毕驴煞譃椤肮P畫異寫字”與“構(gòu)件異寫字”兩個中類?!皬?fù)生異體字”下可分為“兩種以上異寫”與“異構(gòu)且異寫”兩個中類。六個中類下又進(jìn)一步作了切分,共分為47 個小類。大類、中類與小類之間可以在程序內(nèi)實現(xiàn)關(guān)聯(lián)互動。
字書字料庫現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)從三個層次六個小類對異體關(guān)系進(jìn)行了全面分析,其優(yōu)點在于:首先,將狹義異體字與部分異體字共同收錄,再以字段屬性選項的形式予以區(qū)分,有利于兼顧漢字整理層面與學(xué)術(shù)研究層面的不同需求;其次,從異體字產(chǎn)生的原因以及途徑對異體字進(jìn)行梳理,拓寬了異體關(guān)系分類與研究的視野,有助于從動態(tài)角度把握和研究異體關(guān)系;最后,對異寫字與異構(gòu)字進(jìn)行了細(xì)致區(qū)分,盡可能全面地展現(xiàn)異寫字與異構(gòu)字內(nèi)部的細(xì)微差別。三個層次從不同角度對異體關(guān)系進(jìn)行了劃分與整理,從而形成了一個多元立體的異體關(guān)系標(biāo)注系統(tǒng)。
但現(xiàn)有標(biāo)注系統(tǒng)也存在不足。首先,現(xiàn)有標(biāo)注系統(tǒng)將異寫與異構(gòu)所判定的對象分為兩類,一是字種正字,一是其他異體字。系統(tǒng)將所有異體字置于同一層面上進(jìn)行異寫、異構(gòu)的判定。然而異寫與異構(gòu)并非位于同一層次,每一個異構(gòu)字都可能產(chǎn)生異寫字,異寫字處于異構(gòu)字的下位次[10]。若是將一組異體關(guān)系中的每一個異寫字與異構(gòu)字都直接同字種正字進(jìn)行異體關(guān)系對比歸類,勢必會引發(fā)斷鏈甚至判斷失誤的問題。如:“流”與“”,《漢語大字典》(第二版)中溝通了二者的異體關(guān)系,可他們在字形上相去較遠(yuǎn),溝通起來比較困難。實際上,“流——”三字本是因簡省筆畫和形體混同而產(chǎn)生的一組異寫字,“流”字異寫為“”,之后“流”又異寫作“”(詳見下文)。若忽視這一演變過程中的關(guān)鍵鏈條而直接溝通“流”與“”的異體關(guān)系,便會引發(fā)無法溝通或牽強附會的問題。
不僅如此,異體關(guān)系還存在層級系統(tǒng)性,即父級與子級的關(guān)系,一組異體字中任意一個成員都有可能產(chǎn)生其異寫或異構(gòu)形體,此時這一成員相對于由它產(chǎn)生的異寫或異構(gòu)形體來說屬于父級字,而由它產(chǎn)生的異體字屬于子級字,如此層層推衍開來,便構(gòu)成了異體關(guān)系的層級系統(tǒng)。描寫和展示異體關(guān)系的層級系統(tǒng)有助于理清異體字組諸多字形的衍生順序,對包括異體關(guān)系認(rèn)同、字位主形的確定、字種正字的優(yōu)選等在內(nèi)的異體字整理工作具有重要價值。但這一層級系統(tǒng)在字書字料庫異體關(guān)系現(xiàn)有標(biāo)注系統(tǒng)中尚無法得到體現(xiàn)。
鑒于此,對異體關(guān)系屬性庫現(xiàn)有標(biāo)注字段進(jìn)行優(yōu)化補充就顯得非常必要,而要將異體關(guān)系的層級系統(tǒng)信息體現(xiàn)在現(xiàn)有異體關(guān)系屬性庫中,需要借助異體關(guān)系拓?fù)鋱D來實現(xiàn)。
拓?fù)鋱D是從拓?fù)鋵W(xué)引用的名稱,又稱拓?fù)浣Y(jié)構(gòu)圖,它由多個節(jié)點和鏈路構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu),是一種能夠以簡單化和規(guī)則化的圖形來傳遞信息的量化圖,也是當(dāng)前大數(shù)據(jù)可視化技術(shù)采用的主要有效表現(xiàn)形式之一。所謂異體關(guān)系拓?fù)鋱D,就是以拓?fù)鋱D的形式來展現(xiàn)異體關(guān)系的層級系統(tǒng)信息。在字書字料庫框架內(nèi)設(shè)計并實現(xiàn)異體關(guān)系拓?fù)鋱D具有多方面的重要價值。
首先,異體關(guān)系拓?fù)鋱D可以清晰直觀地展現(xiàn)異體字組內(nèi)諸成員的父子、兄弟關(guān)系以及他們的動態(tài)衍生過程。只要理清了衍生過程,不論是位于哪一層級的異體成員,都能做到“身世清晰”。異體字的產(chǎn)生有一個積少成多的過程,一組異體字中,哪一個字是字種正字,哪一個(或幾個)字是由字種正字演變而來的二級字,哪一個(或幾個)字是由二級字演變而來的三級字……弄清楚這些問題,對于異體字整理工作至關(guān)重要。借助異體關(guān)系拓?fù)鋱D來實現(xiàn)對異體字的分級整理,就可以使一組異體字的動態(tài)衍生過程清晰、簡潔地展示出來。
其次,異體關(guān)系拓?fù)鋱D可以將異寫與異構(gòu)之間的復(fù)雜關(guān)系清晰地展現(xiàn)出來。一般來說,異寫是異構(gòu)的下位層次,異寫字是異構(gòu)字形體書寫變異而形成的。但實際上,每一個異構(gòu)字或者異寫字都有可能產(chǎn)生新的異寫與異構(gòu)形體,異寫與異構(gòu)的層級關(guān)系并不像我們想象的那樣簡單。通過異體關(guān)系拓?fù)鋱D,我們可以將復(fù)雜的異寫、異構(gòu)關(guān)系清晰化,有利于進(jìn)一步總結(jié)異寫字、異構(gòu)字產(chǎn)生與發(fā)展的具體規(guī)律。
再次,異體關(guān)系拓?fù)鋱D可以與字書字料庫現(xiàn)有的異體關(guān)系標(biāo)注系統(tǒng)互為補充。字書字料庫現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)重在分析異體字的產(chǎn)生原因、產(chǎn)生途徑以及異寫與異構(gòu)及其小類。而異體關(guān)系拓?fù)鋱D重在展現(xiàn)異體關(guān)系內(nèi)部的層級系統(tǒng)以及一組異體字的動態(tài)演變過程,二者相互補充、互為表里,不僅能夠最大限度地將一組異體字所涉及的各種現(xiàn)象分析清楚,而且能夠同時滿足學(xué)術(shù)研究層面與漢字整理層面的雙重需求,進(jìn)一步擴大字書字料庫異體關(guān)系界面的服務(wù)范圍[11]。
前文說過,異體關(guān)系拓?fù)鋱D是以拓?fù)鋱D的形式來展現(xiàn)異體關(guān)系的層級系統(tǒng)信息。要實現(xiàn)如上功能,可以將“異體關(guān)系拓?fù)鋱D”設(shè)計為一個獨立界面補充在字書字料庫現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)中,標(biāo)注完異體關(guān)系相關(guān)屬性后,就可以在拓?fù)鋱D界面顯示出異體關(guān)系的層級系統(tǒng)信息。下面,本文將依次對異體關(guān)系拓?fù)鋱D界面設(shè)計過程中涉及的層級單位、標(biāo)注原則、所含字段、異體關(guān)系標(biāo)注流程以及注意事項等五個方面的問題進(jìn)行探討。
構(gòu)建異體關(guān)系層級系統(tǒng)的前提是要確定漢字的層級單位。王寧先生將漢字分為三個層面。(1)字樣。在同一形制下,記錄同一個詞,構(gòu)形、構(gòu)意相同、寫法也相同的字稱為一個字樣。字樣是認(rèn)同別異的基礎(chǔ)單位。(2)字位。在同一體制下,記錄同一個詞,構(gòu)形、構(gòu)意相同,僅僅是寫法不同的字樣,稱作異寫字。異寫字認(rèn)同后歸納到一起,稱為一個字位。(3)字種。形體結(jié)構(gòu)不同而音義都相同、記錄同一個詞、在任何環(huán)境下都可以互相置換的字,稱作異構(gòu)字。異構(gòu)字聚合在一起,稱為一個字種[12]。本文采取王寧先生的單位名稱與內(nèi)涵,以字樣、字位、字種三級單位來指稱異體關(guān)系內(nèi)部的層級關(guān)系。層級單位確定之后,便可以選取代表字了。異體關(guān)系中的代表字分別為字位主形與字種正字。字位主形是一組異寫字中的代表字形。一般來說,一組異寫字中,有一個字樣為本字,其他字樣均為本字的書寫變體,選定字位主形時,優(yōu)先選取這一字樣。字種正字是一組異構(gòu)字中的代表字。字種正字往往優(yōu)先選取現(xiàn)代漢語通用字字形,有時這些字形并非本字,也并非構(gòu)形理據(jù)最完整的字,但是它在使用中流通度最高,具有代表意義以及辨識度。由此異體關(guān)系層級系統(tǒng)便可以建立起來了。
1.開放性原則
一組異體字其內(nèi)部成員的數(shù)量往往是不固定的,它會受到所選取字書不同、采集標(biāo)準(zhǔn)或手段不同、支撐材料的多寡等多種因素的影響。以“流”字為例,《漢語大字典》(第二版)中收錄“流”的異體字為9 個,而臺灣《異體字字典》(第六版)中收錄“流”的異體字有21 個,多出來的大都是異寫字形。收字?jǐn)?shù)量的不固定直接導(dǎo)致了拓?fù)鋱D層級數(shù)的不固定。字書字料庫目前所收異體字以《漢語大字典》(第二版)為字料基礎(chǔ),隨著入庫字書字料的不斷增加以及學(xué)界研究成果的不斷豐富,字料庫所收異體字的數(shù)量也會不斷增加。因此,異體關(guān)系拓?fù)鋱D標(biāo)注必須遵循開放性原則,要隨時準(zhǔn)備迎接更多異體成員的加入。
2.共時性與歷時性相統(tǒng)一原則
雖說異體關(guān)系的判定要在共時層面或同一形制下進(jìn)行,但這并不妨礙我們從歷時的角度來考察異體關(guān)系的動態(tài)演變過程。共時層面上的異體字隨著時間的累積,有一部分會徹底“消亡”不再使用;有一部分功能發(fā)生變化,異體特征消失;有一部分固定下來,進(jìn)入新的形制并一直保持其原有的異體關(guān)系;還有一部分是由原有字形產(chǎn)生的字形變體,這些字形變體經(jīng)過使用流通后固定下來,源源不斷地進(jìn)入原有的異體關(guān)系中,歷代字書收字?jǐn)?shù)目的不斷增加很大一部分是這些新增異體字的“貢獻(xiàn)”。因此,我們現(xiàn)在所看到的楷書層面上的異體字,其內(nèi)部實際上是具有動態(tài)層級系統(tǒng)的,層級之間具有父子關(guān)系。子級字由父級字產(chǎn)生,同時又可以作為父級字產(chǎn)生新的子級字。異體關(guān)系拓?fù)鋱D既要在同一形制上溝通一組字的異體關(guān)系,同時又要通過層級關(guān)系來展現(xiàn)一組異體字的動態(tài)演變過程,要滿足共時性與歷時性相統(tǒng)一原則。
3.異寫關(guān)系與異構(gòu)關(guān)系區(qū)分原則
異寫本是異構(gòu)的下位層次,異體關(guān)系拓?fù)鋱D的建立正是為了清晰地展現(xiàn)一組異體字中異寫與異構(gòu)的層級關(guān)系,因此必須將異寫與異構(gòu)進(jìn)行明確區(qū)分。但若想僅通過層級來表現(xiàn)異寫與異構(gòu)的區(qū)別是不現(xiàn)實的,因為異寫與異構(gòu)并非絕對地分層而立。同一字樣,既可以存在其異寫字,同時又可以存在其異構(gòu)字。例如通過調(diào)查字書字料庫可知,“哲”字既有兩個異構(gòu)形體“悊”“嚞”,又存在“埑”“啠”“”“”四個異寫形體,它們均與“哲”字直接相關(guān),因此都應(yīng)位于“哲”的下一級。此時層級已經(jīng)不能區(qū)分異寫與異構(gòu)了,因此我們采取不同形式的連接線來區(qū)分異寫與異構(gòu),異構(gòu)字我們以粗線來連接,異寫字以細(xì)線來連接,如此一來,便能清晰地顯現(xiàn)同一層級中哪些字是異寫字,哪些字是異構(gòu)字。
4.狹義異體字與部分異體字兼收原則
學(xué)界對于異體字的界定存在廣狹之分。從功能上說,音義全同的異體字為狹義異體字,音義部分相同的異體字為部分異體字,二者合在一起稱為廣義異體字。《漢語大字典》(第二版)、《通用規(guī)范漢字表》等權(quán)威性字書、字表均將狹義異體字與部分異體字共同收錄。這是因為二者能夠在不同層面上發(fā)揮作用。狹義異體字整理主要在學(xué)術(shù)層面發(fā)揮作用,廣義異體字整理主要在應(yīng)用層面發(fā)揮作用。一旦把部分異體字納入異體字的整理范疇,許多音義部分相同的字形將會被取消,但實際上這些字形的記詞職能并沒有完全被保留下來的字取代[13],這就會影響表達(dá)的準(zhǔn)確性,造成學(xué)術(shù)研究上的不便。漢字整理的任務(wù)是要告訴人們使用漢字時要用哪個字形或者不用哪個字形,將部分異體字作為整理對象是具有合理性的。異體關(guān)系拓?fù)鋱D的建立既要滿足學(xué)術(shù)研究的需要,又要在漢字整理層面發(fā)揮作用,因此必須將狹義異體字與部分異體字共同納入拓?fù)鋱D當(dāng)中。
雖然要將狹義異體字與部分異體字共同納入拓?fù)鋱D中以便研究,但也不能將二者混淆,否則會造成使用者的混亂。為了在拓?fù)鋱D中將二者清晰地區(qū)分開來,我們采取了不同的標(biāo)注方式,狹義異體字用藍(lán)色線條連接,部分異體字用紅色線條連接。
字書字料庫異體關(guān)系拓?fù)鋱D界面除了拓?fù)鋱D圖形本身,還應(yīng)包括“異體字頭”“狹義或部分”“異寫或異構(gòu)”“所屬層級”“父級異體”“子級異體”六個基本字段。每一組異體字的異體關(guān)系拓?fù)鋱D,都是在這六個基本字段的標(biāo)注過程中形成的。其基本界面如圖2 所示。
圖2 異體關(guān)系拓?fù)鋱D界面
1.異體字頭
此字段下設(shè)選項與字書字料庫現(xiàn)有異體關(guān)系界面的“異體字頭”字段下設(shè)選項保持一致,隨著異體關(guān)系界面“異體字頭”的變化而變化。設(shè)置此字段的意義在于存放異體字頭,用于拓?fù)鋱D的點選標(biāo)注。
2.狹義或部分
此字段下設(shè)選項與字料庫現(xiàn)有異體關(guān)系界面的“異體字頭”字段下設(shè)選項保持一致,用于區(qū)分狹義異體字與部分異體字。這一字段的標(biāo)注結(jié)果直接反映在拓?fù)鋱D中所標(biāo)注異體字的連接線顏色上,此字段選擇狹義異體字,拓?fù)鋱D中的異體字連接線顏色為藍(lán)色;選擇部分異體字,拓?fù)鋱D當(dāng)中的異體字連接線顏色為紅色。
3.異寫或異構(gòu)
這一字段用于標(biāo)注異體字的類別,某一異體字究竟屬于異寫字還是異構(gòu)字是異體關(guān)系拓?fù)鋱D標(biāo)注的關(guān)鍵屬性,也是標(biāo)注難度最大的屬性。對于這一屬性的判定要參考字料庫異體關(guān)系界面現(xiàn)有的標(biāo)注成果以及其他參證文獻(xiàn),且判定結(jié)果需要經(jīng)過專業(yè)人員校驗審查。這一字段的標(biāo)注結(jié)果直接反映在拓?fù)鋱D中所標(biāo)注異體字的連接線上,此字段選擇異寫,連接線為細(xì)線,此字段選擇異構(gòu),連接線為粗線。
4.所屬層級
雖然異體關(guān)系層級單位只有字種、字位、字樣三級,但異體關(guān)系層級系統(tǒng)可以是多層的,層級數(shù)根據(jù)異體關(guān)系的復(fù)雜程度而定,因此這一字段下雖然設(shè)置了“一級”“二級”“三級”等選項,但級數(shù)可以自由增加,以保證層級系統(tǒng)的開放性與包容性。此字段與拓?fù)鋱D自動關(guān)聯(lián),標(biāo)注者通過為異體字頭中的某一異體字標(biāo)注層級數(shù),來固定這一異體字在拓?fù)鋱D中的位置;而用戶可通過點擊拓?fù)鋱D當(dāng)中的某一異體字,來觀察這一異體字在此字段中顯示的層級數(shù)。其中一級為字種正字,照此順序向下排列字級。
5.父級異體
此字段包含的選項與異體字頭內(nèi)選項保持一致,可通過點選來標(biāo)注某一異體字在拓?fù)鋱D中的父級字也就是其來源字或上位字。通過這一字段可以展現(xiàn)某個異體字的來源。異體字的父級字只能有一個。
6.子級異體
此字段包含的選項與異體字頭內(nèi)選項保持一致,可通過點選來標(biāo)注某一異體字在拓?fù)鋱D當(dāng)中的子級字(也就是變形字或下位字)。要注意的是,一個異體字只能有一個父級字,但可以有一個或多個子級字,故而此字段是多項選擇字段,可以同時選擇一個或多個異體字頭。
前文提到,在異體關(guān)系拓?fù)鋱D當(dāng)中字位主形與字種正字發(fā)揮著系聯(lián)與統(tǒng)領(lǐng)整個系統(tǒng)的重要作用,因此必須要按照一定的原則選取代表字。字位主形是一組異寫字中的代表字形;字種正字即一組異構(gòu)字中的代表字形。選取代表字是為了將字位與字種內(nèi)的不同形體串聯(lián)起來,使其層級關(guān)系清晰明確。
首先,代表字的選取因目的和適用范圍的不同而不同。例如用于中國大陸地區(qū)現(xiàn)代社會用字規(guī)范的異體字整理,其代表字應(yīng)該優(yōu)先選取規(guī)范的簡化字;而用于中國臺灣地區(qū)社會用字規(guī)范的異體字整理,其代表字就應(yīng)該優(yōu)先選取臺灣地區(qū)社會所通用的規(guī)范繁體字。其次,代表字的選取必須堅持一致性原則,要用新字形作代表字,層級系統(tǒng)內(nèi)的所有代表字都應(yīng)選取新字形。要用舊字形作代表字,那么層級系統(tǒng)內(nèi)的所有代表字都應(yīng)選取舊字形[14]。再次,代表字必須具有值得被優(yōu)先選取的特性。王寧先生提出了字形優(yōu)選的五項標(biāo)準(zhǔn):“1.有利于形成和保持嚴(yán)密的文字系統(tǒng)。2.盡量保持和維護(hù)漢字的表意示源功能。3.最大限度地減少筆畫。4.字符之間有足夠的區(qū)別度。5.盡可能估計字符的社會流通度?!保?5]根據(jù)這五條標(biāo)準(zhǔn)并結(jié)合異體字整理與標(biāo)注的實際情況,我們認(rèn)為,在選取字位主形與字種正字時,應(yīng)該優(yōu)先選取社會流通度高且具有辨識度與代表性的字形(這項工作需要首先建立基于大規(guī)模古今真實文本的漢字字料庫,在此基礎(chǔ)上生成古今文本用字字頻統(tǒng)計數(shù)據(jù),從而確定字符的社會流通度);在流通度差距較小的情況下,應(yīng)該優(yōu)先選取構(gòu)形理據(jù)更為完整的字形。
異體關(guān)系拓?fù)鋱D對異體關(guān)系的標(biāo)注流程為:首先,進(jìn)入字書字料庫異體關(guān)系界面點擊拓?fù)鋱D按鈕,進(jìn)入當(dāng)前字頭的拓?fù)鋱D標(biāo)注界面,此時字種正字已經(jīng)位于拓?fù)鋱D中一級字的位置上了;其次,將界面現(xiàn)有標(biāo)注系統(tǒng)內(nèi)的字段與拓?fù)鋱D內(nèi)的字段進(jìn)行系聯(lián)對接,即將現(xiàn)有系統(tǒng)內(nèi)“異體字頭”字段中的內(nèi)容對接到拓?fù)鋱D中“異體字頭”“父級異體”“子級異體”三個字段當(dāng)中,將現(xiàn)有標(biāo)注系統(tǒng)“狹義或部分”字段中的內(nèi)容對接到拓?fù)鋱D中“狹義或部分”字段,完成標(biāo)注前的準(zhǔn)備工作;再次,由專業(yè)人員對當(dāng)前字頭的異寫異構(gòu)、層級數(shù)、父級異體、子級異體等屬性進(jìn)行標(biāo)注。隨著標(biāo)注工作的進(jìn)行,異體關(guān)系拓?fù)鋱D也會隨之建立。等標(biāo)注工作完成,異體關(guān)系拓?fù)鋱D也建立完畢。最后,對照拓?fù)鋱D的演示圖示對異體層級系統(tǒng)標(biāo)注內(nèi)容進(jìn)行校驗審核,若有錯誤及時改正,若無錯誤,點擊保存。
需要特別指出的是,拓?fù)鋱D當(dāng)中的每一層級都可能產(chǎn)生不同的“字位主形”或“字種正字”。作為子級字的上層代表字,父級字不是一組異寫字的主形,便是一組異構(gòu)字的正字。但是如此多的“字位主形”與“字種正字”放在一起勢必會為異體層級系統(tǒng)的梳理與構(gòu)建帶來不便,而且這些“字位主形”與“字種正字”是同一系統(tǒng)中的不同層級的代表字。為了更好地串聯(lián)一組異體字的所有成員,使其層級關(guān)系清晰明確,不論異體關(guān)系存在多少層級,一組異體字中的字種正字只指位于一級層次的那個字樣,字位主形指的是優(yōu)選出字種正字的那一組候選字形,其余層次的父級字均用代表字來指稱即可。
字料庫中現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)可以清晰展現(xiàn)異體字的產(chǎn)生原因、產(chǎn)生途徑、異寫或是異構(gòu)以及異寫與異構(gòu)的具體類型,但是現(xiàn)有標(biāo)注系統(tǒng)只能顯示字種正字與其他每個異體字之間的單線聯(lián)系,而不能顯示該組異體字的層級系統(tǒng)信息。如此一來,與字種正字不直接相關(guān)的那些異體字的來源、關(guān)系以及整個異體字組的演變過程及規(guī)律都無法得到有效體現(xiàn),由此產(chǎn)生了一些標(biāo)注方面的問題。而異體關(guān)系拓?fù)鋱D能很好地解決這一問題,通過拓?fù)鋱D所展示的層級系統(tǒng),我們可以清晰地看到異體字之間的關(guān)系,理清每個異體字的來源及演變過程,異體字組內(nèi)諸成員的發(fā)展脈絡(luò)便清晰可見。由此可見,異體關(guān)系拓?fù)鋱D與字書字料庫現(xiàn)有的異體關(guān)系標(biāo)注系統(tǒng)互為補充,二者結(jié)合在一起,不僅能夠把握異體字的整體分類,而且可以理清異體字的內(nèi)部層級系統(tǒng),真正達(dá)到科學(xué)、系統(tǒng)、大規(guī)模地整理異體字的目標(biāo)。
異體關(guān)系拓?fù)湎到y(tǒng)是在字書字料庫現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)的基礎(chǔ)上進(jìn)一步發(fā)展起來的。拓?fù)湎到y(tǒng)標(biāo)注的字料來源以及層級數(shù)、父級子級、異寫異構(gòu)的判定依據(jù)均以現(xiàn)有系統(tǒng)的標(biāo)注成果為基礎(chǔ),這就要求拓?fù)湎到y(tǒng)在建設(shè)過程中必須要做好與現(xiàn)有系統(tǒng)的對接工作。想要做好這一工作,首先要找出二者的共同點。第一,拓?fù)湎到y(tǒng)中的異體字頭、父級異體、子級異體、狹義或部分可以與現(xiàn)有系統(tǒng)的標(biāo)注成果直接對接。第二,拓?fù)湎到y(tǒng)是按照異寫和異構(gòu)來進(jìn)行層級劃分的,而現(xiàn)有標(biāo)注系統(tǒng)已經(jīng)對一組異體字的異寫與異構(gòu)關(guān)系進(jìn)行了初步整理,雖然只是字種正字與其他字形的直接對比結(jié)果,與拓?fù)湎到y(tǒng)存在本質(zhì)區(qū)別,但我們?nèi)阅荛g接利用現(xiàn)有標(biāo)注成果對其內(nèi)在層級關(guān)系進(jìn)行判斷,使拓?fù)湎到y(tǒng)的標(biāo)注工作“有理可依”。因此,在進(jìn)行異體關(guān)系現(xiàn)有系統(tǒng)的標(biāo)注工作時,要有意識地標(biāo)注出異體字之間的父子關(guān)系,為拓?fù)湎到y(tǒng)的標(biāo)注工作打好基礎(chǔ)。
下面以“流”字為例,對字書字料庫異體關(guān)系拓?fù)鋱D進(jìn)行標(biāo)注實驗。
“流”字在《漢語大字典》(第二版)中的異體字有9 個,分別是“”“”“ ”“”“”“”“”“”“”。下面我們進(jìn)行逐字分析。
5.
同“流”?!队衿に俊罚骸?,古文流?!保?0]
圖3 “流”字異體關(guān)系拓?fù)鋱D
以上,我們以渤海大學(xué)CCFD 字書字料庫異體關(guān)系的標(biāo)注為研究對象,介紹了字料庫異體關(guān)系界面現(xiàn)有標(biāo)注系統(tǒng),總結(jié)了其優(yōu)點與不足,又提出了增加“異體關(guān)系拓?fù)鋱D”界面的優(yōu)化意見,并詳細(xì)闡述了這一界面所包含的主要內(nèi)容、標(biāo)注流程、標(biāo)注示例、應(yīng)用價值等相關(guān)問題。
異體關(guān)系拓?fù)鋱D將異體關(guān)系數(shù)據(jù)轉(zhuǎn)化為視覺圖像,能夠幫助我們高效直觀地獲取數(shù)據(jù)中蘊含的異體關(guān)系層級信息,使我們有可能更容易發(fā)現(xiàn)數(shù)據(jù)背后隱藏的異體發(fā)生規(guī)律,是當(dāng)前異體關(guān)系整理與展示模式的重要變革,將會成為當(dāng)前異體關(guān)系深入整理的主要研究對象之一。與此同時,字料庫這一數(shù)字化漢字整理新平臺的問世為當(dāng)前異體關(guān)系層級系統(tǒng)的建構(gòu)提供了海量的字料基礎(chǔ)和強大的技術(shù)支持,無疑會將異體字科學(xué)化、可視化整理工作推向一個新的高度。希望學(xué)界能夠積極關(guān)注并投身于基于字料庫的異體關(guān)系拓?fù)溲芯?,共同推進(jìn)漢字異體整理研究工作的順利深入開展。
【責(zé)任編輯 王 濤】