摘 要:隨著計(jì)算機(jī)技術(shù)的發(fā)展,語(yǔ)料庫(kù)技術(shù)作為一種更為科學(xué)的、經(jīng)濟(jì)的手段,被越來(lái)越多地引入到辭書(shū)編纂領(lǐng)域。在漢語(yǔ)辭書(shū)釋義方面的語(yǔ)料庫(kù)技術(shù)運(yùn)用,不僅能提高辭書(shū)釋義的客觀(guān)性、準(zhǔn)確性,還能進(jìn)一步增強(qiáng)漢語(yǔ)辭書(shū)編纂的科學(xué)性。語(yǔ)料庫(kù)的出現(xiàn)在為我們提供方便的同時(shí),也帶來(lái)了一些問(wèn)題。為了確保辭書(shū)編纂中語(yǔ)料分析的合理性、科學(xué)性,我們?cè)谶M(jìn)行數(shù)據(jù)分析時(shí),應(yīng)把握真實(shí)性、窮盡性、有效性和定量分析與定性分析相結(jié)合的原則。
關(guān)鍵詞:辭書(shū)編纂 語(yǔ)料庫(kù) 原則
一、引言
自20世紀(jì)80年代以來(lái),隨著計(jì)算機(jī)應(yīng)用技術(shù)的不斷發(fā)展,以語(yǔ)料庫(kù)為基礎(chǔ)的語(yǔ)言學(xué)研究在語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域中都取得了豐碩成果,語(yǔ)料庫(kù)的建設(shè)也受到了世界各國(guó)的廣泛重視。近年來(lái),語(yǔ)料庫(kù)規(guī)模的擴(kuò)大及配套的檢索技術(shù)的完善,為辭書(shū)編纂帶來(lái)了新的思路和角度。大量電子文本的出現(xiàn),不僅給辭書(shū)編纂帶來(lái)了大量的信息來(lái)源,使我們節(jié)省了很多人力、物力,也給讀者提供了一種新的更加快捷的語(yǔ)料查找渠道,便于人們進(jìn)行有關(guān)方面的學(xué)習(xí)和研究。但與此同時(shí),為了確保辭書(shū)編纂中語(yǔ)料分析的合理性、科學(xué)性,我們?cè)谶M(jìn)行數(shù)據(jù)分析時(shí),還應(yīng)把握真實(shí)性、窮盡性、有效性和定性與定量相結(jié)合的原則。
二、真實(shí)性
所謂真實(shí)性,主要是指語(yǔ)料的真實(shí)性和數(shù)據(jù)的真實(shí)性。在我們進(jìn)行數(shù)據(jù)分析前,首先要確保的是語(yǔ)料庫(kù)中語(yǔ)料的真實(shí)性。語(yǔ)料庫(kù)中的語(yǔ)料應(yīng)該是在現(xiàn)實(shí)生活中真實(shí)應(yīng)用于自然語(yǔ)言交際的真實(shí)話(huà)語(yǔ)和真實(shí)文本材料。語(yǔ)料庫(kù)素材的構(gòu)成和取樣范圍要按照明確清晰的語(yǔ)言學(xué)原則和嚴(yán)謹(jǐn)科學(xué)的語(yǔ)料庫(kù)設(shè)計(jì)宗旨,通過(guò)科學(xué)的實(shí)際調(diào)查和合理的數(shù)據(jù)統(tǒng)計(jì)來(lái)完成,而并不是由隨意拼湊的或隨機(jī)抽取的某一部分語(yǔ)言材料堆積而成。因此,我們?cè)谶M(jìn)行數(shù)據(jù)分析時(shí)常常選擇一些規(guī)模較大語(yǔ)料庫(kù),它們都是國(guó)家或者有實(shí)力的大學(xué)設(shè)計(jì)和建設(shè)的,從而使我們能方便快捷地找到大量真實(shí)可靠的數(shù)據(jù)。例如:國(guó)外的語(yǔ)料庫(kù)有布朗語(yǔ)料庫(kù)、倫敦—隆德口頭英語(yǔ)語(yǔ)料庫(kù)、國(guó)際英語(yǔ)語(yǔ)料庫(kù)等,國(guó)內(nèi)的語(yǔ)料庫(kù)有現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)、北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所開(kāi)發(fā)的人民日?qǐng)?bào)語(yǔ)料庫(kù)等。這些大型的語(yǔ)料庫(kù)為我們提供了大量的真實(shí)可靠的語(yǔ)料,這也為我們下一步進(jìn)行數(shù)據(jù)統(tǒng)計(jì)的真實(shí)性奠定了堅(jiān)實(shí)的基礎(chǔ)。
其次,我們還要保證統(tǒng)計(jì)數(shù)據(jù)的真實(shí)性。我們從語(yǔ)料庫(kù)中篩選出需要的語(yǔ)料,然后就要進(jìn)行相關(guān)方面的數(shù)據(jù)統(tǒng)計(jì),切記要一一進(jìn)行查找,不能偷懶進(jìn)行類(lèi)推或者大致推算。因?yàn)槊恳粋€(gè)數(shù)據(jù)都有自身的獨(dú)特性,它所具有的某些性質(zhì)也許只是這一個(gè)例子所表現(xiàn)出的特征,并不能代表全部。例如,我們要對(duì)“給力”這個(gè)詞條進(jìn)行調(diào)查研究,在資料考證過(guò)程中我們發(fā)現(xiàn)“給力”在給定的語(yǔ)料庫(kù)2012年的語(yǔ)料使用中頻率較高,但是我們不能簡(jiǎn)單推測(cè)在2013年的語(yǔ)料中它也大量使用,具體它的使用頻率是多少,是否在2013年的語(yǔ)料中同樣有較高的使用率,還要認(rèn)真地在2013年的語(yǔ)料中進(jìn)行實(shí)際的考察和統(tǒng)計(jì)才能得出真實(shí)可信的定論。如果我們的調(diào)查失去了真實(shí)性,那么也就失去了調(diào)查的意義,就更不要談?wù)Z言研究的價(jià)值了。因此,真實(shí)性是辭書(shū)編纂中語(yǔ)料庫(kù)數(shù)據(jù)分析的首要原則。我們要確保數(shù)據(jù)統(tǒng)計(jì)的真實(shí)性,做好數(shù)據(jù)分析的基礎(chǔ)工作。
三、窮盡性
在確保真實(shí)性的基礎(chǔ)上,我們還要保證數(shù)據(jù)分析的窮盡性。所謂窮盡性,就是我們?cè)跈z索語(yǔ)料的過(guò)程中,要把語(yǔ)料庫(kù)中關(guān)于調(diào)查內(nèi)容的語(yǔ)料全部檢索一遍,應(yīng)該將含有檢索條目的語(yǔ)例盡可能完全地收錄進(jìn)來(lái)。這樣我們不僅可以全面了解詞語(yǔ)的使用情況,而且還能為進(jìn)一步的全面分析打好基礎(chǔ)。如果搜集的語(yǔ)料沒(méi)有窮盡所調(diào)查的使用領(lǐng)域,就會(huì)導(dǎo)致分析結(jié)果有一定程度的偏差,語(yǔ)料抽樣比例越小,最終所得到的的結(jié)果偏差就越大。比如說(shuō)我們現(xiàn)在要對(duì)“問(wèn)訊”這個(gè)詞條進(jìn)行考察,通過(guò)在語(yǔ)料中的檢索我們發(fā)現(xiàn),它通常有三層意思:作動(dòng)詞,表示“詢(xún)問(wèn)”;作動(dòng)詞,表示“訊問(wèn),審問(wèn)”;作動(dòng)詞,帶有書(shū)名面色彩,表示“問(wèn)候”。其中在含有“問(wèn)訊”一詞的153則語(yǔ)料中,還有6個(gè)語(yǔ)例是表示僧尼跟人應(yīng)酬時(shí)合十招呼——也叫“打問(wèn)訊”。這一用法雖然只占到總數(shù)的4%,但如果在調(diào)查過(guò)程中忽略了這6個(gè)用法,就不僅沒(méi)有真實(shí)地反映語(yǔ)言在現(xiàn)實(shí)生活中的應(yīng)用,而且在讀者遇到此類(lèi)用法時(shí)也查無(wú)依據(jù),還給語(yǔ)言的發(fā)展帶來(lái)不必要的麻煩。語(yǔ)料庫(kù)數(shù)據(jù)分析區(qū)別于傳統(tǒng)分析的最大特點(diǎn),就是它建立在大規(guī)模真實(shí)語(yǔ)料數(shù)據(jù)的基礎(chǔ)之上,分析的方法較之過(guò)去更加客觀(guān)全面,分析的結(jié)果較之以往也有更加詳實(shí)充分的依據(jù),因此也就具有了高度的科學(xué)性和說(shuō)服力。
當(dāng)然窮盡性是相對(duì)而言的,通用型的語(yǔ)料庫(kù)數(shù)據(jù)范圍和數(shù)量都極大,要想進(jìn)行窮盡性的分析統(tǒng)計(jì)有時(shí)還需要借助相關(guān)的專(zhuān)業(yè)工具和技術(shù)。而專(zhuān)門(mén)語(yǔ)料庫(kù)數(shù)據(jù)量較小,進(jìn)行窮盡性的分析難度較低,操作起來(lái)比較簡(jiǎn)單易行。所以不論難度高低,我們都要進(jìn)行窮盡性的檢索和統(tǒng)計(jì),這樣我們最后得出的結(jié)果才有意義,有一定語(yǔ)言研究?jī)r(jià)值。因此,窮盡性是辭書(shū)編纂中語(yǔ)料庫(kù)數(shù)據(jù)分析的重要原則。只有把握了窮盡性原則,才能為辭書(shū)的進(jìn)一步發(fā)展提供全面的有力支持。
四、有效性
所謂有效性,主要是指所分析的對(duì)象的有效性和分析數(shù)據(jù)運(yùn)用的有效性。首先是分析的對(duì)象的有效性,也就是說(shuō)在進(jìn)行數(shù)據(jù)分析時(shí),要在數(shù)據(jù)真實(shí)基礎(chǔ)上,進(jìn)一步要求所調(diào)查的數(shù)據(jù)的有效性,或者說(shuō)我們最終所選定的分析數(shù)據(jù)是符合我們所調(diào)查的目的的。例如,我們?cè)诒贝笳Z(yǔ)料庫(kù)中對(duì)語(yǔ)句中“叛離”一詞不同語(yǔ)句中的應(yīng)用情況進(jìn)行檢索,得到39個(gè)語(yǔ)例;但是在進(jìn)一步的考察中發(fā)現(xiàn),其中有2條語(yǔ)例是在詞典中的運(yùn)用,因此在進(jìn)行調(diào)查數(shù)據(jù)統(tǒng)計(jì)時(shí),符合調(diào)查目的的有效語(yǔ)例應(yīng)該計(jì)為37例。因此,我們不能簡(jiǎn)單地把檢索出來(lái)的結(jié)果直接拿來(lái)使用,而要根據(jù)調(diào)查的目的認(rèn)真仔細(xì)地進(jìn)行篩選,剔除無(wú)效的數(shù)據(jù),保留有效數(shù)據(jù)。
同時(shí),我們還應(yīng)考慮分析數(shù)據(jù)運(yùn)用的有效性。數(shù)據(jù)分析對(duì)象的有效性并不等于分析數(shù)據(jù)運(yùn)用的有效性,但是數(shù)據(jù)分析對(duì)象的有效性是保證分析數(shù)據(jù)運(yùn)用的有效性的先決條件。以上文中“叛離”一詞為例,在確定了有效語(yǔ)例為37的基礎(chǔ)上,我們才能進(jìn)一步考察其應(yīng)用情況,在考察“叛離”后與組織類(lèi)名詞搭配使用和與人物名詞搭配使用的情況時(shí)就不能將這37個(gè)語(yǔ)例籠統(tǒng)地運(yùn)用進(jìn)去。經(jīng)過(guò)進(jìn)一步的考察后發(fā)現(xiàn),與組織類(lèi)搭配的有9例,與人物類(lèi)搭配的有5例,這是在有效語(yǔ)例中進(jìn)一步考察分析數(shù)據(jù)運(yùn)用的基礎(chǔ)上得出的有效數(shù)據(jù)。如果沒(méi)有前期考證的有效語(yǔ)例,那么這一次進(jìn)一步的考證也是沒(méi)有絕對(duì)的說(shuō)服力的,當(dāng)然還有可能出現(xiàn)錯(cuò)誤。如果在考察“叛離”搭配的使用時(shí),我們以檢索到的39個(gè)語(yǔ)例進(jìn)行分析,那么那2個(gè)無(wú)效的語(yǔ)例也就在無(wú)意中擴(kuò)大了考察的范圍,也更會(huì)影響到最后統(tǒng)計(jì)比例的大小。當(dāng)我們發(fā)現(xiàn)“叛離”與組織類(lèi)名詞搭配使用的情況最多時(shí),我們?cè)谶M(jìn)行詞典編纂時(shí)就可以將“叛離”與組織類(lèi)搭配使用的例子放在首位,或者是多舉幾例。這些都說(shuō)明分析數(shù)據(jù)運(yùn)用的有效性是完全考慮到現(xiàn)實(shí)應(yīng)用的,同時(shí)還說(shuō)明建立在數(shù)據(jù)有效性基礎(chǔ)上的分析數(shù)據(jù)運(yùn)用的有效性也是完全符合現(xiàn)實(shí)需要的。從語(yǔ)料分析的最終用途角度來(lái)看,有效性是不可忽視的重要問(wèn)題。因此,有效性是辭書(shū)編纂中語(yǔ)料庫(kù)數(shù)據(jù)分析必不可少的重要原則。我們要把握分析的對(duì)象的有效性和分析數(shù)據(jù)運(yùn)用的有效性原則,從辭書(shū)編纂的現(xiàn)實(shí)出發(fā),不斷提高辭書(shū)的現(xiàn)實(shí)價(jià)值。
五、定量分析與定性分析相結(jié)合
在所有語(yǔ)料庫(kù)的分析方法中,定量分析是語(yǔ)料庫(kù)數(shù)據(jù)分析的基礎(chǔ)方法,所得到的的分析結(jié)果的科學(xué)性在很大程度上都是取決于定量分析的真實(shí)性、窮盡性和有效性。但是這并不是唯一的、萬(wàn)無(wú)一失的方法,單純依靠定量分析的方法是不能得到最終的有效結(jié)果的。通過(guò)上文的分析可以看出,定量分析往往是與定性分析緊密結(jié)合在一起的,也只有將定量分析與定性分析結(jié)合起來(lái),才能得出更加科學(xué)、可信的結(jié)果。在辭典編纂過(guò)程中,詞語(yǔ)義位的確定、用法功能的分析、搭配詞語(yǔ)的選擇等諸多方面都離不開(kāi)定量和定性分析。比如我們現(xiàn)在要對(duì)“叛逆”一詞進(jìn)行檢索調(diào)查,輸入被檢索的條目后,一共得到569個(gè)語(yǔ)例。但是“叛逆”一詞并不是一個(gè)單一詞性的詞語(yǔ),它存在動(dòng)詞和名詞兩種詞性,所以我們?cè)谶M(jìn)一步的分析中要考察其動(dòng)詞和名詞的使用情況,明確了這些區(qū)別,我們才能更好地對(duì)它的使用情況做出分析統(tǒng)計(jì)。經(jīng)過(guò)進(jìn)一步的調(diào)查發(fā)現(xiàn),“叛逆”作名詞的情況較作動(dòng)詞的情況更多一些,在定性分析的結(jié)果指導(dǎo)下,我們?cè)谵o典編纂時(shí)就可以把“叛逆”作名詞的情況放在第一來(lái)解釋?zhuān)鲃?dòng)詞的情況放在第二來(lái)解釋。這樣將定量與定性分析結(jié)合起來(lái),在定量的基礎(chǔ)上進(jìn)行定性的考察,在定性的分析結(jié)果指導(dǎo)下進(jìn)而明確定量的分布安排,這樣往復(fù)循環(huán),不斷提高語(yǔ)料庫(kù)數(shù)據(jù)分析的科學(xué)性。
因此,定量分析必須與定性分析相結(jié)合。如果缺少了定性分析,那么定量分析只能停留在僅僅反映現(xiàn)象的數(shù)據(jù)數(shù)字本身,根本不能揭示出數(shù)據(jù)背后的本質(zhì)規(guī)律,當(dāng)然也就無(wú)法得到科學(xué)的使用;如果缺少了定量分析,那么定性分析往往會(huì)表現(xiàn)出主觀(guān)性,有時(shí)甚至?xí)娣从晨陀^(guān)現(xiàn)象,只能流于經(jīng)驗(yàn)之談,最終的結(jié)果也只能是為了研究而研究,為了調(diào)查而調(diào)查,不能運(yùn)用到實(shí)際應(yīng)用中。所以定量與定性相結(jié)合是辭書(shū)編纂中語(yǔ)料庫(kù)數(shù)據(jù)分析根本性的重要原則。只有把定量分析與定性分析結(jié)合起來(lái),它們才能相互補(bǔ)充,取長(zhǎng)補(bǔ)短,不斷推動(dòng)辭書(shū)編纂的科學(xué)性和客觀(guān)性的提高。
參考文獻(xiàn):
[1]章宜華.計(jì)算詞典學(xué)與新型詞典[M].上海:上海辭書(shū)出版社,2004.
[2]符淮青.詞典學(xué)詞匯學(xué)語(yǔ)義學(xué)文集[C].北京:商務(wù)印書(shū)館,2004.
[3]張志毅,張慶云.詞匯語(yǔ)義學(xué)[M].北京:商務(wù)印書(shū)館,2005.
[4]SidneyI.Landau.詞典編纂的藝術(shù)與技巧[M].北京:商務(wù)印書(shū)館,2005.
[5]衛(wèi)乃興.基于語(yǔ)料庫(kù)和語(yǔ)料庫(kù)驅(qū)動(dòng)的詞語(yǔ)搭配研究[J].當(dāng)代語(yǔ)言學(xué),2002,(2).
[6]蘇寶榮.詞義研究與辭書(shū)釋義[M].北京:商務(wù)印書(shū)館,2008.
[7]馮志偉.計(jì)算語(yǔ)言學(xué)基礎(chǔ)[M].北京:商務(wù)印書(shū)館,2001.
(唐萌 山東煙臺(tái) 魯東大學(xué)文學(xué)院 264025)