胡欽諳
在語(yǔ)文辭書(shū)編纂工作中,語(yǔ)料庫(kù)正發(fā)揮著日益重要的作用。目前,漢語(yǔ)辭書(shū)編纂者普遍采用北京語(yǔ)言大學(xué)BCC現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(荀恩東,饒高琦等 2016),北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心CCL語(yǔ)料庫(kù)(詹衛(wèi)東,郭銳等 2019)等通用或特定領(lǐng)域語(yǔ)料庫(kù),或者使用通用搜索引擎(如百度)等作為檢索工具。用戶(hù)輸入關(guān)鍵字、詞或短語(yǔ)等作為檢索 詞,[1]由檢索系統(tǒng)返回排序后的句子列表,然后由人工進(jìn)行篩選。
然而,隨著語(yǔ)料庫(kù)規(guī)模不斷擴(kuò)大,返回結(jié)果的數(shù)目動(dòng)輒逾萬(wàn)。人的精力有限,往往只能聚焦于返回結(jié)果列表的頭部。有時(shí)要在語(yǔ)料庫(kù)中找到一個(gè)恰當(dāng)?shù)睦?,仿若大海撈針。海量檢索結(jié)果與用戶(hù)趨于飽和的語(yǔ)料消化能力之間的矛盾已成為辭書(shū)編纂過(guò)程中的痛點(diǎn)之一。
本研究觀察到,辭書(shū)編纂人員在檢索語(yǔ)料庫(kù)時(shí),實(shí)際上更為關(guān)注的是檢索詞出現(xiàn)的語(yǔ)境(或稱(chēng)上下文)。語(yǔ)境具有相對(duì)穩(wěn)定的語(yǔ)言學(xué)規(guī)律,語(yǔ)料庫(kù)中往往存在著大量符合同一語(yǔ)言規(guī)律的語(yǔ)境。這種同質(zhì)的語(yǔ)境對(duì)辭書(shū)編纂提供的價(jià)值相對(duì)有限。此時(shí),單純依靠增加語(yǔ)料數(shù)量對(duì)辭書(shū)編纂的貢獻(xiàn)已呈現(xiàn)出邊際效益遞減的現(xiàn)象。
因此,本研究嘗試以海量檢索結(jié)果中的同質(zhì)語(yǔ)境為突破口,通過(guò)人工智能方法,以可視化及可交互的形式為辭書(shū)編纂人員展現(xiàn)檢索結(jié)果分布的概貌,批量處理同質(zhì)的語(yǔ)境,以提升辭書(shū)編纂的效率。
語(yǔ)料庫(kù)檢索系統(tǒng)不同于通用搜索引擎。通用搜索引擎通常會(huì)賦予來(lái)自權(quán)威網(wǎng)站、高點(diǎn)擊率的網(wǎng)頁(yè)更高的權(quán)重,并考慮個(gè)性化等因素;而語(yǔ)料庫(kù)檢索系統(tǒng)則需要更多地聚焦于檢索詞出現(xiàn)的語(yǔ)境。然而,刻畫(huà)語(yǔ)境所涉及的語(yǔ)言現(xiàn)象相當(dāng)復(fù)雜。
首先,語(yǔ)境的范圍具有模糊性,常隨檢索詞的不同而靈活多變。
其次,現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典(在2017年由俞士汶、朱學(xué)鋒研制)從詞語(yǔ)語(yǔ)法屬性的角度對(duì)語(yǔ)境進(jìn)行了抽象概括。具體地,該詞典按形、音、詞類(lèi)、詞項(xiàng)、義項(xiàng)等維度對(duì)同形詞及其語(yǔ)境進(jìn)行區(qū)分。然而詞項(xiàng)、義項(xiàng)等信息都隱含在語(yǔ)境中,對(duì)于語(yǔ)料庫(kù)檢索系統(tǒng)來(lái)說(shuō)缺乏顯式的說(shuō)明。
最后,雖然共現(xiàn)為刻畫(huà)語(yǔ)境提供了顯式特征,但是語(yǔ)料庫(kù)中存在著大量語(yǔ)境難以利用共現(xiàn)進(jìn)行區(qū)分。如例(1)、例(2)中的“松”,屬于“常綠喬木”義項(xiàng);例(3)、例(4)中的“松”,屬于“放開(kāi),使松散”義項(xiàng)。然而,下面四個(gè)句子的語(yǔ)境之間并沒(méi)有任何交集,因此無(wú)法利用共現(xiàn)判斷出“松”分別在例(1)、例(2)和例(3)、例(4)的語(yǔ)境下語(yǔ)義相近。
(1) 大松樹(shù)沒(méi)有回答。
(2) 過(guò)了幾天,松鼠再也受不了啦。
(3) 現(xiàn)在給你松綁。
(4) 千萬(wàn)不能松手!
類(lèi)似地,語(yǔ)料庫(kù)中亦存在大量難以通過(guò)分詞、詞性標(biāo)注甚至句法分析等手段區(qū)分的語(yǔ)境。例如,從句法的角度來(lái)看,例(5)與例(6)中的“服”都與其右側(cè)的字構(gòu)成并列復(fù)合詞,語(yǔ)境中都出現(xiàn)了“需要”,并且都以名詞作為賓語(yǔ);但是從語(yǔ)義的角度,例(5)中“服”屬于“吃(藥)”義項(xiàng),而例(6)與例(7)中的“服”語(yǔ)義相近,屬于“順從” 義項(xiàng)。
(5) 她需要按時(shí)服用藥物。
(6) 士兵需要服從命令。
(7) 母親信服地點(diǎn)點(diǎn)頭。
義項(xiàng)和釋義是對(duì)詞匯語(yǔ)義的高度抽象,是語(yǔ)文辭書(shū)編纂工作的重點(diǎn)和難點(diǎn)。吳云芳、俞士汶(2006)指出,語(yǔ)境是計(jì)算機(jī)區(qū)分詞匯語(yǔ)義的最終憑借。因此,在為語(yǔ)文辭書(shū)編纂服務(wù)的語(yǔ)料庫(kù)檢索系統(tǒng)中,語(yǔ)境的量化須圍繞著檢索詞的語(yǔ)義,對(duì)檢索詞在不同語(yǔ)境下的語(yǔ)義具備基本的辨別能力。
本文將詞匯在特定語(yǔ)境下的語(yǔ)義稱(chēng)為語(yǔ)境相關(guān)的詞匯語(yǔ)義。
在向量空間模型中,詞匯的語(yǔ)義可以表征為向量空間中的點(diǎn),詞匯之間的語(yǔ)義距離可以表征為點(diǎn)間的距離。首先,向量空間模型可以為理解語(yǔ)境相關(guān)的詞匯語(yǔ)義提供一種全局視角。檢索詞的基本義及其引申義、比喻義等新義、不同義項(xiàng)以及同一義項(xiàng)的不同屬性等均可以表示為同一語(yǔ)義空間中的點(diǎn)。一般來(lái)說(shuō),同一義項(xiàng)屬性之間的語(yǔ)義距離較近,而不同義項(xiàng)之間的語(yǔ)義距離較遠(yuǎn)。如圖1所示,“蘋(píng)果”的基本義、品牌義項(xiàng)、蘋(píng)果樹(shù)義項(xiàng)、果實(shí)義項(xiàng)及其價(jià)格屬性均可以表示為向量空間中的點(diǎn)。其中,“蘋(píng)果”的價(jià)格屬性也是“蘋(píng)果”本身所蘊(yùn)含的語(yǔ)義的一部分。
圖1 向量空間模型中語(yǔ)境相關(guān)的詞匯語(yǔ)義
其次,向量空間模型可以為理解語(yǔ)境相關(guān)的詞匯語(yǔ)義提供一種動(dòng)態(tài)視角。當(dāng)檢索詞出現(xiàn)在不同語(yǔ)境中時(shí),在形、音、義、詞法、句法及共現(xiàn)等各維度表現(xiàn)出的差異,可以認(rèn)為是檢索詞與語(yǔ)境互動(dòng)的結(jié)果。語(yǔ)境對(duì)檢索詞的影響可以體現(xiàn)在檢索詞的語(yǔ)義上。一方面,與檢索詞存在照應(yīng)關(guān)系的語(yǔ)境的語(yǔ)義將深刻地影響檢索詞的語(yǔ)義;另一方面,不存在照應(yīng)關(guān)系的語(yǔ)境對(duì)檢索詞語(yǔ)義的影響則微乎其微。在這里,照應(yīng)泛指依存、指代等各種具有語(yǔ)言學(xué)意義的關(guān)系。
上述觀點(diǎn)在語(yǔ)義空間中就體現(xiàn)為詞匯的語(yǔ)義位置不是固定的,而是會(huì)隨語(yǔ)境而發(fā)生位移。位移的原點(diǎn)代表基本義,終點(diǎn)代表發(fā)生位移后的某個(gè)義項(xiàng)、屬性、引申義或比喻義等新義。不同的語(yǔ)境帶給檢索詞語(yǔ)義的影響不同,造成最終檢索詞在語(yǔ)義空間中的位置也各不相同。如圖1所示,例(8)中的“手機(jī)”以及例(9)中的“吃”將“蘋(píng)果”從基本義拉向了兩個(gè)相反的方向。
(8) 他買(mǎi)了蘋(píng)果手機(jī)。
(9) 我喜歡吃蘋(píng)果。
鑒于語(yǔ)境對(duì)檢索詞語(yǔ)義的影響可以體現(xiàn)在檢索詞在語(yǔ)義空間中的位移上,那么語(yǔ)境的量化問(wèn)題就可以轉(zhuǎn)化為語(yǔ)境相關(guān)的詞匯語(yǔ)義量化問(wèn)題來(lái)解決。(詳見(jiàn)圖2)
圖2 將語(yǔ)境量化問(wèn)題轉(zhuǎn)化為詞匯語(yǔ)義量化問(wèn)題
神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制、上下文相關(guān)詞向量以及預(yù)訓(xùn)練語(yǔ)言模型等技術(shù)為語(yǔ)境相關(guān)的詞匯語(yǔ)義提供了量化方案。
注意力機(jī)制刻畫(huà)了語(yǔ)境內(nèi)詞與詞之間的各種照應(yīng)關(guān)系(Vaswani,Shazeer,Parmar,et al.2017)。它可以突破語(yǔ)境被限定在預(yù)定義寬度的窗口范圍內(nèi)的限制,處理長(zhǎng)距離依賴(lài)關(guān)系時(shí)依然有效。照應(yīng)關(guān)系的強(qiáng)度通過(guò)注意力權(quán)重反映出來(lái)。
在神經(jīng)網(wǎng)絡(luò)中,詞的語(yǔ)義以詞向量(或稱(chēng)詞嵌入)的形式表示。(Mikolov,Sutskever,Chen,et al.2013)詞向量由低維、稠密的實(shí)值組成。詞向量使得語(yǔ)義匹配可以不再依賴(lài)共現(xiàn)等顯式特征,可以進(jìn)行模糊匹配。上下文相關(guān)詞向量是指向量數(shù)值會(huì)隨語(yǔ)境不同而發(fā)生變化的詞向量,其數(shù)值的變化可以由注意力機(jī)制等引發(fā)。
預(yù)訓(xùn)練語(yǔ)言模型是使用海量語(yǔ)料訓(xùn)練的參數(shù)量巨大的神經(jīng)網(wǎng)絡(luò)模型(Devlin,Chang,Lee,et al.2018)。詞向量的初始值以及詞與詞之間的注意力權(quán)重等均保存在預(yù)訓(xùn)練語(yǔ)言模型中。圖3展示的是漢語(yǔ)預(yù)訓(xùn)練語(yǔ)言模型Chinese-BERT-wwm-ext[3](Cui,Che,Liu,et al.2021)在輸入例(10)后得到的注意力權(quán)重。(Vig 2019)注意力權(quán)重越高,連線顏色越深。其中,左圖“她”和“女”“媧”、中圖“這”和“作”“品”之間的照應(yīng)關(guān)系是指代,右圖“對(duì)于”和“感到”之間的照應(yīng)關(guān)系是依存。
圖3 注意力機(jī)制中的指代及依存關(guān)系[2]
(10) 女?huà)z對(duì)她這優(yōu)美的作品,感到很滿(mǎn)意。
檢索詞的上下文相關(guān)詞向量可以用于對(duì)語(yǔ)境相關(guān)的詞匯語(yǔ)義進(jìn)行量化表征。在神經(jīng)網(wǎng)絡(luò)的輸入層,詞向量的初始值代表詞匯的基本義。在輸入層之后的各層,與檢索詞照應(yīng)關(guān)系強(qiáng)的語(yǔ)境中的詞向量的數(shù)值將被更多地累加到檢索詞的詞向量上,而照應(yīng)關(guān)系弱的語(yǔ)境中的詞向量則對(duì)檢索詞的詞向量的影響較小。隨著神經(jīng)網(wǎng)絡(luò)層數(shù)不斷加深,各種存在照應(yīng)關(guān)系的語(yǔ)境的詞向量就被逐層累加到檢索詞的詞向量上。體現(xiàn)在語(yǔ)義空間中,檢索詞的語(yǔ)義位置就從詞向量的初始值,隨著存在照應(yīng)關(guān)系的語(yǔ)境的語(yǔ)義被逐層累加到檢索詞的語(yǔ)義上,不斷發(fā)生位移。
例如,圖4中的注意力權(quán)重顯示“女”與“媧”之間存在著強(qiáng)烈的照應(yīng)關(guān)系。值得注意的是,這種照應(yīng)關(guān)系是單向的。這是因?yàn)椤皨z”的語(yǔ)義比較單一,比“女”更接近“女?huà)z”的語(yǔ)義。這種單向照應(yīng)關(guān)系使得“女”的語(yǔ)義需要做出重大調(diào)整才能得以靠近“女?huà)z”的語(yǔ)義。具體地,如圖5所示,“女”的語(yǔ)義受“媧”的語(yǔ)境影響出現(xiàn)了較大位移,向“媧”靠近;而反之則不然,“女”作為“媧”的語(yǔ)境,對(duì)“媧”語(yǔ)義則影響不大。
圖4 注意力機(jī)制中的構(gòu)詞關(guān)系
圖5 語(yǔ)境“媧”對(duì)“女”語(yǔ)義的影響
實(shí)驗(yàn)語(yǔ)料選取自人民教育出版社、語(yǔ)文出版社、北京師范大學(xué)出版社和江蘇教育出版社出版的中小學(xué)語(yǔ)文教材,句子長(zhǎng)度不超過(guò)128個(gè)字,合計(jì)3萬(wàn)句。
實(shí)驗(yàn)使用經(jīng)典的漢語(yǔ)預(yù)訓(xùn)練語(yǔ)言模型Chinese-BERT-wwm-ext(Cui,Che,Liu,et al.2021)計(jì)算上下文相關(guān)詞向量。圖6是模型輸入的示例。輸入時(shí)按照BERT的輸入格式,句子前后填充[CLS]、[SEP]。為了消除BERT中位置嵌入(position embeddings)對(duì)檢索詞向量的影響,檢索詞統(tǒng)一放在輸入序列正中間的位置,左右兩側(cè)的語(yǔ)境長(zhǎng)度相同,前后空位填充[PAD]。輸出值取輸入層詞向量初始值以及BERT內(nèi)部12層隱狀態(tài)的均值,作為檢索詞上下文相關(guān)詞向量。對(duì)輸出的向量采用tensorflow embedding projector[4]及UMAP(Uniform Manifold Approximation and Projection)[5](McInnes,Healy,Melville 2018)降維至三維空間進(jìn)行可視化。
圖6 檢索字居中輸入
圖7—圖9是為辭書(shū)編纂人員展現(xiàn)的可視化界面。圖中的三維空間表示檢索詞的語(yǔ)義空間,圓點(diǎn)表示檢索詞在一條檢索結(jié)果語(yǔ)境下的語(yǔ)義,圓點(diǎn)的位置由檢索詞上下文相關(guān)詞向量決定。用戶(hù)可以點(diǎn)擊圓點(diǎn)查看該圓點(diǎn)對(duì)應(yīng)的檢索結(jié)果原文,也可以對(duì)檢索結(jié)果進(jìn)行拖拽旋轉(zhuǎn)、縮放、選擇、查找、重置等操作。
以“打”字為例,在語(yǔ)料中檢索“打”字時(shí)共返回480條檢索結(jié)果。圖7將“打”字在所有這些檢索結(jié)果中的語(yǔ)義展現(xiàn)在同一界面中,其語(yǔ)義分布自然呈現(xiàn)出聚集的狀態(tài)。這有助于辭書(shū)編纂人員掌握檢索結(jié)果分布的概貌,識(shí)別同質(zhì)的語(yǔ)境。
圖7 “打”的檢索結(jié)果
圖8顯示出拖拽一個(gè)圓點(diǎn)至前景放大后的局部結(jié)果,拖拽時(shí)與該圓點(diǎn)語(yǔ)義相近的圓點(diǎn)也會(huì)被一同置于前景??梢钥闯?,這些語(yǔ)義相近的“打”對(duì)應(yīng)的檢索結(jié)果其右側(cè)語(yǔ)境都是“算”,說(shuō)明這些語(yǔ)境中的“算”對(duì)“打”的語(yǔ)義產(chǎn)生了顯著影響。這些語(yǔ)義還可以進(jìn)一步細(xì)分。圖中上部“打算”承接的是賓語(yǔ)從句,出現(xiàn)在疑問(wèn)句中的“打算”在圖下部,出現(xiàn)在否定詞后的“打算”在圖左側(cè),圖右側(cè)“打算”是名詞性用法,說(shuō)明這四種不同的語(yǔ)境對(duì)“打”的語(yǔ)義各自產(chǎn)生了不同的影響。
圖8 “打”字右側(cè)為“算”的檢索結(jié)果
當(dāng)用戶(hù)點(diǎn)擊選擇一個(gè)圓點(diǎn)時(shí),界面右側(cè)將列出與在該語(yǔ)境下檢索詞語(yǔ)義相似的檢索結(jié)果,左側(cè)將標(biāo)示出相似檢索結(jié)果在語(yǔ)義空間中的位置。例如,圖9列出與例(11)中的“打”語(yǔ)義相似的檢索結(jié)果。
圖9 與例(11)中的“打”語(yǔ)義相似的檢索結(jié)果
(11) 他態(tài)度粗暴嚴(yán)厲,常常打?qū)W生。
16名辭書(shū)編輯被隨機(jī)分為兩組,為給定的字頭編寫(xiě)義項(xiàng)條目。兩組的不同在于檢索結(jié)果的展現(xiàn)形式?;谏窠?jīng)網(wǎng)絡(luò)的語(yǔ)料庫(kù)檢索系統(tǒng)使用Tensorflow的可視化界面進(jìn)行操作。對(duì)照組使用AntConc[6]concordance,檢索結(jié)果列表按檢索詞右側(cè)及左側(cè)各一個(gè)字進(jìn)行排序,圖10顯示的是“點(diǎn)”字檢索結(jié)果。
圖10 使用AntConc concordance對(duì)檢索結(jié)果列表排序
實(shí)驗(yàn)選取了《新華字典》第12版中義項(xiàng)最多的“干、生、開(kāi)、點(diǎn)、下、子、起、對(duì)”8個(gè)字。實(shí)驗(yàn)要求辭書(shū)編輯在不使用互聯(lián)網(wǎng)、手機(jī)或查字典的情況下,僅根據(jù)前述教材語(yǔ)料庫(kù)的檢索結(jié)果及自身語(yǔ)感為給定的字頭歸納義項(xiàng),給出義項(xiàng)釋義及例詞,但無(wú)需推敲釋義的措辭。
實(shí)驗(yàn)結(jié)果詳見(jiàn)表1。表中對(duì)標(biāo)義項(xiàng)數(shù)是指以《新華字典》第12版中的義項(xiàng)為標(biāo)準(zhǔn),與辭書(shū)編輯給出的義項(xiàng)進(jìn)行比對(duì)時(shí),相同的義項(xiàng)數(shù)。[7]兩組對(duì)標(biāo)義項(xiàng)數(shù)分別是6.38、6.88,說(shuō)明檢索結(jié)果的兩種展現(xiàn)形式在義項(xiàng)分立任務(wù)上的效能大致相同。
表1 字頭及編纂時(shí)間、對(duì)標(biāo)義項(xiàng)數(shù)
基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)料庫(kù)檢索的優(yōu)勢(shì)主要體現(xiàn)在效率方面。兩組分別平均用時(shí)34.63及47.38分鐘,前者比對(duì)照組節(jié)省了26.92%的時(shí)間。
本文以海量檢索結(jié)果中的同質(zhì)語(yǔ)境為突破口,探討了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)料庫(kù)檢索系統(tǒng)的構(gòu)建。本文將語(yǔ)境的量化問(wèn)題轉(zhuǎn)化為語(yǔ)境相關(guān)的詞匯語(yǔ)義量化問(wèn)題,使用上下文相關(guān)詞向量使得檢索結(jié)果的分布呈現(xiàn)出聚集的狀態(tài),為語(yǔ)料庫(kù)檢索提供了可視化及交互功能。
義項(xiàng)分立的實(shí)驗(yàn)表明,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)料庫(kù)檢索系統(tǒng)有助于辭書(shū)編纂人員對(duì)檢索結(jié)果去蕪存菁,提升辭書(shū)編纂效率。
在后續(xù)研究中,我們將持續(xù)改進(jìn)可視化的展現(xiàn)形式,把檢索詞從字?jǐn)U展至詞及短語(yǔ),并為詞語(yǔ)辨析、例句甄選等更多的語(yǔ)文辭書(shū)編纂應(yīng)用場(chǎng)景提供量化依據(jù)。
附 注
[1] 本文中檢索詞泛指用戶(hù)輸入的關(guān)鍵字、詞、短語(yǔ)等。
[2] 圖中Layer i表示神經(jīng)網(wǎng)絡(luò)第i層,Head i表示第i個(gè)注意力頭,[CLS]和[SEP]是標(biāo)志位,前者置于句首,后者置于句尾。
[3] https://github.com/ymcui/Chinese-BERT-wwm。
[4] https://projector.tensorflow.org/。
[5] UMAP算法學(xué)習(xí)的是高維空間中的流形結(jié)構(gòu)及其低維表示。
[6] https://www.laurenceanthony.net/software。
[7] 計(jì)數(shù)以義項(xiàng)為單位計(jì)算,而非以子義項(xiàng)為單位計(jì)算。例如,“下”義項(xiàng)②由高處到低處有 6個(gè)子義項(xiàng),包括1.進(jìn)2. 離開(kāi)3. 往……去4.投送,頒布5.向下面6.降落等,計(jì)數(shù)時(shí)按一個(gè)義項(xiàng)計(jì)算。