郭劍毅 趙 晨 劉艷超 毛存禮 余正濤
(1.昆明理工大學信息工程與自動化學院,昆明,650500;2.昆明理工大學云南省人工智能重點實驗室,昆明,650500)
兼類詞是指一個詞具有兩個或者兩個以上的詞性[1]。詞性(Part of speech,POS)自動標注是自然語言處理中的基礎課題;由于兼類詞歧義影響著詞性標注的準確率[2],直接影響著詞性語料庫的質量;而越南語詞性語料庫的質量是后續(xù)語言處理工作的保證,這使它廣泛地應用于多個方面,例如:名詞短語分析[3]、句法分析[4]和機器翻譯[5-6]等。因此,解決越南語兼類詞消歧問題是構建高質量的越南語詞性語料庫的必要條件。
近年來,國內(nèi)外學者對兼類詞消歧方法進行了研究,主要有以下3種:(1)基于規(guī)則的方法[5,7-8]。根據(jù)北印度語語法,Gupta等[7]提出基于規(guī)則的方法,對兼類詞進行消歧;Liu等[8]提出基于配置的定量分析現(xiàn)代漢語中動詞和名詞兼類的分類方法來解決漢語中動-名詞兼類問題,根據(jù)句法和語義特征對動-名詞兼類進行研究;Li等[5]針對中-英專利機器翻譯中的動詞和介詞的兼類,提出基于規(guī)則的識別方法,提高了機器翻譯質量。(2)基于統(tǒng)計機器學習的方法[9-10]。Dinesh等[9]針對馬拉雅拉姆語提出有監(jiān)督語言模型,同時該模型引入命名實體識別器和詞法分析器,進行兼類詞消歧;針對電子商業(yè)領域的兼類詞,F(xiàn)ei F等[10]提出了基于條件隨機場消歧方法,減少漢語中電子商業(yè)的歧義,同時提高了用戶檢索體驗。(3)基于混合的方法[11-12]。Zhang等[11]對漢語中的兼類詞采用集成模型進行詞性消歧,準確率達到89.69%;Xia等[12]針對漢語提出基于規(guī)則和統(tǒng)計的方法進行兼類詞消歧,使用多種統(tǒng)計方法進行消歧,對消歧結果中不理想的兼類詞采用規(guī)則方法再次進行消歧,以上的研究都已取得較好的結果。
上述研究主要針對英語、漢語等語言,就越南語兼類詞消歧而言,相關研究相對較少。兼類詞歧義消歧屬于詞性標注范疇,在越南語詞性標注方面,文獻[13]在支持向量機(Support vector machine,SVM)模型中融入普通特征(詞匯特征、詞的上下文特征、詞性特征和拼寫特征)和特殊特征(重復特征、前綴和后綴特征),進行詞性標注,正確率為93.51%;文獻[14]將詞特征和音節(jié)特征融合到統(tǒng)計模型SVM、最大熵模型(Maxinum entropy model,MEM)和條件隨機場(Conditional random fields,CRFs)中建模并進行分詞,比較3種模型的結果;文獻[15]提出了最大熵方法融入基本特征和音節(jié)特征,正確率達到93.40%,但這些研究幾乎沒有考慮兼類詞問題。
目前,隨著中越兩國文化和經(jīng)濟交流的日益頻繁,漢越自然語言處理越來越重要,越南語兼類詞消歧工作迫在眉睫。但越南語兼類詞消歧研究工作很少,為了提高越南語詞性標注質量,本文通過分析越南語的語言和兼類詞特點,提出了融合語言特性的越南語兼類詞消歧方法。
借鑒已有的兼類詞消歧方法和思路,本文提出的方法原理框架如圖1所示,主要包括:越南語語料預處理、構建越南語兼類詞字段和越南語兼類詞詞典、構建基于條件隨機場的消歧模型和語料測試等過程。
圖1 越南語兼類詞消歧框架圖Fig.1 Vietnamese multi-category words disambiguation framework
圖1中,越南語兼類詞消歧的具體流程如下:(1)越南語語料預處理。本文從越南語網(wǎng)站中抽取具有政治、文化、經(jīng)濟和新聞等類型題材的網(wǎng)頁,通過爬蟲程序,獲得越南語文本語料;對其進行去噪等操作,使用分詞工具進行分詞,使用詞性標注工具進行詞性標記,并完成校對;(2)構建字段語料庫和越南語兼類詞詞典。通過人工對越南語字典分類整理得到1 659條的兼類詞詞典;以此為基礎,從已構建的詞性標注語料庫中通過編程抽取396 946條越南語兼類詞字段語料;(3)構建基于條件隨機場的消歧模型。根據(jù)越南語中兼類詞的特點,選取消歧特征,將其與已抽取的越南語兼類詞字段向融合,形成訓練語料,使用條件隨機場模型進行建模,獲得基于條件隨機場的消歧模型;(4)語料測試。用構建的基于條件隨機場的消歧模型對測試語料進行消歧,得到消歧結果。
越南語屬于南亞語系,和漢語一樣是孤立語,但其由拉丁字母、表音文字及標點符號等構成。越南語的主要特點如下:(1)由一個或多個詞素構成;(2)修飾語位于被修飾詞之后;(3)越南語由于受多元文化的影響,在書寫及表達方式上顯示出復雜性和多樣性。越南語兼類詞的特點主要有:(1)大多數(shù)的越南語兼類詞都是常用詞,主要集中在名詞、動詞、形容詞和量詞(單位詞)等詞性之間的轉化上,如,thu?c men(藥品、用藥,名詞兼動詞);又如,bát(碗,名詞兼量詞),m?t cái bát(—個碗),m?t bát c?m(—碗飯);(2)在某些詞前出現(xiàn)其他詞時,這些詞的詞性會發(fā)生轉變,例如動詞前有“s?,(事),vi?c(事情)...”時,該動詞會變成名詞使用;(3)詞的語義搭配關系存在一定的優(yōu)先關系。兼類詞消歧工作的復雜程度一般隨著詞性標注集劃分規(guī)模程度來決定,一般來說,越是常用的詞其詞義活用的現(xiàn)象越嚴重,詞的兼類情況就越復雜。造成越南語兼類詞現(xiàn)象的主要原因有:(1)吸收外來文化;(2)詞義的派生;(3)越南語詞的活用等,以上現(xiàn)象給越南語兼類詞消歧工作帶來困難和挑戰(zhàn)。
從上分析可知,越南語兼類詞消歧需要結合越南兼類詞和語言的結構特點。與傳統(tǒng)消歧模型相比,條件隨機場模型具備融合不同特征的功能,能夠使用復雜、有重疊性和非獨立性的特征進行訓練和推理,能夠充分利用上下文信息和其他外部信息作為特征;同時能適當?shù)乇苊鈹?shù)據(jù)標注偏執(zhí)問題和歧義問題。因此本文選取條件隨機場建立消歧模型。
2.2.1 條件隨機場原理
CRFs是由John Lafferty等提出的一種統(tǒng)計機器學習模型,它結合了最大熵模型和隱馬爾科夫模型的特點,近年來在分詞、POS標簽和名詞組塊識別等序列標注任務中取得了很好的效果。它是一種無向圖模型,在待標注的觀測序列確定的情況下,無向圖模型可以被用來在標注序列上定義一個聯(lián)合概率分布。假設X,Y分別表示需要標注的觀察序列和它對應的標注序列的聯(lián)合分布隨機變量[1]。對于給定的一個長度為n的序列,X=x1,x2,x3,…,xn,則輸出Y=y1,y2,y3,…,yn的概率可以定義為
式中:Z(x)為歸一化常量,使得所有的狀態(tài)序列的概率和為1。Z(x)的計算公式為
式中:Z(x)為一個歸一化因子,fk(yt,yt-1,xt)是對整個序列的X標記位于t和t-1位置上標記的轉移概率λk是每一個特征特征權重向量。
在本文的越南語兼類詞消歧模型中,條件隨機場通過訓練語料得到模型參數(shù)的最優(yōu)值,使消歧結果最優(yōu)化。
2.2.2 特征選取
條件隨機場模型的性能取決于特征的選取。根據(jù)越南語的語言特性和兼類詞特征,本文主要選取以下4種特征,其特征模板如表1所示。其中w表示詞,p表示詞性,g表示句法成分,Pz/Sz表示指示詞特征,具體含義在實驗結果與分析中進行說明。
表1 特征模板Tab.1 Feature template
(1)詞特征。由于詞形態(tài)的改變能表征詞以及其含義的改變,上下文的詞能當前詞產(chǎn)生影響。例如“cu?c”詞在與“??t”搭配時,詞性為動詞,在與“cái”搭配時,詞性為名詞。因此,本文選取詞以及上下文信息做為有效特征。
(2)詞性特征。兼類詞的詞性會受到其前后兩個詞的詞性的影響,如“bát(碗)”有量(單位)詞和名詞兩種詞性,在“m?t bát c?m(一碗飯)”中,由于“m?t(一)”是數(shù)詞,“c?m”是名詞,從而可以判斷“bát(碗)”是量詞。因此,本文選取詞性以及上下文詞性信息作為有效特征。
(3)句法成分特征。在越南語中,語義搭配關系符合一定規(guī)律。例如越南語句子結構一般為“主-謂-賓”,兼類詞作為賓語成分接在動詞后面時,一般為名詞詞性;越南語中,被修飾語的詞性,可以通過位于被修飾詞后面的修飾語來確定;副詞或者形容詞前面一般搭配謂語,被修飾詞應該首先優(yōu)先考慮動詞等等,如果無成分特征,則表示NULL,否則表示主語(S)、謂語(V)和賓語(O)等。因此,本文選取當前兼類詞所充當句法成分和周圍成分特征作為有效特征。
(4)指示詞特征。在越南語中,一些特定的指示詞出現(xiàn)在某些詞前時,這些詞的詞性會發(fā)生轉變,例如“s?(事),vi?c(事情),cu?c(量詞)”等詞出現(xiàn)在動詞前時,該動詞會變?yōu)槊~詞性;“m?t(一)”等詞出現(xiàn)在名詞前時,該名詞會變?yōu)榱吭~詞性。在越南語中,前指示詞和后指示詞特征需要考慮;如果缺失指示詞,表示為NULL。因此,本文選取指示詞作為有效特征。
為了評估本文方法的消歧效果,實驗將采用中英文消歧常采用的評價標準:準確率(Precision)(正確消歧越南語兼類詞個數(shù)與消歧兼類詞總數(shù)的比值)來作為本文評價標準。
式中準確率數(shù)值在0和1之間,越接近1,就表明本文的方法越有效。
本文實驗所用實驗數(shù)據(jù)包括兼類詞詞典和兼類詞字段語料。目前,由于越南語兼類詞的相關研究資源匱乏,故本文需要構建語料庫。兼類詞詞典是由越南語字典經(jīng)過本文人工處理所得到的,包含1 659個兼類詞;越南語兼類詞字段庫是本文通過編寫程序對越南語文本語料,經(jīng)過抽取得到的(包括新聞、政治、經(jīng)濟等方面),共有396 946條兼類詞字段信息,所有字段保存為“UTF-8”格式,在本文實驗語料中不存在未登錄兼類詞,其采用的詞性標注集是文獻[16]制定的詞性集合(19種類型)。其中分詞方法使用文獻[17]中的方法,準確率在96.86%。抽取兼類詞字段流程圖如圖2所示。
圖2 越南語兼類詞抽取流程圖Fig.2 Vietnamese multi-category words extraction flowchart
越南語兼類詞抽取算法如下:
輸入:預處理后的語料庫。
第1步:從預處理后的語料中抽取1條越南語句子級語料,執(zhí)行第2步;
第2步:根據(jù)越南語兼類詞詞典,判斷獲取到的句子級語料中是否含有兼類詞出現(xiàn),執(zhí)行第3步;
第3步:如果句子級語料中存在兼類詞,用程序抽取兼類詞,執(zhí)行第4步;否則,執(zhí)行第1步;
第4步:抽取得到兼類詞字段,返回第1步。
輸出:越南語兼類詞字段。
本文實驗的實驗語料選用的是3.2節(jié)中得到的396 946條兼類詞字段語料,除實驗2外所用的語料是將所有語料分為5份,選用其中4份用于訓練,另外1份用于測試。具體格式如表2所示。
表2 兼類詞字段語料具體格式Tab.2 Specific format of the multi-category words corpus
實驗中的條件隨機場模型使用CRF++工具包實現(xiàn),其中template文件中的內(nèi)容由2.2.2節(jié)中的特征模板得到,其中 w(-2)轉為%x[-2,0],w(-2)/w(-1)轉為%x[-2,0]/%x[-1,0],w(-2)/w(-1)/w(0)轉為%x[-2,0]/%x[-1,0]/%x[0,0]以此類推,p(-2)轉為%x[-2,1],p(-2)/p(-1)轉為%x[-2,1]/%x[-1,1],g(-1)轉為%x[-2,3],g(-1)/g(0)轉為%x[-2,3]/%x[-1,3],Pz轉為%x[-1,2],Sz轉為%x[1,2]。為了驗證本文方法的有效性,本文從不同角度設計以下3組實驗:
實驗1為了考察4類特征對越南語兼類詞消歧統(tǒng)模型的貢獻度,分別將4類特征單獨融入消歧模型中,特征的貢獻程度通過準確率進行比較,實驗結果如表3,圖3所示。
表3 4類特征對模型貢獻度實驗Tab.3 Model contribution test of four types of characteristics
圖3 4類特征對模型貢獻度實驗Fig.3 Model contribution test of four types of characteristics
從圖3中可以看出,單獨使用詞特征的準確率為69.70%,比單獨使用詞性特征高5.89%,其主要原因為單獨使用詞性特征時,可能會造成詞性搭配上的歧義,而單獨使用詞特征時,詞性是確定的;句法成分特征相較于前兩個特征偏低,其主要原因為在不同詞性表示相同的句子成分時,區(qū)分度不強造成;指示詞特征正確率最低,這說明并非所有兼類詞都有指示詞特征,能通過指示詞消歧的兼類詞較少;融入所有特征后的模型準確率最高。由此可見,詞特征和詞性特征較為有效,然后是句法成分特征和指示詞特征。
實驗2為了評估所提出的條件隨機場統(tǒng)計模型的效果,將396 946條兼類詞字段平均分為5份,選取其中1份作為測試語料,其他4份作為訓練語料,進行5倍交叉驗證實驗,求其平均準確率,作為條件隨機場模型兼類詞消歧的測評結果,實驗結果如表4,圖4所示。從表4,圖4可以看出,序號1的實驗準確率達到88.15%,達到了局部最優(yōu)。實驗平均準確率為87.23%,作為所提出的條件隨機場統(tǒng)計模型的效果。
表4 5倍交叉驗證實驗Tab.4 Five times cross validation experiment
實驗3最大熵建模和支持向量機是自然語言處理中常用到的模型[16,18],最大熵只需要集中精力選擇特征,而不需要花費精力考慮如何使用這些特征;同時該模型不需要像其他模型中常常使用的獨立性假設,而支持向量機在小樣本訓練集上能夠得到很好的結果,且具有優(yōu)秀的泛化能力是效果最好的分類器之一。故本文選這兩個模型和條件隨機場模型進行比較。本實驗采用相同的特征、訓練語料和測試語料,分別使用這3種模型進行實驗,模型性能通過準確率進行對比,實驗結果如圖5,表5所示,其中“1”代表“詞特征”類型,“2”代表“詞性特征”類型,“3”代表“句法成分特征”類型,“4”代表“指示詞特征”類型。
圖4 5倍交叉驗證實驗Fig.4 Five times cross validation experiment
圖5 不同模型比較Fig.5 Comparison of different models
從圖5,表5可以看出,在使用相同特征時,條件隨機場模型比最大熵和支持向量機效果好,可見,條件隨機場模型能和本文的特征更好的融合;在詞特征的基礎上,融入詞性特征,準確率提高13.73%;在詞和詞性特征基礎上,融入句法成分特征時,模型準確率提高了2.17%;融入所有特征,模型整體性能有所提高,該模型準確率到達了87.23%。由此可見,本文所提出的基于條件隨機場的越南語兼類詞消歧方法有效可行。
表5 不同模型比較Tab.5 Comparison of different models
兼類詞消歧直接影響著詞性標注的準確率。本文針對越南語兼類詞歧義問題,提出了一種融合語言特性的越南語兼類詞消歧方法。通過構建越南語兼類詞詞典和字段語料庫,分析越南語的語言特性和兼類詞特征,選取了詞特征、詞性特征、句法成分特征和指示詞特征這4種有效特征,采用條件隨機場進行建模,得到越南語兼類詞的統(tǒng)計消歧模型,在真實語料庫上,實驗獲得了良好的效果。實驗結果表明,本文所提出的融合語言特性的越南語兼類詞消歧方法能有效解決越南語兼類詞歧義問題。本文將不斷補充語料、挖掘更多的越南語語言特征和兼類詞特點,嘗試新方法進行越南語兼類詞消歧,進一步提高兼類詞的消歧性能。