關(guān)鍵詞:松弛平方交疊率,平方交疊率,分詞詞典,無監(jiān)督優(yōu)選,越南語(yǔ)
從自然語(yǔ)言文本到語(yǔ)匯(Token)序列的處理過程是傳統(tǒng)自然語(yǔ)言處理和深度學(xué)習(xí)自然語(yǔ)言處理都需要的基礎(chǔ)步驟.像緬甸語(yǔ)[1]、泰語(yǔ)[2]和老撾語(yǔ)[3]一樣,越南語(yǔ)文本中詞與詞之間也沒有明顯的分隔符,但得到詞序列往往是各種自然語(yǔ)言處理任務(wù)的第一步.因此,在上述低資源亞洲語(yǔ)言信息處理中,詞邊界自動(dòng)識(shí)別成為了具有一定挑戰(zhàn)的關(guān)鍵科學(xué)問題,相應(yīng)算法在各種自然語(yǔ)言處理應(yīng)用中具有廣泛的需求[4].
越南語(yǔ)是一種基于音節(jié)的語(yǔ)言,越南語(yǔ)文本的基本形式單位是Ting,而基本語(yǔ)義單位是詞,也就是最小能獨(dú)立表義的語(yǔ)言單元.正是由于基本形式單位與基本語(yǔ)義單位不是完全一一映射,因此在采用計(jì)算機(jī)處理越南語(yǔ)文本的意義時(shí),需要為每個(gè)基本語(yǔ)義單位識(shí)別形式上的邊界,也就是越南語(yǔ)分詞.
越南語(yǔ)文本可視為一個(gè)連續(xù)的音節(jié)序列,并且每?jī)蓚€(gè)音節(jié)之間都由一個(gè)空格符分隔.在原始文本中,空格符屬于一種重載標(biāo)識(shí)符,即在詞內(nèi)作為連接符,而在詞間作為分隔符.因此將越南語(yǔ)分詞任務(wù)定義為針對(duì)每個(gè)空格符的二值分類問題.在分詞結(jié)果中,若某個(gè)空格符是詞內(nèi)連接符,就替換輸出一個(gè)下劃線('_');若某個(gè)空格符是詞間分隔符,就將其作為空格符('')保留.
1相關(guān)研究
越南語(yǔ)分詞結(jié)果的優(yōu)劣制約著各層次信息處理應(yīng)用的性能.例如,對(duì)于傳統(tǒng)自然語(yǔ)言處理而言,某個(gè)詞被錯(cuò)分,隨后的命名實(shí)體識(shí)別、詞性標(biāo)注、句法分析和語(yǔ)義角色標(biāo)注等會(huì)受到影響.而對(duì)于深度學(xué)習(xí)自然語(yǔ)言處理而言,錯(cuò)分詞不僅增加向量空間中無意義詞的數(shù)量,而且擾動(dòng)嵌入統(tǒng)計(jì)結(jié)果.因此研究者很早就開始關(guān)注越南語(yǔ)分詞問題,迄今已提出多種有效的越南語(yǔ)分詞算法[5].
最早的分詞算法主要是基于詞典,包括最大匹配(MaximumMatching)算法和逆向最大匹配(ReverseMaximumMatching)算法.基于詞典的算法易于實(shí)現(xiàn),但其效果在很大程度上取決于詞典的規(guī)模與質(zhì)量[6].
后來,有些高級(jí)機(jī)器學(xué)習(xí)方法將分詞視為序列標(biāo)注問題,如最大熵(MaximumEntropy)、條件隨機(jī)場(chǎng)(ConditionalRandomFields,CRF)和支持向量機(jī)(SupportVectorMachines,SVM)[7]等方法,在越南語(yǔ)分詞中取得了較好的效果.已有的研究成果包括結(jié)合加權(quán)有限狀態(tài)機(jī)和神經(jīng)網(wǎng)絡(luò)的分詞模型[8]:構(gòu)建了10MB的原始語(yǔ)料庫(kù),使用N?gram信息優(yōu)化分詞概率總和[9];使用ME框架和迭代算法對(duì)標(biāo)注語(yǔ)料庫(kù)進(jìn)行訓(xùn)練[10];使用CRF和SVM模型進(jìn)行分詞[11].
接著,混合方法和面向具體任務(wù)(如文本分類和自動(dòng)問答)的分詞研究逐漸興起,同時(shí)也有研究者嘗試?yán)盟阉饕鏄?gòu)建大規(guī)模語(yǔ)料庫(kù)進(jìn)行分詞.為了解決分詞歧義問題,還出現(xiàn)了結(jié)合有限狀態(tài)機(jī)、正則表達(dá)式和最大匹配技術(shù)的混合算法,并據(jù)此實(shí)現(xiàn)了一個(gè)高精度的越南語(yǔ)分詞器(vn?Tokenizer)[12].面向文本分類,不使用標(biāo)注訓(xùn)練語(yǔ)料庫(kù),使用商業(yè)搜索引擎直接抽取統(tǒng)計(jì)信息,用遺傳算法尋找最合理的分詞結(jié)果[13].把詞性標(biāo)簽作為一種附加資源用于分詞算法中[14-15],也有研究采用有監(jiān)督集成學(xué)習(xí)框架組合多個(gè)基本分詞器形成一個(gè)集成分詞器[16].
近來,預(yù)訓(xùn)練模型和深度神經(jīng)網(wǎng)絡(luò)被用于越南語(yǔ)分詞.有研究采用上下文預(yù)訓(xùn)練模型XLM?RoBERTa在越南語(yǔ)Treebank基準(zhǔn)測(cè)試上實(shí)現(xiàn)了比序列標(biāo)記方法更優(yōu)的分詞效果[17].還有研究提出一種基于改進(jìn)的長(zhǎng)短時(shí)記憶(LongShort?TermMemory,LSTM)神經(jīng)網(wǎng)絡(luò)的越南語(yǔ)分詞算法,該算法由LSTM編碼和CNN(Convolu?tionalNeuralNetwork)特征提取兩部分組成.與單一LSTM、單一CNN以及傳統(tǒng)方法相比,該算法對(duì)性能的提升更加明顯[18].
在上述越南語(yǔ)分詞算法中,分詞精度越高的模型往往越復(fù)雜,也越耗時(shí).然而真實(shí)的大規(guī)模應(yīng)用傾向采用簡(jiǎn)潔高效的模型,尤其是在深度學(xué)習(xí)時(shí)代,簡(jiǎn)單模型加大數(shù)據(jù)通常勝過基于一定數(shù)據(jù)的復(fù)雜模型[19].同理,在真實(shí)的大規(guī)模越南語(yǔ)文本處理項(xiàng)目中,采用基于詞典的越南語(yǔ)分詞算法加上海量詞典.最初以為詞典規(guī)模越大分詞效果越好,可實(shí)踐證明,盡管基于詞典的分詞算法容易實(shí)現(xiàn),但它的性能很大程度上取決于適合的詞典.詞典規(guī)模如何影響分詞性能?多大規(guī)模是適合的?這兩個(gè)實(shí)際問題成為本文的研究動(dòng)機(jī).
2基于詞典的越南語(yǔ)分詞
使用不同的詞典來測(cè)試基于最大匹配和基于逆向最大匹配兩種越南語(yǔ)分詞算法,根據(jù)測(cè)試結(jié)果重新審視詞典規(guī)模對(duì)基于詞典的分詞算法的影響.
2.1 算法與詞典 為了再現(xiàn)項(xiàng)目中遇到的情形,選擇兩個(gè)經(jīng)典的基于詞典的越南語(yǔ)分詞器MMSegmenter(MM)和RMMSegmenter(RMM,http://cbd.nichesite.org/CBD2013S002.htm),它們分別是基于最大匹配算法和逆向最大匹配算法實(shí)現(xiàn)的.MM和RMM分詞器本身各自集成了一個(gè)包含87399個(gè)多音節(jié)詞的越南語(yǔ)分詞詞典.為了進(jìn)行比較,測(cè)試了另外兩個(gè)分詞詞典.一個(gè)是從JVnSegmenter(http://jvnsegmenter.source?forge.net)工具中抽取出來,包含64546個(gè)多音節(jié)詞;另一個(gè)是我們工程項(xiàng)目中的大詞典,包含122727個(gè)多音節(jié)詞.
2.2 語(yǔ)料與評(píng)測(cè) 采用公開的標(biāo)準(zhǔn)數(shù)據(jù)集CVWS(CorpusforVietnameseWordSegmenta?tion,http://www.jaist.ac.jp/~hieuxuan/vnword?seg/data/),該數(shù)據(jù)集包括305篇多領(lǐng)域越南語(yǔ)新聞文本,共7807個(gè)已標(biāo)注詞邊界的句子.
使用國(guó)際Bakeoff[20]評(píng)價(jià)標(biāo)準(zhǔn)和相關(guān)評(píng)價(jià)方法,利用準(zhǔn)確率(P)、召回率(R)、F1值(F1)和錯(cuò)誤率(ER)來評(píng)價(jià)分詞器的性能.P,R和F1的值域?yàn)閇0,1],1表示最優(yōu);ER的值域也為[0,1],但0表示最優(yōu).如式(1)~(4)所示:
其中,N表示手工分詞文本的總詞數(shù),C表示自動(dòng)分詞結(jié)果中正確切分的詞數(shù),M表示自動(dòng)分詞結(jié)果中錯(cuò)誤切分的詞數(shù).
2.3 結(jié)果與討論 表1展示了利用上述三個(gè)詞典分別運(yùn)行MM和RMM分詞器的結(jié)果,表中黑體字表示結(jié)果最優(yōu).由表可見,兩個(gè)分詞器在詞典規(guī)模為87399時(shí),P,R和F1數(shù)值最大,ER數(shù)值最小,分詞效果最優(yōu).例如,MM分詞器在詞典dict87399中的F1(0.9477)最大,而RMM分詞器在詞典dict87399中的錯(cuò)誤率ER(0.0396)在三個(gè)詞典中最小.
此外,在最優(yōu)詞典下MM分詞器的性能優(yōu)于RMM分詞器的性能.例如,在詞典dict87399中MM分詞器和RMM分詞器的準(zhǔn)確率P分別為0.9625和0.9591,而二者的召回率R分別為0.9332和0.9299,這和越南語(yǔ)語(yǔ)序有關(guān).
上述實(shí)驗(yàn)結(jié)果驗(yàn)證了詞典規(guī)模會(huì)影響基于詞典的越南語(yǔ)分詞器的效果,既不是詞典規(guī)模越大越好,更不是詞典規(guī)模越小越好.下述研究將圍繞如何預(yù)測(cè)最優(yōu)的詞典進(jìn)行深入分析.
3最優(yōu)分詞詞典預(yù)測(cè)
根據(jù)有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種前提條件分別提出相應(yīng)的最優(yōu)分詞詞典預(yù)測(cè)框架.
3.1 有監(jiān)督學(xué)習(xí)預(yù)測(cè)框架 基于詞典的越南語(yǔ)分詞算法效果取決于分詞詞典和待分詞的目標(biāo)語(yǔ)料.對(duì)于一個(gè)給定的越南語(yǔ)語(yǔ)料,最優(yōu)分詞詞典就是由語(yǔ)料中全部多音節(jié)詞構(gòu)成的詞典.在該語(yǔ)料分詞過程中,每個(gè)多音節(jié)詞都能在分詞詞典中找到匹配詞,因此幾乎每個(gè)詞都能夠被正確切分,最大限度地降低組合歧義和交疊歧義的影響.
在有監(jiān)督學(xué)習(xí)前提下,有標(biāo)注的訓(xùn)練語(yǔ)料與待標(biāo)注的測(cè)試語(yǔ)料具有相同的文本特征分布,這對(duì)預(yù)測(cè)分詞詞典的效果有幫助.因此,提出一種平方交疊率(SquareOverlapRatio,SOR)量度用于預(yù)測(cè)分詞詞典的效果.SOR定義為詞典交疊率(DictionaryOverlapRatio,DOR)和語(yǔ)料交疊率(CorpusOverlapRatio,COR)的乘積,如式(5)~(7)所示.上述三種交疊率數(shù)值上屬于[0,1],最優(yōu)值為1.
其中,Wo表示詞典和語(yǔ)料中同時(shí)包含的多音節(jié)詞數(shù)量,Wd表示詞典中包含的多音節(jié)詞數(shù)量,Wc表示語(yǔ)料中包含的多音節(jié)詞數(shù)量.
圖1展示了基于SOR量度提出的一種有監(jiān)督學(xué)習(xí)預(yù)測(cè)框架.該框架主要包括一個(gè)SOR計(jì)算器(SquareOverlapRatioCalculator,SORC)、一個(gè)詞典效果預(yù)測(cè)器(DictionaryPerformancePredictor,DPP)和一個(gè)基于詞典的分詞器(Dic?tionary?basedSegmenter,DS).當(dāng)該框架運(yùn)作時(shí),SORC負(fù)責(zé)從訓(xùn)練語(yǔ)料庫(kù)中接收已標(biāo)注訓(xùn)練文本,為每個(gè)詞典計(jì)算出一個(gè)SOR;DPP負(fù)責(zé)接收多個(gè)SOR,根據(jù)數(shù)值最大的SOR推薦相應(yīng)的詞典;DS負(fù)責(zé)從測(cè)試語(yǔ)料庫(kù)中接收未標(biāo)注測(cè)試文本,根據(jù)DPP推薦的詞典進(jìn)行分詞,并輸出標(biāo)注的測(cè)試文本.
3.2 無監(jiān)督學(xué)習(xí)預(yù)測(cè)框架 如果獲得一個(gè)標(biāo)注不需要代價(jià),那么有監(jiān)督學(xué)習(xí)預(yù)測(cè)是一種理想的方法.不幸的是,實(shí)際上每獲得一個(gè)標(biāo)注都需要一定的代價(jià),尤其是在無監(jiān)督學(xué)習(xí)條件下無法獲得標(biāo)注,這使得上述有監(jiān)督學(xué)習(xí)預(yù)測(cè)方法無能為力.
為了應(yīng)對(duì)無監(jiān)督學(xué)習(xí)情況,放松SOR的計(jì)算約束,提出了一種松弛平方交疊率(RelaxedSquareOverlapRatio,RSOR)量度.RSOR在數(shù)值上定義為松弛詞典交疊率(RelaxedDiction?aryOverlapRatio,RDOR)和松弛語(yǔ)料交疊率(RelaxedCorpusOverlapRatio,RCOR)的乘積.這三種交疊率數(shù)值上屬于[0,1],最優(yōu)值為1.RSOR的計(jì)算過程如式(8)~(10)所示:
RDOR=So/Sd(8)
RCOR=So/Sc(9)
RSOR=RDOR?RCOR(10)
其中,So表示詞典和語(yǔ)料中同時(shí)包含的音節(jié)數(shù)量,Sd表示詞典中包含的音節(jié)數(shù)量,Sc表示語(yǔ)料中包含的音節(jié)數(shù)量.
圖2展示了基于RSOR量度提出的一種無需標(biāo)注的無監(jiān)督學(xué)習(xí)預(yù)測(cè)框架.該框架主要包含一個(gè)RSOR計(jì)算器(RelaxedSquareOverlapRatioCalculator,RSORC)、一個(gè)DPP和一個(gè)DS.與有監(jiān)督學(xué)習(xí)預(yù)測(cè)框架最大的區(qū)別是計(jì)算對(duì)象不同,一個(gè)是多音節(jié)詞,而另一個(gè)是音節(jié).
4實(shí)驗(yàn)
實(shí)驗(yàn)中算法需要從四個(gè)詞典中預(yù)測(cè)一個(gè)最適合的詞典,其中,三個(gè)詞典在2.1進(jìn)行了詳細(xì)介紹.新加的詞典是一個(gè)人造的用于參考比對(duì)的詞典dict9113,來自CVWS數(shù)據(jù)集,包含9113個(gè)多音節(jié)詞,即將CVWS數(shù)據(jù)集中所有的多音節(jié)詞歸集去重后得到的9113條詞條當(dāng)作詞典dict9113.
4.1 有監(jiān)督學(xué)習(xí)預(yù)測(cè)結(jié)果 在有監(jiān)督學(xué)習(xí)實(shí)驗(yàn)中,采用三折交叉驗(yàn)證,將CVWS數(shù)據(jù)集平分為三份,兩份訓(xùn)練,一份測(cè)試.該實(shí)驗(yàn)需要運(yùn)行“訓(xùn)練?測(cè)試”過程三次,最終報(bào)告三次運(yùn)行結(jié)果的算術(shù)平均值.
表2展示了不同詞典規(guī)模下的交疊率,表中黑體字表示結(jié)果最優(yōu).由表可見,詞典dict9113的SOR(0.8098)明顯優(yōu)于其他三個(gè)詞典中最優(yōu)的SOR(0.0445).實(shí)驗(yàn)結(jié)果表明,四個(gè)詞典效果排序?yàn)樵~典dict9113,dict87399,dict64546和dict122727.
圖3展示了MM分詞器在不同詞典規(guī)模下的實(shí)驗(yàn)結(jié)果,由圖可見,詞典dict9113的四項(xiàng)指標(biāo)均超過其他詞典,例如dict9113的F1為0.9553,而dict87399,dict64546和dict122727的F1分別為0.9365,0.9244和0.9146.除人造參考詞典外,詞典dict87399的指標(biāo)是最優(yōu)的,例如dict87399的ER為0.0489,而dict64546和dict122727的ER分別為0.0726和0.0739.證明有監(jiān)督學(xué)習(xí)預(yù)測(cè)方法得出的詞典效果排序是有效的.
圖4展示了RMM分詞器在不同詞典規(guī)模下的實(shí)驗(yàn)結(jié)果,該結(jié)果和上述MM分詞器的結(jié)果類似,也證明有監(jiān)督學(xué)習(xí)預(yù)測(cè)方法得出的詞典效果排序是合理的.
4.2 無監(jiān)督學(xué)習(xí)預(yù)測(cè)結(jié)果 在無監(jiān)督學(xué)習(xí)實(shí)驗(yàn)中預(yù)測(cè)上述四個(gè)詞典的效果,不同的是無監(jiān)督學(xué)習(xí)實(shí)驗(yàn)不需要訓(xùn)練語(yǔ)料.因此無監(jiān)督學(xué)習(xí)實(shí)驗(yàn)只需要根據(jù)四個(gè)詞典和CVWS全集數(shù)據(jù)直接計(jì)算RSOR,不需要三折交叉驗(yàn)證.
表3展示了不同詞典規(guī)模下的松弛交疊率結(jié)果,表中黑體字表示結(jié)果最優(yōu).由表可見,RSOR排序是0.5606,0.1731,0.1678和0.1581.同有監(jiān)督學(xué)習(xí)預(yù)測(cè)結(jié)果一致,詞典dict9113效果最優(yōu),其他三個(gè)詞典效果排序?yàn)閐ict87399,dict64546和dict122727.MM分詞器和RMM分詞器在其他三個(gè)詞典上得出的四個(gè)指標(biāo)P,R,F(xiàn)1和ER結(jié)果如表1所示.例如,在詞典dict87399,dict64546和dict122727上,MM分詞器的P分別為0.9625,0.9587和0.9515,RMM分詞器的R分別為0.9299,0.9230和0.9094.證明無監(jiān)督學(xué)習(xí)預(yù)測(cè)方法也是有效的.
5結(jié)論
本文研究了詞典規(guī)模對(duì)越南語(yǔ)分詞的影響,提出了有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)最優(yōu)分詞詞典預(yù)測(cè)框架,這些框架通過選擇適合的詞典,能使基于詞典的越南語(yǔ)分詞算法更加勝任特定的越南語(yǔ)分詞任務(wù).如果有足夠大的詞典,那么該優(yōu)選方法能為待分詞語(yǔ)料自動(dòng)定制一個(gè)最優(yōu)的子詞典.在深度學(xué)習(xí)時(shí)代,簡(jiǎn)單算法融合大數(shù)據(jù)能為真實(shí)的大規(guī)模應(yīng)用提供一種新的解決思路.
未來的研究主要關(guān)注組合歧義和交疊歧義對(duì)詞典優(yōu)選的影響,并且將上述研究成果遷移到其他適合的亞洲語(yǔ)言處理中,如緬甸語(yǔ)、泰語(yǔ)和老撾語(yǔ)等.