張生杰 霍丹
摘要:中文分詞在自然語(yǔ)言處理中是一個(gè)關(guān)鍵基礎(chǔ)性研究。針對(duì)中文分詞歧義問(wèn)題,該文建立在詞法和句法基礎(chǔ)上,提出了一種基于語(yǔ)義信息的二元漢語(yǔ)分詞器,是通過(guò)語(yǔ)境的切分理論和二元切詞的相結(jié)合進(jìn)行歧義消解。然后,用分詞校正器從整個(gè)句子的語(yǔ)法角度上檢測(cè)中文分詞結(jié)果的正確性。最后,從語(yǔ)境角度分析歧義字段,以此提高分詞的準(zhǔn)確率。
關(guān)鍵詞:語(yǔ)境;中文分詞;切分理論;歧義消解
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)22-0184-03
1 引言
中文分詞的主要技術(shù)有:基于頻度統(tǒng)計(jì)的分詞方法、基于字符串匹配的分詞方法和基于理解的分詞方法。雖然針對(duì)特定領(lǐng)域也能提高切分精度,但沒(méi)有考慮過(guò)兩個(gè)詞語(yǔ)間的語(yǔ)義問(wèn)題、歧義消解處理問(wèn)題等,本文在廣泛研究現(xiàn)有的分詞基礎(chǔ)之上,通過(guò)分析中文切分過(guò)程中具備的性質(zhì),根據(jù)語(yǔ)義切分理論,提出一種基于語(yǔ)義信息的算法進(jìn)行分詞,然后執(zhí)行該算法以后對(duì)切分出的中文歧義字段進(jìn)行進(jìn)一步的消解歧義處理,利用遞歸轉(zhuǎn)移網(wǎng)絡(luò)的語(yǔ)法規(guī)則來(lái)分析檢測(cè)分詞結(jié)果的正確性,最后通過(guò)實(shí)驗(yàn)評(píng)估其準(zhǔn)確性。
2 分詞技術(shù)
現(xiàn)有的分詞技術(shù)主要分為3大類(lèi):1)基于字符串的分詞法,主要是按一定的策略將待分析的漢字串與詞典進(jìn)行匹配;2)基于頻度統(tǒng)計(jì)的分詞法,它是基于字典及詞庫(kù)匹配技術(shù);3)基于理解的分詞方法,通過(guò)讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象,最終達(dá)到識(shí)別文本語(yǔ)義并準(zhǔn)確切詞的目的。
中文是一種十分復(fù)雜的語(yǔ)言,雖然國(guó)內(nèi)對(duì)中文分詞的研究取得了一定的成績(jī),但中文分詞技術(shù)中的問(wèn)題并沒(méi)有得到很大的提高和改善,讓計(jì)算機(jī)理解中文語(yǔ)言更是困難。當(dāng)前,就有兩大難題一直沒(méi)有完全突破。
(1)歧義問(wèn)題,是指同樣的一句話,可能有兩種或者更多的切分方法,漢語(yǔ)中存在大量的歧義現(xiàn)象;
(2)未登錄詞識(shí)別問(wèn)題,該問(wèn)題的解決依賴(lài)于人們對(duì)分詞技術(shù)和漢語(yǔ)語(yǔ)言結(jié)構(gòu)的進(jìn)一步認(rèn)識(shí)。
所以,本文通過(guò)語(yǔ)義語(yǔ)境切分理論,結(jié)合語(yǔ)義信息這一新角度去研究中文分詞,是解決歧義分詞的一種新的方法。具有語(yǔ)義信息的中文分詞算法不僅可以考慮詞法的構(gòu)成,還從語(yǔ)境的角度出發(fā)分析歧義字段內(nèi)部蘊(yùn)涵信息和上下文關(guān)聯(lián)信息,進(jìn)而提高中文分詞的準(zhǔn)確率。
3 切分過(guò)程
3.1 語(yǔ)義切分理論
中文分詞不僅具有很強(qiáng)的規(guī)律性,而且還具有特殊性,所以,考慮采用幾步處理步驟,對(duì)規(guī)律性和特殊性分別進(jìn)行切分。分詞的過(guò)程使用基于詞典規(guī)范基礎(chǔ)上的全切分,即輸出結(jié)果是一個(gè)句子的所有滿(mǎn)足中文分詞基本原則的可能切分的形式,任何出現(xiàn)的詞典中的詞都放入全切分列表。例如,對(duì)于漢語(yǔ)句子“全切分的結(jié)果是一個(gè)有向圖”,其全切分結(jié)果如圖1所示。
圖1是一個(gè)有向圖,圖中的每條弧可表示一個(gè)切分結(jié)果,即詞典中存在的詞。但是對(duì)于某些包含歧義概率極低的詞語(yǔ)組合,沒(méi)有必要進(jìn)行全切分,這樣不僅會(huì)影響切分的速度,而且也會(huì)使后面對(duì)正確切分的判定的復(fù)雜程度變得不可想象。于是,就出現(xiàn)了語(yǔ)義切分理論。
設(shè)p,q是詞中中文語(yǔ)句中切分詞的兩個(gè)總體平均概率,q是詞中首字母處的可切分總體平均概率,而p是詞中非首字母處的可切分總體平均概率。它們不但能反映中文詞的構(gòu)詞方法,也能體現(xiàn)詞在語(yǔ)句中的使用頻度。因此p、q的值受到詞法和詞的上下文語(yǔ)義信息的約束,且具有上界,是收斂的兩個(gè)概率值。
這種詞的切分方式,一方面,具有差別性,具體體現(xiàn)在詞中不同部分的成詞方法的總體平均概率p、q,受到詞法和詞的上下文語(yǔ)義信息的約束;另一方面,具有一致性,都反映了詞在文章中具有可分割概率,表現(xiàn)出詞的文章語(yǔ)義信息(即局部語(yǔ)義)。因此,要想正確和快速地進(jìn)行中文詞串的有效切分,就必須從詞法、詞的上下文語(yǔ)義信息和文章語(yǔ)義信息上出發(fā)。其中詞法是處理無(wú)歧義劃分的基礎(chǔ),詞的上下文語(yǔ)義信息和文章語(yǔ)義信息是處理歧義劃分的依據(jù)。故可以將兩個(gè)總體平均概率p、q作為語(yǔ)義切分算法中信息函數(shù)的輸入概率。
3.2 二元切分算法
首先,建立一個(gè)有向無(wú)環(huán)圖,圖中的結(jié)點(diǎn)為任意一個(gè)可能的候選詞語(yǔ),圖中的邊代表相鄰兩個(gè)詞語(yǔ)的續(xù)接關(guān)系。二元切分詞圖的每一條邊的權(quán)值表示二元詞語(yǔ)轉(zhuǎn)移概率P(Wi|Wi-1)。 任何一種切分的方式可以表示為二元切分詞圖上的一條起始結(jié)點(diǎn)到結(jié)束結(jié)點(diǎn)的路徑。路徑上所有邊的概率之積就是該切分結(jié)果對(duì)應(yīng)的二元語(yǔ)法模型概率。
3.3 首字二分查找
主要采用首字hash二分查找的思想,其中使用的漢字詞典由兩層結(jié)構(gòu)構(gòu)成,第一層結(jié)構(gòu)是hash表的映射,期初可找出以C為詞首且有i個(gè)漢字詞組成的位置區(qū)域;第二層結(jié)構(gòu)采用二分查詞方法,找到詞的準(zhǔn)確位置。
設(shè)以C為首字的詞統(tǒng)計(jì)共有Nc個(gè),詞中包含漢字?jǐn)?shù)最多的為Kc,并假定在Nc個(gè)詞中由i個(gè)漢字構(gòu)成的詞有Nci個(gè),則[Nc=i=1KcNci].對(duì)首字為C且漢字?jǐn)?shù)為i的詞w,若按順序進(jìn)行查找,時(shí)間復(fù)雜度為O(Nc);若采用首字Hash二分查詞方法,時(shí)間復(fù)雜度O(log(Nci))??梢?jiàn)O(log(Nci))< O(Nc),首字Hash二分查詞方法較優(yōu)越。
4 系統(tǒng)分詞流程
4.1 語(yǔ)義信息函數(shù)
由信息論的知識(shí)可知,兩個(gè)詞語(yǔ)之間的緊密與疏離關(guān)系可以用互信息量來(lái)衡量的,互信息量比相同出現(xiàn)概率值更能體現(xiàn)結(jié)合緊密程度。設(shè)w為文章i中出現(xiàn)的詞語(yǔ),其構(gòu)成該詞的首字設(shè)為x,首字以后的漢字設(shè)為y.詞w的文章語(yǔ)義信息就可用漢字x和y之間的互信息量來(lái)表示。如式(4)所示。
4.2 漢字串切分
本小節(jié)在語(yǔ)義切分理論基礎(chǔ)上,根據(jù)語(yǔ)義信息函數(shù)的計(jì)算方法,從詞法和語(yǔ)境兩方面上進(jìn)行歧義的消減。如圖2所示,該框架由四層結(jié)構(gòu)組成,第一層取當(dāng)前處理漢字及其后續(xù)三個(gè)漢字,構(gòu)成wordleft,即經(jīng)過(guò)對(duì)漢字串A1…Ai-1分詞處理后剩下還不能成詞的結(jié)構(gòu);第二層從詞法上對(duì)wordleft、x、y、z和u 的部分組合運(yùn)用首字hash 二分查詞步驟,將漢字搭配成組合詞并用a1 ,… ,ak (其中a1始終設(shè)定為wordleft+x)來(lái)表示;第三層將多個(gè)組合詞語(yǔ),使用語(yǔ)境信息函數(shù)I(ai )來(lái)計(jì)算ai的分詞可信度;第四層采用競(jìng)爭(zhēng)機(jī)制,與上一層的結(jié)構(gòu)相比較,如果I(a1 )最大,則yi = 1,表明wordleft+ x 可分詞,否則yi = 0,表明wordleft+ x不適合分詞。
4.3 分詞校正
圖3中給出分析句子、名詞短語(yǔ)、前置詞短語(yǔ)的3個(gè)遞歸轉(zhuǎn)移網(wǎng)絡(luò),其中每個(gè)網(wǎng)絡(luò)的起始節(jié)點(diǎn)標(biāo)號(hào)代表網(wǎng)絡(luò)中對(duì)語(yǔ)法類(lèi)問(wèn)題要進(jìn)行的分析,實(shí)際上這個(gè)標(biāo)號(hào)也代表語(yǔ)法分析程序的名稱(chēng)。每條有向弧線上的標(biāo)號(hào)可以表示成詞或詞組,帶雙圈的節(jié)點(diǎn)代表接收狀態(tài)。因此,遞歸轉(zhuǎn)移網(wǎng)絡(luò)的過(guò)程可以說(shuō)是具有非確定的因素[10],對(duì)這種非確定性的處理方法就需要采用前一節(jié)提出的語(yǔ)境函數(shù)I(x:y)來(lái)回溯處理,從統(tǒng)計(jì)函數(shù)角度來(lái)檢測(cè)分詞結(jié)果,若不符合規(guī)則,就調(diào)整語(yǔ)境信息函數(shù)的參數(shù),即將I(x:y)的值置為0,并返回分詞器重新分詞,以此來(lái)得到比較準(zhǔn)確的分詞結(jié)果。
5 語(yǔ)境切分算法
6 實(shí)驗(yàn)例證與分析
選取語(yǔ)料庫(kù)來(lái)自搜狗新聞?wù)Z料的精簡(jiǎn)版,其中涉及要聞,體育,娛樂(lè),科技和其他5個(gè)類(lèi)別的新聞文章集合,可以獲取語(yǔ)義語(yǔ)境信息。從中選取600篇新聞?wù)Z料,然后提取出1230個(gè)含有歧義字段的中文語(yǔ)句,進(jìn)行歧義切分測(cè)試.取比例參數(shù)α= 0. 7,用逆向最大匹配法、無(wú)校正的語(yǔ)境分詞方法和校正的語(yǔ)境分詞方法(分別為方法A,B和C)對(duì)這些中文語(yǔ)句分詞,得到的實(shí)驗(yàn)結(jié)果如表1所示。
比較方法A和C的分詞結(jié)果,后者比前者提高了近30%,可見(jiàn),逆向最大匹配法的效率較低,不適合解決歧義問(wèn)題。
比較方法B和C的分詞結(jié)果,盡管后者比前者高,但提高也只有1.4%。可見(jiàn),引入句法校正機(jī)制,確實(shí)可以提高準(zhǔn)確率。但是提高的幅度很小,該方法還有的改進(jìn)。
通過(guò)對(duì)上面切分詞算法的實(shí)驗(yàn)對(duì)比研究,語(yǔ)義信息方法在準(zhǔn)確率上有較大的提高,可以作為分詞的方法之一。
7 總結(jié)
本文將語(yǔ)義信息用于漢語(yǔ)的分詞處理,發(fā)揮語(yǔ)義信息在文本分析中的作用,在理解的基礎(chǔ)上來(lái)對(duì)分詞結(jié)果進(jìn)行檢驗(yàn),有效地提高了歧義消除的能力,由于語(yǔ)義信息函數(shù)的采用,在分詞的同時(shí),還得出了基于語(yǔ)境的分詞結(jié)構(gòu)模式,這對(duì)于進(jìn)一步的中文信息處理是非常有價(jià)值的。在目前的實(shí)驗(yàn)階段,還有不少地方通過(guò)人工干預(yù)來(lái)進(jìn)行分詞,但是在后面的工作中通過(guò)加入深度的網(wǎng)絡(luò)層次方法來(lái)實(shí)現(xiàn)分詞,這樣可以大大減少人工干預(yù)并得到更加適合信息分析的結(jié)果,這種方法的發(fā)展空間仍然十分廣闊。這也正是我下一步工作的重點(diǎn),繼續(xù)將分詞的結(jié)果進(jìn)行向量化處理。
參考文獻(xiàn):
[1] Guohong Fu. Chinese Word Wegmentation as Morpheme-based LexicalChunking[J]. Information Sciences, 2008(178) :2282-2296.
[2] 張素智,劉放美.基于矩陣約束法的中文分詞研究[J].計(jì)算機(jī)工程,2007,33(15):97-98.
[3] Aamoddt A,Plazza E. Case Based Reasoning:Foundational Issues,Methodological Variations and System Approaches[J].AI Communications,1994,7(1):39-59.
【通聯(lián)編輯:代影】