劉金輝
摘要:隨著互聯(lián)網(wǎng)上海量文本的涌現(xiàn),自動(dòng)文本處理已經(jīng)成為一項(xiàng)重要的研究課題。為了正確地處理漢語(yǔ)文本,必須對(duì)其中的歧義詞匯進(jìn)行消歧。本文給出了一種基于多種語(yǔ)言學(xué)知識(shí)的詞義消歧框架。結(jié)合《同義詞詞林》,抽取歧義詞匯的上下文中的多種語(yǔ)言學(xué)知識(shí)作為消歧特征,使用貝葉斯模型來(lái)確定它的語(yǔ)義。同時(shí),將自動(dòng)消歧結(jié)果應(yīng)用于檢索引擎、機(jī)器翻譯系統(tǒng)和文語(yǔ)轉(zhuǎn)換系統(tǒng)。
關(guān)鍵詞:歧義詞匯 詞義消歧 上下文 消歧特征 貝葉斯模型
中圖分類(lèi)號(hào):TP391.2 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)07-0092-01
1 概述
詞義消歧是指使用計(jì)算機(jī)自動(dòng)地確定歧義詞匯在上下文環(huán)境中所具有的真實(shí)含義。目前,詞義消歧是自然語(yǔ)言處理領(lǐng)域中的一個(gè)基礎(chǔ)性研究課題,它對(duì)信息檢索[1]、機(jī)器翻譯[2]和文本處理具有重要的支持作用。隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上涌現(xiàn)了大量的自然語(yǔ)言文本,迫切需要開(kāi)發(fā)高質(zhì)量的自然語(yǔ)言文本處理工具。而詞義消歧則是提高自然語(yǔ)言文本處理質(zhì)量的關(guān)鍵性技術(shù)。目前,詞義消歧方法主要分為3類(lèi):有監(jiān)督的詞義消歧、無(wú)監(jiān)督的詞義消歧和半監(jiān)督的詞義消歧[3]。
在歧義詞匯的上下文中,蘊(yùn)藏著不同類(lèi)型的語(yǔ)言學(xué)知識(shí),諸如:詞形、詞性、句法、長(zhǎng)度和語(yǔ)義信息。本文利用這些不同類(lèi)型的語(yǔ)言學(xué)知識(shí)來(lái)為詞義判別過(guò)程提供指導(dǎo)信息。同時(shí),使用詞義消歧結(jié)果來(lái)改善相關(guān)文本處理系統(tǒng)的性能。
2 基于多種語(yǔ)言學(xué)知識(shí)的消歧框架
本文綜合利用了歧義詞匯上下文中的詞形、詞性和語(yǔ)義信息,結(jié)合貝葉斯模型給出了一種漢語(yǔ)詞義消歧系統(tǒng)的框架結(jié)構(gòu),如圖1所示。
在這一框架中,主要包括以下模塊:漢語(yǔ)分詞模塊、漢語(yǔ)詞性標(biāo)注模塊、語(yǔ)義類(lèi)別標(biāo)注模塊和消歧特征提取模塊。漢語(yǔ)詞性標(biāo)注模塊的作用是:為每個(gè)漢語(yǔ)單詞添加詞性標(biāo)注。語(yǔ)義類(lèi)別標(biāo)注模塊的作用是:查閱《同義詞詞林》,根據(jù)出現(xiàn)頻度來(lái)標(biāo)注漢語(yǔ)詞匯的語(yǔ)義類(lèi)別。消歧特征提取模塊的作用是:提取左、右詞匯的詞形、詞性和語(yǔ)義類(lèi)別作為判別特征。詞義消歧模塊采用了貝葉斯模型,其輸入是消歧特征分量出現(xiàn)的概率,輸出結(jié)果是該歧義詞匯的語(yǔ)義類(lèi)別。詞義消歧過(guò)程如公式(1)所示。
(1)
對(duì)于待消歧的歧義詞匯而言,共包含n個(gè)語(yǔ)義類(lèi)別:S1, S2, …, Sn。在貝葉斯模型中,主要包括兩個(gè)參數(shù):語(yǔ)義類(lèi)別出現(xiàn)的先驗(yàn)概率P(Si)和語(yǔ)義類(lèi)別-特征向量出現(xiàn)的后驗(yàn)概率P(Si|Feature)。
以該框架為基礎(chǔ),可以實(shí)現(xiàn)一個(gè)面向Web的漢語(yǔ)詞義消歧系統(tǒng)。系統(tǒng)分為客戶端和服務(wù)器兩個(gè)部分??蛻舳死肑SP語(yǔ)言來(lái)實(shí)現(xiàn),使用Myeclipse作為開(kāi)發(fā)工具。采用了Tomcat服務(wù)器。所實(shí)現(xiàn)的系統(tǒng)可以視為一個(gè)B/S結(jié)構(gòu),詞義消歧系統(tǒng)部署在服務(wù)器上。
3 詞義消歧框架的應(yīng)用
互聯(lián)網(wǎng)上存在著海量的漢語(yǔ)文本信息。要想從網(wǎng)上找到感興趣的文字資料,必須采用檢索引擎。但是,常用的檢索引擎都是利用關(guān)鍵字匹配的方式來(lái)檢索漢語(yǔ)文本。在這一過(guò)程匯中,使用了字符串匹配的方法,沒(méi)有考慮到關(guān)鍵字的語(yǔ)義信息。其檢索的精確率受到了一定程度的影響,經(jīng)常會(huì)得到大相徑庭的檢索結(jié)果。首先,使用該漢語(yǔ)詞義消歧系統(tǒng)來(lái)確定查詢(xún)關(guān)鍵字的語(yǔ)義類(lèi)別。然后,采用該漢語(yǔ)詞義消歧系統(tǒng)來(lái)確定檢索到的文本中的關(guān)鍵字的語(yǔ)義類(lèi)別。最后,根據(jù)查詢(xún)關(guān)鍵字的語(yǔ)義類(lèi)別,檢索引擎可以自動(dòng)地選出用戶所需要的漢語(yǔ)文本資料,這將大大地提高檢索的性能。
隨著對(duì)外貿(mào)易的快速發(fā)展,漢語(yǔ)資料的翻譯工作變得越來(lái)越繁重。單純依靠人來(lái)完成翻譯工作,將消耗大量的人力、物力和財(cái)力。因此,很多翻譯任務(wù)需要借助機(jī)器翻譯系統(tǒng)來(lái)完成。在翻譯轉(zhuǎn)換之前,使用該漢語(yǔ)詞義消歧系統(tǒng)根據(jù)上下文來(lái)確定歧義詞匯的語(yǔ)義類(lèi)別,將會(huì)大大地提高機(jī)器翻譯系統(tǒng)的譯文輸出質(zhì)量。同時(shí),將會(huì)降低人工編輯自動(dòng)譯文輸出結(jié)果的工作量。
在人們的日常生活中,文語(yǔ)轉(zhuǎn)換技術(shù)已經(jīng)越來(lái)越普及了。在很多智能手機(jī)和幼兒識(shí)字學(xué)習(xí)機(jī)上,都安裝了文語(yǔ)轉(zhuǎn)換軟件,將文本信息變?yōu)檎Z(yǔ)音信號(hào)朗讀出來(lái)。目前,文語(yǔ)轉(zhuǎn)換所面臨的一個(gè)難題是難以對(duì)文本句子實(shí)施正確地詞匯切分,所朗讀出來(lái)的語(yǔ)音很生硬,經(jīng)常會(huì)出現(xiàn)斷句的錯(cuò)誤。在詞匯切分之后,使用該漢語(yǔ)詞義消歧系統(tǒng)根據(jù)上下文來(lái)確定歧義詞匯的語(yǔ)義類(lèi)別,糾正自動(dòng)分詞結(jié)果中的錯(cuò)誤。這將會(huì)大大地改善語(yǔ)音朗讀的效果。
4 結(jié)語(yǔ)
目前,詞義消歧是自然語(yǔ)言處理領(lǐng)域中的一個(gè)研究熱點(diǎn)。本文介紹了國(guó)內(nèi)外現(xiàn)有的詞義消歧方法。對(duì)于輸入的漢語(yǔ)句子,分別進(jìn)行分詞處理和詞性標(biāo)注處理。查閱《同義詞詞林》來(lái)提取詞義消歧特征,結(jié)合貝葉斯模型來(lái)確定歧義詞匯的語(yǔ)義類(lèi)別。給出了基于多種語(yǔ)言學(xué)知識(shí)的詞義消歧框架及其實(shí)現(xiàn)方案。同時(shí),使用該詞義消歧系統(tǒng)來(lái)改善檢索引擎、機(jī)器翻譯系統(tǒng)和文語(yǔ)轉(zhuǎn)換系統(tǒng)的性能。
參考文獻(xiàn)
[1]張霖,張宇航.基于粗糙本體的信息檢索[J].信息化建設(shè),2015,11: 246~246.
[2]宋柔,葛詩(shī)利.面向篇章機(jī)器翻譯的英漢翻譯單位和翻譯模型研究[J].中文信息學(xué)報(bào),2015,29(5):125~135.
[3]全昌勤.基于語(yǔ)料庫(kù)的漢語(yǔ)詞義消歧方法研究[D].華中師范大學(xué),博士學(xué)位論文.2005.