周悅文
【摘 要】本文介紹WordNet的來源與發(fā)展,闡述以半自動方法設(shè)計(jì)WordNet,討論了意義排歧過程的復(fù)雜性,最后展望WordNet的發(fā)展趨勢與應(yīng)用。
【關(guān)鍵詞】語義;本體;同義詞;排歧
0.引言
隨著信息技術(shù)的發(fā)展,對電子計(jì)算機(jī)依賴的群體越來越大,更多的人都希望自己編寫的自然語言能夠與計(jì)算機(jī)直接對話,而實(shí)際上要使計(jì)算機(jī)能夠接受這些自然語言或者偽代碼,必須讓計(jì)算機(jī)本身具備語法、語義、詞法、句法等語境,而詞匯語義的構(gòu)建就是基于WordNet的,WordNet一直是知識工程研究的重點(diǎn),下面對它分別做一些分析和討論。
1.WordNet的來源與發(fā)展
WordNet[1]原本是由Princeton 大學(xué)的心理學(xué)家,語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語言學(xué)的英語詞典。它不是把單詞以字母排列順序?yàn)樵瓌t,而是基于心理學(xué)和語言學(xué)的數(shù)據(jù)庫,組織形式是用戶在認(rèn)知過程中所表現(xiàn)出的義類原則即詞以義聚,按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。 它是一個(gè)覆蓋范圍寬廣的英語詞匯語義網(wǎng),以一種“網(wǎng)“的形式來描述詞語的意義,可以是利用語義成分表示語義[2],也可以是利用關(guān)系表示語義,比如:“碗”(bowl)和“餐具”(tableware)代表兩個(gè)節(jié)點(diǎn)(node),而這兩個(gè)節(jié)點(diǎn)之間有一個(gè)箭頭(dart)來表示這樣的命題:碗是一種餐具(a bowl is a kind of tableware),即“Is-A-KIND-OF”這樣的語義關(guān)系 , 名詞,動詞,形容詞和副詞各自被組織成一個(gè)同義詞的網(wǎng)絡(luò),每個(gè)同義詞集合都代表一個(gè)基本的語義概念,即在詞的形式和意義之間建立起映射關(guān)系(mapping)用于描述詞匯矩陣,并且這些集合之間也由各種關(guān)系連接。一個(gè)多義詞就有可能出現(xiàn)在它的每個(gè)意思的同義詞集合中,對于這樣一個(gè)復(fù)雜的詞庫該如何創(chuàng)建呢,是手工編制還是機(jī)器自動生成,選擇手工構(gòu)建詞典的優(yōu)點(diǎn)之一是便于創(chuàng)建更為豐富的詞條信息;其次是便于控制,下面我們將闡述以非手動的方式來設(shè)計(jì)WordNet。
2.半自動方法設(shè)計(jì)WordNet
人工編制顯然工程浩大,必然時(shí)間長,要花費(fèi)大量的人力、物力、財(cái)力,而對于機(jī)器完全自動生成,就是讓機(jī)器本身獨(dú)立判斷一個(gè)個(gè)的概念,準(zhǔn)確的定位各種關(guān)系,這樣產(chǎn)生的結(jié)果往往是準(zhǔn)確性不高,在目前多方面受限制的前提下可以試著以本體半自動的設(shè)計(jì)方法。
在設(shè)計(jì)方法前先講述“本體”和“關(guān)系”概念。
本體:本體目前還沒有規(guī)范化的統(tǒng)一定義,它是一種概念模型的明確規(guī)范說明,而這個(gè)概念模型又是共享的,它主要表達(dá)了四個(gè)方面的含義:概念模型、明確、形式化、共享。概念模型指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型;明確是指所使用的概念及使用這些概念的約束都有明確的定義;形式化指必須是計(jì)算機(jī)可讀的;共享指概念模型所體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集。
關(guān)系:Hypernyms關(guān)系表達(dá)的是目標(biāo)詞匯作為實(shí)體的隸屬關(guān)系,表示目標(biāo)詞匯與上類詞匯是一種a kind of 關(guān)系。
Holongms關(guān)系表達(dá)的是目標(biāo)詞匯作為一部分所隸屬的上位關(guān)系,表示目標(biāo)詞匯與上系詞匯是一種 a part of 關(guān)系。
Meronyms關(guān)系表達(dá)的是目標(biāo)詞匯作為一個(gè)實(shí)體的一個(gè)部分,表示下位詞與目標(biāo)詞匯的是一種a part of 關(guān)系。
Coordinate terms關(guān)系表達(dá)的是哪些與目標(biāo)詞匯有相同上類詞的詞匯,表示的是同族關(guān)系;
Troponyms關(guān)系表達(dá)的是目標(biāo)詞匯的近義詞,表示的是近義關(guān)系。
Antonyms關(guān)系表達(dá)的是與目標(biāo)詞匯相反的關(guān)系。表示的是反義關(guān)系。
2.1抽取核心子本體、擴(kuò)展、編輯以達(dá)到完善本體的方法
以領(lǐng)域數(shù)據(jù)字典為依據(jù),從wordnet中抽取一個(gè)子本體,從wordnet抽取world本體核心概念為示例,這個(gè)過程其實(shí)就是一個(gè)概念發(fā)現(xiàn)的過程,必須有本體雛形作為抽取子本體的基礎(chǔ),也就是通常所說的middle-out方法;在抽取出的子本體基礎(chǔ)上,對其進(jìn)行擴(kuò)展與分析,wordnet是一部同義詞典,其有jwordnet和JWNL API作為詞典的訪問函數(shù),wordnet只具有上下位等關(guān)系,沒有objectproperty這種關(guān)系,概念可以抽取出來,關(guān)系的獲取還有一定的困難,通過抽取出的種子概念的相關(guān)概念為候選概念,利用種子概念與候選概念出現(xiàn)的概率,運(yùn)用語料庫推算兩種子緊密度,以此確認(rèn)候選概念是否擴(kuò)展到本體中,wordnet獲取本體其實(shí)已經(jīng)獲取了本體的關(guān)系,而無分類關(guān)系的可利用的方法是關(guān)聯(lián)規(guī)則挖掘法;最后用可視化工具protégé處理,這也是目前應(yīng)用最廣泛的本體編輯工具[3]。
2.2其它方法簡述
上述的方法是基于語義字典的生成本體的方法,其實(shí)生成本體的方法也可以基于文本甚至是基于知識庫的,如果是基于文本的話可以利用聚類算法把相關(guān)詞集合在一起,選擇使用頻率高的詞代表這個(gè)類,而基于知識庫的則是先構(gòu)建知識庫,運(yùn)用知識庫已有的規(guī)則組合小型本體,運(yùn)用的方法是自然語言處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等等。
3.意義排歧過程的復(fù)雜性
構(gòu)建的wordnet由于是作為語義知識創(chuàng)建的,幾乎沒有句法信息,它是用同義詞的集合體表達(dá)詞匯的概念,并描述詞匯的矩陣,即在詞性與意義上建立起了一一對應(yīng),在一篇文章中,取某一個(gè)多義詞的意義的排歧的過程卻是相當(dāng)?shù)膹?fù)雜,只有通過內(nèi)部結(jié)構(gòu)本身利用概念密度加以計(jì)算才能排歧,使用目標(biāo)周圍的詞來確定本詞的意義,一般說來主要有三種方法可以實(shí)現(xiàn)[4、5]。
方法一,通過選擇約束性規(guī)則來確定詞匯在文章的不同位置的詞義進(jìn)行選擇,可以是選擇性限定規(guī)則(selectional restriction)、決策樹(decision trees)、決策表(decision lists)等,當(dāng)然這一定性的方法在理論上依賴語言學(xué)知識庫的,實(shí)際操作構(gòu)建這個(gè)知識庫并不是意見簡單的事。
方法二,通過統(tǒng)計(jì)每個(gè)詞匯候選詞匯在文章出現(xiàn)的概率權(quán)值,這種基于定量的方法,是將最大概率權(quán)值的詞匯作為結(jié)果,可能是獨(dú)立于語言學(xué)的,局限性是統(tǒng)計(jì)數(shù)據(jù)稀梳是基于帶標(biāo)語的人工構(gòu)造獲取知識。
方法三,將方法一與方法二結(jié)合起來,主要依靠的是統(tǒng)計(jì)學(xué)算法處理文字的文本切分和詞性標(biāo)注問題,可以是根據(jù)語言學(xué)對詞匯進(jìn)行首次劃分,再應(yīng)用統(tǒng)計(jì)學(xué)的算法進(jìn)行二次劃分,推算段落起點(diǎn)終點(diǎn)。
4.WordNet的發(fā)展趨勢與應(yīng)用
說到底,wordnet的構(gòu)建還是需要創(chuàng)建一個(gè)知識庫,包含無數(shù)的概念的,但在關(guān)系上很難順利進(jìn)行直接推理,比如:在饑餓(hungry)與廚房(kitchen)之間存在一條路徑,因?yàn)檫@兩個(gè)詞在食物(food)這個(gè)節(jié)點(diǎn)上有碰撞,從而可以把饑餓(hungry)與廚房(kitchen)間接聯(lián)系在一起進(jìn)行常識判斷。對于wordnet的更深層次的研究與應(yīng)用還是很有意義的,盡最大的可能去解決語意分類的全球化處理與眾多的詞義排歧,力求全局范圍內(nèi)準(zhǔn)確的處理語言信息,在未來的發(fā)展上檢索方式正朝著越來越多的方向發(fā)展,對于模糊檢索、同義檢索更是方便用戶,真正做到以語義為本體,聚集與詞目在語義關(guān)聯(lián)的所有詞匯,實(shí)現(xiàn)以詞為中心的、發(fā)散式的、描述詞目所有基本語義關(guān)系的語義網(wǎng)絡(luò)集。 [科]
【參考文獻(xiàn)】
[1]梁健,吳丹.種子概念方法及其在基于文本的本體學(xué)習(xí)中的應(yīng)用[J].圖書情報(bào)工作,2006,50(9):l8-21.