摘 要:語義相似性度量在信息檢索和自然語言處理領(lǐng)域中起到重要的作用,本文分析了傳統(tǒng)語義相似性度量的方法,針對現(xiàn)實領(lǐng)域本體中WEB搜索引擎檢索信息的方式,提出了一種基于WEB的領(lǐng)域本體語義相似性度量方法,通過對該方法的理論驗證和分析,所提出的方法可以有效的提高語義相似性的計算精度。
關(guān)鍵詞:領(lǐng)域本體;語義;相似性
DOI:10.16640/j.cnki.37-1222/t.2018.15.192
1 引言
隨著信息技術(shù)的發(fā)展,領(lǐng)域本體(Domain Ontology)在信息檢索和人工智能中的研究已經(jīng)成為熱門課題。語義度量是目前廣泛使用的語義實體,如語言單位、概念甚至語義特征的實例,語義相似性分析覆蓋廣泛的應(yīng)用領(lǐng)域,通過對語義的數(shù)據(jù)挖掘,可以進行數(shù)據(jù)的分析、分類、知識提取、文本處理、基于本體的信息檢索等。語義度量可以用解決很多應(yīng)用領(lǐng)域中存在的問題。通過設(shè)計的算法,可以應(yīng)用到自然語言處理、知識工程、語義Web和鏈接數(shù)據(jù)中。因此詞語間的語義相似度研究一直是信息檢索和自然語言處理的重要部分。實體之間的語義相似性并不是一層不變的,經(jīng)常是隨著新生事物的產(chǎn)生和時間的推移而變化。新詞語不斷的被創(chuàng)造,并賦予新的含義。比如,現(xiàn)在流行的小米,大家經(jīng)常習(xí)慣性把它和移動手機聯(lián)系在一起,而這個小米并不是我們原有糧食本體詞語庫中的,而是新興手機品牌的代名詞。采用手工的方式在本體庫中來增加這些詞語難度大、工作量大。能否利用搜索引擎自動的分析和識別本體語義的相似性是學(xué)者一直研究的課題。
2 問題分析
在互聯(lián)網(wǎng)中有大量的文檔信息,同時這些信息也在不斷的增長,對其中的每個文檔進行單獨的分析是很難的,搜索引擎為海量信息搜索提供了高效的接口。利用搜索引擎查詢詞語信息的時候,會產(chǎn)生具有查詢詞語的頁面數(shù)量和具有詞語信息的數(shù)據(jù)源。例如,通過百度搜索引擎查詢“小米”和“移動手機”的頁面數(shù)是63500000和62400000,而查詢“小米手機”時,返回的頁面有32300000,是“小米”和“移動手機”頁面數(shù)量的50%,通過上述數(shù)據(jù)可以看出,我們在搜索“小米”的時候,有50%的幾率是屬于手機本體,50%的幾率屬于糧食本體。采用這種方法,只是使用了頁面計數(shù)作為衡量兩個詞語的相似性,這樣的方式很簡單,但是不夠全面。首先,在進行頁面計數(shù)分析的時候忽略了頁面中詞語的位置,即使是這兩個詞語同時出現(xiàn)在一個頁面中,而實際上是不相關(guān)的兩個本體中的詞語內(nèi)容;其次,一個具有多含義的詞語可能具有多種表示方法,比如,搜索“牛肉”詞語,結(jié)果計數(shù)頁面可能包含了牛肉的做法、牛肉的描述、牛肉的銷售商店等頁面的數(shù)量。同時也要考慮到網(wǎng)絡(luò)的規(guī)模和噪聲,部分詞語可能會隨意的出現(xiàn)在某些頁面上,因此在進行語義相似性分析的時候是一個比較復(fù)雜的過程。因此,我們需要通過所有信息來衡量對給定詞語之間的相似性,本文針對此類問題提出了一種考慮頁面計數(shù)和上下文的相似性分析方法,從而克服上述問題。
3 建立模型
假定給定兩個詞語,分別定義為A1和A2,然后建立模型來分析A1和A2之間的語義相似性。如果A1和A2具有高度相似性,比如是同義詞或近義詞等,則定義相似性接近1;如果A1和A2在語義上不具有相似性,則定義其相似性的值接近于0。然后我們通過搜索引擎來查找A1和A2,通過其返回的頁面數(shù)量來構(gòu)造模型。然而,通過返回的頁面數(shù)量來分析詞語之間的相似性是不全面的,因為頁面的相似度分析方法,容易產(chǎn)生噪音和存在不可靠因素,在這個過程中沒有考慮到詞語與上下文之間的關(guān)系,過多的是從詞語的單一性出發(fā)的,詞語在不同的段落中、在不同的語境中所表示的含義是不同的。因此,我們在分析語義相似性的時候,還要充分考慮到詞語所處的上下文關(guān)系,把上下文的相關(guān)信息一并作為分析相似性的組成部分,使用代碼片段覆蓋查詢詞的局部上下文。
雖然在分析時使用上下文關(guān)系對相似性判斷具有較高的效率,但仍然還有兩個問題需要解決:首先,包含詞語的句子可能是一個孤立的句子;其次,搜索引擎可能通過選擇這個句子中的不同的關(guān)鍵詞語作為查詢項目,這樣就有可能產(chǎn)生個多的結(jié)果返回頁面,而導(dǎo)致分析的結(jié)果不夠準(zhǔn)確。因此,我們借助于WEB片段在句子中抽取和詞語相關(guān)的關(guān)鍵字進行查詢,利用這些詞語來模擬自然語言中的信息,然后進行查詢,這樣返回的結(jié)果頁面更加準(zhǔn)確。
在利用WEB搜索的時候,在對有些詞語不能確定的時候,可以利用查詢的通配符來代替某些詞語關(guān)鍵字,利用“*”操作符匹配網(wǎng)頁中的一個詞語,因此,我們的通配符查詢檢索可以使用“*”通配符代替部分詞語,我們試圖使用通配符查詢來近似兩個詞的本地上下文,比如使用“福特*越野”等這樣的信息。
4 結(jié)論
文章中提出了一個利用頁面計數(shù)和上下文關(guān)系來計算兩個詞之間語義相似度的度量方法,通過對該方法的理論驗證和分析,該方法可以有效的提高語義相似度的計算精度。
參考文獻:
[1]劉鋒.一種優(yōu)化的基于領(lǐng)域本體語義距離的概念相似度計算模型研究 [J].曲阜師范大學(xué)學(xué)報,2015(10).
[2]劉鋒.一種改進的基于層次結(jié)構(gòu)的網(wǎng)格任務(wù)調(diào)度優(yōu)化模型研究與設(shè)計[J].曲阜師范大學(xué)學(xué)報,2017,43(04).
[3]郭維威.基于擴展知識空間的計算機自適應(yīng)測試方法的研究與實施[J].計算機產(chǎn)品與流通,2017(08).
注:本文系2014年黑龍江省教育廳科學(xué)技術(shù)研究項目“基于領(lǐng)域本體的語義web智能搜索模型的研究”的階段成果,項目編號:12543050。
作者簡介:郭維威(1978-),女,碩士,副教授,研究方向:軟件開發(fā)和數(shù)據(jù)庫。