袁 輝 李延香
(1.陜西工業(yè)職業(yè)技術(shù)學院,陜西咸陽 712000;2.咸陽師范學院信息工程學院,陜西咸陽 712000)
目前短查詢法是最為常用的知識庫搜索方法,不過在進行檢索過程中,由于用戶輸入的關(guān)鍵詞帶有一定歧義性,再加上文檔權(quán)重設(shè)置上的影響,很容易造成搜索結(jié)果無法完全滿足人們信息檢索需求。作為一種技術(shù)手段,查詢擴展是解決這一問題的有效途徑?;诔跏疾樵兓A(chǔ)上的查詢擴展采取有效措施將相關(guān)詞添加入其中,從而為判斷文檔相關(guān)性提供更多的信息服務(wù)。語義擴展查詢的基本原理就是將原始查詢映射至概念,并通過相關(guān)技術(shù)對查詢語義及與之相關(guān)聯(lián)的語義實施提取,進而得到更高精準度的查詢語義,并對知識庫中的文檔進行與之相對應(yīng)的檢索。包括全局分析、局部分析、基于關(guān)聯(lián)規(guī)則和用戶查詢?nèi)罩镜牟樵償U展等在內(nèi)的幾種方法是當下普遍使用的查詢擴展法。其中全文分析的對象為整個文獻集,該方法的系統(tǒng)計算量較為繁重,對海量信息進行檢索時不適合采用該方法。局部分析法則對初檢文檔有相當高的依賴性,初檢文檔與原查詢的相關(guān)度會對檢索效果起決定性作用。詞間關(guān)聯(lián)規(guī)則質(zhì)量的高低則會直接影響到基于關(guān)聯(lián)規(guī)則的查詢擴展結(jié)果的高低。大量用戶查詢?nèi)罩镜拇嬖谑菍崿F(xiàn)基于用戶日志的查詢擴展的不可或缺的重要條件。本文從知識庫語義擴展搜索和相關(guān)度分析這兩方面為出發(fā)點,提出了一種新的語義擴展搜索方法,即基于本體的知識庫語義WEB擴展搜索方法。
擴展查詢條件、映射本體知識庫以及相關(guān)度分析是構(gòu)建本文所設(shè)計的本體知識庫擴展搜索模型的主要三個部分。具體步驟是:首先,對用戶輸入查詢條件進行采集并通過領(lǐng)域知識詞典對其進行擴展;其次,通過關(guān)鍵字匹配法完將擴展查詢條件向知識庫本體實例進行映射;再次,對映射后的本體實例實施相關(guān)度分析;最后將擴展查詢結(jié)果反饋給用戶。下面就模型重點部分進行詳細說明。
語義擴展查詢必須建立在完成領(lǐng)域知識詞典的構(gòu)建基礎(chǔ)上,與此同時,在領(lǐng)域?qū)<业拇罅ε浜舷聵?gòu)建起本體知識庫。
(1)本體的定義
本體在計算機領(lǐng)域中的定義有好多種,其中“基于組建相關(guān)領(lǐng)域詞語的基本術(shù)語及其相互關(guān)系基礎(chǔ)上對其進行優(yōu)化整合,以便能夠?qū)υ~語派生規(guī)則進行規(guī)定的定義[3]”能夠獲得大家普遍認同。
本體的表示主要包括個體、類、屬性和關(guān)系這四個部分。其中個體指的是具體的實例,對知識的抽象概念說明指的是類,個體或類的特征指的是屬性,個體或類之間的關(guān)聯(lián)則為關(guān)系。
(2)本體構(gòu)建方法
本體構(gòu)建步驟主要分為三部分:第一,獲得與領(lǐng)域相關(guān)的知識實體,同時構(gòu)建起知識鏈;第二,對知識鏈進行概念化以及對現(xiàn)有本體進行整合并編碼等是建立本體結(jié)構(gòu)化的重要環(huán)節(jié),這些環(huán)節(jié)都是通過中間表達集合實現(xiàn)的;第三,開展本體評估工作。
語義知識詞典在包括機器翻譯和詞義消岐等在內(nèi)的多個領(lǐng)域有著較為廣泛的應(yīng)用,它的出現(xiàn)能夠使計算機對自然語言有著更為深入的理解,同時也是實現(xiàn)計算機智能化的物質(zhì)保障。
(2)領(lǐng)域知識詞典的構(gòu)建
作為語義知識詞典的子集,領(lǐng)域知識詞典的構(gòu)建有著重要意義。在一些特定領(lǐng)域,語義知識詞典無法全部滿足其需求,基于此,必須針對特定領(lǐng)域知識構(gòu)建起與其相對應(yīng)的詞典空間。
構(gòu)建領(lǐng)域知識詞典必須以領(lǐng)域?qū)<业膮⑴c為前提,通過全局分析法對與領(lǐng)域有關(guān)的詞進行抽取。構(gòu)建領(lǐng)域知識詞典的具體步驟為:首先通過全局分析法的關(guān)鍵字分離、語義相關(guān)詞義集檢索及領(lǐng)域不相關(guān)同義詞集剪這三個環(huán)節(jié)對領(lǐng)域文檔中的詞或詞組進行相關(guān)分析和處理,其次對處理后的詞或詞組間的關(guān)聯(lián)程度進行相關(guān)計算;最后以語義知識詞典網(wǎng)狀結(jié)構(gòu)為基礎(chǔ),完成領(lǐng)域語義詞典的創(chuàng)建任務(wù)。
擴展查詢的實質(zhì)就是將與用戶查詢相關(guān)聯(lián)的詞添加到原始查詢中,形成比原始查詢更長更精準的的查詢,從而提高查詢效率。其計算方法為:
(1)對用戶輸入的查詢條件進行接收,并對其進行句法分析和句法語義關(guān)聯(lián)分析。
(2)提取語義關(guān)鍵字的同時將聽用詞去除,以便消除歧義,從而獲得集合
(3)按照語義關(guān)聯(lián)規(guī)則對獲得的集合U進行處理,并通過領(lǐng)域知識詞典完成同義詞的擴展任務(wù)即f(U)=V′,可獲得集合存在著集合,其中g(shù)(ui,vi,j)是用來對ui和vi,j之間的相關(guān)度進行計算,β為閾值。V為擴展后的查詢條件集合。
(1)相關(guān)度的定義
相關(guān)度指的是兩個對象間存在的關(guān)聯(lián)程度[8],其計算公式為:
在上述公式中,S(PCi,TCj)代表的含義為概念PCi和TCj的相關(guān)度,[0,1]是其值域;α代表的含義為可調(diào)節(jié)參數(shù);dis代表的含義是整數(shù),采取以下策略進行取值:
1)當PCi=TCj時,則dis取值為0,此時S(PCi,TCj)的值為1;
2)當PCi≠TCj,則dis的取值為,當dis=∞的條件下,則S(PCi,TCj) = 0 ,其中wp代表的是路徑權(quán)值;
3)P代表PCi的特征集合,T代表TCj的特征集合,當(P∩T)≠φ的條件下,則可使dis的取值為1,此時相關(guān)度的計算公式為:
在上式中,λ所代表的含義為非公共特征的相對重要程度。
(2)相關(guān)度分析算法
在進行相關(guān)度分析計算過程中,同時加入擴展查詢和映射相關(guān)度尤為重要。用戶輸入查詢條件與擴展查詢條件間的關(guān)聯(lián)程度即為擴展查詢相關(guān)度;擴展查詢條件向本體實例進行映射的關(guān)聯(lián)程度則用映射相關(guān)度來表示[5]。其計算方法為:
在上式中,S(ui,vi.j)代表的含義為ui和vi.j之間存在的語義相關(guān)聯(lián)程度。
2)采用最短距離算法在語義知識詞典的網(wǎng)狀結(jié)構(gòu)中,由ui點為出發(fā)點,通過有限步數(shù)到達vi,j點,在此過程中,路徑的權(quán)值疊加和可用dis=u∑→vwp進行計算,通過公式(1)可知S(u,v)= α 。為確保擴展i具i,j有較高的合理性,對各個查詢條ii,jdis+α件的相關(guān)度作出如下要求:S(ui,vi,j)≥β,其中β代表的是閾值,其取值為0≤ β ≤1[6]。
3)將擴展查詢條件集合V向本體知識庫f(vi,j)=Ti,j中進行映射后可得到本體實例集合,即Ti,j={ti,jk1≤i,j,k≤n} 。
4)通過對各個本體實例集的交集進行計算可得T1,j∩T2,j∩…∩Ti?1,j∩Ti,j=T′ ,T′ ={ti′,jk(h)1≤i,j,k,h≤n},其中實例ti′,jk屬于h個互異本體實例集共同擁有。
5)對各個本體實例的綜合相關(guān)度進行計算,其計算公式為:
在上式中,Q(vi,j,ti,j,k)指的是用來對vi,j映射到ti,j,k的相關(guān)度進行計算的函數(shù);μ,δ代表的含義為可變系數(shù);h應(yīng)大于等于1。
采用Java編程語言對博物館知識庫系統(tǒng)進行構(gòu)建,Protege3.1.1為本體構(gòu)建工具;SQLServer2000為本文進行實驗所采用的數(shù)據(jù)庫;運用Jena2.6.2對本體進行相關(guān)操作;支持中文的知網(wǎng)是本次試驗過程中所使用的語義知識詞典。博物館領(lǐng)域知識本體的創(chuàng)建工作是在領(lǐng)域?qū)<业膮⑴c下完成的。
本次實驗內(nèi)容主要涉及到博物館知識庫的9個方面。其中公式(4)中各參數(shù)取值為 :μ = 0 .005,δ =0.4,β =0.9。表一為用戶輸入“中國”和“兵馬俑”這兩個關(guān)鍵詞組后所得到的查詢結(jié)果片段。
表1 實驗數(shù)據(jù)片斷
通過實驗可知,本文所提出的語義擴展搜索方法能夠使查全率和查準率獲得大幅提升。
為有效提升檢索效率,滿足人們信息檢索需求,筆者結(jié)合語義網(wǎng)本體技術(shù)和查詢擴展技術(shù)提出了一種新的檢索手段。該方法中所運用的領(lǐng)域知識詞典以及對擴展查詢和映射相關(guān)度的計算能夠確保搜索查全率和查準率。但由于各權(quán)值的設(shè)定會對相關(guān)度計算結(jié)果造成一定影響,所以還應(yīng)繼續(xù)進行完善。
[1]ShihCW,ChenMinyen,ChuHuichuan.EnhancementofDomain OntologyConstructionUsingaCrystallizingApproach[J].ExpertSystemswithApplications,2011,38(6):7544-7557.
[2]RahmanMM,AntaniSK,ThomaGR.AQueryExpansionFramewor kinImageRetrievalDomainBasedonLocalandGlobalAnaly sis[J].InformationProcessingandManagement,2011,47(5):676-691.
[3]施雅賢,李璞,肖寶.面向旅游領(lǐng)域的語義查詢擴展方法[J].計算機工程 ,2010,(36)(18):43-45.
[4]白如江,于曉繁,王效岳.國內(nèi)外主要本體庫比較分析研究[J].現(xiàn)代圖書情報技術(shù),2011,1(7):3-13.