韓其琛,李冬梅1.北京林業(yè)大學(xué)信息學(xué)院,北京1000832.中國科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京100049
* The National Natural Science Foundation of China under Grant No. 61170268(國家自然科學(xué)基金); the Fundamental Research Funds for the Central Universities of China under Grant Nos. TD2014-02,xs2014024(中央高?;究蒲袠I(yè)務(wù)費專項資金).
Received 2015-02,Accepted 2015-05.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-05-06,http://www.cnki.net/kcms/detail/11.5602.TP.20150506.1608.001.html
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(01)-0122-08
?
基于敘詞表的林業(yè)信息語義檢索模型*
韓其琛1,2,李冬梅1+
1.北京林業(yè)大學(xué)信息學(xué)院,北京100083
2.中國科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京100049
* The National Natural Science Foundation of China under Grant No. 61170268(國家自然科學(xué)基金); the Fundamental Research Funds for the Central Universities of China under Grant Nos. TD2014-02,xs2014024(中央高?;究蒲袠I(yè)務(wù)費專項資金).
Received 2015-02,Accepted 2015-05.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-05-06,http://www.cnki.net/kcms/detail/11.5602.TP.20150506.1608.001.html
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(01)-0122-08
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel:+86-10-89056056
摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,基于關(guān)鍵詞字面匹配的信息檢索方式已不能滿足人們的需求。敘詞表中所包含的語義關(guān)系是提高查全率和查準率的重要途徑,如果將敘詞表控制機制引入當前網(wǎng)絡(luò)信息檢索工具中,book=123,ebook=127必然能在一定程度上提高信息檢索的效率。利用敘詞表中的詞間關(guān)系,提出了一種計算敘詞間語義相似度的方法,借助查詢擴展的思想,設(shè)計了一種基于敘詞表的林業(yè)信息語義檢索模型。最后,以林業(yè)漢英拉敘詞表中兩個類目范疇作為實驗對象,分別同百度搜索引擎、農(nóng)業(yè)敘詞表中所使用的檢索方法進行了比較,實驗結(jié)果表明,提出的檢索模型可以更好地利用敘詞表來改進傳統(tǒng)的基于關(guān)鍵字的檢索方式,此外,所提模型是通用的,為敘詞表在網(wǎng)絡(luò)信息系統(tǒng)中的應(yīng)用提供了一種新的思路。
關(guān)鍵詞:林業(yè)敘詞表;語義檢索;相似度計算;查詢擴展;網(wǎng)頁抓取
在當前信息大爆炸的時代,網(wǎng)絡(luò)上的信息和數(shù)據(jù)已經(jīng)變得非常龐大,如何在海量級的數(shù)據(jù)中進行高效、準確的信息檢索得到了越來越多的學(xué)者和專家的關(guān)注。搜索引擎是目前人們獲取網(wǎng)絡(luò)信息的主要工具。但是,由于目前主流的搜索引擎采用的都是基于關(guān)鍵詞的字面匹配模式,即僅以孤立的關(guān)鍵詞對信息內(nèi)容進行標引和檢索,人們在搜索內(nèi)容上想要表達的語義內(nèi)涵無法被機器所充分理解,進而導(dǎo)致信息檢索查全率和查準率下降,在當前多樣化的網(wǎng)絡(luò)信息環(huán)境下其不足之處就顯而易見了。由于基于關(guān)鍵字匹配的檢索方法無法準確地表達出詞語的語義內(nèi)涵,近些年一些新的檢索理念被提出,例如概念檢索[1-2]和語義檢索[3-4]等。本體是實現(xiàn)語義檢索的一種較為有效的工具[5-6],但本體的構(gòu)建和維護需要大量的工作,與之相對的是,目前很多行業(yè)領(lǐng)域都有自己較成熟的敘詞表。
敘詞表是一個相對完善并且發(fā)展成熟的概念知識體系,自其從20世紀50年代誕生以來,經(jīng)過不斷發(fā)展和完善,已成為主題法中重要的信息組織工具,并在傳統(tǒng)文獻標引和檢索中發(fā)揮過重要作用[7]。如能將敘詞表引入到網(wǎng)絡(luò)信息檢索工具中,通過利用敘詞表這一語義邏輯,必然能夠在一定程度上提高傳統(tǒng)信息檢索的查全率和查準率。目前,基于敘詞表的信息檢索方法在醫(yī)學(xué)領(lǐng)域已有較為深入的研究[8]。文獻[9]利用隨機游動(random walk)的方法借助醫(yī)學(xué)敘詞表對用戶所輸入的檢索信息進行語義擴展,進而改善搜索結(jié)果。文獻[10]對用戶搜索語句進行語法分析,根據(jù)分析結(jié)果利用醫(yī)學(xué)敘詞表進行查詢擴展。但是以上兩種方法均沒有對敘詞之間的關(guān)系類型進行量化分析。文獻[11]給出一種基于農(nóng)業(yè)敘詞表的檢索方法,但該方法在查詢擴展時只考慮與核心檢索詞直接相關(guān)的單級擴展,沒有考慮其他敘詞的影響,而且同樣也沒有對敘詞之間的關(guān)系類型進行量化分析。本文在文獻[11]的基礎(chǔ)上,參考了Li等人的混合相似度算法[12],以及Liu等人的基于相關(guān)概念節(jié)點密度的概念向量模型[13],并結(jié)合林業(yè)漢英拉敘詞表的相應(yīng)特點,提出了一種綜合敘詞間多種關(guān)系的相似度計算方法,借助查詢擴展和加權(quán)檢索的思想,設(shè)計了一種基于敘詞表的林業(yè)信息語義檢索模型(semantic model with thesaurus for forestry information retrieval,SMTFIR)。最后通過實驗驗證了該模型的有效性。
2.1相關(guān)定義
定義1(敘詞表概念樹)在敘詞表中,以族首詞O為根節(jié)點,由族首詞為O的所有敘詞的上位敘詞和下位敘詞構(gòu)成的樹狀結(jié)構(gòu)T稱為敘詞表概念樹。樹結(jié)構(gòu)中的節(jié)點C稱為敘詞節(jié)點,Ci為對T進行層次遍歷的第i個節(jié)點,根節(jié)點O記為C0。C的所有祖先節(jié)點構(gòu)成的集合稱為C的祖先敘詞節(jié)點A(C);C的所有孩子節(jié)點構(gòu)成的集合稱為C的孩子敘詞節(jié)點L(C)。若至少存在一個詞W與C所對應(yīng)的敘詞為相關(guān)關(guān)系,則稱C所對應(yīng)的敘詞為W的相關(guān)關(guān)聯(lián)敘詞。根節(jié)點O的深度記為1;樹中路徑上分支數(shù)目為1的兩個節(jié)點間的距離記為1。
定義2(最短路徑長度)在T中,兩個敘詞節(jié)點之間分支數(shù)目最少的樹中路徑稱為兩個節(jié)點的最短路徑,最短路徑所擁有的分支數(shù)目稱為最短路徑長度。
定義3(最近根節(jié)點)在T中,如果敘詞節(jié)點R 是A和B共同的祖先節(jié)點,并且是符合此條件的所有節(jié)點中距離根節(jié)點最遠的一個,則稱R為A和B的最近根節(jié)點,記為R(A,B)或R。
定義4(語義范圍)在T中,以C為根的子樹所包含的葉子節(jié)點數(shù)目稱為C的語義范圍,記為SCover(C)。
定義5(基于敘詞的語義向量)在一個包含n個敘詞節(jié)點的T中,節(jié)點Ci表示成向量Ci=(Vi,1,Vi,2,…,Vi,n),Vi,j(i=1,2,…,n,j=1,2,…,n),該向量稱為基于敘詞的語義向量。其中維度值定義為:
2.2相關(guān)計算公式
本文規(guī)定:所有相似度的值均在[0,1]內(nèi)。即如果權(quán)值為0,認為兩個敘詞之間沒有任何關(guān)系;如果權(quán)值為1,認為兩個敘詞是等價的。同時規(guī)定,如果所求的兩個敘詞分別位于不同的概念樹中,則認為其相似度為0。
設(shè)要判斷相似度的詞為C1和C2,根據(jù)C1與C2的關(guān)系類型的不同將相似度公式分為3類:等同相似度為SimD(C1,C2),屬分相似度為SimF(C1,C2),相關(guān)相似度為SimW(C1,C2)。
(1)等同相似度SimD(C1,C2)
在敘詞表中,等同詞即等價關(guān)系,即兩個詞之間可以相互替換使用,故
(2)屬分相似度SimF(C1,C2)
其中,f1為基于最短路徑的相似度,f1=e?αd(d為T中由C1到C2的最短路徑長度,α為調(diào)節(jié)因子);f2為基于最近根深度的相似度,f2=1?e?βh(h為R(C1,C2)的深度,β為調(diào)節(jié)因子);f3為基于語義向量的相似度,(C1、C2為根據(jù)定義5求得的C1、C2的語義向量)。
(3)相關(guān)相似度SimW(C1,C2)
其中,C1為C2的相關(guān)關(guān)聯(lián)敘詞;g1為基于相關(guān)關(guān)聯(lián)敘詞深度的相似度,(h為C1的深度,ε為調(diào)節(jié)因子);g2為基于相關(guān)關(guān)聯(lián)敘詞密度的相似度,g2=1?e?γl(l為以C1為根節(jié)點的直接子節(jié)點數(shù),γ為調(diào)節(jié)因子)。
2.3相似度計算算法步驟
利用2.2節(jié)給出的相似度計算公式,相似度計算算法的具體步驟如下:
步驟1根據(jù)敘詞表對K進行擴展,得到關(guān)于K的初始查詢擴展集合為U={D,F(xiàn),W,Y},其中D表示等同詞,F(xiàn)表示K的所有上位/下位詞(即敘詞表概念樹T的所有節(jié)點),W表示K的相關(guān)詞,Y表示F的等同詞和相關(guān)詞。
步驟2找到K的族首詞O,以O(shè)為根節(jié)點建立敘詞表概念樹T。
步驟3根據(jù)敘詞表概念樹T,利用式(2)得到K 與U中D的相似度SimD(K,D);利用式(3)得到K 與U中F的相似度SimF(K,F(xiàn));利用式(4)得到K 與U中W的相似度SimW(K,W)。
步驟4判斷Y中每一個詞J與其相對應(yīng)的F中敘詞I的關(guān)系。若J與I為相等關(guān)系,則利用式(2)、式(3)得到K與J的相似度SimF(K,I)×SimD(I,J);若J與I為相關(guān)關(guān)系,則利用式(3)、式(4)得到K與J的相似度SimF(K,I)×SimW(I,J)。
步驟5設(shè)置閾值Q,判斷U中每一個詞與K的相似度是否大于Q。若大于,則將該詞加入到查詢擴展集合N中;若小于,則跳過。
相似度計算流程如圖1所示。
3.1模型框架
本模型包含敘詞標準化、查詢擴展、網(wǎng)頁抓取及加權(quán)排序4個模塊。首先,利用林業(yè)漢英拉敘詞表對用戶輸入的檢索詞進行敘詞標準化,得到檢索詞K;其次,抓取與K相關(guān)的網(wǎng)頁信息;之后,利用計算敘詞間語義相似度的算法得到用于查詢擴展的相關(guān)詞集合及相應(yīng)權(quán)值;最后,根據(jù)查詢擴展詞及其相應(yīng)權(quán)值對抓取的網(wǎng)頁信息進行量化分析并排序。
該模型框架如圖2所示。
Fig.1 Procedure of similarity calculation圖1 相似度計算流程圖
Fig.2 Structure of semantic model with thesaurus for forestry information retrieval圖2 基于敘詞表的信息檢索模型框架
3.2敘詞標準化
首先提取用戶輸入的檢索詞,根據(jù)敘詞表判斷是否需要對其進行標準化處理。由于用戶檢索需求和輸入習(xí)慣的不同,此處可能遇到4種不同情況:若檢索詞是敘詞,則不必標準化,可直接使用;若檢索詞為敘詞表中的非敘詞,則通過敘詞表的相等關(guān)系將其轉(zhuǎn)化為相應(yīng)的敘詞;若檢索詞可與敘詞表中的敘詞部分匹配,則將可匹配的所有敘詞返回,供用戶從中選擇新的檢索詞;其他情況則保留原檢索詞,不對其進行查詢擴展。
3.3網(wǎng)頁抓取
令由敘詞標準化得到的檢索詞為K,使用通用搜索引擎以K為檢索詞進行檢索,取s個結(jié)果的URL。利用開源網(wǎng)頁分析工具Htmlparser分析這s個網(wǎng)址所對應(yīng)的網(wǎng)頁,提取出網(wǎng)頁中的標題、摘要、正文等信息。
3.4查詢擴展
利用2.3節(jié)所提到的相似度計算方法求出敘詞表中所有與K相關(guān)的詞的相似度,通過設(shè)置閾值的方式選取符合條件的相關(guān)詞加入到查詢擴展集合N中。
3.5加權(quán)排序
在加權(quán)計算時,將N中相關(guān)詞與K的相似度結(jié)果作為相關(guān)詞的權(quán)值,加權(quán)排序方法的具體步驟如下:
步驟1統(tǒng)計查詢擴展集合中的每一個相關(guān)詞在網(wǎng)頁標題中出現(xiàn)的頻率T以及在網(wǎng)頁正文中出現(xiàn)的頻率P。
步驟2將每個網(wǎng)頁的權(quán)值求和計算,其公式為:
其中,TWn為第n個網(wǎng)頁的總權(quán)值;WNn為第n個網(wǎng)頁的字數(shù);m為查詢擴展集合N中相關(guān)詞的數(shù)目;Wi為N中第i個相關(guān)詞與檢索詞K的相似度;Ti和Pi分別為該敘詞在第i個網(wǎng)頁的標題和正文中出現(xiàn)的頻率;ω為標題正文比,用于調(diào)節(jié)標題對于最終結(jié)果的重要性,ω越大,標題對該網(wǎng)頁權(quán)值的影響越大。
步驟3將網(wǎng)頁按權(quán)值由大到小排序并返回給用戶。
4.1實驗數(shù)據(jù)
本文綜合考慮了敘詞表詞匯量、關(guān)系數(shù)、實驗需要等因素,采用http://www.lknet.ac.cn/提供的林業(yè)漢英拉敘詞表的兩個詞量適中類目范疇中的敘詞及詞間關(guān)系作為敘詞表實驗數(shù)據(jù),分別用于測定相關(guān)參數(shù)的最優(yōu)權(quán)值和評價相關(guān)性排序的效果。
4.2實驗數(shù)據(jù)檢索效果評價指標的選擇
檢索效果是指利用檢索系統(tǒng)進行信息檢索產(chǎn)生的有效結(jié)果,它是檢索系統(tǒng)性能的直接反映。一般來說,基于檢索結(jié)果相關(guān)性的查全率和查準率是傳統(tǒng)搜索引擎評價的主要指標。而國外有些學(xué)者發(fā)現(xiàn):80%的用戶只查看搜索結(jié)果的第一頁,即對用戶而言,其所需要的信息出現(xiàn)在檢索結(jié)果的前幾頁比查全率和查準率更重要[14-15]。基于此又有學(xué)者提出了搜索長度的概念[16-18],即指用戶發(fā)現(xiàn)n個相關(guān)網(wǎng)頁之前需要查看的不相關(guān)網(wǎng)頁的數(shù)目,用來評估搜索引擎是否能夠?qū)⒆钕嚓P(guān)的網(wǎng)頁排列在檢索結(jié)果集的最前端。本文選擇檢索結(jié)果的相關(guān)性和搜索長度這兩種指標來評價SMTFIR檢索的有效性。
考慮到大多數(shù)用戶檢索時只會看返回的第一頁結(jié)果,本文在進行評價時選擇評價前10個結(jié)果的相關(guān)性,用P@10表示。計算方法如下所示:
其中,a表示前10項結(jié)果中與用戶檢索詞相關(guān)的結(jié)果數(shù)量;b表示前10項結(jié)果中與用戶檢索詞無關(guān)的結(jié)果數(shù)量。從而可得出前10項的平均相關(guān)性公式:
其中,P1至Pn為n次獨立的實驗所求得的P@10。
而搜索長度設(shè)定為找到前5篇相關(guān)結(jié)果所需要查看的不相關(guān)結(jié)果的數(shù)量,搜索長度用L表示。同理,可以得出平均搜索長度公式:
其中,L1至Ln為n次獨立的實驗所求得的L。
4.3相關(guān)參數(shù)權(quán)值的測定
通過實驗測定兩個重要的參數(shù):用于查詢擴展模塊的閾值Q及加權(quán)排序模塊中的標題正文比ω。其他相似度算法的參數(shù)人工設(shè)定為α=0.2,β=0.6,ε=0.6,γ=0.3。
為使權(quán)值測定盡可能準確,從實驗數(shù)據(jù)中隨機選取10個敘詞進行測試。在實驗中,網(wǎng)頁抓取模塊選擇百度搜索結(jié)果的前100條作為通用搜索引擎的結(jié)果進行抓取,將標題正文比先設(shè)定為1。由相關(guān)林業(yè)方面人員確認返回結(jié)果是否與檢索詞相關(guān)。利用最終結(jié)果做折線圖,如圖3所示。
Fig.3 Determination data of threshold value圖3 閾值權(quán)值的測定數(shù)據(jù)
利用確定好的閾值,可以從敘詞表中選擇與檢索詞最為接近的詞匯用于查詢擴展。以檢索詞為夏綠林為例,通過確定好的閾值可以得到如下相關(guān)詞匯:落葉闊葉林(0.817 9),櫟林(0.670 3),榿林(0.670 3),闊葉林(0.668 3),常綠闊葉林(0.547 9),照葉林(0.547 9),常綠竹林(0.547 7),硬葉常綠林(0.448 9),其中括號內(nèi)數(shù)值為其與檢索詞的相似度。
在得到閾值結(jié)果后,將閾值調(diào)整為0.2,繼續(xù)用這10個敘詞進行標題正文比的測試。同樣,利用最終實驗結(jié)果分別做折線圖,如圖4所示。
Fig.4 Determination data of title-text rate圖4 標題正文比的權(quán)值測定
4.4實驗結(jié)果分析
根據(jù)4.3節(jié)測定的最優(yōu)權(quán)值,從實驗數(shù)據(jù)中隨機選擇15個詞分別利用百度搜索引擎、文獻[11]的方法以及SMTFIR進行搜索,并分別測量在不同情況下返回結(jié)果的P@10和L指標,將實驗結(jié)果繪制為表1。
根據(jù)表1的結(jié)果做折線圖,如圖5和圖6所示。從圖中可以看出,SMTFIR和文獻[11]的方法相較于百度的結(jié)果來說均有不同程度的改進,這說明敘詞表確實可以提高搜索結(jié)果的準確性。與此同時,SMTFIR也要比文獻[11]的方法更加準確,說明了本文提出的檢索模型可以更好地利用敘詞表來改進傳統(tǒng)基于關(guān)鍵字的檢索方式。
4.5模型通用性分析
Table 1 Results comparison between SMTFIR and other methods表1 SMTFIR與其他檢索方法的對比
經(jīng)過幾十年的發(fā)展,敘詞表的編制方法得到不斷改善,最終形成了一系列的國際標準。國際標準有1974年發(fā)布的ISO 2788和1985年發(fā)布的ISO 5964,我國目前的現(xiàn)行標準為1991年發(fā)布的GB/T 13190。在這些標準中均明確規(guī)定了敘詞表中的詞間關(guān)系有3種,分別是本文所提及的等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系。2.2節(jié)所利用的3種關(guān)系在現(xiàn)行任何符合國際標準的敘詞表中均是存在的,因此本文所提出的模型具有較強的通用性。
Fig.5 Results comparison between SMTFIR and other methods(P@10)圖5 SMTFIR與其他檢索方法的對比(P@10)
Fig.6 Results comparison between SMTFIR and other methods(L)圖6 SMTFIR與其他檢索方法的對比(L)
由于基于關(guān)鍵詞的傳統(tǒng)信息檢索方法不能充分表達語義信息,本文利用敘詞表的詞間關(guān)系,提出了一種計算敘詞間語義相似度的方法,設(shè)計了一種基于敘詞表的林業(yè)信息語義檢索模型,顯著提高了查詢效果。本文模型同樣適合其他的行業(yè)領(lǐng)域,這種檢索方式為在當前大數(shù)據(jù)時代如何合理利用敘詞表提供了一個新的研究思路。在今后的研究中可以從檢索結(jié)果相關(guān)性評價等方面進行改進和完善。
References:
[1] Qian Xueming,Guo Danping,Hou Xingsong,et al. HWVP: hierarchical wavelet packet descriptors and their applications in scene categorization and semantic concept retrieval[J]. Multimedia Tools and Applications,2014,69(3): 897-920.
[2] Aly R,Doherty A,Hiemstra D,et al. The uncertain representation ranking framework for concept-based video retrieval[J]. Information Retrieval,2013,16(5): 557-583.
[3]Alghamdi N S,Rahayu W,Pardede E. Semantic-based structural and content indexing for the efficient retrieval of queries over large XML data repositories[J]. Future Generationtionships of thesaurus[D]. Beijing: Chinese Academy of Agricultural Sciences,2011.
[12] Li Yuhua,Bandar Z A,McLean D A. An approach for measuring semantic similarity between words using multiple information sources[J]. IEEE Transactions on Knowledge and Data Engineering,2003,15(4): 871-882.
[13] Liu Hongzhe,Bao Hong,Xu De. Concept vector for similarity measurement based on hierarchical domain structure[J]. Computing and Informatics,2012,30(5): 881-900.
[14] Jansen B J. An investigation into the use of simple queries on Web IR systems[J]. Information Research: An Electronic Journal,2000,6(1): 1-10.
[15] Ali R,Beg M M S. An overview of Web search evaluation methods[J]. Computers&Electrical Engineering,2011,37(6): 835-848.
[16] Chignell M H,Gwizdka J,Bodner R C. Discriminating metasearch: a framework for evaluation[J]. Information Processing &Management,1999,35(3): 337-362.
[17] Dwivedi S K,Goutam R K. Evaluation of search engines using search length[C]//Proceedings of the International Conference of Computer Modeling and Simulation,2011: 502-505.
[18] Scaiella U,F(xiàn)erragina P,Marino A,et al. Topical clustering of search results[C]//Proceedings of the 5th ACM International Conference on Web Search and Data Mining,Seattle,USA,F(xiàn)eb 8-12,2012. New York,USA:ACM,2012: 223-232.
附中文參考文獻:
[6]席磊,鄭光,汪強,等.基于個性化特征的無公害農(nóng)產(chǎn)品目錄智能服務(wù)系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報,2013,29(20): 142-150.
[11]熊霞.基于敘詞表詞間關(guān)系的領(lǐng)域信息檢索[D].北京:中國農(nóng)業(yè)科學(xué)院,2011.
HAN Qichen was born in 1992. He is an M.S. candidate at School of Engineering Science,University of Chinese Academy of Sciences. His research interests include information retrieval and personalized recommendation.
韓其?。?992—),男,山西太原人,中國科學(xué)院大學(xué)工程科學(xué)學(xué)院碩士研究生,主要研究領(lǐng)域為信息檢索,個性化推薦。
LI Dongmei was born in 1972. She received the Ph.D. degree in artificial intelligence from Beijing Jiaotong University in 2014. Now she is an associate professor at Beijing Forestry University. Her research interests include artificial intelligent,knowledge engineering and semantic Web.
李冬梅(1972—),女,黑龍江大慶人,2014年于北京交通大學(xué)獲得博士學(xué)位,現(xiàn)為北京林業(yè)大學(xué)信息學(xué)院副教授,主要研究領(lǐng)域為人工智能,知識工程,語義Web。
Semantic Model with Thesaurus for Forestry Information Retrieval*
HAN Qichen1,2,LI Dongmei1+
1. School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China
2. School of Engineering Science,University of Chinese Academy of Sciences,Beijing 100049,China
+Corresponding author: E-mail: lidongmei@bjfu.edu.cn
HAN Qichen,LI Dongmei. Semantic model with thesaurus for forestry information retrieval. Journal of Frontiers of Computer Science and Technology,2016,10(1):122-129.
Abstract:With the speedy development of the Internet,keyword-based retrieval method has failed to meet the needs of people. The semantic relationship within the thesaurus can improve recall ratio and precision ratio. If the thesaurus is introduced into current network information retrieval tool,the search technology would be definitely improved with the aid of rich semantic relationship of the thesaurus. This paper proposes an idea of calculating the similarity based on the relationship among the terms in the thesaurus. Utilizing query extension,this paper designs a semantic model with thesaurus for forestry information retrieval(SMTFIR). Finally,this paper compares SMTFIR,Baidu and the method used in agricultural thesaurus with two category realms in forestry thesaurus. The results show that SMTFIR can improve keyword-based retrieval method more effectively using thesaurus. In addition,SMTFIR is also suitable to other domains and provides a new thought for applying thesaurus in network information system. Key words: forestry thesaurus; semantic retrieval; similarity computation; query extension; webpage grabbing
文獻標志碼:A
中圖分類號:TP274
doi:10.3778/j.issn.1673-9418.1502017