徐建民, 劉清江
(1.天津大學(xué) 系統(tǒng)工程研究所 天津300072;2.河北大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 河北保定071002)
基于同義詞關(guān)系的局部查詢擴(kuò)展
徐建民1,2, 劉清江2
(1.天津大學(xué) 系統(tǒng)工程研究所 天津300072;2.河北大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 河北保定071002)
利用局部分析法,提出一種基于詞語之間同義關(guān)系的查詢擴(kuò)展方法.該方法利用原始查詢術(shù)語實(shí)現(xiàn)初次查詢,然后利用局部分析法得到查詢術(shù)語在初次查詢結(jié)果集中的同義詞,并實(shí)現(xiàn)查詢擴(kuò)展.實(shí)驗(yàn)結(jié)果表明,該方法能有效提高檢索性能.
局部分析法;查詢擴(kuò)展;同義詞
在信息檢索中,用戶輸入的詞語一般是很少的,Wen等[1]通過分析發(fā)現(xiàn),49%的用戶查詢僅有一個(gè)單詞,33%的用戶查詢由2個(gè)單詞組成,用戶平均使用1.4個(gè)單詞描述他們的查詢.如何從這有限的詞語中盡可能地挖掘用戶所要表達(dá)的信息,是信息檢索的首要問題.查詢擴(kuò)展是信息檢索中很重要的一項(xiàng)技術(shù),它利用計(jì)算機(jī)語言學(xué)、信息學(xué)等多種技術(shù),把與原查詢相關(guān)的詞或者與原查詢語義相關(guān)聯(lián)的概念添加到初始查詢中,得到比原查詢更長、更全面的新查詢,然后再次檢索文檔,以改善信息檢索的查全率和查準(zhǔn)率,從而解決信息檢索領(lǐng)域長期困擾用戶的“詞不匹配”問題,彌補(bǔ)用戶查詢信息不足的缺陷.
目前常用的查詢擴(kuò)展方法可大致分成2類:全局分析法和局部分析法.其中,局部分析法是應(yīng)用更為廣泛的查詢擴(kuò)展方法,其計(jì)算效率和檢索性能都要優(yōu)于全局分析法,但是當(dāng)初始查詢結(jié)果集中排在前面的文章與原查詢相關(guān)度不大時(shí),局部分析法會把大量無關(guān)詞加入原查詢,嚴(yán)重降低查詢精度[2].
同義詞關(guān)系是信息檢索領(lǐng)域最重要的術(shù)語關(guān)系之一.Furnas等[3]研究發(fā)現(xiàn),人們在文章中常常用不同的詞語表達(dá)相同的事物,2個(gè)人使用同一個(gè)詞描述同一事物的概率不到20%.很多研究表明,合理利用術(shù)語關(guān)系能夠提高信息檢索系統(tǒng)的性能[4-5],因此,合理挖掘術(shù)語關(guān)系并實(shí)現(xiàn)查詢擴(kuò)展一直是IR領(lǐng)域研究者所關(guān)注的重要問題之一.
本文將查詢術(shù)語的同義詞關(guān)系應(yīng)用于局部分析法,以實(shí)現(xiàn)查詢擴(kuò)展.實(shí)驗(yàn)證明,這種方法在一定程度上可以避免初次查詢排在前面的文檔與原查詢相關(guān)度不大時(shí),把大量無關(guān)的詞加入查詢問題,有效提高信息檢索的準(zhǔn)確度.
局部分析法就是將初次檢索得到的與原查詢最相關(guān)的N篇文章作為擴(kuò)展詞的來源,從中抽取出擴(kuò)展詞,并用來實(shí)現(xiàn)查詢進(jìn)行擴(kuò)展.常見的局部分析法主要是局部反饋法,這種方法在得到初次檢索結(jié)果后,將初次查詢的N前篇文章認(rèn)為是相關(guān)文章,并以此為依據(jù)對查詢進(jìn)行擴(kuò)展.局部分析法在一些實(shí)際的信息檢索系統(tǒng)中得以使用.Xu等[6]研究表明,多數(shù)情形下,局部分析法在計(jì)算效率和檢索性能上均優(yōu)于傳統(tǒng)的全局分析法.但是,當(dāng)初次查詢后排在前面的文檔與原查詢相關(guān)度不大時(shí),局部分析會把大量無關(guān)的詞加入查詢,從而嚴(yán)重降低查詢精度,甚至低于不做擴(kuò)展優(yōu)化的情形.
局部上下文分析(Local Context Analysis,LCA)方法是一種改進(jìn)的局部分析方法[7],它假設(shè)初次查詢得到的前N篇文檔與初始查詢最為相關(guān),并以此作為查詢擴(kuò)展詞語的來源.然后利用共現(xiàn)頻率法從中抽出與初始查詢術(shù)語最相關(guān)的詞語作為查詢擴(kuò)展詞,實(shí)現(xiàn)查詢擴(kuò)展.因?yàn)槿魏涡g(shù)語的相關(guān)詞必然是和原始術(shù)語有關(guān)的,因此LCA方法避免了單純局部分析方法易向原查詢加入不相關(guān)詞的缺點(diǎn).應(yīng)用LCA方法的INQUERY系統(tǒng)在TREC標(biāo)準(zhǔn)測試集上取得了良好的實(shí)驗(yàn)效果,但是,LCA方法的效果仍然依賴于初次檢索的結(jié)果.如果初次檢索返回的多數(shù)文檔與原查詢無關(guān),該方法仍會將大量無關(guān)的詞加入到新查詢,從而大大降低最終的檢索精度.
在信息表示和信息檢索領(lǐng)域中,同義詞的概念并不等同于語言學(xué)和日常生活中的同義詞,它不考慮感情色彩和語氣,主要指在信息檢索中能夠相互替換、表達(dá)相同或相近概念的詞匯.用于信息檢索的同義詞主要分為以下幾類:①等價(jià)的詞和等義的詞、詞組,即意義完全相等的詞.主要是指一些語義等價(jià)的詞以及學(xué)名與俗名、全稱與簡稱、新稱與舊稱、產(chǎn)品的代號與型號等,如電腦—計(jì)算機(jī)、自行車—腳踏車、玉米—苞谷等.②準(zhǔn)同義詞和準(zhǔn)同義詞詞組,即意義基本相同的詞和詞組.也就是說2個(gè)詞或詞組含有的義項(xiàng)基本相同,就可以把它們看作同義詞,如邊疆—邊境、住房—住宅等.③某些過于專指的下位詞,如球類運(yùn)動和門球、毽球、網(wǎng)球等.④極少數(shù)的反義詞.這類詞描述相同的主題,但所包含的概念互不相容,如平滑度—粗糙度等.
同義詞一般可以利用同義詞詞典得到,同義詞之間的相近程度可以用詞語相似度表示.詞語相似度是用來衡量2個(gè)詞語在查詢中或文檔中意義相符程度的度量,是詞語間語義關(guān)系的數(shù)量化.一般地,詞語相似度是一個(gè)數(shù)值,取值范圍為[0,1][8].
設(shè)待檢索的語料庫為C,初始查詢Q={t1,t2,…,tm},基于術(shù)語關(guān)系的局部查詢擴(kuò)展過程如下:
1)利用原始查詢術(shù)語實(shí)現(xiàn)初步查詢,獲得初始查詢結(jié)果集D;
2)選取初始結(jié)果集D中的前n篇文檔作為擴(kuò)展詞來源文檔集合S={d1,d2,…,dn};
3)在集合S中查找每一個(gè)初始查詢術(shù)語ti的同義詞,得到集合Ti={ti1,…,tik},并從中選取合適的子集,作為Q的同義擴(kuò)展詞;
4)實(shí)現(xiàn)擴(kuò)展查詢.
初始查詢術(shù)語的同義詞可以通過同義詞詞典得到,但從同義詞詞典中查找的同義詞并不是每個(gè)詞都是可用的,需要一個(gè)標(biāo)準(zhǔn)來判斷哪些詞適合做原查詢的同義詞.考慮到詞語相似度反映了詞語之間相似的程度,某同義詞在集合S中出現(xiàn)的次數(shù)能影響其權(quán)重,故本文選用這2個(gè)指標(biāo)作為判斷標(biāo)準(zhǔn).
詞語相似度是一個(gè)主觀性相當(dāng)強(qiáng)的概念,脫離具體的應(yīng)用去談詞語相似度很難得到一個(gè)統(tǒng)一的定義,只有在具體的應(yīng)用中詞語相似度的含義才比較明確.例如,文獻(xiàn)[9]對用于機(jī)器翻譯的詞語相似度定義為:2個(gè)詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結(jié)構(gòu)的程度.在信息檢索中,詞語相似度主要反映的是詞語的語義相似性,也就是詞語間語義關(guān)系的數(shù)量化.
目前詞語相似度有2類常見的計(jì)算方法:一種是根據(jù)某種世界知識來計(jì)算;一種是利用大規(guī)模的語料庫進(jìn)行統(tǒng)計(jì).基于世界知識的方法簡單有效,無需用語料庫進(jìn)行訓(xùn)練,比較直觀,易于理解,但這種方法得到的結(jié)果受人的主觀意識影響較大,有時(shí)并不能準(zhǔn)確反映客觀事實(shí);基于語料庫的方法比較客觀,綜合反映了詞語在句法、語義、語用等方面的相似性和差異,但這種方法比較依賴于訓(xùn)練所用的語料庫,受資料稀疏和資料噪聲的干擾較大,而且計(jì)算量大,計(jì)算方法復(fù)雜.
基于《How net》的相似度計(jì)算方法充分利用了《How net》中對每個(gè)詞語描述時(shí)的語義信息,得到的結(jié)果與人的直覺比較符合,詞語相似度值刻畫得也比較細(xì)致,但是這種方法主要是基于機(jī)器翻譯的.基于同義詞詞典的方法比較簡單,符合信息檢索要求,但這種方法得到的數(shù)值比較粗糙.本文采用綜合的方法,即首先用《同義詞詞林(擴(kuò)展版)》來獲取每個(gè)初始查詢術(shù)語的同義詞集合,以保證同義詞的不失真,然后利用《How net》計(jì)算這些同義詞間的相似度,得到較為精確的數(shù)值.初始查詢術(shù)語同義擴(kuò)展詞的獲得過程如下:已知利用《同義詞詞林(擴(kuò)展版)》得到初始查詢術(shù)語ti的同義詞集合為Ti={ti1,…,tik},則利用《How net》計(jì)算初始查詢術(shù)語ti和集合Ti中每一個(gè)tij的詞語相似度Sim(ti,tij).相似度大于閾值α的視為原查詢的同義詞,小于閾值α的直接刪除,從而得到集合T′i={t′i1,…,t′ic},T′i為選取的術(shù)語ti的同義擴(kuò)展詞的集合.
不同的擴(kuò)展詞因?yàn)槠渑c原查詢詞語義距離的遠(yuǎn)近不同而具有不同的重要性,查詢擴(kuò)展的另一個(gè)問題就是如何對擴(kuò)展后的新查詢Qnew中的詞語進(jìn)行權(quán)重的分配.
1)初始查詢術(shù)語的加權(quán)
直接采用Rocchio公式[10]來計(jì)算Qnew中初始查詢術(shù)語ti的權(quán)重Weight(ti|Qnew)為
其中,Weight(ti/Q)為查詢詞ti在初始查詢Q中的權(quán)重,通常直接使用ti在Q中的頻度來表示;Weight(ti/d)為查詢詞ti在文檔d中的權(quán)重,計(jì)算方法與所采用的檢索模型具有一定的關(guān)系;n為局部文檔集中的文檔個(gè)數(shù);α和β為2個(gè)大于0的可調(diào)參數(shù).
2)同義擴(kuò)展詞的加權(quán)
同義擴(kuò)展詞的權(quán)重取決于2個(gè)因素:其一,是該同義詞和初始查詢術(shù)語之間的詞語相似度,詞語相似度越大,該同義詞在新查詢中的權(quán)重越大;其二,是該同義詞在集合中出現(xiàn)的次數(shù),該同義詞在集合S中出現(xiàn)的次數(shù)越多,該同義詞在新查詢中的權(quán)重越大.基于此,計(jì)算同義擴(kuò)展詞在新查詢中的權(quán)重為
其中,調(diào)節(jié)系數(shù)γ要保證同義擴(kuò)展詞的權(quán)重不能大于相應(yīng)初始查詢術(shù)語的權(quán)重.
實(shí)驗(yàn)所用數(shù)據(jù)來源于一個(gè)小型中文信息檢索測試集[11],該測試集包括1 705篇文檔,共構(gòu)造6個(gè)查詢.針對這6個(gè)查詢分別進(jìn)行了3組實(shí)驗(yàn):未擴(kuò)展的查詢; LCA法;本文方法.
圖1 3組實(shí)驗(yàn)性能比較Fig.1 Experimental perfo rmance comparison of the three groups
圖1給出了3組實(shí)驗(yàn)在查全率為0.1~1時(shí)相應(yīng)的查準(zhǔn)率.可以看出,本文方法與未進(jìn)行查詢擴(kuò)展相比檢索性能有明顯提高,跟LCA法相比效果卻并不明顯.一個(gè)主要原因是本文所用測試集主要是關(guān)于計(jì)算機(jī)方面的,而在《同義詞詞林(擴(kuò)展版)》中對這方面詞語的同義詞收錄較少.但是本文方法是基于語義詞典的擴(kuò)展查詢,即使出現(xiàn)初次查詢排在前面的文檔與原查詢相關(guān)度不大這種情況時(shí),也不會將與原查詢無關(guān)的詞語加入到原查詢中,所以本文方法要比LCA法具有更好的穩(wěn)定性.
[1] Wen Jirong,Nie Jianyun,Zhang Hongjiang.Clustering user queriesof a search engine[C]//Proceedingsof the 10th International Wo rld Wide Web Conference.New York:ACM Press,2001.
[2] 桑艷艷,劉培剛,李勇.基于語義計(jì)算的查詢擴(kuò)展優(yōu)化研究[J].情報(bào)學(xué)報(bào),2007,26(5):704-710.
[3] Furnas GW,Landauer T K,Gomez L M,et al.The vocabulary p roblem in human-system communication[J].Commun ACM,1987,30(11):964-971.
[4] de Campos L M,Fernández-Luna JM,Huete J F.The BNR model:foundations and perfo rmance of a Bayesian networkbased retrievalmodel[J].International Journal of App roximate Reasoning,2003,34(3):265-285.
[5] Xu Jianmin,Tang Wansheng,Ning Yufu.A belief network based retrievalmodelw ith two term layers[C]//Proceedingsof International Conference on Machine Learning and Cybernetics.Dalian,2006.
[6] Xu J X,Croft W B.Query expansion using local and global document analysis[C]//Proceedingsof the 19th Annual International SIGIR Conference on Research and Development in Information Retrieva1.New York:ACM Press,1996.
[7] Xu J X,CroftW B.Imp roving the effectivenessof information retrievalw ith local context analysis[J].ACM Transanctions on Information Systems,2000,18(1):79-112.
[8] 徐建民,陳振亞,白艷霞.利用查詢術(shù)語同義詞關(guān)系擴(kuò)展信念網(wǎng)絡(luò)檢索模型[J].情報(bào)學(xué)報(bào),2008,27(3):363-368.
[9] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].計(jì)算語言學(xué)及中文信息處理,2002,7(2):59-76.
[10] Rocchio J J.Relevance feedback in info rmation retrieval[M]//The Smart Retrieval System-experiments in Automatic Document Processing.London:Prentice Hall,1971.
[11] 徐建民,王平.小型中文信息檢索測試集的構(gòu)建與分析[J].情報(bào)雜志,2009(1):28-30.
Local Query Expansion Based on Synonyms
XU Jian-min1,2, L IU Qing-jiang2
(1.Institute of Systems Engineering,Tianjin University,Tianjin 300072,China; 2.College of M athem atics and Com puter,Hebei University,Baoding 071002,China)
Based on synonymous relationship,a local query expansion method is p resented w hich uses o riginal query term s to imp lement first query and gets a result document set.Synonym s of original query term s are got f rom this set,and then to expand user query.Experimental results show that the performance of the expanded model is better than basic models.
local analysismethod;query expansion;synonym
TP 391
A
1671-6841(2010)01-0045-04
2009-11-12
國家博士后科學(xué)基金資助項(xiàng)目,編號20070420700.
徐建民(1966-),男,教授,博士生導(dǎo)師,主要從事信息檢索及不確定信息處理研究;通訊聯(lián)系人:劉清江(1982-),男,碩士研究生,主要從事信息檢索研究,E-mail:yy.csi@hbu.edu.cn.
鄭州大學(xué)學(xué)報(bào)(理學(xué)版)2010年1期