許建豪
(南寧職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 廣西 南寧 530008)
?
采用向量空間模型的個(gè)性化信息檢索方法
許建豪
(南寧職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 廣西 南寧 530008)
摘要:為了提升檢索結(jié)果與用戶個(gè)性化需求的符合程度,依托向量空間模型提出一種新的檢索方法.將用戶查詢關(guān)鍵詞和語料庫內(nèi)的文本信息都映射為向量,從而把檢索過程轉(zhuǎn)化為向量相似性的比對(duì).在比對(duì)過程中,通過關(guān)鍵詞權(quán)重突出用戶個(gè)性化需求,通過余弦相似度判斷符合程度.實(shí)驗(yàn)結(jié)果表明:文中方法的檢索結(jié)果與用戶需求的符合程度明顯提高.
關(guān)鍵詞:信息檢索; 向量空間模型; 個(gè)性化需求; 語料庫
目前,中國(guó)的互聯(lián)網(wǎng)用戶已近7億,占全國(guó)人口的50%[1].人們對(duì)互聯(lián)網(wǎng)日益依賴,需要從互聯(lián)網(wǎng)上瀏覽和搜索各類信息.如何使信息搜索結(jié)果盡可能臻善,已經(jīng)成為各大互聯(lián)網(wǎng)信息搜索引擎密切關(guān)注的重要課題[2].從目前的搜索引擎設(shè)置看,網(wǎng)絡(luò)用戶在信息搜索時(shí),一般只能輸入幾個(gè)關(guān)鍵詞.但這些關(guān)鍵詞并不一定能夠準(zhǔn)確地反映用戶的興趣和需求,加之很多搜索引擎就是通過詞語匹配完成查找,更削弱了關(guān)鍵詞豐富的自然語言特征,使檢索到的信息結(jié)果差強(qiáng)人意[3].為此,信息檢索領(lǐng)域的學(xué)者,致力于使搜索過程盡可能地符合用戶的興趣和需求,按照用戶的個(gè)性化要求實(shí)現(xiàn)信息檢索[4].國(guó)外學(xué)者在信息檢索領(lǐng)域開展的研究工作較早,已具有比較豐富的研究成果[5-11].本文構(gòu)建一個(gè)向量空間模型表達(dá)用戶的個(gè)性化需求,并通過實(shí)驗(yàn)驗(yàn)證此方法的檢索性能.
1個(gè)性化檢索方法設(shè)計(jì)
在信息檢索方法設(shè)計(jì)中,為了使檢索結(jié)果更符合用戶的個(gè)性化需求,要求抽象的檢索模型對(duì)用戶檢索需求有足夠的理解能力.基于此,文中選擇向量空間模型作為構(gòu)建個(gè)性化檢索方法的基礎(chǔ)模型.
1.1向量空間模型
向量空間模型(VSM)將要檢索的文本信息表征為向量空間上的向量,將文本檢索的過程映射為向量運(yùn)算,進(jìn)而通過向量空間上的待檢索文本向量和模板文本向量的相似性匹配獲得最終的檢索結(jié)果.向量空間模型在文本信息檢索中的應(yīng)用,涉及到關(guān)鍵詞、文件、相似性距離、向量空間模型等概念.
設(shè)向量空間是m維的,關(guān)鍵詞是整個(gè)向量空間上的一部分,待檢索文本信息用向量表示為Ti(ti,1,ti,2,…,ti,m),ti,j為第j個(gè)詞語的權(quán)重.K為待查詢的內(nèi)容,其在向量空間的表示為K(k1,k2,…,km),kj為查詢中第j個(gè)詞語的權(quán)重.
對(duì)于查詢向量和文本信息向量之間的相似度計(jì)算,可以采取很多種方法.文中采用兩個(gè)向量之間的余弦夾角進(jìn)行判斷,即用余弦相似度方法判斷兩者之間的相似程度,即
(1)
用ft,k表示ti中關(guān)鍵詞ki出現(xiàn)的次數(shù),則ki在整個(gè)文本信息中出現(xiàn)的概率為
(2)
為了便于對(duì)詞頻概率的使用,一般需要執(zhí)行歸一化處理,即
(3)
在向量空間模型中,還要考慮每個(gè)詞匯在多少個(gè)文本中出現(xiàn),其反映了一個(gè)詞匯的區(qū)分度.區(qū)分度越低,表明這個(gè)詞匯被使用的越廣泛.對(duì)于這個(gè)特征,描述方法為
(4)
式(4)中:Num為此次查詢中文本的總數(shù);ft為詞匯出現(xiàn)的文本頻率.
至此,可以根據(jù)空間向量的常見方法,計(jì)算關(guān)鍵詞的權(quán)重,即
(5)
式(5)中:θi,j為關(guān)鍵詞的權(quán)重;pi,j為每個(gè)詞語出現(xiàn)的詞頻;Num為此次查詢中文本的總數(shù);ft為詞匯出現(xiàn)的文本頻率.
向量空間模型不僅可以實(shí)現(xiàn)查詢要求和文本信息之間的匹配,還從詞頻、文頻的角度增強(qiáng)關(guān)聯(lián)性分析,具有反饋能力和一定的自然語言理解能力.
1.2檢索方法設(shè)計(jì)
為了使檢索到的信息結(jié)果盡可能地滿足用戶的個(gè)性化需求,需要和用戶進(jìn)行反饋.基于向量空間模型的經(jīng)典反饋查找最佳結(jié)果的方法為
(6)
式(6)為理論上的向量空間模型反饋查詢方法,為了簡(jiǎn)化其在實(shí)際中的運(yùn)用,改寫為
(7)
式(7)中:R0為用戶初始設(shè)置的個(gè)性化查詢向量;λ1,λ2,λ3分別為3個(gè)控制參數(shù),以調(diào)整3部分之間的平衡,例如,經(jīng)過反饋發(fā)現(xiàn)和用戶檢索需求不相關(guān)的文本數(shù)量更多,需要增大λ2以維持平衡.
2實(shí)驗(yàn)結(jié)果與分析
計(jì)算機(jī)硬件配置:酷睿雙核、主頻2.0 GHz的CPU,8 GB內(nèi)存,500 GB硬盤.軟件配置:Windows 7操作系統(tǒng),Matlab程序設(shè)計(jì)語言及編譯平臺(tái),Eviews統(tǒng)計(jì)分析軟件.采用的文本信息檢索對(duì)象為英國(guó)國(guó)家語料庫(BNC).該語料庫包含各種類型的文本信息子集,如經(jīng)濟(jì)領(lǐng)域、政治領(lǐng)域、軍事領(lǐng)域、科技領(lǐng)域、生活領(lǐng)域等.
在文本信息檢索的實(shí)驗(yàn)中,根據(jù)提出的基于向量空間模型的個(gè)性化檢索方法,在BNC預(yù)料庫中按照用戶輸入的關(guān)鍵詞進(jìn)行檢索.因?yàn)楹芏嚓P(guān)鍵詞具有不同的領(lǐng)域特征,所以分別在一個(gè)領(lǐng)域和多個(gè)領(lǐng)域內(nèi)搜索文本信息.科技領(lǐng)域內(nèi)搜索文本信息的實(shí)驗(yàn)結(jié)果,如表1所示.表1中:A20,A30,A50,A1 000分別為檢索結(jié)果中前20項(xiàng),前30項(xiàng),前50項(xiàng)和前1 000項(xiàng)的個(gè)性化符合程度的文獻(xiàn)數(shù). 由表1可知:當(dāng)λ1=30%,λ2=70%,λ3=1%的配置情況時(shí),文中方法的檢索效果達(dá)到最佳.
選擇局部匹配檢索法(LM)、全局匹配檢索法(FM)、反饋檢索法(FD)作為比較方法,在BNC預(yù)料庫上開展個(gè)性化檢索實(shí)驗(yàn),4種方法的對(duì)比結(jié)果,如圖1(a)所示.由圖1(a)可知:LM方法檢索結(jié)果和用戶個(gè)性化需求的符合程度最低,文中方法檢索結(jié)果和用戶個(gè)性化需求的符合程度最高.
表1 科技領(lǐng)域內(nèi)文本信息的個(gè)性化檢索結(jié)果
在多個(gè)領(lǐng)域內(nèi)搜索文本信息的結(jié)果,如表2所示.由表2可知:當(dāng)λ1=20%,λ2=80%,λ3=25%的配置情況時(shí),文中方法的檢索效果達(dá)到最佳.不同方法檢索結(jié)果的比較,如圖1(b)所示.由圖1(b)可知:文中方法檢索結(jié)果和用戶個(gè)性化需求的符合程度最高,且在多領(lǐng)域條件下,這種優(yōu)勢(shì)更加明顯.
(a) 單一領(lǐng)域 (b) 多個(gè)領(lǐng)域圖1 4種方法的對(duì)比結(jié)果Fig.1 Comparison results of 4 methods
序號(hào)調(diào)整參數(shù)設(shè)置個(gè)性化需求符合程度A20A30A50A10001λ1=10%,λ2=90%,λ3=1%0.45360.43240.41700.30292λ1=20%,λ2=80%,λ3=1%0.45880.43390.41830.30443λ1=20%,λ2=80%,λ3=5%0.46290.43510.41920.30784λ1=20%,λ2=80%,λ3=15%0.46740.43860.42050.31025λ1=20%,λ2=80%,λ3=25%0.47090.44260.42330.31436λ1=30%,λ2=70%,λ3=1%0.46530.44070.42240.31257λ1=40%,λ2=60%,λ3=1%0.46120.43540.41780.31068λ1=50%,λ2=50%,λ3=1%0.45380.43290.41660.30839λ1=60%,λ2=40%,λ3=1%0.45110.42810.41170.302510λ1=70%,λ2=30%,λ3=1%0.44820.42660.40990.295811λ1=80%,λ2=20%,λ3=1%0.44530.42130.40580.294312λ1=90%,λ2=10%,λ3=1%0.44140.41720.39960.2910
3結(jié)束語
引入向量空間模型,將用戶的個(gè)性化搜索需求抽象為向量,并結(jié)合關(guān)鍵詞權(quán)重計(jì)算區(qū)分用戶在不同個(gè)性化需求方向上的強(qiáng)弱,采取余弦相似度判別方法執(zhí)行檢索工作,再根據(jù)反饋查找思想提升檢索結(jié)果與用戶檢索需求的符合程度.在BNC預(yù)料庫下的實(shí)驗(yàn)結(jié)果表明:無論是單一領(lǐng)域限制下的檢索,還是多領(lǐng)域下的檢索,文中方法的檢索結(jié)果都更符合用戶的個(gè)性化需求,明顯優(yōu)于LM,GM,F(xiàn)D等方法.
參考文獻(xiàn):
[1]鄒聰.淺析網(wǎng)絡(luò)免費(fèi)學(xué)術(shù)資源在醫(yī)學(xué)信息檢索教學(xué)中的有效應(yīng)用[J].內(nèi)蒙古科技與經(jīng)濟(jì),2014,316(18):74-76.
[2]MARS B,HERON J,BIDDLE L,et al.Exposure to, and searching for, information about suicide and self-harm on the Internet: Prevalence and predictors in a population based cohort of young adults[J].Journal of Affective Disorders,2015,185:239-245.
[3]陳葉旺,余金山.一種改進(jìn)的樸素貝葉斯文本分類方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,32(4):401-404.
[4]DARABAD V P,VAKILIAN M,BLACKBURN T R.An efficient PD data mining method for power transformer defect models using SOM technique[J].International Journal of Electrical Power and Energy Systems,2015,71(4):373-382.
[5]MADISON A,BUETTI S,LLEARS A.Singleton search performance predicts performance on heterogeneous displays: Evidence in support of the information theory of vision[J].Journal of Vision,2015,15(12):12-14.
[6]MONCHAUX S,AMADIEU F,CHEVALIER A.Query strategies during information searching: Effects of prior domain knowledge and complexity of the information problems to be solved[J].Information Processing and Management,2015,51(5):557-569.
[7]TANG Yuzhe,LIU Ling.Privacy preserving multi-keyword search in information networks[J].IEEE Transactions on Knowledge and Data Engineering,2015,27(9):2424-2437.
[8]鄒向坤.基于Delphi的病歷卡片信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,31(4):113-115.
[9]陳秀麗.基于信息需求下電子商務(wù)檔案信息檢索的智能化研究[J].檔案天地,2015(10):19-21.
[10]甘麗新,萬常選,王明文.基于層次依賴的Markov網(wǎng)絡(luò)信息檢索擴(kuò)展模型[J].計(jì)算機(jī)科學(xué)與探索,2014,8(12):1485-1493.
[11]KUMAR A V,ALI R F M,CAO Yu.Application of data mining tools for classification of protein structural class from residue based averaged NMR chemical shifts[J].Biochimica Et Biophysica Acta,2015,1854(10):1545-1552.
(責(zé)任編輯: 錢筠英文審校: 吳逢鐵)
Research on Personalized Information Retrieval Method Using Vector Space Model
XU Jianhao
(School of Information Engineering, Nanning College for Vocational Technology, Nanning 530008, China)
Abstract:In order to improve matching degree between the retrieval results and of user′s personalized needs, a new method based on vector space model is proposed in this paper. Maps the user query keywords and the text information in the database to the many vectors, and then transforms the retrieval process to the comparison of the vector similarity. In the process, the user′s personalized needs are highlighted by the keyword weight, and the matching degree is determined by the cosine similarity. Experimental results show that the retrieval results of this method are significantly improved with the user′s requirements.
Keywords:information retrieval; vector space model; personalized needs; corpus
中圖分類號(hào):TP 181
文獻(xiàn)標(biāo)志碼:A
基金項(xiàng)目:廣西高校科研基金資助項(xiàng)目(YB2014495)
通信作者:許建豪(1977-),男,副教授,主要從事網(wǎng)絡(luò)技術(shù)及信息檢索的研究.E-mail:jianhaoxu@yeah.net.
收稿日期:2015-12-25
doi:10.11830/ISSN.1000-5013.2016.02.0175
文章編號(hào):1000-5013(2016)02-0175-04