陳 樂(lè),劉迎春
(浙江工業(yè)大學(xué),浙江 杭州 310023)
交互式信息檢索是檢索領(lǐng)域的全新研究課題。伴隨互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,信息檢索系統(tǒng)功能得到極大提高[1,2],從傳統(tǒng)手動(dòng)檢索逐步轉(zhuǎn)變成人機(jī)交互信息檢索模式。交互式信息檢索條件下,信息檢索行為受到認(rèn)知模式、搜索策略的影響,增添了交互式信息檢索難度。如何綜合用戶和檢索系統(tǒng)的優(yōu)勢(shì)、增強(qiáng)信息檢索系統(tǒng)交互功能[3]、為用戶提供更加精準(zhǔn)可靠的信息查詢服務(wù)為本文的主要研究目標(biāo)。
關(guān)于信息檢索問(wèn)題,相關(guān)領(lǐng)域?qū)<乙呀?jīng)得到了一些研究成果。文獻(xiàn)[4]提出了大數(shù)據(jù)下監(jiān)控網(wǎng)絡(luò)混合入侵信息檢索算法。采用遺傳算法優(yōu)化選擇特征集,構(gòu)成優(yōu)化特征集合,構(gòu)建冗余信息消除模型。在信息檢索理論前提下,組建信息檢索模型,實(shí)現(xiàn)網(wǎng)絡(luò)信息檢索目標(biāo)。但該方法檢索到的信息數(shù)量較少,查全率較低。文獻(xiàn)[5]提出了融合加權(quán)模式挖掘與規(guī)則混合擴(kuò)展的跨語(yǔ)言檢索算法。利用項(xiàng)集權(quán)值對(duì)比包含原查詢?cè)~項(xiàng)的頻繁項(xiàng)集,采用剪枝策略獲得有效頻繁項(xiàng)集,按照規(guī)則混合擴(kuò)展模型完成查詢拓展,拓展詞和原查詢?cè)~結(jié)合為新查詢集合,重新檢索文檔并獲得檢索結(jié)果。但方法無(wú)法獲得相關(guān)詞之間的關(guān)聯(lián),導(dǎo)致檢索精度不高。
為解決以上傳統(tǒng)方法存在的應(yīng)用問(wèn)題,本研究提出基于用戶需求挖掘的交互式信息檢索算法。結(jié)合眼動(dòng)追蹤技術(shù),劃分眼動(dòng)追蹤技術(shù)評(píng)估指標(biāo),可視化處理眼動(dòng)信息,獲得用戶注視點(diǎn)坐標(biāo)與注視時(shí)間。且本文首先創(chuàng)建注視、掃視、瞳孔擴(kuò)張與掃視路徑四種眼動(dòng)評(píng)估指標(biāo),使用語(yǔ)義空間下的反饋算法完成用戶檢索興趣特征提取,通過(guò)需求挖掘理論實(shí)現(xiàn)高精度交互式信息檢索任務(wù),并通過(guò)仿真表明了所提算法可靠性。
交互式信息搜索結(jié)果的相關(guān)性反饋關(guān)鍵是按照眼動(dòng)視覺(jué)行為特點(diǎn)完成評(píng)估的。視覺(jué)理論規(guī)定:吸引用戶和被用戶長(zhǎng)久觀看的檢索結(jié)果才能被用戶點(diǎn)擊,視覺(jué)行為是用戶點(diǎn)擊瀏覽信息的必要條件。把用戶行為代入至檢索系統(tǒng)內(nèi),可有效完成信息檢索的人機(jī)交互形式。目前的相關(guān)反饋具備兩種模式:顯示相關(guān)反饋與隱性相關(guān)反饋。顯示相關(guān)反饋需要用戶進(jìn)行大量的準(zhǔn)備工作,預(yù)先告知用戶行為對(duì)信息檢索造成的影響;隱性相關(guān)反饋模式中,用戶無(wú)需考慮自身行為對(duì)檢索結(jié)果的影響,僅需注意檢索行為是否滿足自身需要,可以很好地降低用戶工作量,檢索結(jié)果精度也很高。
本文采用基于眼動(dòng)追蹤技術(shù)的檢索頁(yè)面隱性相關(guān)反饋策略,充分展現(xiàn)出用戶在信息檢索時(shí)的注意力分布與偏好水準(zhǔn)等元素,進(jìn)一步提高信息交互式信息檢索精度。
眼動(dòng)儀是實(shí)現(xiàn)眼動(dòng)追蹤技術(shù)的工具,共有三種類型:頭盔式眼動(dòng)儀、桌面式眼動(dòng)儀與眼鏡式眼動(dòng)儀。眼動(dòng)追蹤被劃分成四類:注視、掃視、瞳孔擴(kuò)張與掃視路徑[6]。注視表示雙眼在某固定點(diǎn)的駐留時(shí)長(zhǎng);掃視表示雙眼在注視點(diǎn)之間的迅速移動(dòng)或延遲;瞳孔擴(kuò)張用來(lái)描述用戶瀏覽信息時(shí)的興趣程度;掃視路徑為雙眼在注視點(diǎn)間迅速移動(dòng)構(gòu)成的軌跡。
注視是判斷信息檢索時(shí)最核心的眼動(dòng)指標(biāo),利用注視點(diǎn)能夠準(zhǔn)確了解用戶檢索內(nèi)容和關(guān)注的興趣區(qū)域(Area of Interest,AOI),每一種眼動(dòng)均具備對(duì)應(yīng)的參變量,將眼動(dòng)指標(biāo)及對(duì)應(yīng)參變量釋義記作表1。
表1 眼動(dòng)追蹤特征指標(biāo)劃分
采用基于語(yǔ)義空間的反饋算法實(shí)現(xiàn)用戶檢索興趣特征提取。首先通過(guò)眼動(dòng)數(shù)據(jù)得到用戶注視點(diǎn)坐標(biāo)與注視時(shí)間,將眼動(dòng)信息采取可視化處理,代入一個(gè)眼動(dòng)軌跡參照?qǐng)D,運(yùn)用多個(gè)圓圈描述注視點(diǎn)范圍,圓的直徑為注視時(shí)間,連接線為注視軌跡[7]。針對(duì)各個(gè)用戶興趣區(qū)域,將區(qū)域注視時(shí)間表示為
FD(i)=∑e∈AOI(i)T(e)
(1)
式中,e表示一次注視事件,T(e)為用戶對(duì)事件e的注視時(shí)間,i為興趣區(qū)域AOI的索引。
則注視點(diǎn)處于興趣區(qū)域的對(duì)應(yīng)坐標(biāo)為
FiAx(j)=Fx(j)-AOIx1(i),F(xiàn)(j)∈AOI(i)
FiAy(j)=Fy(j)-AOIy1(i),F(xiàn)(j)∈AOI(i)
(2)
式中,AOIx1表示興趣區(qū)域左上角x坐標(biāo),AOIy1表示興趣區(qū)域左上角y坐標(biāo)。
用戶各注視點(diǎn)的影響區(qū)域?yàn)?/p>
(3)
式中,r是影響半徑。其計(jì)算過(guò)程為
r=p·Ftime(j)
(4)
式中,p代表調(diào)節(jié)因子,F(xiàn)time(j)為注視點(diǎn)的注視時(shí)間。
設(shè)定一個(gè)注視臨界值t,假如某個(gè)用戶的興趣區(qū)域的注視時(shí)間高于t,認(rèn)定此區(qū)域相對(duì)的信息為關(guān)聯(lián)信息,反之為無(wú)關(guān)聯(lián)圖像。將評(píng)估用戶興趣的衡量標(biāo)準(zhǔn)表示成
(5)
按照用戶對(duì)不同信息的注視時(shí)間,明確信息關(guān)聯(lián)度k(i),則注視時(shí)間和關(guān)聯(lián)度之間的耦合關(guān)系為
(6)
綜合以上信息,即可獲得一個(gè)注視點(diǎn)影響區(qū)域,且此影響區(qū)域大小和注視時(shí)間為正比例關(guān)系。把影響區(qū)域各個(gè)點(diǎn)的影響系數(shù)記作
(7)
按照用戶查看的初始檢索結(jié)果,推算出各個(gè)注視點(diǎn)影響區(qū)域和區(qū)域中每個(gè)點(diǎn)的影響系數(shù)。提取各區(qū)域視覺(jué)單詞,加權(quán)累加視覺(jué)單詞,即可得到涵蓋關(guān)聯(lián)區(qū)域全部包含權(quán)重的視覺(jué)單詞表,視覺(jué)單詞表就是語(yǔ)義空間的表達(dá)形式
word=∑i∈FiAword(i)·IF
(8)
為得到更精準(zhǔn)的用戶檢索偏好,對(duì)相關(guān)信息進(jìn)行重排序,重排序流程可以看作形成用戶檢索意圖視覺(jué)單詞表過(guò)程[8],如圖1所示。若擁有M個(gè)相關(guān)區(qū)域,各相關(guān)區(qū)域的初始視覺(jué)單詞表為
G(j)=(w1,w2,…,wc)
(9)
式中,G(j)表示視覺(jué)單詞表,wn為單詞表內(nèi)的詞匯。
各興趣區(qū)域的權(quán)重WA(i)為
(10)
改進(jìn)后的相關(guān)區(qū)域視覺(jué)單詞表為
(11)
式中
(12)
式中,WA(n)代表相關(guān)區(qū)域所處的興趣范圍,F(xiàn)time(m)為相關(guān)區(qū)域相對(duì)應(yīng)的注視點(diǎn)時(shí)間。
(13)
圖1 檢索頁(yè)面隱性相關(guān)反饋算法基布步驟
利用上述過(guò)程獲得全新的視覺(jué)單詞后,融合Rocchio算法,將語(yǔ)義空間下隱性相關(guān)反饋檢索模型記作
(14)
信息檢索時(shí),系統(tǒng)要和用戶采取多次交互,也就是擁有多個(gè)頁(yè)面隱性相關(guān)反饋,每一次反饋均會(huì)產(chǎn)生對(duì)應(yīng)檢索策略,在原有檢索矢量?jī)?nèi)引入新的信息矢量,并剔除+不相關(guān)矢量,由此將式(14)改進(jìn)為
(15)
通過(guò)式(15)的隱性相關(guān)反饋模型可知,每次檢索方式的改進(jìn)都是在上一次檢索結(jié)果相關(guān)反饋前提下獲得的。需求挖掘表示從用戶的真實(shí)需求出發(fā),系統(tǒng)判斷用戶需求,獲得自身所需信息。從內(nèi)容結(jié)構(gòu)——空間導(dǎo)航建設(shè)——信息內(nèi)容呈現(xiàn),這一系列均為交互式邏輯的表達(dá)形式[9,10],如圖2所示。
圖2 交互式信息檢索邏輯關(guān)系
引入需求挖掘條件,設(shè)計(jì)如圖3所示的交互式信息檢索流程。
圖3 基于需求挖掘的交互式信息檢索流程
在交互式檢索系統(tǒng)中,信息檢索即為描述信息需求的檢索矢量和系統(tǒng)內(nèi)不同文檔矢量之間的相似性匹配。將文檔采用矢量進(jìn)行描述時(shí),兩個(gè)文檔的相似度衡量策略有很多,譬如卡方距離、矢量夾角余弦等。
當(dāng)前矢量夾角余弦應(yīng)用次數(shù)較多,該方法衡量?jī)蓚€(gè)文檔相似度的計(jì)算公式為:
(16)
式中,P、Q依次表示兩個(gè)文檔的矢量,freq(wi|P)、freq(wi|Q)表示矢量中的分量,即用戶檢索詞匯在此文檔內(nèi)出現(xiàn)的頻率。
但在實(shí)際計(jì)算中發(fā)現(xiàn),矢量夾角余弦方法的運(yùn)算量較多,無(wú)法完成快速檢索目標(biāo)。為此采用Jensen—Shannon散度方法來(lái)彌補(bǔ)其不足[11]。推算兩個(gè)文檔集合組成的概率分布間的相對(duì)熵距離,明確文檔間的相似度。假如相對(duì)熵距離越短,證明文檔相似度越大,反之相似度越小。Jensen—Shannon散度的推導(dǎo)公式為
(17)
(18)
式中,DKL代表P、Q概率分布的相對(duì)熵。
O=(o1,o2,…,on)
(19)
按照相對(duì)熵定理,設(shè)計(jì)一個(gè)如式(19)的概率矢量O,則該矢量的信息熵是
(20)
關(guān)于詞匯集合W={w1,w2,…,wn},可將oi作為wi在文檔中出現(xiàn)的次數(shù),則
(21)
假如采用信息熵來(lái)描述Jensen—Shannon散度[12],可將式(17)變換為
(22)
式中,H為信息熵函數(shù),R為P、Q的合成矢量。
本文充分融合眼動(dòng)追蹤技術(shù)下隱性相關(guān)反饋與需求挖掘兩種策略,利用式(22)計(jì)算用戶需求和檢索結(jié)果的匹配程度,在有效追蹤用戶檢索偏好的同時(shí),完成信息檢索的智能化與精準(zhǔn)化。
為檢測(cè)所提算法真實(shí)的信息檢索性能,對(duì)其采取仿真分析,并將文獻(xiàn)[4]和文獻(xiàn)[5]作為對(duì)比。利用查全率與查準(zhǔn)率指標(biāo)來(lái)衡量檢索算法優(yōu)劣,查全率表示檢索出的相關(guān)文檔個(gè)數(shù)與系統(tǒng)文檔庫(kù)內(nèi)全部相關(guān)文檔個(gè)數(shù)的比例,凸顯檢索算法的全面性,計(jì)算公式為
(23)
查準(zhǔn)率表示檢索出的相關(guān)文檔個(gè)數(shù)和檢索獲得全部文檔個(gè)數(shù)的比例,突出檢索算法的正確性,計(jì)算公式為
(24)
三種方法的查全率與查準(zhǔn)率對(duì)比如圖4所示。
圖4 三種方法的查全率與查準(zhǔn)率對(duì)比
從圖4中看出,查全率在20%~60%時(shí),文獻(xiàn)[4]方法、文獻(xiàn)[5]方法出現(xiàn)明顯的查準(zhǔn)率抖動(dòng),而本文方法在查全率逐步增長(zhǎng)的狀態(tài)下,查準(zhǔn)率要優(yōu)于其它兩種方法。這是因?yàn)樵摲椒ㄊ褂醚蹌?dòng)追蹤技術(shù),能及時(shí)捕捉用戶檢索偏好,此種交互式策略可以最大限度提高信息檢索準(zhǔn)確性。但同時(shí)也發(fā)現(xiàn)隨著查全率的提升,用戶檢索信息包含的詞語(yǔ)是用戶輸入相同含義的另一個(gè)詞語(yǔ),這是形成查準(zhǔn)率損失的關(guān)鍵原因,對(duì)此點(diǎn)有待改進(jìn)。
信息檢索過(guò)程的消息量即滿足各檢索請(qǐng)求的消息量均值,利用該指標(biāo)驗(yàn)證方法運(yùn)行穩(wěn)定性,從而反映出方法檢索的效率。三種方法信息檢索過(guò)程的消息量仿真對(duì)比結(jié)果如圖5所示。
圖5 信息檢索過(guò)程的消息量對(duì)比
從圖5看出,由于本文方法引入用戶需求挖掘策略,通過(guò)用戶需求和檢索結(jié)果的匹配,降低不相關(guān)檢索信息數(shù)量,所以其信息檢索引發(fā)的消息量顯著低于兩個(gè)文獻(xiàn)方法,不會(huì)增加額外的網(wǎng)絡(luò)負(fù)載,網(wǎng)絡(luò)系統(tǒng)處于平穩(wěn)運(yùn)行狀態(tài),用戶能快速掌握自身所需信息,檢索速率也得到一定提高。
為有效提高交互式信息檢索準(zhǔn)確性,為用戶提供更優(yōu)質(zhì)的服務(wù)體驗(yàn),本研究結(jié)合人眼注視行為理論,提出一種新的交互式信息檢索算法。該方法能夠集中展現(xiàn)信息檢索過(guò)程中的認(rèn)知特征,評(píng)估用戶檢索實(shí)際需求,最終呈現(xiàn)理想的人機(jī)交互檢索模式,給今后交互式信息檢索領(lǐng)域研究帶來(lái)新的探索思路。