• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于樸素貝葉斯點(diǎn)擊預(yù)測(cè)的查詢推薦方法

      2016-11-08 08:33:37李朝鋒
      關(guān)鍵詞:樸素搜索引擎貝葉斯

      石 雁 李朝鋒

      (江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 江蘇 無錫 214122)

      ?

      基于樸素貝葉斯點(diǎn)擊預(yù)測(cè)的查詢推薦方法

      石雁李朝鋒

      (江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院江蘇 無錫 214122)

      查詢推薦作為一種改善用戶查詢體驗(yàn)和效率的重要方式,可以幫助用戶篩選并提供更加準(zhǔn)確的查詢描述。目前很多查詢推薦方法主要集中在熱門推薦或是基于相似度匹配的推薦上,忽略了用戶的查詢意圖,無法有效提供個(gè)性化推薦。為此,基于對(duì)用戶查詢點(diǎn)擊日志進(jìn)行分析與挖掘,訓(xùn)練出一個(gè)樸素貝葉斯模型,針對(duì)用戶輸入的查詢,根據(jù)歷史數(shù)據(jù)預(yù)測(cè)其與URL的點(diǎn)擊率,再利用二分圖將URL的預(yù)測(cè)點(diǎn)擊值平均分配給相對(duì)應(yīng)的每個(gè)查詢項(xiàng),最后結(jié)合Jaccard相似度和時(shí)間相關(guān)因子綜合分析用戶當(dāng)前輸入的查詢與歷史中查詢的相關(guān)度,并給出推薦。實(shí)驗(yàn)證明了該方法的可行性并取得了較好的推薦效果。

      查詢推薦用戶日志點(diǎn)擊預(yù)測(cè)樸素貝葉斯二分圖Jaccard相似度

      0 引 言

      在目前主要根據(jù)關(guān)鍵詞進(jìn)行檢索的搜索引擎框架中,用戶往往無法得到令其滿意的返回結(jié)果。這一方面是由于網(wǎng)絡(luò)數(shù)據(jù)呈海量增長(zhǎng)態(tài)勢(shì),每條查詢都可能會(huì)有上萬到幾十萬條的相關(guān)反饋信息,在這龐雜的信息中要找到用戶滿意的結(jié)果,這就要求用戶盡可能準(zhǔn)確地描述查詢請(qǐng)求,同時(shí)需要搜索引擎在一定程度上能夠理解用戶查詢意圖,這對(duì)用戶和搜索引擎來說,都面臨一定挑戰(zhàn)。而另一方面,在用戶獲得了比較滿意的結(jié)果后,如何幫助用戶發(fā)掘潛在的相關(guān)信息來提升用戶的搜索體驗(yàn),這也是亟待解決的問題。

      查詢推薦作為搜索引擎改善用戶查詢體驗(yàn)的有效方式之一,其旨在接受用戶輸入某個(gè)查詢后,盡可能理解用戶的查詢需求并向用戶推薦與用戶查詢語義相關(guān)的其他查詢[1]。

      在搜索點(diǎn)擊日志中,包含了大量用戶真實(shí)的搜索行為[2],對(duì)這些數(shù)據(jù)進(jìn)行分析與挖掘,可以更好地理解用戶查詢意圖,發(fā)現(xiàn)與用戶查詢相關(guān)的其他查詢。因此,本文在用戶點(diǎn)擊日志的基礎(chǔ)上,對(duì)用戶搜索行為進(jìn)行建模,找出與用戶查詢意圖相關(guān)的查詢信息,并給出個(gè)性化推薦。

      1 查詢推薦相關(guān)研究

      目前查詢推薦已經(jīng)作為國(guó)內(nèi)外各大商業(yè)搜索引擎的標(biāo)準(zhǔn)配置功能之一,在學(xué)術(shù)界也得到了廣泛關(guān)注和研究。然而現(xiàn)在的搜索引擎中大多針對(duì)用戶輸入的查詢文本本身,進(jìn)行改寫和擴(kuò)展,或是簡(jiǎn)單地提供與用戶查詢文本近似的熱門搜索作為推薦,并沒有考慮查詢中潛在的用戶搜索意圖。如果搜索引擎能夠根據(jù)查詢?cè)~自動(dòng)找出背后的用戶搜索意圖,然后根據(jù)不同的用戶,提供不同的查詢推薦,這無疑會(huì)增加搜索引擎用戶的搜索體驗(yàn)。而查詢?nèi)罩局杏涗浟擞脩舸罅康牟樵凕c(diǎn)擊信息,這些信息體現(xiàn)了用戶的查詢習(xí)慣和點(diǎn)擊意圖,利用日志可以挖掘用戶潛在的查詢意圖,目前針對(duì)日志進(jìn)行分析的主流方法主要有兩類[3]:基于查詢會(huì)話(Session)的方法和基于點(diǎn)擊圖的方法。

      1.1基于查詢會(huì)話方法

      查詢會(huì)話是某個(gè)用戶在較短時(shí)間內(nèi)連續(xù)發(fā)出的多個(gè)查詢,一般而言,在同一查詢會(huì)話內(nèi)的查詢之間往往存在一定的語義相關(guān)性[4]。比如某個(gè)用戶想要購買手機(jī),在某個(gè)集中的時(shí)間內(nèi)連續(xù)向搜索引擎發(fā)出:“蘋果手機(jī)”、“iphone 6圖片”、“iphone 6價(jià)格”等一連串查詢,這就形成一個(gè)查詢會(huì)話。通過將用戶搜索日志劃分為大量不同的查詢會(huì)話,然后利用各種數(shù)據(jù)挖掘算法對(duì)查詢會(huì)話進(jìn)行統(tǒng)計(jì)與分析,推薦的結(jié)果往往是一批查詢對(duì),這些查詢?cè)谒阉鬟^程中經(jīng)常共同出現(xiàn),反應(yīng)了用戶的搜索意圖。李亞楠等人認(rèn)為同一Session中的查詢都具有語義相關(guān)性,而其中的前后查詢具有一定的概率“跳轉(zhuǎn)”,所以對(duì)Session進(jìn)行劃分,并據(jù)此建立查詢關(guān)系圖,使用加權(quán)的SimRank算法在圖結(jié)構(gòu)中進(jìn)行相似計(jì)算,從而挖掘出查詢間的間接關(guān)聯(lián)和語義關(guān)系[4]。在文獻(xiàn)[5]中,將查詢推薦分為兩階段:第一階段分析用戶日志,從中抽取用戶Session,第二階段從用戶Session中使用關(guān)聯(lián)規(guī)則算法挖掘出查詢間的關(guān)系,找出相關(guān)查詢。Sadikov等人提出一種結(jié)合文檔點(diǎn)擊和用戶查詢Session的共現(xiàn)信息,利用近似用戶搜索行為的馬爾可夫多隨機(jī)游走模型,根據(jù)用戶的可能潛在意圖進(jìn)行查詢修改聚類,用來改善搜索引擎中返回的查詢建議[6]。

      1.2基于點(diǎn)擊圖方法

      從用戶查詢?nèi)罩居涗浿锌梢钥吹接脩籼岢瞿硞€(gè)查詢,搜索引擎返回相關(guān)結(jié)果后,用戶會(huì)有選擇地點(diǎn)擊其中某些鏈接。之所以認(rèn)為這種點(diǎn)擊行為很有意義,是因?yàn)橛脩粼诳戳朔祷氐木W(wǎng)頁標(biāo)題和摘要后,認(rèn)為此鏈接和查詢比較相關(guān),所以才會(huì)點(diǎn)擊。而將用戶的查詢和相對(duì)應(yīng)點(diǎn)擊的鏈接網(wǎng)址(URL)使用邊連接起來,就構(gòu)成了點(diǎn)擊圖,這是一種二分圖[7],一端節(jié)點(diǎn)是用戶發(fā)出的查詢,另一端是對(duì)應(yīng)點(diǎn)擊的URL。在使用點(diǎn)擊圖作為查詢推薦的一個(gè)簡(jiǎn)單的通用基本框架是:如果兩個(gè)查詢分別對(duì)應(yīng)的點(diǎn)擊URL中,有相當(dāng)一部分比例是相同的,那么說明這兩個(gè)查詢有很大的語義相關(guān)性,可以作為相關(guān)查詢進(jìn)行推薦。不同的學(xué)者據(jù)此也提出了各種擴(kuò)展和改進(jìn)的方法。Hamada M.Zahera 等人提出根據(jù)查詢和URL點(diǎn)擊二分圖,對(duì)查詢進(jìn)行相似聚類,然后對(duì)用戶提出的查詢,找出與其最相似的一組進(jìn)行排序推薦[8]。劉鈺峰等人提出基于查詢上下文訓(xùn)練詞匯與查詢間的語義關(guān)系,并結(jié)合查詢和URL對(duì)應(yīng)的點(diǎn)擊圖以及查詢的序列行為構(gòu)建Term-Query-URL異構(gòu)信息網(wǎng)絡(luò),采用重啟動(dòng)隨機(jī)游走算法進(jìn)行查詢推薦,該方法綜合了語義和日志信息,提高了稀疏查詢的推薦效果[9]。文獻(xiàn)[10]中,提出一種新的基于上下文感知查詢建議方法,該方法分為線下和線上兩步。在線下,使用用戶點(diǎn)擊圖進(jìn)行聚類,把查詢總結(jié)成不同概念,然后為Session數(shù)據(jù)序列構(gòu)造概念后綴樹作為查詢建議模型。在線上,把用戶提交的查詢序列映射到概念中,獲取用戶搜索上下文,通過查詢概念后綴樹得到相關(guān)查詢。

      綜上,除了日志分析方法中的兩個(gè)主流方法外,還有基于相似度方法、基于時(shí)間分布法等[1]。雖然目前提出的很多方法對(duì)查詢推薦有一定的效果,但由于大多具有高度復(fù)雜性并且用戶意圖不明確,所以很難得到廣泛的實(shí)際應(yīng)用。本文根據(jù)點(diǎn)擊日志,對(duì)用戶的查詢進(jìn)行意圖點(diǎn)擊預(yù)測(cè),進(jìn)而將預(yù)測(cè)值傳播給其他查詢,結(jié)合相似度和時(shí)間因子獲得相關(guān)查詢。最后在搜狗實(shí)驗(yàn)室提供的數(shù)據(jù)中進(jìn)行實(shí)驗(yàn),獲得了較好的推薦效果。

      2 基于用戶日志挖掘的查詢推薦

      在對(duì)用戶日志和搜索引擎進(jìn)行深入分析后,提出基于圖1的框架來研究查詢推薦。從中可以看出用戶在發(fā)出查詢后,一部分經(jīng)搜索引擎返回相關(guān)網(wǎng)頁,而另一部分使用樸素貝葉斯針對(duì)用戶查詢,預(yù)測(cè)URL的點(diǎn)擊率,將其值用在反向點(diǎn)擊圖中,從而找出相關(guān)查詢,推薦給用戶。

      圖1 查詢推薦基本結(jié)構(gòu)

      2.1使用樸素貝葉斯進(jìn)行URL點(diǎn)擊率預(yù)測(cè)

      樸素貝葉斯是一種基于貝葉斯理論的有監(jiān)督的概率分類算法,尤其適用于樣本特征維數(shù)很高的情形。有資料顯示,就算樣本屬性相互獨(dú)立的假設(shè)不成立,或者在完全相反的情況下(屬性相互依賴),依然可以證明該算法是最優(yōu)的[11]。在這里,將樸素貝葉斯算法作為一種預(yù)測(cè)模型,用它來預(yù)測(cè)URL對(duì)于用戶及其所提交的查詢的點(diǎn)擊率,也就是說可以根據(jù)它計(jì)算出用戶在提交某個(gè)查詢時(shí)想要看到某個(gè)鏈接的概率。

      首先,需要根據(jù)用戶日志對(duì)樸素貝葉斯進(jìn)行訓(xùn)練,將每個(gè)URL作為概念,每個(gè)與其對(duì)應(yīng)的查詢作為樣本,根據(jù)所需計(jì)算出各個(gè)概念的先驗(yàn)概率及其對(duì)應(yīng)的樣本的條件概率,然后再依據(jù)用戶當(dāng)前輸入的查詢(實(shí)例)計(jì)算其與每個(gè)概念的點(diǎn)擊值。具體過程如下:

      輸出:實(shí)例q對(duì)應(yīng)URL的點(diǎn)擊率。

      a) URL的先驗(yàn)概率及樣本屬性的條件概率

      (1)

      (2)

      式(1)代表每個(gè)URL的先驗(yàn)概率,分子為每個(gè)URL的頻數(shù),分母為樣本個(gè)數(shù);式(2)代表每個(gè)屬性的條件概率,分子為屬性和URL的聯(lián)合概率。

      b) 經(jīng)過訓(xùn)練后,就可以對(duì)用戶當(dāng)前提出的查詢實(shí)例q=(q1,q2,…,qn),進(jìn)行URL點(diǎn)擊預(yù)測(cè)。公式如下:

      (3)

      這樣每個(gè)相關(guān)URL都會(huì)有一個(gè)預(yù)測(cè)值,該預(yù)測(cè)值代表了用戶輸入的查詢和URL的點(diǎn)擊相關(guān)度,值越大,表示用戶想要點(diǎn)擊URL的意圖性越強(qiáng)。

      2.2使用反向點(diǎn)擊圖進(jìn)行查詢推薦

      2.2.1反向點(diǎn)擊圖推薦模型

      基于二分圖結(jié)構(gòu),提出一種URL-Query的反向點(diǎn)擊圖推薦模型,如圖2所示。

      圖2 反向點(diǎn)擊圖模型

      在該模型中,根據(jù)2.1節(jié)計(jì)算出用戶當(dāng)前查詢對(duì)于歷史點(diǎn)擊中URL的預(yù)測(cè)點(diǎn)擊值,作為URL的權(quán)重,并將其平均分配給與其對(duì)應(yīng)的查詢,這樣每個(gè)查詢經(jīng)過整合后會(huì)有一個(gè)相關(guān)值,這個(gè)相關(guān)值也代表了用戶的查詢意圖,如圖3所示。

      圖3 預(yù)測(cè)點(diǎn)擊值的分配

      考慮一個(gè)由n個(gè)URL和m個(gè)查詢(Query)構(gòu)成的點(diǎn)擊二分圖,表示為G(U,Q,E),E表示URL和Query之間連接的邊,URL節(jié)點(diǎn)表示為U={(u1,a1),(u2,a2),…,(un,an)},其中ai為計(jì)算用戶當(dāng)前查詢的預(yù)測(cè)點(diǎn)擊值,Query節(jié)點(diǎn)表示為Q={q1,q2,…,qm}。根據(jù)圖3中的計(jì)算,每個(gè)qi的相關(guān)值經(jīng)過傳播求和,計(jì)算如下:

      (4)

      其中:k(uj)表示與uj連接的qi的個(gè)數(shù);aj為URL的預(yù)測(cè)值。

      然而由于對(duì)用戶輸入的查詢進(jìn)行樸素貝葉斯URL點(diǎn)擊預(yù)測(cè)后的值會(huì)被均分到相對(duì)應(yīng)的歷史查詢中,這會(huì)導(dǎo)致將每個(gè)查詢均等化。鑒于此,對(duì)式(4)進(jìn)行補(bǔ)充修正,加入了用戶歷史查詢和對(duì)應(yīng)URL的點(diǎn)擊比率,公式如下:

      (5)

      其中:公式的后半部分表示qi的點(diǎn)擊數(shù)占總點(diǎn)擊數(shù)的比率,比率越大,表示在點(diǎn)擊歷史中,用戶關(guān)注的越多,用戶想要點(diǎn)擊的意圖性就越強(qiáng)。

      2.2.2融合文本相似度和時(shí)間因子

      利用樸素貝葉斯預(yù)測(cè)用戶查詢行為,本質(zhì)上是找到查詢與鏈接(URL)的關(guān)系,但這忽略了用戶查詢與歷史查詢之間的文本相似性,很多時(shí)候我們想搜索的是和當(dāng)前詞相似的或是擴(kuò)展的查詢內(nèi)容,比如在百度輸入“江南大學(xué)”,在網(wǎng)頁底部就會(huì)出現(xiàn)相關(guān)搜索,如表1所示。

      表1 “江南大學(xué)”相關(guān)搜索推薦

      在表中可以看到除了其他大學(xué)外(而這些大學(xué)我們假設(shè)經(jīng)過用戶點(diǎn)擊過的并給予預(yù)測(cè)的推薦查詢),與“江南大學(xué)”相似的或者說是擴(kuò)展的推薦查詢?cè)~占了較高比率,用戶可能想查詢與“江南大學(xué)”有直接關(guān)系的信息。而通過融合文本相似度可以增強(qiáng)這一相關(guān)性,在這里采用簡(jiǎn)單有效的Jaccard相關(guān)系數(shù)來計(jì)算當(dāng)前用戶提交的查詢和用戶歷史查詢的文本相似性,公式如下:

      (6)

      在點(diǎn)擊日志中,時(shí)間因素是一個(gè)重要的上下文信息。一般來說,用戶當(dāng)前的查詢和用戶歷史中最近的點(diǎn)擊行為關(guān)系更大[12]?,F(xiàn)在假設(shè)用戶在時(shí)間t發(fā)出一個(gè)查詢q,點(diǎn)擊歷史數(shù)據(jù)中的URL和其對(duì)應(yīng)查詢中的時(shí)間,記為:t0,t1,t2,t3,t4,t5,如圖4所示,這樣圖中后面的四個(gè)查詢的點(diǎn)擊時(shí)間分別包括:q1(t0,t2),q2(t1),q3(t3,t4),q4(t5)。可以看到一個(gè)查詢對(duì)應(yīng)多個(gè)不同的URL,會(huì)有不同的點(diǎn)擊時(shí)間,所以不能簡(jiǎn)單地采用最近時(shí)間作為標(biāo)準(zhǔn)衡量時(shí)間。對(duì)此,使用式(7)計(jì)算相關(guān)時(shí)間因子。該式綜合了當(dāng)前時(shí)間和所有歷史時(shí)間差的和的均值作為衡量因素。

      圖4 查詢點(diǎn)擊時(shí)間

      (7)

      其中:α是時(shí)間衰減參數(shù),可以根據(jù)不同的數(shù)據(jù)集選擇合適的參數(shù),如果用戶查詢意圖變化快,就選擇較大的值,相反需要取較小值。tq是用戶當(dāng)前查詢時(shí)間,tqi是不同的查詢點(diǎn)擊時(shí)間,分母是點(diǎn)擊次數(shù)。這樣就可以根據(jù)時(shí)間的變化來優(yōu)化預(yù)測(cè)推薦。

      為了舉例說明,現(xiàn)假設(shè)用戶發(fā)出一個(gè)查詢q時(shí)間為9:40,在用戶歷史點(diǎn)擊數(shù)據(jù)中,查詢q1的時(shí)間為8:40、10:40和q2的時(shí)間為7:40、11:40、13:40。按式(7)計(jì)算相關(guān)時(shí)間因子t(q,q1)和t(q,q2)(這里α取1,時(shí)間為小時(shí))。所以不論從時(shí)間上的直觀性來看,還是計(jì)算后的數(shù)值大小比較上,q和q1更具有明顯的時(shí)間相關(guān)性。

      ≈0.27

      在最終的推薦中,整合式(5)、式(6)和式(7),如式(8):

      (8)

      通過計(jì)算,對(duì)qi的相關(guān)值進(jìn)行降值排序,按Top-N推薦給用戶。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1實(shí)驗(yàn)數(shù)據(jù)

      本實(shí)驗(yàn)采用的數(shù)據(jù)來自搜狗實(shí)驗(yàn)室提供的2008年6月份查詢?nèi)罩局械囊惶鞌?shù)據(jù),共1 724 264條查詢。該日志中包括每條查詢的時(shí)間、用戶ID、查詢串、URL返回的排名、點(diǎn)擊順序以及點(diǎn)擊的URL。經(jīng)過預(yù)處理,選擇用戶查詢數(shù)在200條以上的點(diǎn)擊數(shù)據(jù),在這里選取了10名用戶,共2803條查詢。每名用戶中點(diǎn)擊數(shù)據(jù)的80%用作訓(xùn)練,另外一部分用來測(cè)試。實(shí)驗(yàn)平臺(tái)使用Intel? CoreTMDuo T2450 @ 2.00 GHz雙核處理器,2 GB內(nèi)存,Windows XP 32位操作系統(tǒng),算法使用Java語言編寫,分詞工具使用來自輕量級(jí)中文分詞包IKAnalyzer2012_u6.jar[13]。

      3.2實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

      盡管在國(guó)內(nèi)外關(guān)于查詢推薦的相關(guān)研究已有不少成果,但總體上仍然缺乏統(tǒng)一和客觀的評(píng)價(jià)方法,尤其是針對(duì)中文的查詢推薦的研究,仍然比較欠缺。由于對(duì)于一個(gè)查詢來說并不存在某種標(biāo)準(zhǔn)的推薦結(jié)果,在考慮基于用戶意圖的查詢推薦時(shí),更是無法把握用戶的真實(shí)想法。因此,一般的查詢推薦評(píng)價(jià)都采用信息檢索里的評(píng)價(jià)指標(biāo)[14]。本文采用Top-N的精度P@N(Precision at N)和平均精度均值MAP(Mean Average Precision)作為評(píng)價(jià)指標(biāo)。由于在所有候選推薦中,很難得到所有相關(guān)查詢數(shù)目,因而召回率(Recall)很少作為評(píng)價(jià)指標(biāo)[15]。實(shí)驗(yàn)對(duì)于一個(gè)給定的查詢qi,系統(tǒng)推薦出m個(gè)查詢,這m個(gè)查詢中的P@N精度為:

      (9)

      (10)

      其中K是查詢測(cè)試集,這里選取每個(gè)用戶的20個(gè)查詢作為測(cè)試集,N為5,然后由人工進(jìn)行判斷產(chǎn)生的查詢推薦是否相關(guān)。對(duì)于單個(gè)查詢qi的平均精度,定義為:

      (11)

      (12)

      在實(shí)驗(yàn)中,選取文獻(xiàn)[8]中基于查詢?nèi)罩镜牟樵兙垲惙椒ê臀墨I(xiàn)[16]的基于用戶興趣的Apriori方法進(jìn)行對(duì)比實(shí)驗(yàn)(在實(shí)驗(yàn)中分別稱為查詢聚類法和Apriori法。)本文方法的時(shí)間參數(shù)α需要根據(jù)不同用戶點(diǎn)擊數(shù)據(jù)集的時(shí)間分布進(jìn)行選擇,這里α取1。在P@5和MAP上的對(duì)比結(jié)果如表2。

      表2 三種算法在P@5和MAP上的對(duì)比結(jié)果

      本文在P@3、 P@5、P@7、P@9上進(jìn)一步對(duì)這三種算法在不同P@N上的變化進(jìn)行測(cè)試對(duì)比。從10名用戶中選取用戶1和用戶2作參考,圖5、圖6為對(duì)比結(jié)果,從中可以看出本文方法在P@N上的精準(zhǔn)度要優(yōu)于前兩種方法。

      圖5 用戶1三種算法在不同P@N上的比較

      圖6 用戶2三種算法在不同P@N上的比較

      為了比較直觀地觀察推薦效果,現(xiàn)列出部分查詢推薦示例如表3所示,從中可以看到,本文的算法在推薦的相關(guān)查詢上取得了較好效果。由于本算法關(guān)注的是用戶查詢的相關(guān)性和意圖性,忽略了查詢間的冗余性,從而在一定程序上,推薦的查詢有一定的重復(fù)率。另外,由于用戶查詢的稀疏問題,也造成了一定的推薦不明確性。

      表3 部分查詢推薦示例

      續(xù)表3

      4 結(jié) 語

      查詢推薦作為個(gè)性化搜索引擎的一項(xiàng)重要研究課題,其改善和提升了用戶的搜索體驗(yàn),它可以為不同的用戶提供多樣性和個(gè)性化的查詢推薦。本文在前人的研究基礎(chǔ)上,首先采用基于樸素貝葉斯模型預(yù)測(cè)用戶查詢點(diǎn)擊URL的值,然后使用反向點(diǎn)擊圖將每個(gè)URL預(yù)測(cè)值作為用戶查詢意圖傳播給日志中與其對(duì)應(yīng)的查詢項(xiàng),再結(jié)合文本匹配度和時(shí)間相關(guān)因子作出Top-N相關(guān)查詢推薦。實(shí)驗(yàn)結(jié)果表明了該方法的有效性以及在一定程度上表達(dá)了用戶的查詢意圖。在下一階段的研究中,將會(huì)考慮查詢的稀疏問題以及將基于用戶的協(xié)同推薦理論用到查詢推薦上。

      [1] 李亞楠,王斌,李錦濤.搜索引擎查詢推薦技術(shù)綜述[J].中文信息學(xué)報(bào),2010,24(6):75-84.

      [2] 董志安,呂學(xué)強(qiáng).基于百度搜索日志的用戶行為分析[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(7):17-20.

      [3] 張俊林.這就是搜索引擎:核心技術(shù)詳解[M].北京:電子工業(yè)出版社,2012:146-258.

      [4] 李亞楠,許晟,王斌.基于加權(quán)SimRank的中文查詢推薦研究[J].中文信息學(xué)報(bào),2010,24(3):4-10.

      [5]FonsecaBM,GolghePB,MoursaESDe,etal.DiscoveringSearchEngineRelatedQueriesUsingAssociationRules[J].JournalofWebEngineering,2004,2(4):215-227.

      [6]SadikovE,MadhavanJ,WangL,etal.Clusteringqueryrefinementsbyuserintent[C]//Proceedingsofthe19thinternationalconferenceonWorldWideWeb.Raleigh,NorthCarolina,USA:ACM,2010:841-850.

      [7] 王棲,段雙艷.一種改進(jìn)的基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(3):771-774.

      [8]HamadaMZahera,GamalFElHady,WaielFAbdEl-Wahed.QueryRecommendationforImprovingSearchEngineResults[J].InternationalJournalofInformationRetrievalResearch,2011,1(1):45-52.

      [9] 劉鈺鋒,李仁發(fā).基于Term-Query-URL異構(gòu)信息網(wǎng)絡(luò)的查詢推薦[J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2014,41(5):106-112.

      [10]HuanhuanCao,DaxinJiang,JianPei,etal.Context-AwareQuerySuggestionbyMiningClick-ThroughandSessionData[C]//Proceedingsofthe14thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.NewYork:ACM,2008:875-883.

      [11]RishI.Anempiricalstudyofthena?veBayesclassifier[EB/OL].IBMResearchReport,RC22230 (W0111-014),2001:41-46.http://www.cc.gatech.edu/~isbell/classes/reading/papers/Rish.pdf.

      [12] 項(xiàng)亮.推薦系統(tǒng)實(shí)戰(zhàn)[M].北京:人民郵電出版社,2012:130-132.

      [13] 林良益.基于Java語言開發(fā)的輕量級(jí)的中文分詞工具包[EB/OL].(2015-1).http://git.oschina.net/wltea/IK-Analyzer-2012FF/tree/master.

      [14]RicardoBaeza-Yates,BerthierRibeiro-Neto.現(xiàn)代信息檢索[M].黃萱菁,張奇,邱錫鵬,譯.2版.北京:機(jī)械工業(yè)出版社,2012:98-103.

      [15] 廖振.基于查詢點(diǎn)擊核心圖的查詢推薦問題研究[D].天津:南開大學(xué),2013.

      [16] 石林,徐飛,徐守坤.基于用戶興趣建模的個(gè)性化推薦[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):211-214,264.

      QUERY RECOMMENDATION BASED ON NAIVE BAYES CLICK PREDICTION

      Shi YanLi Chaofeng

      (School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,Jiangsu,China)

      Query recommendation, as an important way to improve user-query experience and efficiency, can help users to filter and offer more accurate query descriptions. Many of the current query recommendation methods mainly focus on popular recommendation or the recommendation based on similarity matching, but neglect user’s query intention, thus are unable to effectively provide the personalised recommendation. Therefore, on the basis of analysing and mining users’ query-click logs, we have trained a Naive Bayes model. Aiming at the queries inputted by the user, the model predicts CTR (click-through rate) between these queries and URL according to historical data, then uses bipartite graph to averagely assign the predicted CTR of URL to each corresponding query, and at last it combines the Jaccard similarity with time correlation factor to comprehensively analyse the relevance between the query currently inputted by the user and the historical queries, and provides the recommendations. In subsequent experiment it is proved the feasibility of this method, as well as the better recommendation effect achieved.

      Query recommendationUser logClick-through predictionNa?ve bayesBipartite graphJaccard similarity

      2015-07-07。國(guó)家自然科學(xué)基金項(xiàng)目(61170120)。石雁,碩士,主研領(lǐng)域:信息檢索,推薦系統(tǒng)。李朝鋒,教授。

      TP391

      A

      10.3969/j.issn.1000-386x.2016.10.005

      猜你喜歡
      樸素搜索引擎貝葉斯
      隔離樸素
      樸素的安慰(組詩)
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      二连浩特市| 新田县| 柯坪县| 城口县| 新安县| 洛宁县| 芮城县| 宁强县| 正宁县| 临江市| 西吉县| 吴旗县| 寿光市| 苗栗县| 新余市| 黑水县| 阿坝县| 淳化县| 海宁市| 洛扎县| 富锦市| 遵化市| 逊克县| 平塘县| 台安县| 门源| 大洼县| 许昌市| 金秀| 友谊县| 漠河县| 绍兴市| 贺兰县| 綦江县| 吉木乃县| 屏山县| 菏泽市| 杭锦后旗| 保亭| 周宁县| 麟游县|