史玉珍,單冬紅
(平頂山學(xué)院軟件學(xué)院,河南 平頂山 467000)
基于子主題選擇與三級(jí)分層結(jié)構(gòu)的Web文本挖掘方法
史玉珍,單冬紅
(平頂山學(xué)院軟件學(xué)院,河南 平頂山 467000)
針對(duì)用戶和查詢之間的意圖差距導(dǎo)致的查詢模糊寬泛和數(shù)據(jù)稀疏問題,根據(jù)流行性和多樣性返回可能子主題的排名列表,利用子主題選擇與排序的分層結(jié)構(gòu)進(jìn)行Web文本挖掘。首先,在名詞性短語(yǔ)和可替代部分查詢的基礎(chǔ)上,使用簡(jiǎn)單模式提取各種相關(guān)的短語(yǔ)作為候選子主題;然后,使用網(wǎng)頁(yè)文檔集合中的相關(guān)文檔構(gòu)建候選子主題的三級(jí)層次結(jié)構(gòu);最后,綜合考慮流行性和多樣性,利用該結(jié)構(gòu)和估計(jì)的流行度進(jìn)行排序。實(shí)驗(yàn)使用了NTCIR-9庫(kù)的100個(gè)日文查詢和來自TREC 2009庫(kù)的100個(gè)英文查詢以及網(wǎng)絡(luò)跟蹤多樣性任務(wù),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法可有效應(yīng)用于各種搜索,對(duì)于高排名的子主題挖掘優(yōu)于外部資源。
數(shù)據(jù)稀疏;文本挖掘;層次結(jié)構(gòu);多樣性;流行性
智能設(shè)備的出現(xiàn)大大影響了網(wǎng)絡(luò)搜索環(huán)境,不同于PC時(shí)代,現(xiàn)在需要加強(qiáng)搜索服務(wù),以獲得準(zhǔn)確的搜索結(jié)果,因?yàn)楫?dāng)代用戶更傾向于在個(gè)人環(huán)境中簡(jiǎn)化查詢。事實(shí)上,很多網(wǎng)絡(luò)查詢模糊不清,一些用戶無法選擇合適的關(guān)鍵詞進(jìn)行搜索,也有些用戶省略了搜索所需的關(guān)鍵信息[1]。用戶意圖和查詢之間的差距導(dǎo)致了查詢結(jié)果模糊寬泛[2]。在模糊查詢[2]中,用戶獲取的結(jié)果可能與意圖完全不同;而對(duì)于寬泛查詢[3]來說,用戶獲取的結(jié)果不如預(yù)期的具體。雖然網(wǎng)絡(luò)搜索引擎已經(jīng)提供查詢建議服務(wù),幫助用戶探索和表達(dá)自己查詢所需的信息[4]。但是,查詢建議并沒有明確考慮建議查詢的流行性和多樣性,因此這方面的研究很有現(xiàn)實(shí)意義。
子主題挖掘與查詢建議緊密相關(guān),這是因?yàn)樽又黝}和查詢建議獲取的結(jié)果相似。通常情況下,建議使用查詢?nèi)罩镜牟樵兎椒?。將?jīng)常共同出現(xiàn)在相同搜索場(chǎng)景的查詢看作相關(guān)查詢[5],通過歷史點(diǎn)擊數(shù)據(jù)找到相似的查詢,這些相似的查詢通常共享大量的點(diǎn)擊網(wǎng)址[6]。并利用<查詢,點(diǎn)擊鏈接>二分圖內(nèi)建議查詢之間的相似性分析來提高多樣 性[7]。
除了查詢?nèi)罩就猓彩褂面溄游谋竞屯獠抠Y源[8],并將<鏈接文本,點(diǎn)擊鏈接>看作<查詢,點(diǎn)擊鏈接>,來彌補(bǔ)數(shù)據(jù)稀疏[9]。參考文獻(xiàn)[4]使用網(wǎng)絡(luò)文檔語(yǔ)料庫(kù)中的共生詞語(yǔ),該方法建議包含原始查詢中靠前詞語(yǔ)的新查詢及靠后詞語(yǔ)的短語(yǔ),但是,因?yàn)閚元語(yǔ)法詞語(yǔ),這些建議查詢可能是不完整的短語(yǔ)。
NTCIR-9子主題挖掘任務(wù)推動(dòng)了中日兩種語(yǔ)言不同方法的發(fā)展。給中文(SougouT)和日文(ClueWeb09-JA)提供了網(wǎng)絡(luò)文檔集,但是只給中文查詢(SougouQ)提供了日志。為了獲取高水平性能,參與者使用網(wǎng)絡(luò)搜索引擎(如百度、谷歌和雅虎)的建議查詢和查詢?nèi)罩荆?0,11]。然而,日文的子主題挖掘任務(wù)在只使用外部資源網(wǎng)絡(luò)文檔的情況下,才能獲得最佳性能。參考文獻(xiàn)[12]使用從網(wǎng)絡(luò)文檔中提取出來的鏈接和鏈接文本,并不依賴于任何其他資源。但是由于這些候選子主題必須與查詢匹配,會(huì)出現(xiàn)數(shù)據(jù)稀疏問題。
之前大多數(shù)的研究都依靠查詢?nèi)罩緛戆l(fā)現(xiàn)子主題,這樣會(huì)因?yàn)椴樵內(nèi)罩局泻苌倩虿淮嬖诤币姷牟樵冎黝}而出現(xiàn)數(shù)據(jù)稀疏。此外,流行性和多樣性并不成比例。而好的子主題必須與給定查詢相關(guān),同時(shí)需滿足高流行性和高多樣性。
為了解決這些問題,本文在相關(guān)文檔的基礎(chǔ)上通過候選子主題的簡(jiǎn)單模式和分層結(jié)構(gòu)來挖掘子主題。其主要貢獻(xiàn)如下:
·只使用網(wǎng)絡(luò)文檔集,而不是查詢?nèi)罩竞屯獠抠Y源;
·為了找到各種各樣的相關(guān)候選子主題,盡可能多地從網(wǎng)絡(luò)文檔中提取“可理解”語(yǔ)句,這些語(yǔ)句通過簡(jiǎn)單模式與原始查詢完全或部分匹配;
·本文的分層結(jié)構(gòu)可以保持流行性和多樣性之間的平衡。
本文方法包括兩個(gè)步驟,如下所述。
(1)子主題提取
子主題提取是從網(wǎng)絡(luò)文檔中盡可能多地提取各式各樣的相關(guān)候選子主題。根據(jù)名詞短語(yǔ)和可部分替換的查詢創(chuàng)建簡(jiǎn)單模式,然后用這些模式找到候選子主題,最后通過過濾,降低相似候選子主題的冗余度。
(2)子主題排序
子主題排序是在考慮多樣性和流行性之間平衡的基礎(chǔ)上將子主題排序。在相關(guān)文檔的基礎(chǔ)上,給提取出來的候選子主題創(chuàng)建分層結(jié)構(gòu),并根據(jù)結(jié)構(gòu)和流行性對(duì)子主題進(jìn)行排序。
在開始階段中,最重要的事情是盡可能正確地提取各式各樣的候選子主題,一旦提取出不相關(guān)或不完整的短語(yǔ)作為候選子主題,在下一階段中將會(huì)受到這些錯(cuò)誤的影響,即錯(cuò)誤傳播。相反,如果在較高標(biāo)準(zhǔn)下提取候選子主題就會(huì)提高準(zhǔn)確性,但也會(huì)出現(xiàn)一些問題,如數(shù)據(jù)稀疏、多樣性低等。因此本文在相對(duì)寬松的標(biāo)準(zhǔn)下提取候選子主題,假設(shè)這些子主題都包含原始查詢和至少一個(gè)使原始查詢更具體的名詞短語(yǔ)。根據(jù)這一假設(shè),只考慮包含原始查詢的名詞短語(yǔ),這些短語(yǔ)必須比原始查詢表述得更具體。由于名詞和真實(shí)查詢?cè)~語(yǔ)之間的比例遠(yuǎn)高于其他詞類[13],從名詞中提取出來的各式各樣的候選子主題可變?yōu)樾虏樵?,?duì)發(fā)現(xiàn)給定查詢隱藏的查詢意圖很有幫助。
從語(yǔ)法角度來說,短語(yǔ)的主導(dǎo)詞是決定句法類型的詞語(yǔ),短語(yǔ)中其他詞稱為修飾詞。主導(dǎo)詞和修飾詞之間的關(guān)系對(duì)句法分析起到重要作用。將子主題的結(jié)構(gòu)定義如下:
·名詞短語(yǔ)+可選的其他詞+查詢+可選的其他詞+名詞短語(yǔ);
·查詢+可選的其他詞+名詞短語(yǔ);
·名詞短語(yǔ)+可選的其他詞+查詢。
這些結(jié)構(gòu)都包含距查詢最近的名詞短語(yǔ),因此它們可以在不使用句法分析的情況下盡可能多地滿足主導(dǎo)詞—修飾詞之間的關(guān)系。為了提取合適的能滿足該結(jié)構(gòu)的候選子主題,設(shè)計(jì)的簡(jiǎn)單模式如下。
其中,“?”代表“0”或“1”,“+”代表“≥1”,* 代表“≥0”。
為了使該模式的實(shí)用性更強(qiáng),對(duì)“(形容詞)?(名詞)”中名詞短語(yǔ)的形式進(jìn)行了限制,對(duì)名詞以外的其他詞語(yǔ)進(jìn)行設(shè)定。將模式1應(yīng)用到查詢的前1 000個(gè)相關(guān)文檔中,由BM25模型[14]提取。因?yàn)樵撃J桨鎸?shí)的短語(yǔ)和文檔中的完整查詢及名詞短語(yǔ),所以發(fā)現(xiàn)的候選子主題都與之相關(guān)。比如,句子“我們提供糙米粥的飲食食譜”,如果查詢是“飲食”,使用模式1提取出來的候選子主題是“糙米粥的飲食食譜”。
如果查詢包含≥2個(gè)詞語(yǔ),模式1并不足以將各種樣式的候選子主題提取完整,因?yàn)楹蜻x子主題和查詢之間的完整匹配減少。為了改善這一缺陷,在原始查詢中使用可部分替換的查詢qleft和qright進(jìn)行部分查詢。首先連續(xù)刪除查詢的右邊詞語(yǔ)產(chǎn)生所有可能的左邊部分短語(yǔ),針對(duì)每一個(gè)短語(yǔ),提取前N位的相關(guān)文檔并與原始查詢比較。如果這些文檔與原始查詢有超過50%的相同度,那么該左邊部分短語(yǔ)就是可部分替換查詢qleft的候選。在包含文檔最多的候選中,選出最短的qleft來提高匹配的可能性。如果沒有包含超過50%相關(guān)文檔的候選短語(yǔ),選取最長(zhǎng)的短語(yǔ)qleft,因?yàn)檫@樣可以包含最多的查詢信息。同理,右邊部分查詢qright選取方法相似。所以每個(gè)原始查詢只有一個(gè)qleft和qright。用qleft和qright代替查詢,創(chuàng)建新的簡(jiǎn)單模式如下:
值得注意的是,qright前面和qleft附近的名詞短語(yǔ)并沒有反映在模式中,因?yàn)榭蓱?yīng)用的名詞短語(yǔ)的范圍未知,使用新的模式從檢索文檔中提取不同短語(yǔ),比如,句子“你必須注意飲食的副作用”。如果查詢的是“粥飲食”,用模式3找出的子主題為“粥飲食的副作用”。即使這些子主題并不是文檔中真實(shí)的短語(yǔ),仍可以降低數(shù)據(jù)稀疏度,并提高多樣性。
為了降低冗余度,過濾相似的子主題。設(shè)snp是每一個(gè)子主題開始或末端的名詞短語(yǔ)“(形容詞)?(名詞)+”中的一組詞匯。如果有不少于兩個(gè)候選子主題有完全相同的snp,則認(rèn)為它們相似,因?yàn)閟np包含重要的關(guān)鍵詞,正是這些關(guān)鍵詞決定了每一個(gè)子主題的意義。所以將相似子主題的頻率信息合并,并選擇其中頻率最高的候選子主題,該頻率反映了用戶的喜好程度。比如,假設(shè)給定的查詢“粥飲食”有3個(gè)頻率較高的候選子主題:<“米粥的飲食食譜,”9>、<“米粥所有的飲食食譜,”9>和<“加米的粥飲食食譜,”7>。因?yàn)檫@些這些候選子主題有相同的snp{食譜,米},將頻率信息合并,如9+9+7=25,然后選擇“米粥的飲食食譜”。最后,如果候選子主題的頻率小于閾值(實(shí)驗(yàn)設(shè)置為3),該候選子主題將被排除在外,因?yàn)樵趯?shí)際文檔中基本不出現(xiàn)。
對(duì)于給定的查詢,若使用排序的方法,其候選子主題的數(shù)量十分有限,因?yàn)橛脩舨⒉幌肟吹教嗟淖又黝}。然而,若僅依靠子主題的流行性來排序,大多數(shù)排序靠前的子主題極可能只包含一小部分的搜索意圖。相反,若僅依靠子主題的多樣性來排序,普通用戶可能對(duì)排序靠前的子主題并不感興趣,因?yàn)槠淞餍行钥赡茌^低。因此,本文提出子主題的三級(jí)分層結(jié)構(gòu),獲取數(shù)量相對(duì)較小的子主題,但是這些子主題涵蓋了原始查詢各式各樣的搜索意圖。
將查詢的子主題組織成層級(jí)結(jié)構(gòu)。如果查詢模糊不清,有不少于兩個(gè)子主題,會(huì)變成查詢(根部)的語(yǔ)句子輩(層級(jí)1),更具體的子主題是孫輩(層級(jí)2)。因?yàn)榭赡艿牟樵兯阉饕鈭D不斷縮小,層次結(jié)構(gòu)的深度加深,由此可知高層級(jí)的子主題反映查詢更廣泛的搜索意圖,層級(jí)較低對(duì)應(yīng)的范圍較窄。
相比低層級(jí)而言,少數(shù)層級(jí)較高的子主題包含了查詢?nèi)康囊鈭D。如果任一高層級(jí)子主題的搜索意圖不夠具體,其子節(jié)點(diǎn)(子主題)對(duì)涵蓋更具體的搜索意圖用途很大。然而,這種結(jié)構(gòu)有時(shí)候會(huì)太具體,為了簡(jiǎn)單起見,本文提出子主題的三層分層結(jié)構(gòu),如圖1所示。給定查詢?yōu)楦?,子?jié)點(diǎn)為“主要子主題”,每一個(gè)葉節(jié)點(diǎn)為“次級(jí)子主題”。主要子主題對(duì)搜索意圖進(jìn)行去歧化和具體化,也可能會(huì)選取一組主要子主題來滿足搜索意圖較高的多樣性。次級(jí)子主題更加具體,縮小了主要子主題搜索意圖的范圍,滿足了主要子主題搜索意圖的多樣性。
圖1 子主題的三級(jí)層次結(jié)構(gòu)
為了創(chuàng)建所提出的分層結(jié)構(gòu),假設(shè)與給定查詢相關(guān)度較高的文檔代表了用戶所有可能的搜索意圖,文檔中候選子主題代表了一些搜索意圖。一個(gè)主要候選子主題必須滿足兩個(gè)條件。首先,能包含許多高相關(guān)文檔,從而反映較廣泛的搜索意圖。一般情況下每個(gè)相關(guān)文檔只有一個(gè)主要子主題。因此,包含主要子主題的一組相關(guān)文檔(如圖2中集合A)很少與包含其他子主題的其他集合重疊。而且,該文檔集可能包含一些子集 (如圖 2中集 A-1、A-2、A-1-1和A-1-2),從相應(yīng)文檔集重疊的角度來看,主要子主題和次級(jí)子主題或其他子主題截然不同,主要子主題的文檔集比其他文檔集的清晰度更高。
本文提出了評(píng)分衡量(selection score,SS)法,這一參數(shù)核實(shí)候選子主題包含高相關(guān)文檔的數(shù)量以及相應(yīng)的文檔集與其他的不同之處為:
其中,st是候選子主題,ST是從查詢排名前N的相關(guān)文檔中提取出來所有候選子主題的集合;D(st)是包含查詢排名前N的相關(guān)文檔中的st文檔集合;US是聯(lián)合文檔集,包含之前選出的主要子主題;USc是US集合的補(bǔ)集。
在上述SS測(cè)量中,將覆蓋率和清晰度因素加和,從而避免選擇偏見,為了包含新的高相關(guān)文檔(隱藏的搜索意圖),這些文檔并不包含在之前的主要子主題中。接著,再測(cè)量文檔集的清晰度,本文選擇了清晰度熵(distinctness entropy,DE)的方法[15]。
圖2 查詢“莫扎特”的相關(guān)文檔集
這里將傳統(tǒng)的文檔聚類問題轉(zhuǎn)換為短語(yǔ)排序問題。因?yàn)槲臋n聚類中存在差異巨大的文檔聚類,所以為了保證文檔聚類應(yīng)用與所提出方法的各個(gè)步驟對(duì)應(yīng),在處理過程中添加了一些額外操作,即提取候選子主題,用子主題為聚類命名,并按照聚類間差異進(jìn)行排序。
如前文所述,主要子主題和次級(jí)子主題分組都是相對(duì)較小的分組,用以滿足父節(jié)點(diǎn)的多樣性搜索意圖,在主要子主題和次級(jí)子主題之間存在著繼承的流行度?;谶@些特點(diǎn),本文給出了一種依賴于三級(jí)層次結(jié)構(gòu)的子主題排序序列,用以平衡子主題的流行度和多樣性(如圖3所示)。首先對(duì)主要子主題進(jìn)行排序,通過少量子主題實(shí)現(xiàn)高多樣性。然后選擇首次排序的主要子主題的次級(jí)子主題,須考慮該節(jié)點(diǎn)與父節(jié)點(diǎn)間的流行度以及此節(jié)點(diǎn)搜索意圖的多樣性。繼而,在下一次循環(huán)中對(duì)主要子主題排序后,按流行度對(duì)其次級(jí)子主題進(jìn)行排序。此外,經(jīng)排序的主要子主題和次級(jí)子主題數(shù)量小于目標(biāo)數(shù)量時(shí),其他子主題按照流行度排序,直接添加到經(jīng)排序的子主題隊(duì)尾。算法1和算法2描述了子主題篩選和排序的過程。
圖3 子主題分組滿足父節(jié)點(diǎn)多樣性搜索意圖
算法1 子主題選擇
輸入:文檔集合R,和子主題候選集合ST
輸出:子主題順序列表L
算法2 子主題排序
輸入:給定的前N個(gè)相關(guān)文檔集HRquery,從HRquery提取的所有候選子主題集STall和子主題數(shù)量K
輸出:最終的子主題排列列表Lfinal
在網(wǎng)絡(luò)搜索環(huán)境中,流行度與重要程度相關(guān)。因?yàn)槿绻⑹侵匾?,則表明有大量用戶對(duì)此感興趣。因此,本文通過關(guān)注子主題的重要性來估計(jì)它們的流行度。子主題重要性衡量基于的假設(shè)是:如果在給定查詢時(shí),某一子主題是許多相關(guān)文檔的重要短語(yǔ),那么它就具有高重要性。本文采用詞頻—逆向文檔頻率(TF-IDF)表示目標(biāo)詞在文檔中的重要性。子主題(st)和查詢目標(biāo)相關(guān)文檔集(Rquery)用于TF-IDF的完整語(yǔ)料庫(kù)。計(jì)算TF-IDF累加和與Rquery中的所有相關(guān)文檔作為st的重要性,計(jì)算方式如下:
其中,freq(st,doc)是文檔 st中 doc 的頻率。D(st,Rquery)表示Rquery中包含st的文檔集。
由于文檔比子主題包含更多的信息,如果在估計(jì)子主題流行度時(shí),額外考慮相關(guān)文檔的重要性,將會(huì)得到區(qū)分度更高的子主題流行度。與查詢高相關(guān)的文檔包含更多關(guān)聯(lián)信息,即這些文檔對(duì)用戶查詢很重要。因此,假設(shè)流行度高的子主題能夠檢索到更重要的文檔,就可用文檔覆蓋率函數(shù)(DC)來檢測(cè)高相關(guān)子主題文檔覆蓋查詢隊(duì)列相關(guān)文檔的數(shù)量。
HRst和HRquery分別是st與查詢的前N個(gè)最高相關(guān)文檔集。DSst(doc)和 DSquery(doc)分別是兩者文檔經(jīng) BM 25 模型計(jì)算得到的排序評(píng)分。
權(quán)重值是子主題與相關(guān)文檔的關(guān)聯(lián)度,用來標(biāo)記文檔的重要性和重要度評(píng)分。如果子主題與某文檔高度相關(guān),則給該文檔的評(píng)分分配高權(quán)值。每個(gè)子主題的最終評(píng)分(Score)由STFIDF和DC的線性組合表示:
為了進(jìn)行實(shí)驗(yàn)評(píng)估,本文挖掘了來自NTCIR-9庫(kù)的100個(gè)日文查詢和來自TREC 2009庫(kù)的100個(gè)英文查詢子主題和網(wǎng)絡(luò)跟蹤多樣性任務(wù),在TREC中,每個(gè)查詢都有若干個(gè)子主題描述,用以描述其代表的搜索意圖。網(wǎng)絡(luò)跟蹤多樣性任務(wù)沒有提供關(guān)于搜索意圖的流行度信息。因此,評(píng)估人員手動(dòng)將每個(gè)挖掘子主題歸類為同一意圖。如果兩個(gè)評(píng)估人員都認(rèn)為某一子主題不能歸入同一類,則丟棄它。
給定的日文和英文查詢意圖平均評(píng)分為10.91和4.60。實(shí)驗(yàn)僅使用日文文檔集ClueWeb09-JA和英文文檔集TREC的B類。實(shí)驗(yàn)使用日文MeCab POS標(biāo)簽和英文Stanford POS標(biāo)簽,執(zhí)行名詞短語(yǔ)劃分和識(shí)別,用PROP-x-y標(biāo)志,其中,x 是語(yǔ)言參數(shù),如“J(日文)”或“E(英文)”;y 是方案參數(shù),如“PT”、“HR”、“DC”或“DCA”。基本方案 PT 使用了最簡(jiǎn)單模式和 STFIDF (式 (3)),主要方案 HR、DC和DAC同時(shí)使用了簡(jiǎn)單模式和子主題層次結(jié)構(gòu)。為了評(píng)估流行度,HR僅使用了STFIDF,但是DC和DAC同時(shí)使用了STFIDF 和 DC(式(4))。評(píng)分中的 λ 設(shè)置為 0.5(式(5)),為了避免過度處理,限制最高相關(guān)文檔數(shù)量N為200。
表1~表3中的粗體表示所有方法中的最佳結(jié)果,灰色背景區(qū)域表示本文方法的結(jié)果;在0.01/0.05級(jí)的統(tǒng)計(jì)意義采用標(biāo)識(shí)Q/q、A/a、B/b 區(qū) 分,分別表示基于基準(zhǔn)BASE-J/E-QS、BASE-J/E-AC、BASE-J/E-BP 的改進(jìn)結(jié)果。正如表中所示,在前10、20、30子主題搜索中,本文方法優(yōu)于基準(zhǔn)方法。本文的主要方案間的執(zhí)行方式不一樣,并且基準(zhǔn)只具有統(tǒng)計(jì)意義。D#-nDCG均值表示的日文意義概率(t-test,2-tailed)為 0.05、0.004 和 0.009(p<0.01);英 文 為0.019、0.003 和 0.004(p<0.05)。在日文和英文的前 10 個(gè)子主題中,D#-nDCG均值結(jié)果表明,HR、DC和DAC能夠使用少量(前10個(gè))子主題覆蓋查詢的各種搜索意圖,并能夠適當(dāng)?shù)鼐S護(hù)流行性和多樣性平衡。對(duì)兩種語(yǔ)言而言,與基準(zhǔn)BASE-J-BP、BASE-E-QS 比 較 ,PROP-J-DCA和PROP-E-DC是最好的。當(dāng)D#-nDCG@10時(shí),本文最好的方法提高了9.96%和4.63%。
英文方面,通過使用DC,設(shè)置評(píng)分中的λ為0.5,得到最好的整體結(jié)果。均值D#-nDCG結(jié)果表明,當(dāng)λ值介于0.1和0.7之間時(shí),結(jié)果會(huì)更好(如圖4(b)所示),即子主題可從相關(guān)文檔的重要性中獲得合適的可區(qū)分流行度。然而,在日文子主題中,盡管DCA方案獲得了最好的結(jié)果,但與HR結(jié)果沒有顯著的不同,當(dāng)λ值較大時(shí),D#-nDCG均值減?。ㄈ鐖D 4(a)所示)。
表2 基準(zhǔn)結(jié)果和本文方法對(duì)日英文排名前20個(gè)子主題的搜索結(jié)果
此外,日文查詢中的最好方法甚至優(yōu)于EXT-AC,該方法使用了來自微軟內(nèi)部網(wǎng)絡(luò)搜索平臺(tái)的外部網(wǎng)絡(luò)文檔。即通過使用附加的網(wǎng)絡(luò)文檔,本文方法可以更有效地利用有限的資源,并有可能獲得更高的性能。同時(shí),因?yàn)镈C和DCA更關(guān)注子主題的流行度,所以前10個(gè)子主題并沒有包含對(duì)多樣性影響很大的子主題。
表3 基準(zhǔn)結(jié)果和本文方法對(duì)日英文排名前30個(gè)子主題的搜索結(jié)果
圖4 日文和英文結(jié)果的前K個(gè)子主題的D#-nDCG均值與評(píng)分λ值比較
在每種語(yǔ)言的前10、20、30個(gè)子主題中,D#-nDCG均值持續(xù)改進(jìn),這意味著在考慮流行度和多樣性平衡時(shí),主要方案可以提取更多相關(guān)和多樣性的子主題。當(dāng)與最好的基準(zhǔn)BASE-J-BP/QS和 BASE-E-QS比較時(shí),PROP-J-DCA和PROP-E-DC的 D#-nDCG@20/30均值分別改進(jìn)了 11.10/10.89%和 6.75/6.31%。
英文方面,通過使用DC,設(shè)置評(píng)分中的 λ為 0.5,得到最好的整體結(jié)果。在前20、30個(gè)子主題中,DCA方法取得了比HR更好的效果。此外,基于各種λ值(從0.0到1.0,步長(zhǎng)為 0.1),均值 D#-nDCG結(jié)果表明,當(dāng) λ 值介于0.1和0.7之間時(shí),結(jié)果會(huì)更好(如圖5(b)所示),即子主題可從相關(guān)文檔的重要性中獲得合適的可區(qū)分流行度。然而,在日文子主題中,盡管DCA方案獲得了最好結(jié)果,但與HR結(jié)果沒有顯著的不同;在所有案例中,DC沒有比HR執(zhí)行得更好。此外,當(dāng)λ值較大時(shí),D#-nDCG均值減小(如圖5(a)所示)。由于存在大量無用的術(shù)語(yǔ),這導(dǎo)致了較低的查詢性能。
此外,在日文和英文查詢中,通過設(shè)置查詢的對(duì)應(yīng)評(píng)分λ值,DCA方法分別取得了最好的和相對(duì)較好的搜索性能。然而,該方案僅考慮了子主題的表面信息,不足以決策更合適的DC和STFIDF的權(quán)重。深入分析評(píng)估結(jié)果可知:當(dāng)相關(guān)文檔具有多個(gè)意圖時(shí),DC方法更有優(yōu)勢(shì),而STFIDF適合于只有一個(gè)搜索意圖的文檔。為每個(gè)查詢檢查PROP-J-DC和PROPE-DC的D#-nDCG,發(fā)現(xiàn)許多查詢比PROP-J-HR性能高,卻比PROP-E-HR性能低。使用DC的查詢都獲得了高性能,在相關(guān)文檔中,會(huì)有兩個(gè)或多個(gè)具有不同搜索意圖的子主題以高頻率同時(shí)出現(xiàn),但是其他查詢的子主題卻沒有遵循此模式。因此,通過給定更合適的DC權(quán)重和基于STFIDF來判斷相關(guān)文檔是否具有多個(gè)意圖,來獲得更好的子主題挖掘性能。
在前 10、20、30個(gè)子主題中,本文方法在 I-rec和D-nDCG均值中持續(xù)獲得良好性能。即本文方法按照子主題的相關(guān)度、流行性和多樣性來確保子主題的挖掘性能。與最好的基準(zhǔn)比較,檢索日文時(shí),I-rec@10、I-rec@20、I-rec@30、D-nDCG@10、D-nDCG@20 和 D-nDCG@30 均值獲得改善程度為 9.63%、13.07%、14.52%、10.30%、8.52%和5.76%;英文則為 8.84%、10.53%、10.26%、0.81%、2.67%和1.73%。綜上所述,在提取子主題階段,簡(jiǎn)單模式是有用的,在查找各種相關(guān)子主題時(shí)也是有效的。在子主題排序階段,本文的層次結(jié)構(gòu)在平衡流行度和多樣性方面有良好的效果,因?yàn)榕c其他方法相比,HR、DC和DCA的結(jié)果最佳。
本文提出了一種基于簡(jiǎn)單模式的子主題挖掘方法和一種層次結(jié)構(gòu)候選子主題,在日文和英文搜索中采用了網(wǎng)絡(luò)文檔。在提取子主題階段,各種相關(guān)候選子主題使用名詞短語(yǔ)和替代部分查詢的簡(jiǎn)單模式。在子主題排序階段,構(gòu)建候選子主題的三級(jí)層次結(jié)構(gòu),并用該結(jié)構(gòu)和估計(jì)的流行度進(jìn)行排序。在實(shí)驗(yàn)中,在前10個(gè)子主題中,文中所提出方法性能均優(yōu)于基準(zhǔn),甚至優(yōu)于使用外部網(wǎng)絡(luò)文檔的方法。即本文方法只需少量維持流行度和多樣平衡的子主題便可覆蓋查詢的各種搜索意圖。在前20、30個(gè)子主題中,搜索結(jié)果穩(wěn)步提升,這是因?yàn)樘崛〉南嚓P(guān)的和多樣性的子主題越來越多。
在今后研究中,仍有進(jìn)一步改進(jìn)的空間,例如精煉候選子主題,為每種語(yǔ)言設(shè)計(jì)合適的排序方法,將本文方法與資源開放型方法結(jié)合。此外,子主題的復(fù)雜評(píng)估也是一個(gè)重要問題,尤其是在平衡多樣性和流行度方面。
[1]唐曉波,肖璐.基于單句粒度的微博主題挖掘研究 [J].情報(bào)學(xué)報(bào),2014,33(6):214-219.TANG X B,XIAO L.Research of micro-blog topics mining based on sentence granularity[J].Journal of the China Society for Scientific and TechnicalInformation, 2014, 33 (6):214-219.
[2]田宇辰.專業(yè)搜索引擎的無日志查詢推薦機(jī)制研究及實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2014.TIAN Y C.Research and implementation of non log query recommendation mechanism for professional search engine [D].Guangzhou:South China University of Technology,2014.
[3]李勝浩.基于MapReduce的Web文本挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.LI S H.Research and implementation of Web text mining system based on MapReduce [D].Beijing:Beijing University of Posts and Telecommunications,2013.
[4]BHATIA S,MAJUMDAR D,MITRA P.Query suggestions in theabsenceofquerylogs [C]/InternationalACM SIGIR Conference on Research & Development in Information Retrieval,July 24-28,2011,Beijing,China.NewYork:ACM Press,2011:795-804.
[5]HE J,HOLLINK V,DE VRIES A.Combining implicit and explicit topic representations for result diversification [C]/The 35th international ACM SIGIR conference on Research and development in information retrieval,August 12-16, 2012,Poreland, OR,USA.New York:ACM Press,2012:851-860.
[6]肖璐,唐曉波.基于句子成分的微博熱點(diǎn)主題挖掘模型研究[J].情報(bào)科學(xué),2015,35(11):137-141.XIAO L,TANG X B.Research on micro-blog hot topic mining model based on sentence composition [J].Journal of the China Society for Scientific and Technical Information,2015,35(11):137-141.
[7]ZHU X,GUO J,CHENG X,et al.A unified framework for recommending diverse and relevant queries [C]/World Wide Web Conference Series,March 28-April 1,2011,Hyderabad,India.New York:ACM Press,2011:37-46.
[8] KIM S J,SHIN K Y,LEE J H.Hierarchical subtopic mining for topic annotation [C]/The 6th international workshop on exploiting semantic annotations in information retrieval,October 28,2013,San Francisco,CA,USA.New York:ACM Press,2013:49-52.
[9]劉少鵬,印鑒,歐陽(yáng)佳,等.基于MB-HDP模型的微博主題挖掘[J].計(jì)算機(jī)學(xué)報(bào),2015,42(7):1408-1419.LIU S P,YIN J,OU-YANG J,et al.Topic mining from microblogs based on MB-HDP model [J].Chinese Journal of Computers,2015,42(7):1408-1419.
[10]岑榮偉,劉奕群,張敏,等.基于日志挖掘的搜索引擎用戶行為分析[J].中文信息學(xué)報(bào),2010,24(3):49-54.CEN R W,LIU Y Q,ZHANG M,et al.User behavior analysis of search engine based on log mining [J].Journal of Chinese Information Processing,2010,24(3):49-54.
[11]譚彩麗.基于主題相關(guān)博客的屬性挖掘模型設(shè)計(jì) [D].北京:北京郵電大學(xué),2011.TAN C L.Design of attribute mining model based on topic related blog [D].Beijing:Beijing University of Posts and Telecommunications,2011.
[12]DANG V,CROFT B W.Term level search result diversification[C]//International ACM SIGIR Conference on Research &Development in Information Retrieval,July 28-August 1,2013,Dublin,Ireland.New York:ACM Press,2013:603-612.
[13 曾依靈,許洪波,白碩.網(wǎng)絡(luò)文本主題詞的提取與組織研究[J].中文信息學(xué)報(bào),2008,22(3):64-70.ZENG Y L,XU H B,BAI S.Research on the extraction and organization of Web text topic words [J].Journal of Chinese Information Processing,2008,22(3):64-70.
[14]劉德喜,萬(wàn)常選,劉喜平,等.基于結(jié)點(diǎn)權(quán)重模型的XML片段檢索策略[J].計(jì)算機(jī)學(xué)報(bào),2013,36(8):1729-1744.LIU D X,WAN C X,LIU X P,et al.XML fragment retrieval strategy based on node weight model [J].Chinese Journal of Computers,2013,36(8):1729-1744.
[15]劉志勇,耿新青.基于模糊聚類的文本挖掘算法 [J].計(jì)算機(jī)工程,2009,35(5):44-45.LIU Z Y,GENG X Q.Text mining algorithm based on fuzzy clustering[J].Computer Engineering,2009,35(5):44-45.
Web text mining method based on subtopic selection and three-level stratified structure
SHI Yuzhen,SHAN Donghong
School of Software,Pingdingshan University,Pingdingshan 467000,China
As the problem of fuzzy inquiry and data sparseness cased by intention gap between users and queries,according to the ranking list of possible subtopic from popularity and diversity,subtopic selection and sorting of stratified structure were used for web text mining.Firstly,on the basic of noun phrase and substitute of part query,a simple model was used to extract a variety of related phrases as candidate subtopic.Then,related documents of a web document collection were used to build three-level stratified structure of candidate subtopic.Finally,considering popularity and diversity,the stratified structure and estimated popularity were applied for sorting.Based on 100 Japanese queries from NTCIR-9 library,100 English queries from TREC 2009 library and network tracking diversity task,experiments verify that the proposed method can be effectively applied to a variety of search,and the proposed mining is better than external resources for high ranking subtopics.
data sparseness,text mining,stratified structure,diversity,popularity
Key Project of Science and Technology Department in Henan Province (No.142102210226)
TP391
A
10.11959/j.issn.1000-0801.2016142
2016-03-03;
2016-05-08
河南省科技廳科技重點(diǎn)攻關(guān)項(xiàng)目(No.142102210226)
史玉珍(1975-),女,平頂山學(xué)院副教授,主要從事Web數(shù)據(jù)挖掘、社團(tuán)發(fā)現(xiàn)方面的研究工作。
單冬紅(1976-),女,平頂山學(xué)院副教授,主要從事數(shù)據(jù)挖掘方面的研究工作。