李巖 張博文 郝紅衛(wèi)
摘要:
針對(duì)傳統(tǒng)查詢擴(kuò)展方法在專業(yè)領(lǐng)域中擴(kuò)展詞與原始查詢之間缺乏語(yǔ)義關(guān)聯(lián)的問(wèn)題,提出一種基于語(yǔ)義向量表示的查詢擴(kuò)展方法。首先,構(gòu)建了一個(gè)語(yǔ)義向量表示模型,通過(guò)對(duì)語(yǔ)料庫(kù)中詞的上下文語(yǔ)義進(jìn)行學(xué)習(xí),得到詞的語(yǔ)義向量表示;其次,根據(jù)詞語(yǔ)義向量表示,計(jì)算詞之間的語(yǔ)義相似度;然后,選取與查詢中詞匯的語(yǔ)義最相似的詞作為查詢的擴(kuò)展詞,擴(kuò)展原始查詢語(yǔ)句;最后,基于提出的查詢擴(kuò)展方法構(gòu)建了生物醫(yī)學(xué)文檔檢索系統(tǒng),針對(duì)基于維基百科或WordNet的傳統(tǒng)查詢擴(kuò)展方法和BioASQ 2014—2015參加競(jìng)賽的系統(tǒng)進(jìn)行對(duì)比實(shí)驗(yàn)和顯著性差異指標(biāo)分析。實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)義向量表示查詢擴(kuò)展的檢索方法所得到結(jié)果優(yōu)于傳統(tǒng)查詢擴(kuò)展方法的結(jié)果,平均準(zhǔn)確率至少提高了1個(gè)百分點(diǎn),在與競(jìng)賽系統(tǒng)的對(duì)比中,系統(tǒng)的效果均有顯著性提高。
關(guān)鍵詞:
查詢擴(kuò)展;語(yǔ)義表示學(xué)習(xí);生物醫(yī)學(xué)文檔;信息檢索;自然語(yǔ)言處理
中圖分類號(hào):
TP391.3
文獻(xiàn)標(biāo)志碼:A
Abstract:
To solve the problem that the traditional query expansion used in professional domains suffers from the lack of semantic relations between expansion terms and original queries, a query expansion approach based on semantic vector representation was proposed. First, a semantic vector representation model was designed to learn the semantic vector representations of words from their contexts in corpus. Then, the similarities between words were computed with their semantic representations. Afterwards, the most similar words were selected from the corpus as the expansion terms to enrich the queries. Finally, a search system of biomedical literatures was built based on this expansion approach and compared with the traditional query expansion approaches based on Wikipedia or WordNet and the BioASQ participants along with the significant difference analysis. The comparison experimental results indicate that the proposed query expansion approach based on semantic vector representations outperforms the baselines, and the mean average precision increases by at least one percentage point; furthermore, the search system performs better than the BioASQ participants significantly.
英文關(guān)鍵詞Key words:
query expansion; semantic representation learning; biomedical document; information retrieval; natural language processing
0引言
隨著信息時(shí)代的到來(lái),源源不斷的信息從互聯(lián)網(wǎng)中涌現(xiàn),對(duì)信息的檢索已是用戶日常生活中不可缺少的一部分。由于信息種類之多,內(nèi)容涉及范圍之廣,這使得從海量信息中準(zhǔn)確定位到滿足用戶需求的信息成為一個(gè)亟待解決的問(wèn)題。然而用戶的需求變得越來(lái)越模糊,用戶甚至可能不知道與需求相關(guān)的關(guān)鍵詞進(jìn)而給定一些簡(jiǎn)短的查詢語(yǔ)句或幾個(gè)查詢?cè)~。在這種情況下,僅使用用戶給出的少量查詢信息進(jìn)行關(guān)鍵詞匹配可能找不到相關(guān)的文檔或信息[1]。因此,根據(jù)用戶給定的查詢語(yǔ)句,對(duì)其進(jìn)行內(nèi)容擴(kuò)展方法的研究是勢(shì)在必行的。
用戶提出的查詢語(yǔ)句是進(jìn)行信息檢索的主要依據(jù),但查詢語(yǔ)句中所提供的少量信息會(huì)導(dǎo)致檢索結(jié)果不夠準(zhǔn)確,導(dǎo)致信息量不足的原因主要體現(xiàn)在兩個(gè)方面:1)在復(fù)雜專業(yè)領(lǐng)域檢索時(shí),用戶由于知識(shí)受限,使得提出的查詢內(nèi)容不能滿足檢索的需求;2)由于表達(dá)和敘述方式的不同,基于關(guān)鍵詞匹配的檢索方法不能檢索出相關(guān)的結(jié)果。查詢擴(kuò)展可從一定程度上彌補(bǔ)檢索過(guò)程中用戶提供信息量不足的問(wèn)題[2],它在原有查詢語(yǔ)句基礎(chǔ)上,通過(guò)多種方式和策略對(duì)查詢語(yǔ)句中的詞進(jìn)行擴(kuò)展,用更為豐富的查詢?cè)~進(jìn)行信息檢索。
擴(kuò)展查詢?cè)~的選擇是查詢擴(kuò)展最關(guān)鍵的步驟之一,當(dāng)前國(guó)內(nèi)外研究學(xué)者對(duì)此技術(shù)進(jìn)行了一些卓有成效的研究,提出了一些具有啟發(fā)性的方法與技術(shù)。總的來(lái)說(shuō),擴(kuò)展查詢?cè)~的選擇通常有三種方式:第一種是根據(jù)語(yǔ)言學(xué)知識(shí)構(gòu)建大規(guī)模的手工詞典。如PalDipasree等[3]提出一種基于WordNet定義的方法,使用詞匯的定義擴(kuò)展查詢;Parapar等[4]使用WordNet中不同類型的語(yǔ)言信息擴(kuò)展查詢,但實(shí)驗(yàn)結(jié)果表明,并不是每次都有明顯的效果,而且WordNet的使用在引入擴(kuò)展詞的過(guò)程中增加了大量與查詢內(nèi)容無(wú)關(guān)的查詢?cè)~。第二種是基于大規(guī)模通用語(yǔ)料庫(kù)信息統(tǒng)計(jì)的方法來(lái)選擇擴(kuò)展查詢?cè)~。如王水利等[5]提出了利用基于互信息的共現(xiàn)模型分析初檢文檔,結(jié)合語(yǔ)義詞典兩方面選取擴(kuò)展詞對(duì)原查詢進(jìn)行擴(kuò)展形成新的查詢。這類查詢擴(kuò)展方法帶來(lái)的噪聲信息小,但是由于互信息或者共現(xiàn)和同義詞的概念是不同的,因此達(dá)不到同義詞擴(kuò)展的目的,效果上一般沒(méi)有明顯的提高。第三種是基于Web的查詢擴(kuò)展。如Xu等[6]提出了一種基于維基百科的偽相關(guān)反饋方法,分別對(duì)查詢對(duì)象為實(shí)體、查詢對(duì)象具有歧義和其他類型的查詢對(duì)象設(shè)計(jì)了不同的選擇擴(kuò)展詞的方案。這類方法結(jié)合了前兩種方法的優(yōu)點(diǎn),在開放領(lǐng)域的信息檢索中有很好的效果;但在特定領(lǐng)域中,由于對(duì)維基百科語(yǔ)料庫(kù)的依賴,上述方法不能全面地包含某些特定領(lǐng)域的詞匯,導(dǎo)致查詢擴(kuò)展的效果不佳。更重要的是,以上三種方法均忽略了語(yǔ)義在查詢擴(kuò)展中的重要性,即盡可能保留原始查詢的局部語(yǔ)義和全局語(yǔ)義,既要強(qiáng)調(diào)擴(kuò)展詞與查詢?cè)~的同義性,又要強(qiáng)調(diào)擴(kuò)展后的查詢與原始查詢的同義性。
文獻(xiàn)[7-8]提出結(jié)合上下文的內(nèi)容來(lái)學(xué)習(xí)詞的語(yǔ)義向量表示,得到的向量在語(yǔ)義空間中具有一定的語(yǔ)義關(guān)聯(lián),即在語(yǔ)義空間中,相似或相關(guān)語(yǔ)義的詞距離更近。針對(duì)專業(yè)領(lǐng)域來(lái)說(shuō),如生物醫(yī)學(xué)領(lǐng)域,其檢索過(guò)程涉及了大量專業(yè)詞匯以及特殊的含義,而對(duì)查詢?cè)~的擴(kuò)展往往需要一個(gè)已有的詞典或者擴(kuò)展詞來(lái)源,但這些仍然不能滿足專業(yè)領(lǐng)域的知識(shí)需要,如“IL6,IL6”是白細(xì)胞介素6的意思,但詞典中可能不會(huì)含有這個(gè)詞的英文簡(jiǎn)寫,進(jìn)而不能進(jìn)一步尋找其相關(guān)詞。又如“系統(tǒng)性紅斑狼瘡”一詞,在同一文獻(xiàn)中的形式是一致的,但在其他文獻(xiàn)中可能還會(huì)出現(xiàn)“狼瘡血管炎”“全身性紅斑狼瘡”等同義詞,這些詞可能不會(huì)全部出現(xiàn)在同義詞庫(kù)中,而且用戶在查詢時(shí)不會(huì)將同義詞也逐一列出,同時(shí)使用共現(xiàn)等方式得到的擴(kuò)展詞僅是與該詞有共現(xiàn)關(guān)系的詞,并不一定是相關(guān)的詞。因此,引入語(yǔ)義向量表示模型對(duì)專業(yè)詞匯進(jìn)行語(yǔ)義表示從而得到相似詞作為擴(kuò)展詞是很有必要的。
綜上所述,本文提出了一種基于語(yǔ)義表示的查詢擴(kuò)展方法。本文第1節(jié)詳細(xì)地描述了語(yǔ)義向量表示模型;第2節(jié)中通過(guò)語(yǔ)義向量相似度的計(jì)算給出了查詢擴(kuò)展方法;第3節(jié)結(jié)合提出的查詢擴(kuò)展方法構(gòu)建了一個(gè)文檔檢索系統(tǒng)并通過(guò)在公開集數(shù)據(jù)BioASQ上的對(duì)比實(shí)驗(yàn)給出對(duì)結(jié)果的分析;最后進(jìn)行總結(jié)。
1基于上下文的語(yǔ)義向量表示
近年來(lái)隨著深度學(xué)習(xí)的發(fā)展,語(yǔ)義表示學(xué)習(xí)可以采用低維度連續(xù)向量來(lái)刻畫詞的語(yǔ)義,使得具有相似或相關(guān)語(yǔ)義的詞向量在語(yǔ)義空間中距離比其他語(yǔ)義的詞近。由于用戶在進(jìn)行查詢時(shí)使用的詞,在其相關(guān)的結(jié)果中可能以相近詞的形式出現(xiàn),故而可以這種方式來(lái)選擇擴(kuò)展查詢?cè)~。因此,可以通過(guò)引入語(yǔ)義向量表示模型,針對(duì)專業(yè)領(lǐng)域相關(guān)文檔(如生物醫(yī)學(xué)文檔)的詞進(jìn)行語(yǔ)義向量表示,通過(guò)相似度計(jì)算幫助選擇專業(yè)領(lǐng)域查詢?cè)~的擴(kuò)展詞,從而改善查詢擴(kuò)展的結(jié)果。本章將對(duì)基于上下文的語(yǔ)義向量表示方法進(jìn)行介紹。
對(duì)于一個(gè)詞來(lái)說(shuō),它所包含的語(yǔ)義應(yīng)該由該詞所在的語(yǔ)義環(huán)境,即該詞周圍的詞的語(yǔ)義來(lái)決定,那么就是將一個(gè)詞語(yǔ)義向量的訓(xùn)練過(guò)程轉(zhuǎn)化成一個(gè)判斷該詞語(yǔ)義在其上下文語(yǔ)義中是否成立的過(guò)程。語(yǔ)義向量表示方法的目標(biāo)是根據(jù)該語(yǔ)義單元的上下文語(yǔ)義,學(xué)習(xí)得到其語(yǔ)義表示,使得該語(yǔ)義單元在其上下文所形成的語(yǔ)言環(huán)境中具有最高的不可替代性。
模型中的上下文包括局部上下文(s)和全局上下文(d)。其中局部上下文指詞在文檔中其周圍的詞,全局上下文指詞所在文檔。模型從文檔中逐一取出每個(gè)詞(中心詞)之前的n個(gè)詞作為其局部上下文,連同該中心詞,聯(lián)結(jié)其對(duì)應(yīng)的向量成為模型局部上下文的正樣本輸入。詞所在的段落作為全局上下文,使用平均加權(quán)的方式將段落中的所有詞向量求平均,所得到的向量連同中心詞向量一同作為模型全局樣本輸入。將中心詞隨機(jī)替換為其他詞,其局部上下文保持不變,所組成的向量作為模型局部上下文的負(fù)樣本輸入,而替換的詞與原有的全局上下文表示所組成的向量作為模型全局上下文的負(fù)樣本輸入。
如圖1所示,模型由兩個(gè)神經(jīng)網(wǎng)絡(luò)構(gòu)成,其輸入為上下文正負(fù)樣本的向量表示,輸出均為一個(gè)數(shù)值。兩個(gè)神經(jīng)網(wǎng)絡(luò)分別用于將每個(gè)中心詞的局部上下文正負(fù)樣本和全局上下文正負(fù)樣本轉(zhuǎn)化為分?jǐn)?shù)。用于局部上下文計(jì)算的神經(jīng)網(wǎng)絡(luò)為四層,用于全局上下文計(jì)算的神經(jīng)網(wǎng)絡(luò)為三層。局部上下文計(jì)算過(guò)程為:
2擴(kuò)展的新查詢語(yǔ)句形成
對(duì)用戶提出的一條查詢來(lái)說(shuō),查詢中并不是所有的詞語(yǔ)都與其目標(biāo)文檔相關(guān),又由于每個(gè)用戶對(duì)查詢的表達(dá)方式各不相同,所以也并不是查詢中所有的詞語(yǔ)都可以直接匹配到相關(guān)文檔的關(guān)鍵詞語(yǔ)。因此,需要將一些內(nèi)容相關(guān)的替換詞,即查詢擴(kuò)展詞,引入到原始的查詢中。作為查詢擴(kuò)展的前提條件,本文首先基于上下文的語(yǔ)義單元向量表示模型,對(duì)專業(yè)領(lǐng)域語(yǔ)料庫(kù)中所涉及到的所有詞進(jìn)行訓(xùn)練,得到所有詞的語(yǔ)義向量表示F,然后文本通過(guò)計(jì)算兩個(gè)詞向量Fi={fi1, fi2,…, fim}和Fj={fj1, fj2,…, fjm}的相似度來(lái)衡量?jī)蓚€(gè)詞的相似度,計(jì)算公式為:
simij=cos〈Fi,F(xiàn)j〉=∑mk=1fik fjk∑mk=1f2ik∑mk=1f2jk(9)
其中: fip表示向量Fi中第k個(gè)數(shù)值,m表示向量維數(shù)。通過(guò)計(jì)算一個(gè)查詢?cè)~與其余所有詞的相似度,本文取出其中相似度最高的n個(gè)詞作為擴(kuò)展查詢?cè)~。
查詢語(yǔ)句擴(kuò)展示意圖如圖2所示,在給定一個(gè)查詢語(yǔ)句時(shí),經(jīng)過(guò)停用詞處理后,得到一個(gè)包含關(guān)鍵原始查詢?cè)~的序列,即:
Q=(q1,q2,…,qi,…,qL)(10)
其中:qi表示序列中依次出現(xiàn)的關(guān)鍵原始查詢?cè)~,并且有一個(gè)語(yǔ)義向量與之對(duì)應(yīng)。通過(guò)式(9)計(jì)算每一個(gè)原始查詢?cè)~與詞典中其余所有詞的相似度,取出相似度最高的n個(gè)語(yǔ)義向量對(duì)應(yīng)的詞。本文將這n個(gè)詞作為qi的查詢擴(kuò)展詞集合:
P(i)={p(i)1,p(i)3,p(i)3,…,p(i)n}(11)
其中:p(i)n表示根據(jù)原始查詢?cè)~qi的語(yǔ)義所擴(kuò)展得到的與其語(yǔ)義相近的第n個(gè)查詢擴(kuò)展詞,集合P(i)中的每一個(gè)查詢擴(kuò)展詞都可以作為原始查詢?cè)~qi的替換詞。那么原始查詢語(yǔ)句中的詞則可以由式(12)中的任意一項(xiàng)替換,即為原始查詢語(yǔ)句中第i個(gè)詞可被替換的所有可能,替換后的語(yǔ)句如式(13)所示為擴(kuò)展后的新語(yǔ):
Q(i)={qi}∪P(i)(12)
Qnew=(Q(1),Q(2),Q(3),…,Q(L))(13)
綜上所述,從原始查詢語(yǔ)句Q依次通過(guò)式(11)~(13)得到Qnew的過(guò)程即為基于語(yǔ)義向量表示的查詢語(yǔ)句擴(kuò)展過(guò)程。由此可知,新形成的查詢語(yǔ)句會(huì)有多種不同表達(dá)方式,從而擴(kuò)展了原始查詢語(yǔ)句的多樣性。
理論上來(lái)說(shuō),相比其他查詢擴(kuò)展方法,本文提出的查詢擴(kuò)展方法具有兩個(gè)明顯的優(yōu)勢(shì):一方面,基于語(yǔ)義向量的查詢擴(kuò)展方法利用了基于上下文的詞向量表示,在訓(xùn)練的過(guò)程中,體現(xiàn)了擴(kuò)展詞與查詢?cè)~在語(yǔ)料庫(kù)中的可替代性,這種可替代性在查詢中可以同樣得到體現(xiàn);另一方面,在獲得語(yǔ)義向量后,查詢語(yǔ)句形成過(guò)程中,本文提出的方法保留了查詢的原始語(yǔ)序,在最大限度上保留了原始查詢的語(yǔ)義,降低查詢擴(kuò)展過(guò)程帶來(lái)的無(wú)關(guān)信息的影響。
3生物醫(yī)學(xué)文檔檢索系統(tǒng)及實(shí)驗(yàn)分析
以生物醫(yī)學(xué)文檔檢索為例,將基于生物醫(yī)學(xué)詞匯的語(yǔ)義向量表示引入到查詢擴(kuò)展當(dāng)中,設(shè)計(jì)一個(gè)生物醫(yī)學(xué)文檔檢索系統(tǒng);然后,將結(jié)果分別與傳統(tǒng)查詢擴(kuò)展方法和BioASQ生物醫(yī)學(xué)競(jìng)賽中其他信息檢索的方法對(duì)比,通過(guò)對(duì)比驗(yàn)證本文提出的查詢擴(kuò)展方法既優(yōu)于傳統(tǒng)的查詢擴(kuò)展方法,又具有足夠的實(shí)際應(yīng)用價(jià)值。
3.1生物醫(yī)學(xué)文檔檢索系統(tǒng)
如圖3所示,為本文設(shè)計(jì)的一個(gè)生物醫(yī)學(xué)文檔檢索系統(tǒng),該系統(tǒng)主要有以下四部分組成:
1)原始查詢?cè)~提取。給定一個(gè)查詢語(yǔ)句,使用一個(gè)通用的停用詞表對(duì)原始查詢中的詞進(jìn)行過(guò)濾,去掉常用詞以及不起作用的詞,僅保留有實(shí)體意義的查詢?cè)~。
2)擴(kuò)展查詢?cè)~選擇。使用語(yǔ)義單元向量模型對(duì)生物醫(yī)學(xué)領(lǐng)域的詞匯進(jìn)行語(yǔ)義向量表示。針對(duì)每個(gè)原始查詢?cè)~與其他詞計(jì)算相似度,從中找出與之相似度最接近的n個(gè)詞,作為擴(kuò)
展查詢?cè)~。
3)查詢語(yǔ)句擴(kuò)展。使用原始查詢中對(duì)應(yīng)的擴(kuò)展查詢?cè)~在原始查詢語(yǔ)句中進(jìn)行一定幾率的替換,將新生成的查詢?cè)~序列作為擴(kuò)展查詢語(yǔ)句。
4)使用檢索工具查詢。使用Galago作為檢索工具進(jìn)行生物醫(yī)學(xué)文檔檢索。在檢索時(shí),使用順序依賴模型(Sequence Dependence Model, SDM)來(lái)強(qiáng)化檢索的方式,以便提高查詢結(jié)果的準(zhǔn)確率。最后,Galago返回一個(gè)文檔列表,該列表中的文檔按照與查詢語(yǔ)句的相關(guān)程度排序。
3.2BioASQ數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)使用來(lái)自2014年和2015年BioASQ生物醫(yī)學(xué)競(jìng)賽階段A生物醫(yī)學(xué)語(yǔ)義問(wèn)答任務(wù)的官方真實(shí)數(shù)據(jù)以及從MEDLINE數(shù)據(jù)庫(kù)中獲取的生物醫(yī)學(xué)文檔集作為檢索庫(kù)。階段A的數(shù)據(jù)由專家提出的相關(guān)專業(yè)問(wèn)題組成,數(shù)據(jù)集共發(fā)布了1個(gè)訓(xùn)練集和5個(gè)競(jìng)賽的測(cè)試集,其中訓(xùn)練集包含300個(gè)問(wèn)題,每個(gè)測(cè)試集包含100個(gè)問(wèn)題。文檔集包含了從建庫(kù)之日起到2013年間的2200萬(wàn)篇生物醫(yī)學(xué)相關(guān)文章的標(biāo)題和摘要。該階段任務(wù)是根據(jù)給定的問(wèn)題,從檢索庫(kù)中找出與問(wèn)題答案最相關(guān)的100篇文章,測(cè)評(píng)的指標(biāo)是平均準(zhǔn)確率(Mean Average Precision, MAP)。
本文從MEDLINE數(shù)據(jù)庫(kù)中選擇120萬(wàn)篇文章的標(biāo)題和摘要作為生物醫(yī)學(xué)領(lǐng)域詞向量的訓(xùn)練數(shù)據(jù),文章涵蓋了從1948年以來(lái)出現(xiàn)的生物醫(yī)學(xué)相關(guān)的詞,這些詞的語(yǔ)義最初由隨機(jī)初始的向量來(lái)表示。本文采用語(yǔ)義向量表示模型進(jìn)行語(yǔ)義表示訓(xùn)練,通過(guò)出現(xiàn)頻率篩選,得到了48361個(gè)主要詞的向量表示。
3.3擴(kuò)展查詢?cè)~數(shù)量選擇實(shí)驗(yàn)
本文將每一個(gè)原始查詢?cè)~對(duì)應(yīng)的擴(kuò)展查詢?cè)~數(shù)量縮小到從1到10的范圍。為了進(jìn)一步確定擴(kuò)展查詢?cè)~選取的數(shù)量,依次使用不同數(shù)量的擴(kuò)展查詢?cè)~在訓(xùn)練集和測(cè)試集進(jìn)行實(shí)驗(yàn),并對(duì)最終的MAP評(píng)價(jià)結(jié)果進(jìn)行了比較,如表1所示。從結(jié)果中可以看出,當(dāng)擴(kuò)展查詢?cè)~的數(shù)量取3時(shí),該方法在訓(xùn)練集和測(cè)試集上的表現(xiàn)最好。
3.4與傳統(tǒng)查詢擴(kuò)展方法對(duì)比實(shí)驗(yàn)
在本實(shí)驗(yàn)中,將本文查詢擴(kuò)展方法(OurM)與傳統(tǒng)方法進(jìn)行對(duì)比,對(duì)比實(shí)驗(yàn)方法及設(shè)置如下:
Wikipedia(Wiki):Wikipedia(維基百科)是一個(gè)免費(fèi)的百科網(wǎng)站,如果原始查詢語(yǔ)句中的詞與網(wǎng)站中的實(shí)體頁(yè)關(guān)聯(lián),則將實(shí)體頁(yè)中的關(guān)鍵詞作為查詢擴(kuò)展詞。
WordNet(WN):根據(jù)每個(gè)原始查詢?cè)~在WordNet中進(jìn)行查詢,將該詞對(duì)應(yīng)的相關(guān)詞作為查詢擴(kuò)展詞。
實(shí)驗(yàn)中,本文將Galago的參數(shù)設(shè)置為2000,使用TRAC_EVAL作為評(píng)價(jià)工具來(lái)計(jì)算MAP值,結(jié)果如表2所示。
從表2的結(jié)果可以看出,基于維基百科和WordNet的兩種查詢擴(kuò)展方法的檢索結(jié)果相當(dāng),而使用生物醫(yī)學(xué)語(yǔ)義詞向量得到的檢索結(jié)果優(yōu)于傳統(tǒng)的查詢擴(kuò)展方法,MAP分別提高1%、2%、6%、1%、5%、5%MAP值分別最多提高了5.6%和6.0%。原因在于一些專業(yè)詞匯或者其特殊含義不能在維基百科知識(shí)庫(kù)和WordNet同義詞表中找到,因此使得擴(kuò)展詞的語(yǔ)義有所偏差。
3.5BioASQ實(shí)際評(píng)測(cè)結(jié)果
使用文本所提出的生物醫(yī)學(xué)文檔檢索系統(tǒng)(OurS)與BioASQ測(cè)評(píng)競(jìng)賽的參賽隊(duì)伍成績(jī)進(jìn)行比較。表3為2014年BioASQ參賽隊(duì)伍的成績(jī),表中包含參加了至少兩組測(cè)試的隊(duì)伍。其中,SNUMedinfo團(tuán)隊(duì)使用了UMLS生物醫(yī)學(xué)專有名詞集對(duì)查詢進(jìn)行了擴(kuò)展[9];UMass團(tuán)隊(duì)使用了文檔中的圖片,對(duì)圖片內(nèi)容進(jìn)行識(shí)別,并把識(shí)別出的文本作為關(guān)鍵信息擴(kuò)展到查詢中[10];BTM是由美國(guó)美國(guó)國(guó)家生物技術(shù)信息中心通過(guò)其擁有的大量的生物醫(yī)學(xué)資源進(jìn)行對(duì)于查詢和文檔同時(shí)擴(kuò)展,通過(guò)檢索得到的結(jié)果[11];main system是由BioASQ官方通過(guò)PubMed搜索引擎在文檔集上檢索的結(jié)果,作為評(píng)測(cè)的基準(zhǔn);Wishart則是采取了支持向量機(jī)(Support Vector Machine, SVM)等分類模型,判斷某一個(gè)文檔是否與查詢有關(guān);而AllFigdoc和HPI團(tuán)隊(duì),在技術(shù)報(bào)告中缺乏對(duì)方法的描述,因此只有官方的比賽成績(jī)[12]。這些方法中,和擴(kuò)展相關(guān)的方法大都依賴于額外的生物醫(yī)學(xué)數(shù)據(jù)集或名詞集,而且擴(kuò)展的過(guò)程主要是基于詞頻或基于名詞在集合中的共現(xiàn)概率,而忽略了該名詞本身的語(yǔ)義。通過(guò)幾組實(shí)驗(yàn)結(jié)果可以看出這些方法并不適合。
相比其他方法,本文的方法重點(diǎn)關(guān)注了查詢?cè)~本身的語(yǔ)義。通過(guò)語(yǔ)義向量表示的方法,確保查詢擴(kuò)展過(guò)程中添加到查詢中的擴(kuò)展詞與原查詢?cè)~語(yǔ)義相同或者相近,從而保證了查詢擴(kuò)展的質(zhì)量。
4結(jié)語(yǔ)
本文針對(duì)查詢擴(kuò)展中擴(kuò)展詞與原始查詢之間缺乏語(yǔ)義關(guān)聯(lián)的問(wèn)題,提出了一種基于語(yǔ)義向量表示的查詢擴(kuò)展方法,并設(shè)計(jì)了一個(gè)生物醫(yī)學(xué)文檔檢索系統(tǒng)。以生物醫(yī)學(xué)領(lǐng)域?yàn)槔?xùn)練了生物醫(yī)學(xué)詞匯的語(yǔ)義向量,通過(guò)計(jì)算相似度的方法
選取語(yǔ)義相近的詞,并用于擴(kuò)展查詢語(yǔ)句。最后,在與基于維基百科或WordNet的傳統(tǒng)查詢擴(kuò)展方法和BioASQ 2014參加競(jìng)賽的系統(tǒng)的實(shí)驗(yàn)對(duì)比中,基于語(yǔ)義向量表示的查詢擴(kuò)展方法在檢索結(jié)果上優(yōu)于傳統(tǒng)的查詢擴(kuò)展方法。生物醫(yī)學(xué)文檔檢索系統(tǒng)在BioASQ 2014年測(cè)試中,檢索結(jié)果均優(yōu)于參賽各隊(duì)伍成績(jī),并且均有顯著性提高(p<0.5);在BioASQ 2015年的比賽中,生物醫(yī)學(xué)文檔檢索系統(tǒng)取得了競(jìng)賽中第一名兩次和第二名兩次。實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)義向量表示的查詢擴(kuò)展方法是有效的。
本文方法仍有可改進(jìn)和優(yōu)化的空間:1)可以將基于語(yǔ)義向量表示的查詢擴(kuò)展方法應(yīng)用更多的特殊領(lǐng)域信息檢索;2)可以將語(yǔ)義向量表示模型應(yīng)用與信息檢索的其他研究方向。
參考文獻(xiàn):
[1]
XU J, CROFT W B. Query expansion using local and global document analysis [C]// SIGIR 96: Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1996: 4-11.
[2]
VOORHEES E M. Query expansion using lexicalsemantic relations [C]// SIGIR 94: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berlin: Springer, 1994: 61-69.
[3]
DIPASREE P, MAR M, KALYANKUMAR D. Improving query expansion using WordNet [J]. Journal of the Association for Information Science and Technology, 2013, 65(12): 2469-2478.
[4]
PARAPAR D, BARREIRO A, LOSADA D E. Query expansion using WordNet with a logical model of information retrieval [C]// AC2005: Proceedings of the IADIS International Conference on Applied Computing. Algarve: IJCSIS, 2005: 487-494.
PARAPAR D, BARREIRO A, LOSADA D E. Query expansion using WordNet with a logical model of information retrieval [EB/OL]. [20151123]. http://wwwgsi.dec.usc.es/~dlosada/iadis05.pdf.
[5]
王水利,黃廣君,霍亞格.基于語(yǔ)義分析的查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2011,37(16):77-79.(WANG S L, HUANG G J, HUO Y G. Query expansion method based on semantic analysis [J]. Computer Engineering, 2011, 37(16): 77-79.)
[6]
XU Y, JONES G J F, WANG B. Query dependent pseudorelevance feedback based on wikipedia [C]// SIGIR 09: Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2009: 59-66.
[7]
HUANG E H, SOCHER R, MANNING C D, et al. Improving word representations via global context and multiple word prototypes [C]// ACL 12: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2012, 1: 873-882.
[8]
LI Y, ZHANG Y, HUANG X, et al. Chinese word segmentation with local and global context representation learning [J]. High Technology Letters, 2015, 21(1): 71-77.
[9]
CHOI S, CHOI J. Classification and retrieval of biomedical literatures: SNUMedinfo at CLEF QA track BioASQ 2014 [C]// CLEF: Conference and Labs of the Evaluation Forum (Working Notes). Berlin: Springer, 2014: 1283-1295.
CHOI S, CHOI J. Classification and retrieval of biomedical literatures: SNUMedinfo at CLEF QA track BioASQ 2014 [EB/OL]. [20160102]. http://ceurws.org/Vol1180/CLEF2014wnQAChoiEt2014.pdf.
[10]
JESSE L, LAURA D. UMass at BioASQ 2014: figureinspired text retrieval [C]// CLEF: Proceedings of the 2014 Conference and Labs of the Evaluation Forum (Working Notes). Berlin: Springer, 2014: 1296-1310.
[11]
MAO Y, WEI C H, LU Z. NCBI at the 2014 BioASQ challenge task: largescale biomedical semantic indexing and question answering [C]// CLEF: Proceedings of the 2014 Conference and Labs of the Evaluation Forum (Working Notes). Berlin: Springer, 2014: 1319-1327.