• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      專利查詢擴(kuò)展的詞向量方法研究*

      2018-06-19 06:11:04林鴻飛
      計算機(jī)與生活 2018年6期
      關(guān)鍵詞:詞項文檔檢索

      許 侃,林 原,曲 忱,徐 博,林鴻飛+

      1.大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,大連 116024

      2.大連理工大學(xué) 科學(xué)學(xué)與科技管理研究所,大連 116024

      1 引言

      專利信息廣泛存在并滲透于科技、經(jīng)濟(jì)和社會生活的各個領(lǐng)域,具有集多種信息于一體,數(shù)量巨大,學(xué)科范圍廣,公布快捷,內(nèi)容新穎,高度標(biāo)準(zhǔn)化,以及揭示發(fā)明創(chuàng)造內(nèi)容完整詳盡等優(yōu)點,已成為人們從事科學(xué)研究、技術(shù)開發(fā)和法律規(guī)范等社會經(jīng)濟(jì)活動必不可少的重要信息。

      從海量的專利文獻(xiàn)或?qū)@麛?shù)據(jù)庫中可以檢索得到有價值的專利文獻(xiàn)或信息,經(jīng)過分析處理后可以了解所需求的專利信息。其作用在于避免重復(fù)開發(fā),規(guī)避他人專利保護(hù)范圍,利用他人的專利技術(shù),洞悉競爭對手研發(fā)方向,完善已有技術(shù)方案等。因此,在開發(fā)新產(chǎn)品、技術(shù)難題攻關(guān)、進(jìn)行技術(shù)貿(mào)易、引進(jìn)專利技術(shù)前,專利檢索是十分重要的。但是專利數(shù)據(jù)如此海量,如何從龐大的數(shù)據(jù)中得到重要的信息,已經(jīng)使專利檢索成為專利信息利用的焦點。

      查詢擴(kuò)展方法被廣泛地應(yīng)用于提高信息檢索結(jié)果的準(zhǔn)確率[1-3]。其中,偽相關(guān)反饋(pseudo relevance feedback,PRF)方法作為一種查詢擴(kuò)展方法被證明是十分有效的[4-5]。查詢擴(kuò)展過程實際上是對用戶提交的原始查詢關(guān)鍵字進(jìn)行修改,從而更好地表達(dá)用戶的潛在意圖,并將重構(gòu)后的查詢作為關(guān)鍵詞輸入搜索引擎。因而查詢重構(gòu)的首要目的是為了提升整體排序質(zhì)量,并將其展現(xiàn)給用戶。Wang等人[6]采用了一種基于語義的查詢擴(kuò)展技術(shù)來豐富專利查詢,并更加準(zhǔn)確地理解用戶的專利查詢意圖。Khuda-Bukhsh[7]等人提出了一種基于主動學(xué)習(xí)的查詢分類方法,并取得了較好的分類效果。Wu等人[8]提出了一種構(gòu)建偽查詢的方法來進(jìn)行查詢意圖檢測。Potey等人[9]則充分利用查詢?nèi)罩拘畔ⅲ⑶一诓樵內(nèi)罩緲?gòu)建了查詢意圖識別模型。Rashidghalam等人[10]利用BabelNet概率和訪問概率算法提出了一種非監(jiān)督的查詢意圖識別算法。用戶的查詢意圖識別是搜索引擎必需完善的技術(shù),而在專利檢索中用戶往往關(guān)注某一特定領(lǐng)域的專利,將用戶的查詢意圖準(zhǔn)確地映射至某一特定的專業(yè)領(lǐng)域?qū)τ谔岣邔@麢z索系統(tǒng)的用戶體驗顯得更加重要。

      查詢重構(gòu)過程需要從特定的語料資源中挖掘各詞項與原始查詢之間的某種關(guān)聯(lián)屬性,進(jìn)而選擇關(guān)聯(lián)程度較高的詞項作為擴(kuò)展詞加入查詢。查詢重構(gòu)技術(shù)的兩個關(guān)鍵環(huán)節(jié)在于擴(kuò)展資源的選取以及詞項間關(guān)聯(lián)屬性的挖掘。在擴(kuò)展源一致的情況下,詞項之間的關(guān)聯(lián)挖掘?qū)τ诓樵償U(kuò)展過程顯得尤為重要。

      近年來,深度學(xué)習(xí)作為一種有效的機(jī)器學(xué)習(xí)方法使得文本挖掘領(lǐng)域得到了進(jìn)一步發(fā)展。專利檢索也是文本挖掘領(lǐng)域的一個重要研究任務(wù),因此深度學(xué)習(xí)方法有著很好的應(yīng)用基礎(chǔ)。本文將深度學(xué)習(xí)模型融入到專利檢索中,提高專利領(lǐng)域內(nèi)檢索方法的準(zhǔn)確率與召回率。

      目前,深度學(xué)習(xí)在自然語言處理方向主要有兩個分支:第一個是以Srivastava[11]為代表的主要使用深度置信網(wǎng)絡(luò)RBM(restricted Boltzmann machine)對文檔進(jìn)行主題建模,其結(jié)果優(yōu)于傳統(tǒng)的主題模型LDA(latent Dirichlet allocation);另一分支是以Hill[12]為代表的使用多層感知機(jī)CNN(convolutional neural network)、RNN(recurrent neural network)等對文檔建模。前者不考慮文檔內(nèi)詞語的出現(xiàn)順序,僅僅從文檔維度考慮詞語之間的主題關(guān)系。而后者更多以滑動窗口或反饋的形式對短文本進(jìn)行建模。詞向量表示方法是一種有效的將不同的詞項表示為相同維度向量的方法,基于該向量,可以計算詞項之間的相似度,本文基于該相似度計算查詢詞與候選詞之間相關(guān)度,借此改善查詢擴(kuò)展方法的檢索性能。本文綜合考慮專利文檔多文本域以及各個域的不同特征,使用不同的檢索模型,充分利用專利的特性和深度學(xué)習(xí)中的詞向量模型在自然語言處理中的優(yōu)勢,將其應(yīng)用于查詢擴(kuò)展方法的候選詞選擇過程當(dāng)中,用以提高專利檢索的準(zhǔn)確率。

      本文組織結(jié)構(gòu)如下:第2章給出相關(guān)工作;第3章探索詞向量方法對專利檢索查詢擴(kuò)展候選詞選擇的影響,并提出基于詞向量模型的專利查詢擴(kuò)展方法;第4章給出實驗結(jié)果;第5章總結(jié)全文。

      2 相關(guān)工作

      近年來,專利檢索研究得到極大關(guān)注,這些研究主要著眼于探索基于主題的查詢重構(gòu)方法。查詢重構(gòu)過程需要從特定的語料資源中挖掘各詞項與原始查詢之間的某種關(guān)聯(lián)屬性,進(jìn)而選擇關(guān)聯(lián)程度較高的詞項作為擴(kuò)展詞加入查詢。查詢重構(gòu)技術(shù)的兩個關(guān)鍵環(huán)節(jié)在于擴(kuò)展資源的選取以及詞項間關(guān)聯(lián)屬性的挖掘。

      當(dāng)前擴(kuò)展資源的選取主要分為三大類,即全局信息、局部信息和外部數(shù)據(jù),通常不同的擴(kuò)展資源的選取也對應(yīng)了不同的詞項間關(guān)聯(lián)屬性挖掘方法。在早期的工作中,關(guān)鍵字被抽取用于新的查詢[13-14];目前流行的局部分析方法主要是偽相關(guān)反饋,它是在相關(guān)反饋的基礎(chǔ)上發(fā)展起來的。文獻(xiàn)[1]首度提出擴(kuò)展詞只從排名靠前的初次檢索結(jié)果中抽取,其基本思想是利用初次檢索得到的與原查詢最相關(guān)的N篇文章(偽相關(guān)文檔集)作為擴(kuò)展詞項的來源。

      最近研究表明[15],使用來自于所檢索文本不同域的詞作為查詢擴(kuò)展詞可以獲得較好的檢索結(jié)果。本文將采用域信息來選擇候選擴(kuò)展詞,提升專利檢索結(jié)果,同時將域作為一種有效的信息來源探索其對專利檢索中查詢擴(kuò)展的影響。

      對于查詢擴(kuò)展方法,查詢擴(kuò)展詞選擇尤為重要。該方法主要是對各種查詢擴(kuò)展資源采用對應(yīng)的關(guān)聯(lián)挖掘算法,挖掘各資源中與原查詢相關(guān)的詞項,并對每個相關(guān)詞項按其信息源分別給出關(guān)聯(lián)度分值,結(jié)合原始查詢詞提高檢索的準(zhǔn)確率。目前,神經(jīng)網(wǎng)絡(luò)模型在自然語言處理方面得到了廣泛的應(yīng)用,尤其是RNN[16]模型與CNN[17]模型。RNN模型可以有效地捕捉句子當(dāng)中蘊(yùn)涵的語法與語義關(guān)系,通過使用反饋邊以及memory cell和gate等方式,使其具有處理時間序列標(biāo)注任務(wù)的能力。CNN模型通過卷積核可以求出句子當(dāng)中的某些特定詞之間蘊(yùn)涵的特征,不但減少了模型的復(fù)雜度,而且提高了特征提取的純度。這兩個模型的共同點在于它們必須首先把數(shù)據(jù)集中的每個單詞映射到連續(xù)的實數(shù)空間中,用d維詞向量來表示每一個詞。訓(xùn)練詞向量的方法采用較多的是連續(xù)詞袋(continuous bag of words,CBOW)、Skip-gram[18]模型。Mikolov等人[18]發(fā)現(xiàn)CBOW和Skip-gram方法訓(xùn)練出來的詞矢量支持代數(shù)的向量加法操作,發(fā)現(xiàn)vec(“Russia”)+vec(“river”)和vec(“Volga River”)兩個詞向量具有較高的相似度,并且將這種性質(zhì)應(yīng)用到短語識別任務(wù)。由于該方法可以有效地表示詞與詞之間的關(guān)系,目前已有相關(guān)研究將其應(yīng)用于查詢擴(kuò)展任務(wù)當(dāng)中[19]。本文也將采用這種方法基于偽相關(guān)反饋文檔構(gòu)造擴(kuò)展詞向量,用于計算候選擴(kuò)展詞與原始查詢詞的關(guān)系。

      3 基于詞向量的查詢擴(kuò)展方法

      本文采用查詢擴(kuò)展方法優(yōu)化專利檢索結(jié)果;采用Rocchio模型作為多專利文本域擴(kuò)展的基礎(chǔ);采用原始數(shù)據(jù)集進(jìn)行偽相關(guān)反饋;采用多種擴(kuò)展詞選擇方法從原始數(shù)據(jù)集中提取查詢擴(kuò)展詞,加入原始查詢中,提高專利檢索準(zhǔn)確率。查詢擴(kuò)展通常包含兩個步驟:第一步選擇偽相關(guān)文檔集合;第二步評估擴(kuò)展詞的權(quán)重。

      3.1 偽相關(guān)文檔的選擇

      本文的偽相關(guān)文檔集合來自于TREC專利數(shù)據(jù)集查詢返回的結(jié)果。第一步是偽反饋文檔集合的選擇,因為專利是一種存在多個不同內(nèi)容文本域的文檔,所以本文采用BM25F來選擇前n篇文檔。

      BM25(BM stands for best matching)方法的一種改進(jìn)方法BM25F(BM25 for text field)[20]是在多文檔域上進(jìn)行擴(kuò)展,該方法的一個關(guān)鍵屬性就是非線性,當(dāng)只有一個域需要計算時,BM25F退化為BM25方法。本文將二者均看作BM25F方法,這里的F是對文檔描述中包含的特定域的說明。本文使用BM25F作為初次檢索獲取反饋文檔的方法,初次檢索中考慮了多個域。對于給定查詢q,包含文檔域描述F的文檔d,其BM25F計算方式如下:

      公式中的求和是對于查詢q中的所有詞t進(jìn)行的,It是詞項t的逆文檔頻率的Robertson-Sparck-Jones形式,其計算方法如下:

      其中,N是文檔集合中文檔的總數(shù);df是詞項t的文檔頻率。TFt是一個簡單的詞頻飽和公式,它能限制同一文本域中的詞頻對整體的影響,定義如下:

      f的計算方法是:

      其中,tfF是詞項t在文本域F中的詞頻;k是飽和度參數(shù),能控制TFt的非線性程度;wF是訓(xùn)練得到的文本域權(quán)重參數(shù);βF是文本域長度的函數(shù),定義如下:

      其中,bF是長度調(diào)節(jié)參數(shù);lF是文本域長度;avglF是文檔集合中所有文本域的平均長度。本文應(yīng)用BM25F作為初次檢索的方法,選擇在初次檢索中排序最為靠前的n個位置的文檔作為第二階段候選擴(kuò)展詞選擇的擴(kuò)展詞來源。

      3.2 基于TF-IDF的查詢擴(kuò)展方法

      該方法首先使用原始查詢及BM25F方法獲得n篇相關(guān)專利文檔,再抽取n篇文檔中的TF-IDF特征排序高的詞作為查詢擴(kuò)展詞,合并原始查詢詞與查詢擴(kuò)展詞后再使用BM25F方法進(jìn)行檢索。其中TFIDF[21]包含兩個變量,詞頻和逆文檔頻率,有很多種方式來確定這兩個變量的值。對于詞頻,最簡單的方式就是選擇一個詞在一篇文檔中出現(xiàn)的頻率,即該詞在文檔中出現(xiàn)的次數(shù)。

      其中,tft,d是詞t在文檔d中出現(xiàn)的次數(shù);nt是文檔集合中包含詞t的文檔數(shù);N是文檔集合中文檔的總數(shù)。

      3.3 基于詞向量的查詢擴(kuò)展方法

      本文采用專利文本進(jìn)行詞向量的構(gòu)建。首先把專利文檔中所有的關(guān)鍵詞通過d維的實數(shù)向量進(jìn)行表示,之后再通過詞語之間的相似度計算方法,計算擴(kuò)展候選詞與原始查詢詞之間的關(guān)系,選擇與原始查詢相似度高的候選詞作為查詢擴(kuò)展詞。

      詞向量:作為利用深度學(xué)習(xí)訓(xùn)練語言模型過程中獲得的中間產(chǎn)物,在自然語言處理領(lǐng)域獲得了大量的關(guān)注。它可以把一個詞表示成任意維度(常見為50~200維)的實數(shù)向量,同時賦予了每個詞向量語義信息。本文選擇Skip-gram模型進(jìn)行詞向量的構(gòu)造。該模型最大化的目標(biāo)函數(shù)如下所示:

      其中,b是決定上下文窗口大小的常數(shù),b越大訓(xùn)練時間會增加,同時精確度也會提高。同時選擇了Negative-Sampling[22]方法去訓(xùn)練Skip-gram模型,最終訓(xùn)練出的詞語向量維度為200維。詞向量能夠?qū)蓚€詞之間的語義相似度映射到空間中兩個向量的距離上,使用該向量進(jìn)行查詢擴(kuò)展可獲得各個詞之間在語義上的關(guān)聯(lián)程度信息。該向量可以用于計算候選詞與查詢詞之間的相似度,本文采用向量的余弦相似度來計算擴(kuò)展詞c與原始查詢詞qi的相似度。計算公式如下所示:

      其中,qi為原始查詢中的詞項。

      本文采用4種方法利用詞向量模型所得到的原始查詢與候選詞的相似度進(jìn)行專利文檔檢索的查詢擴(kuò)展。

      (1)Word2Vec查詢擴(kuò)展:通過詞向量余弦相似度的計算,直接選取和原始查詢相關(guān)度最高的n個候選詞作為擴(kuò)展詞加入到原始查詢當(dāng)中。

      (2)層級式擴(kuò)展方法Word2Vec-TFIDF:對原始查詢詞進(jìn)行詞向量(Word2Vec)擴(kuò)展后得到查詢A,再對A進(jìn)行TF-IDF查詢擴(kuò)展得到查詢B,將B作為擴(kuò)展后的查詢。

      (3)層級式擴(kuò)展方法TFIDF-Word2Vec:對原始查詢詞進(jìn)行TF-IDF查詢擴(kuò)展后得到查詢詞集合A,再對A進(jìn)行Word2Vec查詢擴(kuò)展得到查詢詞集合B,將B作為擴(kuò)展后的查詢。

      (4)合并式擴(kuò)展方法TFIDF+Word2Vec:對原始查詢詞進(jìn)行Word2Vec擴(kuò)展得到查詢A,對原始查詢詞進(jìn)行TF-IDF擴(kuò)展得到查詢B,取A和B的并集作為擴(kuò)展后的查詢。

      4 實驗及結(jié)果

      本文所使用的數(shù)據(jù)集是TREC-CHEM數(shù)據(jù)集,其中語料包括從USPTO、EPO和WIPO獲取的專利文檔,共1 266 771篇,該數(shù)據(jù)集包含2009年以來化學(xué)領(lǐng)域的專利文獻(xiàn)。采用TREC-CHEM2010和TREC-CHEM2011中技術(shù)研究(TS)任務(wù)的全部查詢作為查詢集合,該集合包含由專家構(gòu)造的部分含標(biāo)注的技術(shù)研究查詢12個,每個查詢都包括一個基于專利文檔數(shù)據(jù)利用自然語言表達(dá)的信息需求描述。系統(tǒng)的任務(wù)是返回一個盡可能好并能回答該信息需求的文檔集合。這些查詢構(gòu)造都十分有價值,從而更能符合專家搜索過程中的真實信息需求。本文使用數(shù)據(jù)中的專利文檔,一篇專利文檔包括若干文本域,如標(biāo)題、摘要、描述和權(quán)力要求,這些特定的文本域被用于提升擴(kuò)展詞的質(zhì)量。專利檢索結(jié)果評價指標(biāo)采用平均準(zhǔn)確率MAP和P@n。

      4.1 實驗參數(shù)設(shè)置

      設(shè)輸入查詢?yōu)镼1,含有t個查詢詞,首先采用BM25F方法獲取原始查詢Q1在TREC-CHEM數(shù)據(jù)集中的前n篇相關(guān)文檔(n取1 000到10 000)。將這n篇相關(guān)文檔作為訓(xùn)練語料,使用詞向量模型訓(xùn)練得到Q1所對應(yīng)的詞向量模型M1,在詞向量模型M1中,使用兩種查找擴(kuò)展詞的方法,分別如下。

      方法1為Q1中每個詞查找最相近的100個詞作為擴(kuò)展出的查詢詞,則共擴(kuò)展出100×q個查詢詞,將該集合描述為E1。合并原始查詢Q1與擴(kuò)展出的查詢詞集合E1,其中將Q1的權(quán)重設(shè)置為1,E1中各詞的權(quán)重設(shè)置為:其中,e1為E1中各個詞的詞向量;q1為在Q1中找到的與e1最近的詞的詞向量;α為衰減系數(shù),值為0.1~1.0。對于E1中的擴(kuò)展詞,按權(quán)重對其進(jìn)行降序排序,對于重復(fù)的擴(kuò)展詞進(jìn)行去重處理,將其權(quán)重相加,作為該詞的最終權(quán)重。在排序并去重的E1集合中選取前k個詞(k取5~80)加入原始查詢中。

      方法2對于每一個候選詞c,計算c與查詢中每個查詢詞的相似度,進(jìn)行求和,選取相似度之和最大的前k個詞(k取5~80)加入到原始查詢當(dāng)中。將該集合描述為E2,輸入查詢中Q1的權(quán)重仍設(shè)置為1,E2中各詞的權(quán)重設(shè)置為:

      其中,e2為E2中各個詞的詞向量;-q為Q1中原始查詢詞的詞向量的平均向量;α為衰減系數(shù),值為0.1~1.0。

      在實驗中測試所有參數(shù)組合,使各種方法的性能達(dá)到最好(方法對應(yīng)的MAP值達(dá)到最高)。方法1最優(yōu)參數(shù)設(shè)置如表1所示,方法2最優(yōu)參數(shù)設(shè)置如表2所示。

      Table 1 Parameter setting for Method 1表1 方法1參數(shù)設(shè)置

      Table 2 Parameter setting for Method 2表2 方法2參數(shù)設(shè)置

      4.2 實驗結(jié)果

      表3和表4列出了3.2節(jié)提出的基于TF-IDF的專利查詢擴(kuò)展方法以及3.3節(jié)提出的基于詞向量的專利查詢擴(kuò)展方法。Baseline方法是將BM25F作為檢索模型采用原始查詢對數(shù)據(jù)集進(jìn)行檢索的方法,以及相關(guān)性模型RM方法[23]。

      Table 3 Results of patent query expansion(Method 1)表3 專利查詢擴(kuò)展方法實驗結(jié)果(方法1)

      Table 4 Results of patent query expansion(Method 2)表4 專利查詢擴(kuò)展方法實驗結(jié)果(方法2)

      TFIDF方法為3.2節(jié)提出的查詢擴(kuò)展方法;Word2Vec、Word2Vec-TFIDF、TFIDF-Word2Vec 和TFIDF+Word2Vec是3.3節(jié)提出的基于詞向量進(jìn)行查詢擴(kuò)展的專利檢索方法。

      圖1~圖3顯示的是方法1中Word2Vec-TFIDF在不同參數(shù)設(shè)置下的實驗結(jié)果。

      Fig.1 Relation of documents number nandMAP(Method 1)圖1 文檔數(shù)量n與MAP值之間的關(guān)系(方法1)

      Fig.2 Relation of expansion words number kandMAP(Method 1)圖2 擴(kuò)展詞數(shù)k與MAP值之間的關(guān)系(方法1)

      Fig.3 Relation of decay factorα andMAP(Method 1)圖3 衰減系數(shù)α與MAP值之間的關(guān)系(方法1)

      從圖1的實驗結(jié)果可以看出,當(dāng)文檔數(shù)量為500時,專利檢索的MAP值取得峰值。當(dāng)文檔數(shù)量大于3 000時,MAP變得較為穩(wěn)定,但仍未超過峰值。因此方法1中參數(shù)n即相關(guān)文檔數(shù)量本文設(shè)置為500。

      從圖2的實驗結(jié)果可以看出查詢詞選擇數(shù)量k與檢索結(jié)果評價指標(biāo)MAP之間的關(guān)系。當(dāng)k達(dá)到60時,專利檢索的MAP值取得峰值,較BM25相比有明顯提升,而超過60時,檢索結(jié)果會有明顯下降。因此方法1中參數(shù)k即擴(kuò)展詞數(shù)本文設(shè)置為60。

      圖3顯示了原始查詢與擴(kuò)展詞查詢的衰減系數(shù)α的變化對于專利檢索結(jié)果MAP值的影響。當(dāng)α值為0.1時,方法1的實驗效果最好,同時可以看到參數(shù)α達(dá)到0.1后如果繼續(xù)增加,會導(dǎo)致檢索結(jié)果下降,因此為保證Word2Vec-TFIDF方法的檢索性能達(dá)到最佳,設(shè)置α值為0.1。

      其他幾種方法的實驗參數(shù)設(shè)置與Word2Vec-TFIDF方法類似,都是在其他兩個參數(shù)不發(fā)生變化的情況下對于單一參數(shù)進(jìn)行調(diào)優(yōu),保證查詢擴(kuò)展方法的實驗結(jié)果MAP值達(dá)到最大。

      圖4~圖6顯示的是方法2中Word2Vec-TFIDF在不同參數(shù)設(shè)置下的實驗結(jié)果。

      從圖4的實驗結(jié)果可以看出,隨著文檔數(shù)量增長,MAP值在波動中先上升后下降,并在文檔數(shù)量為4 000時取得最大值。因此方法1中參數(shù)n即相關(guān)文檔數(shù)量本文設(shè)置為4 000。

      Fig.4 Relation of documents numbern andMAP(Method 2)圖4 文檔數(shù)量n與MAP值之間的關(guān)系(方法2)

      Fig.5 Relation of expansion words number kandMAP(Method 2)圖5 擴(kuò)展詞數(shù)k與MAP值之間的關(guān)系(方法2)

      Fig.6 Relation of decay factorα andMAP(Method 2)圖6 衰減系數(shù)α與MAP值之間的關(guān)系(方法2)

      從圖5的實驗結(jié)果可以看出查詢詞選擇數(shù)量k與檢索結(jié)果評價指標(biāo)MAP之間的關(guān)系。當(dāng)k大于40時,MAP相對于BM25才有顯著增長,當(dāng)k到60時MAP達(dá)到峰值,而文檔個數(shù)超過60以后檢索結(jié)果會有明顯下降。因此方法2參數(shù)k即擴(kuò)展詞數(shù)本文設(shè)置為60。

      圖6顯示了原始查詢與擴(kuò)展詞查詢的衰減系數(shù)α的變化對于專利檢索結(jié)果MAP值的影響??梢钥闯鰴z索結(jié)果隨衰減系數(shù)的增大呈現(xiàn)先增長、后下降的走勢,但總體變化趨勢較為平緩,并在衰減系數(shù)為0.5時達(dá)到峰值。因此為保證Word2Vec-TFIDF方法的檢索性能達(dá)到最佳,設(shè)置α值為0.5。

      其他幾種方法的實驗參數(shù)設(shè)置與Word2Vec-TFIDF方法類似,都是在其他兩個參數(shù)不發(fā)生變化的情況下對于單一參數(shù)進(jìn)行調(diào)優(yōu),保證查詢擴(kuò)展方法的實驗結(jié)果MAP值達(dá)到最大。

      5 結(jié)論

      本文采用詞向量模型對于專利檢索的查詢擴(kuò)展方法進(jìn)行改進(jìn),提出4種方法將詞向量模型融入到查詢擴(kuò)展詞選擇過程當(dāng)中,進(jìn)而改進(jìn)查詢擴(kuò)展模型的性能。在TREC數(shù)據(jù)集上的實驗表明,本文的查詢擴(kuò)展方法對于專利檢索十分有效,能夠有效地提高專利檢索的準(zhǔn)確率,對于理解用戶的查詢意圖有著很好的促進(jìn)作用。實驗顯示,單獨使用詞向量模型進(jìn)行擴(kuò)展詞的選擇不能夠直接有效地提高專利檢索的準(zhǔn)確率,但是與傳統(tǒng)的TF-IDF擴(kuò)展詞選擇方法相融合則能夠有效地提高查詢擴(kuò)展模型的性能,整體實驗結(jié)果指標(biāo)顯示W(wǎng)ord2Vec-TFIDF是一種較為有效的查詢擴(kuò)展融合方法。

      :

      [1]Xu Jinxi,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Aug 18-22,1996.New York:ACM,1996:4-11.

      [2]Cronen-Townsend S,Zhou Yun,Croft W B.A framework for selective query expansion[C]//Proceedings of the 2004 ACM International Conference on Information and Knowledge Management,Washington,Nov 8-13,2004.New York:ACM,2004:236-237.

      [3]Metzler D,Croft W B.Latent concept expansion using Markov random fields[C]//Proceedings of the 30thAnnual Inter-national ACM SIGIR Conference on Research and Development in Information Retrieval,Amsterdam,Jul 23-27,2007.New York:ACM,2007:311-318.

      [4]Tao Tao,Zhai Chengxiang.Regularized estimation of mixture models for robust pseudo-relevance feedback[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Seattle,Aug 6-11,2006.New York:ACM,2006:162-169.

      [5]Lee K S,Croft W B,Allan J.A cluster-based resampling method for pseudo-relevance feedback[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM,2008:235-242.

      [6]Wang Feng,Lin Lanfen,Yang Shuai,et al.A semantic query expansion-based patent retrieval approach[C]//Proceedings of the 10th International Conference on Fuzzy Systems and Knowledge Discovery,Shenyang,Jul 23-25,2013.Piscataway:IEEE,2013:572-577.

      [7]Khuda-BukhshAR,Bennett P N,White R W.Building effective query classifiers:a case study in self-harm intent detection[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management,Melbourne,Oct 19-23,2015.NewYork:ACM,2015:1735-1738.

      [8]Wu Zongda,Shi Jie,Lu Chenglang,et al.Constructing plausible innocuous pseudo queries to protect user query intention[J].Information Sciences,2015,325:215-226.

      [9]Potey M A,Patel D A,Sinha P K.A survey of query log processing techniques and evaluation of web query intent identification[C]//Proceedings of the 3rd International Advance Computing Conference,Ghaziabad,Feb 22-23,2013.Piscataway:IEEE,2013:1330-1335.

      [10]Rashidghalam H,Mahmoudi F.Web query classification using improved visiting probability algorithm and babelnet semantic graph[C]//Proceedings of the IEEE AI&Robotics,Qazvin,Apr 12,2015.Piscataway:IEEE,2015:1-5.

      [11]Srivastava N,Salakhutdinov R,Hinton G.Modeling documents with deep Boltzmann machines[C]//Proceedings of the 29th Conference on Uncertainty in Artificial Intelligence,Bellevue,Aug 11-15,2013.New York:ACM,2013:616-624.

      [12]Hill F,Cho F,Korhonen A,et al.Learning to understand phrases by embedding the dictionary[J].Transactions of the Association for Computational Linguistics,2016,4:17-30.

      [13]Konishi K.Query terms extraction from patent document for invalidity search[C]//Proceedings of the 5th NTCIR Workshop Meeting on Evaluation of Information Access Technologies:Information Retrieval,Question Answering and Cross-Lingual Information Access,Tokyo,Dec 6-9,2005.Tokyo:NTCIR,2005:1-6.

      [14]Itoh H,Mano H,Ogawa Y.Term distillation in patent retrieval[C]//Proceedings of the ACL-2003 Workshop on Patent Corpus Processing,Sapporo,2003.Stroudsburg:ACL,2003:41-45.

      [15]Wanagiri M Z,Adriani M.Prior art retrieval using various patent document fields contents[C]//LNCS 6360:Multilingual and Multimodal Information Access Evaluation,International Conference of the Cross-Language Evaluation Forum,Padua,Sep 20-23,2010.Berlin,Heidelberg:Springer,2010:1-6.

      [16]Chung J,Gulcehre C,Cho K H,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[J].arXiv:1412.3555,2014.

      [17]Farabet C,Couprie C,Najman L,et al.Learning hierarchical features for scene labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1915-1929.

      [18]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems,Lake Tahoe,Dec 5-8,2013.Red Hook:CurranAssociates,2013:3111-3119.

      [19]Diaz F,Mitra B,Craswell N.Query expansion with locallytrained word embeddings[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,Berlin,Aug 7-12,2016.Stroudsburg:ACL,2016:367-377.

      [20]Robertson S,Zaragoza H,Taylor M.Simple BM25 extension to multiple weighted fields[C]//Proceedings of the 2004 ACM CIKM International Conference on Information and Knowledge Management,Washington,Nov 8-13,2004.New York:ACM,2004:42-49.

      [21]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

      [22]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems,Lake Tahoe,Dec 5-8,2013.New York:ACM,2013:3111-3119.

      [23]Lavrenko V,Croft W B.Relevance based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,New Orleans,Sep 9-13,2001.New York:ACM,2001:120-127.

      猜你喜歡
      詞項文檔檢索
      有人一聲不吭向你扔了個文檔
      2019年第4-6期便捷檢索目錄
      自然種類詞項二難、卡茨解決與二維框架
      基于RI碼計算的Word復(fù)制文檔鑒別
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      英語詞項搭配范圍及可預(yù)見度
      依據(jù)語篇中多層次信息的句法分析方法
      大家(2011年9期)2011-08-15 00:45:37
      國際標(biāo)準(zhǔn)檢索
      遂宁市| 凤凰县| 凤翔县| 滦南县| 阿巴嘎旗| 南康市| 开封县| 清河县| 晋江市| 龙游县| 宜昌市| 健康| 新和县| 隆安县| 贡山| 永善县| 金塔县| 镇安县| 石门县| 邛崃市| 新郑市| 老河口市| 平顺县| 陇西县| 惠来县| 钦州市| 汉源县| 吉水县| 河东区| 延川县| 芜湖县| 安西县| 汉沽区| 惠州市| 大冶市| 华安县| 柯坪县| 水富县| 云梦县| 兰溪市| 梁山县|