夏 冰,李寶安,呂學(xué)強(qiáng)
(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101)
專利文獻(xiàn)具有相對(duì)固定的組織結(jié)構(gòu),其組織結(jié)構(gòu)主要包括IPC分類號(hào)、標(biāo)題、摘要、說(shuō)明書(shū)、權(quán)利要求書(shū)等。其中IPC分類號(hào)是國(guó)際通用分類號(hào),根據(jù)IPC分類號(hào)可以判定專利類別,權(quán)利要求書(shū)是發(fā)明或者實(shí)用新型專利要求保護(hù)的內(nèi)容,是申請(qǐng)專利的核心。專利文獻(xiàn)為保持其新穎性以及避開(kāi)專利雷區(qū),在用詞方面一般使用獨(dú)特或不常用的詞或短語(yǔ)來(lái)表達(dá)一些常見(jiàn)性的語(yǔ)義,例如用“一種盛水的容器”來(lái)表達(dá)“水杯”的含義,再例如用“沒(méi)有固定停放地點(diǎn)的單車”替代“共享單車”的概念在專利文獻(xiàn)中使用。因此專利文獻(xiàn)相似度計(jì)算的準(zhǔn)確與否很大程度上取決于詞語(yǔ)間語(yǔ)義相似度的計(jì)算。
根據(jù)研究方法的不同,詞語(yǔ)間的語(yǔ)義相似度的研究大體上可以分為兩大類:基于知識(shí)的詞語(yǔ)語(yǔ)義分析和基于統(tǒng)計(jì)的詞語(yǔ)語(yǔ)義分析?;谥R(shí)的詞語(yǔ)語(yǔ)義分析需要一個(gè)龐大而豐富的知識(shí)庫(kù)[1,2],庫(kù)中包含了詞語(yǔ)概念、上下位等邏輯關(guān)系,通過(guò)計(jì)算不同詞語(yǔ)在知識(shí)庫(kù)中的語(yǔ)義距離來(lái)表示詞語(yǔ)間的相似程度?;诮y(tǒng)計(jì)[3,4]的詞語(yǔ)語(yǔ)義分析主要是在概率論,統(tǒng)計(jì)論等數(shù)學(xué)理論的基礎(chǔ)上,對(duì)大規(guī)模語(yǔ)料進(jìn)行統(tǒng)計(jì),通過(guò)判斷詞語(yǔ)的上下文語(yǔ)境是否相似來(lái)判斷詞語(yǔ)之間的相似程度。
文本相似度的計(jì)算方法主要包括基于統(tǒng)計(jì)、基于語(yǔ)義信息、基于句法結(jié)構(gòu)、基于編輯距離的方法。詞匹配法[5]是基于統(tǒng)計(jì)的文本相似度計(jì)算方法中最具有代表性的一種方法,此方法簡(jiǎn)單的統(tǒng)計(jì)了詞語(yǔ)出現(xiàn)重復(fù)率而忽略了詞語(yǔ)間的語(yǔ)義信息?;谡Z(yǔ)義信息的文本相似度計(jì)算方法是通過(guò)領(lǐng)域知識(shí)庫(kù)[6]計(jì)算詞之間的語(yǔ)義距離進(jìn)而得到文本間的距離,或者將文本表示成詞向量[7]的形式,利用向量空間距離計(jì)算公式計(jì)算文本間的空間距離。基于句法結(jié)構(gòu)[8,9]的文本相似度計(jì)算方法主要是通過(guò)對(duì)文本中句子結(jié)構(gòu)和句子中詞語(yǔ)語(yǔ)法進(jìn)行分析。基于編輯距離[10]的文本相似度計(jì)算方法是計(jì)算待檢文本轉(zhuǎn)變?yōu)槟繕?biāo)文本所花費(fèi)的代價(jià)。
本文在總結(jié)前人研究成果的基礎(chǔ)上,提出了根據(jù)專利文獻(xiàn)獨(dú)特的結(jié)構(gòu)特點(diǎn),對(duì)IPC分類號(hào)、標(biāo)題、摘要、權(quán)利要求書(shū)分別賦予不同的權(quán)重,并利用word2vec將詞語(yǔ)表示成詞向量的形式,通過(guò)詞向量計(jì)算詞語(yǔ)間語(yǔ)義相關(guān)性,進(jìn)而用改進(jìn)的余弦相似度公式計(jì)算文本相似度。
向量空間模型(VSM)作為最常用的一種文本表示方式,是由Salton等提出,并將此模型成功應(yīng)用于SMART文本檢索系統(tǒng)。向量空間模型是將文本內(nèi)容的處理轉(zhuǎn)化為空間向量的運(yùn)算,通過(guò)空間向量的距離表示文本內(nèi)容的相似程度,直觀易懂。在構(gòu)建向量空間模型的過(guò)程中,詞頻-逆文檔頻率(TF-IDF)是使用最廣泛的計(jì)算權(quán)重方法。詞匯的TF-IDF值可以用來(lái)衡量詞匯在文本中的重要程度,一個(gè)詞在某一文本中出現(xiàn)的次數(shù)越多也就是TF值越大(為了降低文本長(zhǎng)短不同對(duì)TF值的影響一般在計(jì)算TF值時(shí)需要做歸一化處理),并且在同一語(yǔ)料庫(kù)下的其它文本中包含該詞的文本數(shù)越小即IDF值越大,則該詞越能反映該文本的主題。余弦相似度是計(jì)算文本相似度的一種重要方法,其宗旨是將文本通過(guò)向量空間模型向量化后,計(jì)算向量之間的夾角,夾角余弦值越大表示兩個(gè)向量夾角越小則兩個(gè)文本間相似度越高,當(dāng)兩個(gè)向量夾角余弦值為1即兩個(gè)向量重合,此時(shí)可以粗略認(rèn)為兩個(gè)向量表示的文本內(nèi)容是一樣的。通過(guò)上述TF-IDF的介紹可知,以TF-IDF值作為權(quán)重計(jì)算文本相似度的方法,僅僅是把文本間出現(xiàn)的相同詞匯作為參考指標(biāo),并沒(méi)有把詞匯語(yǔ)義信息考慮在內(nèi)。在實(shí)際中,只對(duì)詞頻進(jìn)行統(tǒng)計(jì)而忽略詞匯間語(yǔ)義信息的文本相似度計(jì)算方法是遠(yuǎn)遠(yuǎn)不夠的。例如一篇描述蘋果的文本和一篇描述香蕉的文本,基于詞頻統(tǒng)計(jì)的方式可能就會(huì)認(rèn)為這是兩篇完全不相關(guān)的文本。
Word2vec是由Google開(kāi)發(fā)的一款將詞表示成實(shí)數(shù)值向量的高效工具,其中采用的模型有CBOW(連續(xù)詞袋)模型和Skip-Gram模型(通過(guò)輸入一個(gè)詞向量來(lái)預(yù)測(cè)相鄰的詞向量)。Word2vec通過(guò)訓(xùn)練,可以將文本內(nèi)容的處理簡(jiǎn)化成n維空間向量的運(yùn)算,而向量空間上的相似度又可以表示文本內(nèi)容語(yǔ)義上的相似度。Word2vec的高效性是被研究者廣為稱贊的,一個(gè)優(yōu)化的單機(jī)版本一天可以訓(xùn)練上千億詞,并且整個(gè)訓(xùn)練過(guò)程是無(wú)監(jiān)督的。Word2vec輸出的詞向量可以用來(lái)做許多NLP的相關(guān)工作。Santos等[11]通過(guò)word2vec訓(xùn)練得到詞向量,然后通過(guò)詞向量串聯(lián)的方式表示文本并最終對(duì)文本進(jìn)行情感分析,Lai S等[12]用word2vec訓(xùn)練的詞向量表示出來(lái)的文本用于深度學(xué)習(xí)模型來(lái)進(jìn)行文本分類任務(wù)。雖然上述工作都取得了良好的效果,但是在用詞向量表示文本時(shí),沒(méi)有考慮文本本身的結(jié)構(gòu)特點(diǎn)以及在文本不同位置詞本身的重要性不同的問(wèn)題。
針對(duì)上述方法中的不足,本文提出了綜合詞位置和詞匯語(yǔ)義信息的專利文本相似度計(jì)算方法。該方法一方面考慮了專利文本獨(dú)特的結(jié)構(gòu)特點(diǎn),將IPC分類號(hào)、標(biāo)題、摘要、權(quán)利要求書(shū)作為主要研究對(duì)象,當(dāng)詞匯處在不同位置時(shí),該詞匯表現(xiàn)出來(lái)的重要程度應(yīng)該有所不同。另一方面,將詞表示成向量的形式來(lái)替代傳統(tǒng)的詞袋模型,傳統(tǒng)的詞袋模型僅僅是根據(jù)該詞是否在詞袋中出現(xiàn)來(lái)將文本表示成向量的形式,詞向量則可以通過(guò)計(jì)算向量空間距離得到詞匯之間的語(yǔ)義信息,彌補(bǔ)了傳統(tǒng)詞袋模型的不足。利用詞向量間的語(yǔ)義相似度作為權(quán)重改進(jìn)了余弦相似度公式,并最終通過(guò)改進(jìn)的余弦相似度公式計(jì)算專利文本相似度。圖1顯示了本文提出的計(jì)算專利文本相似度方法的整個(gè)流程,從圖中可以看出該方法主要包括數(shù)據(jù)采集、專利文本預(yù)處理、詞權(quán)重的計(jì)算、詞匯間語(yǔ)義信息計(jì)算、文本相似度計(jì)算5個(gè)模塊。
圖1 專利文本相似度計(jì)算流程
本文用來(lái)訓(xùn)練和測(cè)試的專利文本是通過(guò)ftp接口從國(guó)家知識(shí)產(chǎn)權(quán)局批量下載得到的,得到專利文本后需要去除xml標(biāo)簽,提取其中的專利數(shù)據(jù),然后對(duì)專利數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注、去除停用詞、命名實(shí)體識(shí)別、新發(fā)現(xiàn)詞等預(yù)處理操作。經(jīng)過(guò)對(duì)專利數(shù)據(jù)的研究發(fā)現(xiàn),專利文本中關(guān)鍵技術(shù)的描述和核心詞匯一般都是名詞、動(dòng)詞或名詞性短語(yǔ),其中W(名詞)>W(名詞性短語(yǔ))>W(動(dòng)詞),W代表詞權(quán)重。因此為避免噪音數(shù)據(jù)對(duì)改進(jìn)專利文本相似度計(jì)算方法的影響,本文對(duì)專利數(shù)據(jù)進(jìn)行處理時(shí)去除了其它詞性的詞匯。
IPC分類號(hào)是國(guó)際通用專利分類號(hào),如果兩篇專利IPC分類號(hào)不一致則兩篇專利隸屬于不同的類別,那么就可假設(shè)它們之間的相似程度極低。權(quán)利要求書(shū)揭示了專利文本中需要受到法律保護(hù)的范圍,也是申請(qǐng)人在撰寫(xiě)中篇幅最大描述最多的部分,是專利文本的核心。專利摘要是專利說(shuō)明書(shū)內(nèi)容的概述,它指出了發(fā)明或?qū)嵱眯滦兔Q、主要技術(shù)特征和用途,描述了此專利所屬的技術(shù)領(lǐng)域、需要解決的技術(shù)問(wèn)題等,因此在重要性上僅次于權(quán)利要求書(shū)。專利標(biāo)題是對(duì)整篇專利文本的高度概括,它一般僅說(shuō)明了該專利發(fā)明的名稱,因此在本文介紹的專利文本相似度計(jì)算方法上給予較小的權(quán)重。綜上所述,詞匯在專利文本中不同部分出現(xiàn)其權(quán)重大小依次是:W(權(quán)利要求書(shū))>W(摘要)>W(標(biāo)題),雖然IPC分類號(hào)中不包含詞匯,但是考慮IPC分類號(hào)的特殊性和重要性,在設(shè)置權(quán)重時(shí)給IPC分類號(hào)設(shè)置最大的權(quán)重。
詞權(quán)重的不同可以通過(guò)設(shè)置不同的詞頻基數(shù)來(lái)體現(xiàn),例如詞性為動(dòng)詞的詞匯詞頻數(shù)等于該詞匯出現(xiàn)的實(shí)際次數(shù),而詞性為名詞性短語(yǔ)的詞匯詞頻數(shù)等于該詞匯出現(xiàn)的實(shí)際次數(shù)的3倍,同理,根據(jù)詞所在位置的不同在計(jì)算詞權(quán)重時(shí)也采用相同的計(jì)算方法。通過(guò)詞性和詞位置得到詞權(quán)重后需要再融入TF-IDF算法計(jì)算出最終的詞權(quán)重。
分布式詞向量最早是由Hinton提出的,其基本思想是:通過(guò)訓(xùn)練將文本中的每一個(gè)詞表示成固定長(zhǎng)度的向量形式,將所有這些向量放在一起就組成一個(gè)詞向量空間,每一個(gè)詞即是該空間上的一個(gè)點(diǎn),在空間上引入“距離”的概念,通過(guò)計(jì)算距離就可得到兩個(gè)詞之間的語(yǔ)義關(guān)系。Word2vec是將詞表示成分布式詞向量的一種常用工具,因此本文也是利用word2vec將專利數(shù)據(jù)和其它訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,最后得到維度為50的詞向量文件。在得到詞向量之后,通過(guò)余弦相似度公式計(jì)算詞向量x和y之間夾角,計(jì)算方法如式(1)
(1)
余弦值越大夾角越小,兩個(gè)詞向量語(yǔ)義信息越接近。
經(jīng)過(guò)以上操作,原始的專利文本數(shù)據(jù)P被轉(zhuǎn)化為向量空間中點(diǎn)的集合(k1,k2,k3,…,kn)T,其中ki為專利文本P的特征詞,n為專利文本P中含有的特征詞個(gè)數(shù)。經(jīng)過(guò)word2vec模型訓(xùn)練,每個(gè)特征詞對(duì)應(yīng)向量空間上的一個(gè)點(diǎn),向量空間上的每個(gè)點(diǎn)可以表示成一個(gè)維度為50的向量形式(d1,d2,d3,…,d50)。雖然每個(gè)特征詞可由固定的50維的詞向量表示,但是不同的專利文本包含的特征詞個(gè)數(shù)不同,而且特征詞之間沒(méi)有明顯對(duì)應(yīng)關(guān)系,為解決這兩個(gè)問(wèn)題,本文提出了改進(jìn)的文本相似度計(jì)算方法
C(x,y)=cos(x,y)*W(x)*W(y)
(2)
(3)
其中,C(x,y)為兩個(gè)詞匯x和y語(yǔ)義信息計(jì)算公式,W(x)代表結(jié)合詞性、詞位置和TF-IDF算法得到的詞匯x的詞權(quán)重,S為兩個(gè)專利文本P1,P2的相似度計(jì)算公式,IPC1,IPC2分別代表專利文本P1,P2的IPC分類號(hào),K1,K2分別代表專利文本P1,P2的特征詞集合,m,n分別代表特征詞集合K1,K2中的特征詞。根據(jù)式(3)得到的專利文本相似度大于某個(gè)閾值t時(shí),則認(rèn)為兩篇專利相似,閾值t需要根據(jù)具體實(shí)驗(yàn)進(jìn)行設(shè)定。
從式(3)中可以看出如果兩篇專利文本IPC分類號(hào)不一致,則它們的相似度可以忽略不計(jì)。如果兩篇專利文本屬于同一IPC分類號(hào),則式(3)中分子是由專利文本P1的特征詞分別和專利文本P2中的每個(gè)特征詞計(jì)算詞匯相似度,分母則是專利文本P1和P2的特征詞和其本身特征詞集合中的每個(gè)特征詞進(jìn)行詞匯相似度的計(jì)算。通過(guò)公式可以看出無(wú)論兩篇專利文本特征詞數(shù)量是否一樣,最終都是將兩篇專利文本特征詞集合中的所有特征詞計(jì)算一遍詞匯相似度,而且這種計(jì)算方法也避免了一篇專利文本中的所有特征詞只與另外一篇文本中的某個(gè)或者少數(shù)特征詞有對(duì)應(yīng)關(guān)系。
本文所使用的專利文本是從國(guó)家知識(shí)產(chǎn)權(quán)局提供的ftp接口下載得到的,由于word2vec訓(xùn)練詞向量需要大量的語(yǔ)料,因此本文在訓(xùn)練過(guò)程中主要使用了118 931篇經(jīng)過(guò)預(yù)處理的專利文本和維基百科作為語(yǔ)料,并且最終得到281 345條維度為50的詞向量。
鑒于專利文本數(shù)量較大而且實(shí)驗(yàn)中的專利文本都是經(jīng)過(guò)國(guó)家知識(shí)產(chǎn)權(quán)局審核且授權(quán)過(guò)的,因此可以大致認(rèn)為這些專利文本之間的相似度較低。本文在實(shí)驗(yàn)開(kāi)始前預(yù)先選好待比對(duì)的專利文本,通過(guò)人工修改(上下位關(guān)系詞替換,同義詞替換等)構(gòu)造相似專利文本。在選擇待比對(duì)的專利文本時(shí),選擇IPC分類號(hào)為H04(電通信技術(shù))領(lǐng)域下面的5個(gè)小類,具體見(jiàn)表1,其中主題相關(guān)專利為同一IPC小類下面的專利數(shù)量。
表1 相關(guān)實(shí)驗(yàn)數(shù)據(jù)
本文使用了自然語(yǔ)言處理領(lǐng)域常用的評(píng)價(jià)指標(biāo)準(zhǔn)確率和召回率作為評(píng)價(jià)標(biāo)準(zhǔn),結(jié)合表1中的數(shù)據(jù),計(jì)算準(zhǔn)確率和召回率時(shí)分別計(jì)算每一個(gè)IPC小類的準(zhǔn)確率Pi和召回率Ri,i∈(1,5),最后得到平均準(zhǔn)確率P和平均召回率R。準(zhǔn)確率Pi和召回率Ri的具體計(jì)算公式如式(4)和式(5)
(4)
(5)
在實(shí)驗(yàn)過(guò)程中,利用本文提出的方法與其它兩種文本相似度計(jì)算方法作對(duì)比來(lái)驗(yàn)證本文提出方法的有效性,第一種方法是只利用詞向量而不考慮專利文本結(jié)構(gòu)特點(diǎn)計(jì)算文本相似度,第二種方法是只考慮專利文本結(jié)構(gòu)特點(diǎn)而不使用詞向量計(jì)算文本相似度。針對(duì)表1中的5組實(shí)驗(yàn)數(shù)據(jù)得到的文本相似度計(jì)算結(jié)果見(jiàn)表2。
表2 本文方法與該方法單獨(dú)特征項(xiàng)對(duì)比實(shí)驗(yàn)結(jié)果
從計(jì)算結(jié)果可以看出,本文提出的方法從整體尤其是準(zhǔn)確率要遠(yuǎn)優(yōu)于只使用詞向量或只考慮專利文本結(jié)構(gòu)特點(diǎn)的方法,而且不同方法不同實(shí)驗(yàn)數(shù)據(jù)判定兩篇專利文本是否相似的閾值t也有所不同,這也說(shuō)明了,判斷兩篇專利文本是否相似不能只取決于相似度值的大小,而是應(yīng)該通過(guò)相對(duì)值的大小來(lái)決定的。表2實(shí)驗(yàn)結(jié)果是從本文提出的方法與該方法中單獨(dú)特征項(xiàng)做對(duì)比得到的,表3是本文提出的方法與傳統(tǒng)文本相似度計(jì)算方法的比較結(jié)果。
本文提出的方法綜合考慮專利文本的結(jié)構(gòu)特征和詞匯間的語(yǔ)義信息,表3中用于對(duì)比的兩種方法雖然都考慮了詞匯間語(yǔ)義關(guān)聯(lián)的問(wèn)題,但是由于專利文本中含有一些生僻詞和專業(yè)術(shù)語(yǔ),知網(wǎng)知識(shí)庫(kù)中包含大多是常用詞匯,因此相似度計(jì)算結(jié)果準(zhǔn)確率欠佳,而基于LDA模型的方法沒(méi)有考慮專利文本的特殊結(jié)構(gòu)特征。從表3可以看出,本文提出的方法要優(yōu)于基于LDA模型的方法和基于知網(wǎng)的方法,在與基于知網(wǎng)的方法作對(duì)比時(shí),只有第二組數(shù)據(jù)的準(zhǔn)確率和召回率稍稍偏低,但從5組數(shù)據(jù)的平均準(zhǔn)確率召回率分析本文提出的方法略優(yōu)于基于知網(wǎng)的方法。綜上所述,本文提出的方法是有效可行的。
表3 本文方法與傳統(tǒng)方法對(duì)比實(shí)驗(yàn)結(jié)果
本文提出了一種綜合考慮專利結(jié)構(gòu)特點(diǎn)和詞匯間語(yǔ)義關(guān)系的專利文本相似度計(jì)算方法。該方法將IPC分類號(hào)、摘要、權(quán)利要求書(shū)等專利文本特有的結(jié)構(gòu)融合到文本相似度計(jì)算方法當(dāng)中,與一般文本相似度計(jì)算方法相比更加具有針對(duì)性。本文通過(guò)word2vec計(jì)算詞匯間的語(yǔ)義關(guān)系,不僅能夠節(jié)省構(gòu)建領(lǐng)域知識(shí)庫(kù)所需花費(fèi)的大量時(shí)間,而且還能保證較高的準(zhǔn)確率和召回率,同時(shí)又克服了傳統(tǒng)詞匹配方法中文本相似度大小主要取決于詞匯重復(fù)率的缺陷。實(shí)驗(yàn)結(jié)果表明,本文提出的方法與傳統(tǒng)方法相比,在準(zhǔn)確率上有較大的提升。
專利文本中生僻詞較多而且通過(guò)word2vec計(jì)算詞匯間語(yǔ)義關(guān)系需要龐大的語(yǔ)料庫(kù)作為支持,因此在今后的工作中還需要繼續(xù)擴(kuò)充訓(xùn)練語(yǔ)料來(lái)提高語(yǔ)義相似度的準(zhǔn)確率,此外,特征詞的準(zhǔn)確與否對(duì)于專利文本相似度計(jì)算具有至關(guān)重要的作用,因此下一步將以特征詞抽取方法的改進(jìn)作為研究重點(diǎn)。