王 慶 才,劉 貴 全
(1.中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽 合肥230027;2.大數(shù)據(jù)分析與應(yīng)用安徽省重點實驗室,安徽 合肥230027)
專利分類是專利挖掘和管理中重要的基礎(chǔ)任務(wù)。其主要目的是通過自然語言處理等方法提取專利文檔中的重要特征,然后將這些特征輸入分類器中,其輸出結(jié)果表示專利文檔所屬的標(biāo)簽。通常一個專利具有一個或多個標(biāo)簽。面對每年快速增長的專利申請數(shù)量,實現(xiàn)高效的、自動化的專利分類算法可以大大減少專利機構(gòu)的人工成本和時間成本。目前,自動化專利分類算法已被專利機構(gòu)廣泛使用,為專利檢索[1]、專利價值評估[2]、專利訴訟風(fēng)險評估[3]等專利智能服務(wù)提供支持。
因此,這吸引了許多研究人員來研究自動專利分類問題[4-6],并且這些方法中的大多數(shù)將其視為多標(biāo)簽文本分類任務(wù)[4-5]。專利的主要內(nèi)容為其組件和創(chuàng)新的詳細說明文檔,該任務(wù)的目標(biāo)是針對專利自動化預(yù)測一組標(biāo)準化的類別。傳統(tǒng)的專利分類方法大多基于統(tǒng)計學(xué)和自然語言處理方法人工構(gòu)造特征信息,輸入到機器學(xué)習(xí)模型中進行訓(xùn)練,然后預(yù)測未知專利的類別信息。這些方法大多屬于淺層模型,僅僅學(xué)習(xí)了專利文本簡單的詞義信息,無法獲取深層的上下文語義信息。而且專利中包含了大量的非結(jié)構(gòu)化信息,如專利之間的引用信息,通常將專利作為網(wǎng)絡(luò)節(jié)點構(gòu)建專利引用網(wǎng)絡(luò),然后基于網(wǎng)絡(luò)分析的方法對專利節(jié)點進行分類。此類方法專注于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)信息,忽略了專利文本信息對預(yù)測專利類別的影響。
本文提出一個基于專利混合表征的專利分類框架,可以同時學(xué)習(xí)專利的文本信息和網(wǎng)絡(luò)結(jié)構(gòu)信息,充分保留專利的結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息,為多元異構(gòu)屬性場景下的專利分類提供了新思路。在真實的專利數(shù)據(jù)集中的實驗結(jié)果表明,本文提出的專利分類方法具有較高的準確性。
傳統(tǒng)的分類方法將專利分類作為一項有監(jiān)督的機器學(xué)習(xí)任務(wù),以人工構(gòu)造的專利特征作為輸入,訓(xùn)練不同的分類器預(yù)測專利文檔的標(biāo)簽。Wu[7]等人將專家篩選方法與基于遺傳的混合支持向量機模型相結(jié)合,提出具有高分類精度和泛化能力的專利分類系統(tǒng)。Ko[8]等人提出一種基于期望最大化算法和樸素貝葉斯分類器的組合,基于有標(biāo)簽樣本訓(xùn)練分類器,預(yù)測出標(biāo)簽缺失的樣本的標(biāo)簽,然后基于所有樣本訓(xùn)練新的分類器,并在新樣本上進行分類。Cai[9]等人提出了一種基于共享近鄰的KNN文本分類方法,在BM25相似度的基礎(chǔ)上,通過結(jié)合詞頻和文檔頻率并平衡文檔的長度來計算專利文本的相似度,然后引入共享近鄰的概念,利用樣本間的共享近鄰信息對BM25相似度進行修正,最后使用KNN算法計算專利類別。
以上方法都是基于特征工程和傳統(tǒng)機器學(xué)習(xí)的方法,甚至需要依賴專家的領(lǐng)域知識,幾乎無法挖掘?qū)@谋镜纳疃日Z義信息,導(dǎo)致專利分類結(jié)果的準確性和泛化能力較低。
近年來,隨著深度學(xué)習(xí)在許多應(yīng)用中取得了巨大的成功,部分學(xué)者使用深度學(xué)習(xí)技術(shù)進行專利分類,例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)專利中的語法和語義信息以獲得更好的分類結(jié)果。Julian[10]等人提出了針對專利領(lǐng)域的詞嵌入預(yù)訓(xùn)練,先使用FastText在大規(guī)模專利數(shù)據(jù)集上訓(xùn)練專利領(lǐng)域的詞向量,然后提出一種基于門控回歸單元的深度學(xué)習(xí)方法,基于預(yù)訓(xùn)練的詞嵌入實現(xiàn)專利自動分類。Li[4]等人提出deeppatent模型,以TextCNN為核心組件,通過設(shè)置多個不同大小的卷積核捕獲連續(xù)語句的局部關(guān)鍵信息,豐富專利的語義表示。Lin[11]等人提出BiLSTM-SA模型,基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)和自注意機制捕獲具有非連續(xù)和長距離語義的上下文信息。Lee[5]等人提出基于預(yù)訓(xùn)練模型的PatentBert模型,在超大規(guī)模語料庫進行預(yù)訓(xùn)練,然后在專利數(shù)據(jù)語料庫進行微調(diào)實現(xiàn)專利文本分類。
在數(shù)據(jù)庫中,專利具有更加豐富的信息,如專利之間的宏觀相似關(guān)系。現(xiàn)有的研究大多只關(guān)注于單個專利的文本內(nèi)容進行分類,而忽視了專利及其標(biāo)簽的宏觀關(guān)系。一方面,存在引用關(guān)系或描述相似實體的兩項專利很有可能屬于相同的類別。另一方面,經(jīng)常分配給相同專利的標(biāo)簽之間的相關(guān)性更高。這些宏觀關(guān)系可以提供重要的輔助信息,提高分類性能。
本節(jié)給出專利引用網(wǎng)絡(luò)、專利實體共享網(wǎng)絡(luò)、標(biāo)簽共現(xiàn)網(wǎng)絡(luò)和專利分類任務(wù)的相關(guān)定義,三個網(wǎng)絡(luò)的詳細統(tǒng)計信息如表1所示。
表1 網(wǎng)絡(luò)的統(tǒng)計信息
專利引用網(wǎng)絡(luò):專利引用網(wǎng)絡(luò)定義為Gc=(Vc,Ec),其中Vc表示專利節(jié)點集合,Ec表示專利引用鏈接集合,Ec中的每條邊表示兩個專利之間存在引用關(guān)系。
實體共享網(wǎng)絡(luò):實體共享網(wǎng)絡(luò)定義為Ge=(Ve,Ee),其中Ve表示專利節(jié)點集合,Ee表示專利實體共享鏈接集合。Ee中每條邊表示兩個專利之間具有多個相同實體鏈接。
標(biāo)簽共現(xiàn)網(wǎng)絡(luò):標(biāo)簽共現(xiàn)網(wǎng)絡(luò)定義為Gl=(Vl,El),其中Vl表示標(biāo)簽集合,El表示標(biāo)簽共現(xiàn)鏈接集合。El中每條邊表示兩個標(biāo)簽之間的逐點互信息(Pointwise Mutual Information,PMI)為正值。具體地,Ei,j=log(p(i,j)/(p(i)p(j))),其中p(x)表示標(biāo)簽x的出現(xiàn)頻率。
專利分類:給定一個包含專利文檔的文本信息、引用信息及其標(biāo)簽信息的數(shù)據(jù)集D,本文的目標(biāo)是預(yù)測新加入專利文檔的可能的標(biāo)簽。
基于前文所述相關(guān)研究工作及其可改進之處,本文提出了一種融合專利和標(biāo)簽宏觀關(guān)系進行專利分類的方法。首先,利用專利的引用關(guān)系、共享實體關(guān)系和標(biāo)簽的共現(xiàn)關(guān)系構(gòu)建專利引用網(wǎng)絡(luò)、專利共享實體網(wǎng)絡(luò)和標(biāo)簽共現(xiàn)網(wǎng)絡(luò),這三個網(wǎng)絡(luò)分別表示專利和標(biāo)簽的宏觀結(jié)構(gòu)關(guān)系。在此基礎(chǔ)上,本文提出了一種基于混合表征的專利分類框架(Hybrid Representation Based Framework for Patent Classification,HRPC),該框架由專利表示學(xué)習(xí)(Patent Representation Learning,PRL)和標(biāo)簽表示學(xué)習(xí)(Label Representation Learning,LRL)組成,框架結(jié)構(gòu)如圖1所示。其中PRL結(jié)合專利的文本信息和結(jié)構(gòu)信息學(xué)習(xí)專利的向量表示。對于專利文本信息,采用CNN和注意力機制學(xué)習(xí)專利文本的語義表示;對于專利結(jié)構(gòu)信息,基于專利引用網(wǎng)絡(luò)和專利共享實體網(wǎng)絡(luò)設(shè)計了多通道圖神經(jīng)網(wǎng)絡(luò),從多個專利關(guān)聯(lián)網(wǎng)絡(luò)中學(xué)習(xí)專利的結(jié)構(gòu)表示。LRL使用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Network,GCN)在標(biāo)簽共現(xiàn)網(wǎng)絡(luò)中學(xué)習(xí)標(biāo)簽的表征,用于保留標(biāo)簽之間的共現(xiàn)依賴關(guān)系。最后,利用專利和標(biāo)簽的表征,使用協(xié)同過濾(Collaborative Filtering,CF)策略預(yù)測標(biāo)簽概率。
圖1 HRPC的結(jié)構(gòu)圖
3.1.1 專利文本表征學(xué)習(xí)
在研究[5]、[12]中,描述專利細節(jié)的文本內(nèi)容對于專利分類的準確性非常重要。為了不失一般性,本文同樣選擇專利的標(biāo)題和摘要來作為相應(yīng)的文本信息。其中標(biāo)題是單獨的語句,而摘要則是由多個語句組成的序列?;贑NN的深度學(xué)習(xí)模型可以有效地學(xué)習(xí)語句的表征,本文將CNN作為專利文本表示模塊的基本單元。標(biāo)題PTi和摘要PAi作i個專利的文本輸入,其中每條語句視為一個單詞序列s=[v1,v2,…,vn],其中n表示句子中單詞的數(shù)量,vi∈Rd0表示通過Word2vec[13]算法訓(xùn)練的d0維詞嵌入向量。因此第i個專利的摘要可以表示為PAi=[s1,s2,…,sm],其中m表示摘要中語句的數(shù)量。通過對輸入文本的預(yù)處理,得到標(biāo)題和摘要的初始化表征PTi∈Rn×d0和PAi∈Rm×n×d0。CNN具有稀疏連接、權(quán)值共享和降采樣的特點,對于提取輸入語句的局部信息具有高性能,且速度較快。因此使用CNN作為基本單元學(xué)習(xí)專利文本中每個語句的信息表征,輸入為x的卷積計算公式如下:
Conv(x)=ReLU(k⊙X+b) (1)其中⊙為對應(yīng)位置元素相乘,k為卷積核,b為偏置項,ReLU為非線性活函數(shù)。經(jīng)過多個卷積層和池化層后,專利的標(biāo)題表征向量為Vt∈Rd1,其中d1為卷積神經(jīng)網(wǎng)絡(luò)的輸出維度。通過相同的卷積與池化操作,得到摘要中第i句的表征向量為Vai。
摘要中不同語句存在語義上的差異,并且與特定任務(wù)的相關(guān)性也不同。因此,本文使用注意機制為摘要中每個句子分配不同的權(quán)重,通過加權(quán)求和的方式獲得摘要的單一表征。由于標(biāo)題包含了專利的核心信息,本文根據(jù)標(biāo)題與每個句子的相關(guān)性來計算相應(yīng)的權(quán)重分數(shù)。摘要V^a的具體計算方式如下:
其中αi表示第i個句子的權(quán)重,W*表示參數(shù)矩陣。最后,本文對專利的標(biāo)題表征與摘要表征進行拼接操作,得到專利的文本表征。對于第i個專利,文本信息表征的計算方式如下:
3.1.2專利網(wǎng)絡(luò)表征學(xué)習(xí)
專利關(guān)聯(lián)網(wǎng)絡(luò),即專利引用網(wǎng)絡(luò)和實體共享網(wǎng)絡(luò),代表了專利的宏觀關(guān)系。GCN是CNN在非結(jié)構(gòu)化數(shù)據(jù)上的遷移應(yīng)用,在圖表征領(lǐng)域得到廣泛研究。本文選擇GCN作為基本模型學(xué)習(xí)專利節(jié)點的表征向量。首先分別在多個網(wǎng)絡(luò)上訓(xùn)練GCN模型,然后將多個GCN結(jié)果進行合并得到專利節(jié)點在網(wǎng)絡(luò)中的表征向量。然而,該方法忽略了多個網(wǎng)絡(luò)之間的相關(guān)性,無法得到全面的專利網(wǎng)絡(luò)表征向量。具有引用關(guān)系的兩個專利可能使用相同的技術(shù)或解決同一問題,這使得專利包之間含有相同的科技實體。因此,考慮不同網(wǎng)絡(luò)之間的相關(guān)性可以獲得更加全面的專利網(wǎng)絡(luò)結(jié)構(gòu)表征。
本文參考AM-GCN[14],使用多通道圖神經(jīng)網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)專利在兩個圖網(wǎng)絡(luò)上的表征向量。其核心思想是學(xué)習(xí)專利在特定網(wǎng)絡(luò)中的特定信息和在多個網(wǎng)絡(luò)中共享的公共信息,以便同時保留多個網(wǎng)絡(luò)的共性與差異。為專利節(jié)點定義的兩個表征向量分別表示專利的個性表征和共性表征。個性表征向量用于學(xué)習(xí)專利節(jié)點在每個網(wǎng)絡(luò)中的特定信息,共性表征向量則用于學(xué)習(xí)專利節(jié)點在多個網(wǎng)絡(luò)中的公共信息。
如圖1所示,首先構(gòu)造兩個特定的GCN,分別學(xué)習(xí)專利節(jié)點在專利引用網(wǎng)絡(luò)和專利實體共享網(wǎng)絡(luò)的個性表征向量,Ac和Ae分別表示專利引用網(wǎng)絡(luò)和實體共享網(wǎng)絡(luò)的鄰接矩陣。然后,初始化專利節(jié)點的特征矩陣X∈RN×d2,其中N表示專利節(jié)點數(shù)量,d2表示特征矩陣的初始化維度。在兩個特定的GCN中,使用相同的特征矩陣作為輸入。對于專利引用網(wǎng)絡(luò),第l層GCN的輸出表 示 如 下:
然后,構(gòu)造兩個特定的GCN,分別從專利引用網(wǎng)絡(luò)和專利實體共享網(wǎng)絡(luò)中學(xué)習(xí)專利節(jié)點的共性表征向量Zc,m和Ze,m。為了能夠從多網(wǎng)絡(luò)中學(xué)習(xí)專利節(jié)點的共性信息,兩個GCN在相同層共享參數(shù)矩陣。 因此,第l層計 算 方 式 如 下:
在得到專利的個性表征向量和共性表征向量之后,通過簡單拼接操作獲得專利節(jié)點的結(jié)構(gòu)信息表征:
在獲得專利的文本信息表征和結(jié)構(gòu)信息表征后,第i個專利的表征向量Pi表示為:
3.1.3 表征約束
本文借鑒AM-GCN[14]的方法,添加一致性約束項和差異性約束項來增強專利節(jié)點在多網(wǎng)絡(luò)結(jié)構(gòu)中的個性表征和共性表征。
對于專利節(jié)點的共性表征向量Zc,m和Ze,m,添加一致性約束項增強在多個網(wǎng)絡(luò)中學(xué)習(xí)的共性信息。其中,一致性約束的目的是確保不同網(wǎng)絡(luò)中通過共性表征向量計算的專利相似性是相似的。專利節(jié)點在兩個網(wǎng)絡(luò)上的相似性矩陣由Zc,m和Ze,m通過以下方式計算:
其中Sc和Se分別是引用網(wǎng)絡(luò)和實體共享網(wǎng)絡(luò)的相似性矩陣。定義一致性約束項Lc表示兩個相似性矩陣的差異。Lc值越小,表示學(xué)習(xí)到的共用信息越多,Lc值越大,則表示學(xué)習(xí)到的共用信息越少。Lc計算方式如下:
對于專利節(jié)點的個性表征向量Zc,s和Ze,s,添加差異性約束項,確保它們學(xué)習(xí)專利在網(wǎng)絡(luò)中的特定信息,目的是確保同一網(wǎng)絡(luò)中專利的共性表征向量與個性表征向量之間具有較大的差異。本文中同樣使用希爾伯特-施密特獨立標(biāo)準(Hilbert-Schmidt Independence Criterion,HSIC)來衡量這種差異,HSIC指標(biāo)已被廣泛用于衡量向量之間的獨立性。在專利 引 用 網(wǎng) 絡(luò) 中,Zc,s和Zc,m的HSIC指 標(biāo) 計 算 方 式如下:
定義差異性約束項為Ld,Ld值越小,表示專利在特定網(wǎng)絡(luò)中的個性表征和共性表征的差異越大,更能表示兩個表征向量分別學(xué)到了不同的結(jié)構(gòu)信息。
如圖1所示,將專利的表征向量Pi應(yīng)用于專利分類任務(wù),實現(xiàn)端到端的專利分類框架。
3.2.1 標(biāo)簽表征學(xué)習(xí)
部分標(biāo)簽頻繁出現(xiàn)在相同專利中,這些標(biāo)簽可能含有相似的語義信息,表示標(biāo)簽之間存在一定程度的相關(guān)性或依賴性。因此,在標(biāo)簽共現(xiàn)網(wǎng)絡(luò)中使用GCN學(xué)習(xí)標(biāo)簽的表征向量,同時捕獲標(biāo)簽之間的相關(guān)性。本文使用PMI衡量標(biāo)簽之間的相關(guān)性:
其中,p(i)和p(j)表示第i個標(biāo)簽和第j個標(biāo)簽的出現(xiàn)頻率,p(i,j)表示第i個標(biāo)簽和第j個標(biāo)簽同時出現(xiàn)的頻率。依據(jù)PMI矩陣中的正值構(gòu)建標(biāo)簽共現(xiàn)網(wǎng)絡(luò)中的鄰接矩陣:
然后,初始化標(biāo)簽特征矩陣Xl∈RC×d3,其中C表示標(biāo)簽數(shù)量,d3表示初始化的維度。將標(biāo)簽的特征矩陣Xl和鄰接矩陣Al作為GCN的輸入,第l′層的輸出如下:其 中是 第l′層 的 權(quán) 重 矩 陣的對角度矩陣最后一層GCN的輸出表示標(biāo)簽的表征向量L。
3.2.2 專利分類
現(xiàn)有的專利分類方法是將高維的專利特征或?qū)@碚髦苯虞斎氲饺B接神經(jīng)網(wǎng)絡(luò)中,并將其輸出結(jié)果作為輸入樣本的分類結(jié)果。當(dāng)樣本集的標(biāo)簽分布不均衡時,這些方法可能使分類器傾向于頻繁出現(xiàn)的標(biāo)簽,忽視處于長尾部分的標(biāo)簽。因此,采用CF的策略進行專利分類,將專利和標(biāo)簽的共現(xiàn)信息作為監(jiān)督信息增強專利和標(biāo)簽的表征學(xué)習(xí)。通過式(21)的方式得到專利的標(biāo)簽概率。
其中Pi是第i個專利的表征,Lj是第j個標(biāo)簽的表征,y^i,j是預(yù)測第i個專利第j個標(biāo)簽的概率。一個專利可能具有多個標(biāo)簽,因此使用二進制交叉熵損失函數(shù)作為目標(biāo)函數(shù),如下所示:
其 中,N表 示 專 利 的 數(shù) 量,C表 示 標(biāo) 簽 的 數(shù) 量,yi,j表示第i個專利第j個標(biāo)簽的真實值。本文使用L2正則化約束模型參數(shù),緩解模型過擬合現(xiàn)象。
最后,將交叉熵損失函數(shù)、一致性約束項、差異性約束項和正則化約束項相加,作為HRPC的目標(biāo)函 數(shù),λ1、λ2和λ3分 別 為 一 致 性 約 束 項 系 數(shù)、差 異性約束項系數(shù)和正則化約束項系數(shù)。
實驗中用到的真實專利數(shù)據(jù)集來自美國專利及商標(biāo)局,數(shù)據(jù)集包含超過600萬項專利。專利文本中包含多個實體,每個實體是句子中具有實際含義的單詞或短語。本文先使用NLTK工具對專利文本進行預(yù)處理,單詞小寫、詞形還原和去除停用詞,去除在語料庫中出現(xiàn)次數(shù)少于5的單詞。然后在TAGME接口中設(shè)置獲取實體鏈接的置信度閾值ε,得到與專利關(guān)聯(lián)度較高的實體鏈接。當(dāng)專利之間共享的實體數(shù)量不少于2時,建立專利之間的實體共享鏈接,并根據(jù)共享鏈接構(gòu)建實體共享網(wǎng)絡(luò)。同時通過專利引用數(shù)據(jù)構(gòu)建專利引用網(wǎng)絡(luò),使用NetworkX工具過濾網(wǎng)絡(luò)中節(jié)點度小于30的專利,過濾孤立節(jié)點并增加網(wǎng)絡(luò)密度。本文選擇專利的子類作為專利分類任務(wù)的標(biāo)簽,該類別為聯(lián)合專利分類體系中的第三層分類標(biāo)準。最后,通過上述過程得到的專利數(shù)據(jù)集包含12 648條專利樣本和312個子類標(biāo)簽。數(shù)據(jù)集的統(tǒng)計信息如表2所示。
表2 專利數(shù)據(jù)集的統(tǒng)計信息(個)
為了準確、全面的評估模型的性能,實驗中采用準確率(Precision)、召回率(Recall)和歸一化折損累計增益(NDCG)作為評價指標(biāo),然后使用top_K的評價指標(biāo)量化實驗性能,分別記為P@K、R@K和NDCG@K。本實驗中,為了與現(xiàn)有模型進行對比,K值分別取1、3、5。
本文選擇了多個對比算法,其中FastText[15]、BiLSTM-SA[11]、DeepPatent[4]、PatentBert[5]、STCKA[16]為基于文本分類的專利分類方法,Deepwalk[17]、GCN[18]、GraphSAGE[19]、AM-GCN為基于網(wǎng)絡(luò)節(jié)點分類的專利分類方法。為了公平起見,本文構(gòu)造了幾種結(jié)合文本信息和網(wǎng)絡(luò)結(jié)構(gòu)信息的方法,其中GCN-Texts的構(gòu)造方法為由文本表征模塊與GCN學(xué)習(xí)的結(jié)構(gòu)表征拼接組成專利的表征向量,僅學(xué)習(xí)專利節(jié)點在引用網(wǎng)絡(luò)中的表征,拼接兩個表征向量后通過MLP預(yù)測專利標(biāo)簽;GCN-Text-d的構(gòu)造方法與GCN-Text-s相似,使用兩個GCN分別學(xué)習(xí)專利節(jié)點在引用網(wǎng)絡(luò)和實體相似網(wǎng)絡(luò)中的結(jié)構(gòu)信息表征,拼接三個表征向量得到專利的表征向量,同樣使用MLP預(yù)測專利的標(biāo)簽;AM-GCN-Text的構(gòu)造方法與上述相似,通過AM-GCN學(xué)習(xí)專利節(jié)點在多通道網(wǎng)絡(luò)上的結(jié)構(gòu)信息,然后進行專利分類。該方法同樣使用MLP進行專利分類。
實驗結(jié)果如表3所示,與所有的對比方法相比,HRPC在多個評價指標(biāo)上均取得了明顯提升。在基于文本分類的方法中,F(xiàn)astText僅僅關(guān)注字符級的語義信息,忽略了更加重要的上下文信息,因此取得了較快的運行速度和較差的精度。DeepPatent和BiLSTM-SA都是基于深度學(xué)習(xí)的模型且關(guān)注于文本的上下文信息,因為BiLSTM-SA采用了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)和自注意力機制,學(xué)習(xí)了更加豐富的上下文信息,因此略優(yōu)于DeepPatent。PatentBert使用預(yù)訓(xùn)練模型BERT,通過設(shè)置大量的參數(shù)和在超大規(guī)模的語料庫上進行訓(xùn)練,獲得了更強的文本表征能力,因此比前幾個方法效果要更好。同樣,經(jīng)過外部知識的信息增強,STCKA也取得了很好的分類性能。
表3 不同方法在數(shù)據(jù)集中的指標(biāo)對比 (%)
在基于網(wǎng)絡(luò)表征的方法中,Deepwalk通過截斷的隨機游走捕獲整個網(wǎng)絡(luò)的結(jié)構(gòu)信息能力較弱,而GraphSAGE由于采樣鄰居節(jié)點缺失了部分鄰居的信息而具有相同的缺點。GCN聚合了所有鄰居節(jié)點的特征取得相對較好的實驗結(jié)果。AM-GCN使用GCN作為基礎(chǔ)組件,學(xué)習(xí)了更加豐富的結(jié)構(gòu)信息取得了更好的性能。顯然,基于文本的分類方法通常都優(yōu)于基于網(wǎng)絡(luò)的分類方法,這表明在專利分類任務(wù)中,專利的文本信息比結(jié)構(gòu)信息更重要。
最后,將HRPC與GCN-Text-s、GCN-Text-d和AM-GCN-Text的組合方法進行對比,僅使用引用網(wǎng)絡(luò)的GCN-Text-s由于缺少足夠的信息而獲得最差的評價指標(biāo)。此外,GCN-Text-d的性能比HRPC差,這表明簡單拼接兩個網(wǎng)絡(luò)結(jié)構(gòu)表征無法有效學(xué)習(xí)節(jié)點在多網(wǎng)絡(luò)下的表征。同樣,AM-GCN-Text的性能也弱于HRPC,這表明通過學(xué)習(xí)標(biāo)簽的共現(xiàn)關(guān)系可以達到更好的分類效果。綜上所述,HRPC的性能優(yōu)于所選取的基準算法。
為了探究數(shù)據(jù)集中不同訓(xùn)練比例的訓(xùn)練數(shù)據(jù)對HRPC實驗性能的影響,本文隨機抽取20%、30%、40%、50%、60%、70%和80%的專利數(shù)據(jù)集作為訓(xùn)練集,其余的作為測試集。在實驗中,選擇以下三個指標(biāo)評估模型的性能,Precision@1、Recall@5和NDCG@5。實驗結(jié)果如圖2所示,隨著訓(xùn)練比例的增加,HRPC的相關(guān)評價指標(biāo)得到快速提升,當(dāng)訓(xùn)練比例達到80%時,HRPC的分類性能最高。表明增加訓(xùn)練樣本時,模型可以學(xué)習(xí)更加充分的先驗數(shù)據(jù)分布,得到更好的分類效果。
圖2 不同比例的訓(xùn)練數(shù)據(jù)對專利分類性能的影響
為了探究關(guān)聯(lián)實體的置信度閾值對模型性能的影響,本文針對置信度閾值的多個取值進行實驗。測試獲取實體鏈接的置信度閾值ε分別取不同值時對專利分類性能的影響。當(dāng)閾值ε取較小值時,可以通過TAGME工具獲得較多的關(guān)聯(lián)實體,然而當(dāng)閾值ε取較大值時,僅能得到較少的關(guān)聯(lián)實體。實驗結(jié)果如圖3所示,隨著閾值ε的增長,NDCG@1、NDCG@3和NDCG@5均是先上升然后下降。這是因為閾值ε較小時,提取了較多的實體單詞,其中包括與專利主題相關(guān)度較低的實體,增加了過多的噪音信息,干擾模型的訓(xùn)練。隨著閾值ε的增加,過濾掉部分無關(guān)實體,降低了噪音實體帶來的負面影響,使得HRPC的性能得到提升。隨著閾值ε的繼續(xù)增加,過濾噪音實體的同時,也過濾掉了過多的有效實體,使得HRPC無法有效學(xué)習(xí)實體信息,導(dǎo)致模型的性能受到抑制。最終置信度閾值ε取值為0.15。
圖3 置信度閾值ε對實驗性能的影響
為了探究一致性約束項和差異性約束項對模型性能的影響,本文針對不同的取值范圍進行實驗。λ1和λ2分別表示一致性約束和差異性約束的程度,其中λ1的取值變化范圍是1×10-6~1×10-1,λ2的取值變化范圍是1×10-10~1×10-5,實驗結(jié)果如圖4所示。如圖4(a)所示,隨著λ1的增大,NDCG指標(biāo)均先上升后快速下降,當(dāng)λ1取值為1×10-4時,模型達到最佳性能。如圖4(b)所示,與λ1相似,隨著λ2的增大,NDCG指標(biāo)先緩慢上升后快速下降,當(dāng)λ2取值為1×10-7時,模型取得最優(yōu)結(jié)果。綜上所述,當(dāng)λ1取值為1×10-4,λ2取值為1×10-7時模型性能達到最優(yōu)。
圖4 約束項系數(shù)對實驗的影響
本文提出了一種基于混合表征的專利分類框架,該框架同時學(xué)習(xí)專利的文本信息和網(wǎng)絡(luò)結(jié)構(gòu)信息,然后和標(biāo)簽向量相乘計算專利屬于每一個標(biāo)簽的概率。進一步,本文使用圖卷積神經(jīng)網(wǎng)絡(luò)在標(biāo)簽共現(xiàn)網(wǎng)絡(luò)上學(xué)習(xí)標(biāo)簽的表征,使模型在計算專利的標(biāo)簽概率時,可以融入標(biāo)簽之間的共現(xiàn)信息,提高模型預(yù)測專利標(biāo)簽的準確性。實驗結(jié)果表明,本文提出的融合專利文本信息和網(wǎng)絡(luò)信息的混合表征保留了更加豐富的專利信息,在專利分類任務(wù)中取得了較高的準確性。下一步的研究目標(biāo)是挖掘更加有效的專利信息,進一步提高專利分類的準確性。