程 盼,徐弼軍
(浙江科技學(xué)院 理學(xué)院,杭州 310023)
專利作為重要的技術(shù)信息載體,包含著各種有價(jià)值的重要研究成果,其數(shù)量也在不斷攀升[1],于是面對(duì)海量的專利文本,對(duì)其進(jìn)行合理的分類顯得尤為重要[2]。目前,專利文本分類還是以人工為主,但隨著專利數(shù)量的迅速增長(zhǎng),若僅靠專利審查員的專業(yè)素質(zhì)與經(jīng)驗(yàn)來(lái)進(jìn)行分類,則無(wú)法滿足高效和準(zhǔn)確的實(shí)際需求[3]。
近年來(lái),國(guó)內(nèi)外對(duì)專利文本分類進(jìn)行了大量的研究。Cassidy[4]提出了一種改進(jìn)的樸素貝葉斯算法,并在來(lái)自世界專利信息(World Patent Information,WPI)測(cè)試集中的7 309項(xiàng)專利組成的語(yǔ)料庫(kù)上進(jìn)行了測(cè)試,結(jié)果表明在利用極少的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)F1值仍能夠達(dá)到34.26%。Li[5]等提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和單詞嵌入向量的深度學(xué)習(xí)算法DeepPatent,并將其在數(shù)據(jù)集CLEF-IP與新數(shù)據(jù)集USPTO-2M上分別進(jìn)行了測(cè)試,其精確度分別達(dá)83.98%與73.88%。賈杉杉等[6]提出了一種多特征多分類器方法,對(duì)多種特征分別用多個(gè)分類器進(jìn)行測(cè)試,準(zhǔn)確率最高達(dá)91.2%。胡云青[7]提出的改進(jìn)的三體訓(xùn)練法半監(jiān)督模式,能夠動(dòng)態(tài)改變分類器對(duì)相同未標(biāo)記樣本預(yù)測(cè)類別的概率閾值,并且在訓(xùn)練樣本只有少數(shù)標(biāo)記的情況下F1值最高達(dá)70.6%。
在海量的專利文本中,為了提高專利審查員的分類效率,提升對(duì)專利信息的組織管理水平,因此引進(jìn)機(jī)器學(xué)習(xí)來(lái)對(duì)專利文本進(jìn)行自動(dòng)分類非常必要[8]。但是專利文本中大量專業(yè)術(shù)語(yǔ)的使用,特定于行業(yè)中的語(yǔ)言降低了詞匯密度,并導(dǎo)致算法的搜索空間稀疏;此外,有意的非標(biāo)準(zhǔn)化語(yǔ)言雖然可以幫助申請(qǐng)人擴(kuò)大專利范圍或減少侵權(quán)的可能性,但這會(huì)給機(jī)器學(xué)習(xí)帶來(lái)噪聲,使其難以找到清晰的模式[9-10]。為了克服這些限制,我們提出了一種新的機(jī)器學(xué)習(xí)方法,利用word2vec模型的詞向量進(jìn)行文本表示,配合logistic回歸模型來(lái)實(shí)現(xiàn)對(duì)專利文本的自動(dòng)分類。
word2vec是一種用來(lái)產(chǎn)生詞向量的神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型,由Mikolov等[11]在2013年提出。它可以根據(jù)給定的文本數(shù)據(jù),在快速有效地優(yōu)化訓(xùn)練模型后將一個(gè)詞轉(zhuǎn)換成向量形式。該算法依據(jù)連續(xù)詞袋(continuous bag-of-words,CBOW)模型和Skip-gram模型來(lái)進(jìn)行訓(xùn)練,兩個(gè)模型的結(jié)構(gòu)如圖1、圖2所示,圖中方框表示詞匯的向量。CBOW模型的輸入層為當(dāng)前詞匯的上下文詞匯的獨(dú)熱向量(one -hot向量),經(jīng)過(guò)投影層對(duì)上下文詞匯的詞向量進(jìn)行累加計(jì)算,最后輸出層輸出預(yù)測(cè)的當(dāng)前詞匯的詞向量。Skip-gram模型的輸入層為當(dāng)前詞匯的one -hot向量,為了與CBOW模型對(duì)比,Skip-gram模型也加入一個(gè)投影層,但此投影層只對(duì)輸入的當(dāng)前詞匯的向量進(jìn)行加權(quán),最后經(jīng)過(guò)輸出層輸出當(dāng)前詞匯的上下文詞匯的詞向量。
圖1 CBOW模型的結(jié)構(gòu)
圖2 Skip-gram模型的結(jié)構(gòu)
由圖1可知,CBOW模型是在已知上下文詞匯w(t-2)、w(t-1)、w(t+1)、w(t+2)的前提下來(lái)預(yù)測(cè)當(dāng)前詞匯w(t),簡(jiǎn)言之,即通過(guò)上下文的內(nèi)容來(lái)預(yù)測(cè)當(dāng)前詞匯。它的學(xué)習(xí)目標(biāo)就是最大化對(duì)數(shù)似然函數(shù),其數(shù)學(xué)表達(dá)式為
(1)
式(1)中:w為當(dāng)前語(yǔ)料庫(kù)C中任意一個(gè)詞;Context(w)為當(dāng)前詞語(yǔ)w的上下文。
而Skip-gram模型是在已知當(dāng)前詞匯w(t)后,預(yù)測(cè)其上下文詞匯w(t-2)、w(t-1)、w(t+1)、w(t+2)。其目標(biāo)函數(shù)的數(shù)學(xué)表達(dá)式為
(2)
在本研究的實(shí)際操作過(guò)程中,Skip-gram模型的訓(xùn)練時(shí)間與CBOW模型相比更長(zhǎng),但其精度優(yōu)于CBOW模型。因此,為了獲得更好的分類效果,本研究選取Skip-gram模型[12]。
logistic回歸模型[13]是統(tǒng)計(jì)學(xué)中比較經(jīng)典的分類算法。它雖然被稱為回歸,但實(shí)際上卻是一種用于分類的模型。它的因變量有二分類、多分類,本研究利用它進(jìn)行多分類。
設(shè)X是連續(xù)隨機(jī)變量,X服從logistic分布是指X具有下列分布函數(shù)和密度函數(shù):
(3)
(4)
式(3)~(4)中:γ為形狀參數(shù);μ為位置參數(shù)。
二項(xiàng)logistic回歸模型由條件概率分布P(Y|X)表示,形式為參數(shù)化的logistic分布。其中,隨機(jī)變量X為實(shí)數(shù),隨機(jī)變量Y的取值范圍為{0,1}。將x∈Rn作為輸入,Y∈{0,1}作為輸出,則二項(xiàng)logistic回歸模型可用以下條件概率分布來(lái)表示:
(5)
(6)
式(5)~(6)中:w、b均為參數(shù),w∈Rn,b∈R;w為權(quán)值向量;b為偏置;wx為w和x的內(nèi)積。
為了方便計(jì)算,有時(shí)會(huì)將權(quán)值向量和輸入向量進(jìn)行擴(kuò)充,仍然記作w、x,即w=(w1,w2,…,wn,b)T,wi表示權(quán)值向量w的第i個(gè)分量,x=(x(1),x(2),…,x(n),1)T,x(i)表示輸入向量x的第i個(gè)分量,i=1,2,…,n。這時(shí),logistic回歸模型如下:
(7)
(8)
logistic回歸模型在訓(xùn)練學(xué)習(xí)時(shí),對(duì)于給定的訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xN,yN)}(xi∈Rn,yi∈{0,1})可以利用極大似然估計(jì)法來(lái)估計(jì)模型參數(shù)。
為了解決多類分類問(wèn)題,將二項(xiàng)logistic回歸模型進(jìn)行推廣。假設(shè){1,2,…,K}為離散型的隨機(jī)變量Y的取值集合,那么多項(xiàng)logistic回歸模型為
(9)
(10)
式(9)~(10)中:x∈Rn+1,wj∈Rn+1。
本研究所有的試驗(yàn)都是基于Windows10操作系統(tǒng),CPU型號(hào)為Core i5,主頻為3.00 GHz,內(nèi)存大小為8 GB,編程語(yǔ)言使用Python 3.7版本,用到了Sklearn、Jieba、Pandas等多方庫(kù)。本試驗(yàn)數(shù)據(jù)為從萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)下載的2019年中國(guó)已授權(quán)的專利文本數(shù)據(jù),這些數(shù)據(jù)按照國(guó)際專利分類號(hào)(International Patent Classification,IPC)進(jìn)行了標(biāo)記。IPC分類號(hào)采用“部—類—組”的層次分類方法,層次越低,文本的相似度就越高[14]。為了方便研究,本研究從數(shù)據(jù)庫(kù)中獲取的是“部”類別為H的電學(xué)領(lǐng)域的專利文本,分別為H01、H02、H03、H04、H05,其中每個(gè)類別數(shù)量都為6 000篇,一共30 000條的專利數(shù)據(jù)作為語(yǔ)料庫(kù)。各專利分類號(hào)的具體含義見(jiàn)表1。
表1 專利分類號(hào)含義
由于專利說(shuō)明是對(duì)該專利的進(jìn)一步解釋,因此,我們?cè)谠囼?yàn)中將專利說(shuō)明和摘要的內(nèi)容進(jìn)行文本合并后,構(gòu)成了最終參與試驗(yàn)的語(yǔ)料庫(kù)[15]。為了方便試驗(yàn),人工劃分出了訓(xùn)練集與測(cè)試集,其中訓(xùn)練集包含每個(gè)類別的5 000條數(shù)據(jù),測(cè)試集包含每個(gè)類別的1 000條數(shù)據(jù)。整個(gè)試驗(yàn)設(shè)計(jì)的流程如圖3所示。
圖3 試驗(yàn)設(shè)計(jì)流程
對(duì)數(shù)據(jù)集進(jìn)行人工標(biāo)注后,開(kāi)始進(jìn)行文本預(yù)處理,其中主要包括分詞和去除停用詞[16]。由于文本處理中最基礎(chǔ)的單元就是詞匯,因此,需要將整個(gè)語(yǔ)料進(jìn)行分詞。我們使用Python的第三方庫(kù)Jieba對(duì)專利文本進(jìn)行有效的分詞。然后再去除停用詞,即助詞、符號(hào)等對(duì)整個(gè)語(yǔ)義沒(méi)有影響的詞,本研究采用的是收錄較為完整的《哈爾濱工業(yè)大學(xué)停用詞表》。最后,將完成分詞和去除停用詞后的文檔進(jìn)行保存,該文檔將全部由詞匯組成。
將預(yù)處理之后的文本數(shù)據(jù)利用Python中的第三方庫(kù)Gensim的word2vec模型進(jìn)行訓(xùn)練,從而得到詞匯的詞向量表[17]。經(jīng)過(guò)一系列的調(diào)試之后,我們發(fā)現(xiàn)將詞向量維數(shù)設(shè)置為200,迭代次數(shù)設(shè)置為10,其他參數(shù)保持不變時(shí),該模型的精度達(dá)到最優(yōu)。
為了驗(yàn)證本研究提出的word2vec+logistic模型的有效性和優(yōu)越性,設(shè)計(jì)了兩組試驗(yàn)進(jìn)行對(duì)比。一組試驗(yàn)為在相同的分類器logistic回歸模型下,采用不同的文本表示方法,即word2vec模型和向量空間模型進(jìn)行比較。其中word2vec模型是將得到的詞向量與分詞之后的文檔進(jìn)行詞匯映射,得到每個(gè)詞匯具體的詞向量值,然后求出文檔的平均值,從而得到文檔的詞向量表示;而傳統(tǒng)的向量空間模型主要采用的是one-hot編碼,即將所有待分類的語(yǔ)句中不重復(fù)的詞匯全部提取出來(lái),形成詞典,將詞匯出現(xiàn)在詞典中的位置記為1,其他位置記為0,然后使用詞頻-逆向文檔頻率(TF-IDF)特征權(quán)重計(jì)算方法來(lái)加權(quán)表示[18]。另一組試驗(yàn)為在相同的文本表示方法word2vec模型下,采用不同的分類器logistic回歸模型與k近鄰(k-nearest neighbor,KNN)算法在相同數(shù)據(jù)集上進(jìn)行對(duì)比試驗(yàn)。
采用精確度P、召回率R及F1值來(lái)評(píng)價(jià)模型的分類效果。假設(shè)將關(guān)注的類別標(biāo)簽記作正類,其余的類別標(biāo)簽記作負(fù)類,則分類器的預(yù)測(cè)結(jié)果在測(cè)試集上有正確和不正確兩種[19]。其中,精確度以預(yù)測(cè)結(jié)果為判斷依據(jù),召回率以實(shí)際樣本為判斷依據(jù)。
精確度可表示為
(11)
式(11)中:a為實(shí)際為正例的樣本數(shù);b為實(shí)際為負(fù)例的樣本數(shù)。
召回率可表示為
(12)
式(12)中:c為預(yù)測(cè)錯(cuò)誤的樣本數(shù)。
F1值是精確度和召回率的調(diào)和均值,其表達(dá)式為
(13)
3.2.1 word2vec+logistic模型與TF-IDF+logistic模型對(duì)比分析
為了驗(yàn)證詞向量模型進(jìn)行文本表示的優(yōu)勢(shì),設(shè)計(jì)了在采用同種分類器下,利用詞向量模型word2vec與向量空間模型TF-IDF分別進(jìn)行文本表示的分類結(jié)果對(duì)比試驗(yàn)[20]。
在對(duì)利用word2vec模型進(jìn)行文本表示的語(yǔ)料進(jìn)行訓(xùn)練的過(guò)程中,采用了十折交叉驗(yàn)證,word2vec+logistic模型在訓(xùn)練集上的平均準(zhǔn)確率達(dá)到了71%。由圖4可知,將模型保存之后應(yīng)用在測(cè)試集上,各類別的準(zhǔn)確率分別為69%、64%、84%、76%、61%,平均準(zhǔn)確率達(dá)到了70%左右,這與在訓(xùn)練集上的結(jié)果相差不大。而用同樣的數(shù)據(jù)在對(duì)利用TF-IDF進(jìn)行文本表示的語(yǔ)料進(jìn)行訓(xùn)練時(shí),經(jīng)過(guò)交叉驗(yàn)證之后,TF-IDF+logistic模型在訓(xùn)練集上的平均準(zhǔn)確率僅為42%,而在測(cè)試集上,平均準(zhǔn)確率也就40%左右。
圖4 word2vec+logistic與TF-IDF+logistic在測(cè)試集上各類別的準(zhǔn)確率
表2、表3所示的是word2vec+logistic模型與TF-IDF+logistic模型分類結(jié)果的精確度(P)、召回率(R)與F1值,通過(guò)對(duì)比可以看出,使用向量空間模型的專利文本分類效果較差,除了H03類之外,其他類F1值只達(dá)到了35%左右。導(dǎo)致其分類效果低的原因可能是專利文本中不同領(lǐng)域擁有各種專有名詞,而向量空間模型只會(huì)對(duì)詞匯做比較簡(jiǎn)單的區(qū)分,并且向量的維度極高,樣本之間的特征太過(guò)稀疏化。而基于word2vec的詞向量文本表示,可以表達(dá)詞匯之間的相似度,對(duì)近義詞進(jìn)行區(qū)分,其分類結(jié)果在各項(xiàng)指標(biāo)上明顯地要優(yōu)于向量空間模型,相比之下,基本上所有類別的F1值都提高了30%左右。
表2 基于word2vec+logistic模型的文檔分類結(jié)果
表3 基于TF-IDF+logistic模型的文檔分類結(jié)果
3.2.2 word2vec+logistic模型與word2vec+KNN模型對(duì)比分析
KNN分類模型作為最簡(jiǎn)單的、經(jīng)典的機(jī)器學(xué)習(xí)模型,在分類問(wèn)題上被廣泛使用,因此,選取KNN模型來(lái)與logistic回歸模型進(jìn)行比較。KNN模型是在特征空間中通過(guò)計(jì)算待測(cè)樣本與訓(xùn)練樣本間的距離,得出與待測(cè)樣本相鄰最近的k個(gè)樣本中的大多數(shù)屬于哪一類別,則該待測(cè)樣本也屬于這個(gè)類別[21]。
圖5所示的是word2vec+logistic模型與word2vec+KNN模型在測(cè)試集上各類別的準(zhǔn)確率,從圖中可以看出,在進(jìn)行十折交叉驗(yàn)證之后,word2vec+KNN模型在整個(gè)測(cè)試集上的平均準(zhǔn)確率為63%左右,而word2vec+logistic模型平均準(zhǔn)確率為70%左右,比word2vec+KNN模型提高了7%左右。
圖5 word2vec+logistic與word2vec+KNN在測(cè)試集上各類別的準(zhǔn)確率
表4所示的是word2vec+KNN模型在測(cè)試集上的分類結(jié)果,與表2所示的word2vec+logistic模型的分類結(jié)果比較,可以發(fā)現(xiàn)logistic回歸模型各個(gè)類別的F1值最大提高了10%。究其原因,在選取數(shù)據(jù)時(shí),我們是基于部隨機(jī)選取的專利樣本,每個(gè)部下面還有很多類、組,其類組之間有的可能存在較大的差異,KNN模型是靠鄰近的k個(gè)點(diǎn)來(lái)判斷,這就導(dǎo)致當(dāng)出現(xiàn)樣本不均衡問(wèn)題時(shí),其分類效果會(huì)變差;其次,KNN模型中k值大小的選擇沒(méi)有理論上的最優(yōu)值,在訓(xùn)練過(guò)程中發(fā)現(xiàn),隨著k值越來(lái)越大,模型精度的確有所提升,但是這只會(huì)讓模型變得簡(jiǎn)單,這并不是一個(gè)較好提升模型精度的方式,而logistic回歸模型不依賴于樣本之間的距離。因此,在本試驗(yàn)中,logistic回歸模型充分表現(xiàn)出了它的優(yōu)勢(shì)。
表4 基于word2vec+KNN模型的文檔分類結(jié)果
針對(duì)中文專利文本的自動(dòng)分類問(wèn)題,本研究提出了一種新的機(jī)器學(xué)習(xí)方法,利用word2vec進(jìn)行文本表示,用logistic回歸作為分類器的專利文本分類模型,并與傳統(tǒng)的向量空間模型進(jìn)行文本表示及利用KNN模型作為分類器進(jìn)行比較。經(jīng)過(guò)理論分析和試驗(yàn)評(píng)估發(fā)現(xiàn),與傳統(tǒng)的向量空間模型采用TF-IDF進(jìn)行文本表示相比,word2vec模型在進(jìn)行文本表示時(shí),可以很好地區(qū)分專利文本中相似的特征,并且logistic回歸模型與KNN模型相比,在分類效果上其精確度、召回率、F1值都有了顯著的提高。此外,本研究的模型還可以推廣到其他專利類別的文本分類上,后續(xù)工作將是進(jìn)一步研究?jī)?yōu)化,以獲得更優(yōu)的分類效果。