馬建紅 張少光 曹文斌 王晨曦
(河北工業(yè)大學人工智能與數(shù)據(jù)科學學院 天津 300401)
科技創(chuàng)新在某種意義上來說即為功能的創(chuàng)新,利用相關的聚類技術可以將各個行業(yè)中的專利進行基于功能的自動聚類,有利于研究人員便捷地獲取相關技術領域中的集成專利信息,幫助他們了解當前最新技術的發(fā)展趨勢,提高企業(yè)的自助研發(fā)能力和企業(yè)競爭力,具有重要的現(xiàn)實意義。
近年來,為了打破專利的限制,提升自身的創(chuàng)新能力和競爭力,研究人員在專利領域開展了大量研究,并產(chǎn)出了大量的研究成果。江屏等[1]利用專利自身原有的結(jié)構化信息,利用國際專利分類號(International Patent Classification,IPC)聚類分析和當前領域相關技術成熟度結(jié)合,從而有效地確定了待規(guī)避的專利群和專利規(guī)避目標,突破創(chuàng)新,對打破專利壁壘具有重大意義。功能的創(chuàng)新進而引起產(chǎn)品技術的變革,陳旭等[2]將專利處理為技術功效對的形式,利用聚類技術,對技術功效矩陣進行聚類,能夠清楚地了解當前的技術熱點和研發(fā)熱點,為研究人員指明了技術創(chuàng)新方向。這些方法主要是應用統(tǒng)計學模型進行的專利聚類,如詞袋法和詞頻-逆文檔頻率,它們都舍棄了文本中大量的語義信息,并且存在步驟繁雜、聚類時間較長等缺點。
目前,深度學習算法在自然語言處理領域中取得了十分出色的成果,將深度學習應用到專利領域也逐漸成為一種趨勢。有研究人員開始將詞向量[3]引入到專利文本表示方面,很好地彌補了傳統(tǒng)算法在表達詞語和語義方面上的不足,挖掘出了詞語與詞語之間更深層次的聯(lián)系,取得了不錯的效果。Lee等[4]以最新的BERT模型為基礎,對模型進行微調(diào),之后利用其進行專利分類。由于卷積神經(jīng)網(wǎng)絡(Convolution Neural Network, CNN)具有很好的學習復雜、高維和非線性映射關系的能力,所以結(jié)合CNN和詞嵌入的方法進行實驗,實驗分類效果得到很大提升。循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)能夠有效地利用序列數(shù)據(jù)的序列信息,但是記憶能力因為距離的增長而變得越來越弱,存在梯度爆炸和梯度消失等相關問題。循環(huán)神經(jīng)網(wǎng)絡的變體——長短期記憶網(wǎng)絡[5](Long Short-Term Memory, LSTM)能夠解決因距離而導致的依賴問題。Xiao等[6]建立了基于Word2vec和LSTM的分類模型,提取專利文本的序列化特征,學習序列之間更深層次的關系,能夠更好地對專利進行分類。近年來,注意力機制逐漸成為深度學習領域研究的一個熱點,被大量應用于QA 、情感分析、句子級別摘要[7]等方面,都獲得了不錯的效果。與此同時,注意力機制也在專利領域進行了應用,馬建紅等[8]利用長短期記憶網(wǎng)絡與基于注意力機制聯(lián)合雙向LSTM相結(jié)合提取專利特征,進行專利文本分類,準確率也達到了70%以上。
傳統(tǒng)的特征提取和聚類過程通常是分開執(zhí)行的,許多研究傾向于特征提取[9-10]或者聚類算法的研究[11]。針對以上問題,本文結(jié)合深度學習技術,提出多角度特征提取(Multiple Angle Feature, MAF)混合模型,其能夠融合功能信息對專利進行動態(tài)聚類,在聚類過程中動態(tài)調(diào)整網(wǎng)絡參數(shù)以獲得更好的性能。
本文提出的模型框架圖如圖1所示。首先對專利文本進行前期預處理工作,包括數(shù)據(jù)清洗、分詞去除停用詞等相關操作;然后標注出專利文本中的功能語句,經(jīng)過MAF混合模型提取出專利文本的特征表示;最終利用K-means算法對專利文本進行基于功能的聚類。為了優(yōu)化網(wǎng)絡結(jié)構和獲得最好的聚類效果,可以將聚類結(jié)果的倒置輪廓系數(shù)的對數(shù)視為神經(jīng)網(wǎng)絡的損失函數(shù),以共同優(yōu)化特征提取和聚類過程中的參數(shù),通過調(diào)整網(wǎng)絡損失函數(shù)實現(xiàn)動態(tài)聚類。
圖1 模型框架圖
本文使用的原始語料是專利的摘要和標題,在語料處理方面,本實驗采用結(jié)巴分詞對專利文本進行分詞,此外為了增加分詞的準確性,百度百科條目也被添加到系統(tǒng)的同義詞庫中。例如“有利于石墨烯規(guī)?;a(chǎn)”進行分詞后,得到“有利于 石墨烯 規(guī)?;?生產(chǎn)”。同時為了避免向量冗余,需要對文檔進行停用詞處理。
接下來進行標注工作,對于不是功能信息句的專利語句標注0,例如“0 將 金屬 鎂粉 裝入 管式 高溫爐 內(nèi)”,該語句并沒有表達出任何功能信息。將功能信息句分為9類,例如將“提高 生產(chǎn)效率”“適宜 大規(guī)模 生產(chǎn)”“有利于 規(guī)模化 生產(chǎn)”等歸為一類。
MAF混合模型結(jié)構如圖2所示。底層主要是專利文本的向量化表示。中間層主要由深層語義表示和功能詞語關注兩部分組成。其中深層語義表示部分由雙向長短期記憶網(wǎng)絡聯(lián)合注意力機制(BiLSTM-Attention)部分、CNN卷積神經(jīng)網(wǎng)絡部分、改進的權值潛在狄利克雷分布(Weight Latent Dirichlet Allocation,WLDA)主題提取部分,來共同學習專利文本的深層語義。功能詞語關注部分使用注意力機制加強對重點功能詞語的關注,最后采用并行融合的方式對特征向量進行融合,構造全局特征向量,作為聚類實驗的輸入。
詞嵌入是將文本中的每個詞表示為空間中低維、稠密的向量。在當今自然語言處理的各項任務中,它能夠包含更多的詞與詞之間的含義,相對于基于傳統(tǒng)的TF-IDF詞頻向量或者LSA潛在語義向量效果更好,更適用于進行深度的語義挖掘工作。
Word2vec是谷歌在2013年提出的詞嵌入訓練方法。作為一種無監(jiān)督學習方式,它可以從大量文本語料中以無監(jiān)督的方式學習文本的語義知識。通過一個語義空間使得語義上相似的詞語在該空間內(nèi)距離很近[12-13]。為了充分利用專利文本的信息,擴充詞向量的表示能力,本文最終使用Skip-Gram[14-15]方式來訓練,得到200維的詞向量。
考慮到功能信息句長度和數(shù)量的限制,不能僅僅通過詞頻、詞性等特征進行聚類,本文結(jié)合深度學習的方式提取了功能信息句的各種特征,最終的特征表示如下所示:
Vsemantic=VB⊕VC⊕VWL
(1)
VK=[Vsemantic,VAtt]
(2)
式中:VK代表聚類的輸入;Vsemantic表示深層語義特征;VAtt代表功能詞語特征;VB代表序列特征;VC代表文本嵌入特征;VML代表主題特征。
2.4.1深層語義表示
(1) BiLSTM-Attention提取序列特征。長短期記憶網(wǎng)絡是在RNN的基礎上進行改進的,它以RNN為基礎加入了門的思想,由輸入門、遺忘門、輸出門和一個cell單元組成。通過門的輸入、遺忘和輸出來保持和更新細胞狀態(tài),從而有效地克服了RNN在訓練過程中出現(xiàn)的梯度消失和梯度爆炸的問題。本文需要結(jié)合功能信息句的上下文特征,因此采用BiLSTM提取上下文的信息,這種結(jié)構考慮了序列的雙向特征,極大地改進了功能信息句的語義表達。針對當前語句內(nèi)的第i個詞,BiLSTM抽取的特征向量為:
xi=(Cl(xi),Cr(xi))
(3)
式中:Cl(xi)是xi左邊的專利文本向量;Cr(xi)是xi右邊的專利文本向量。
在功能信息句中,每個詞對于類別的貢獻度也是不同的,例如“用于對酒精濃度的檢測”“提高了Cu微晶的耐熱性能”等,就需要特別關注“酒精濃度”“檢測”“提高”“耐熱性”等詞語,在BiLSTM層后面增加注意力層[16]可以進一步地提取專利文本之間更深層次的信息。
(4)
式中:ai為每個詞語的注意力權重。
(2) CNN提取嵌入特征。CNN在語義建模方面和特征提取方面都有著良好的表現(xiàn)和突破[17-18]。結(jié)合專利文本特性,本文需要提取功能信息句序列信息的不同嵌入特征??紤]到卷積核能夠捕獲文本信息的局部特征,擁有可并行化、運行速度快等優(yōu)點,本文將不同的局部特征進行整合,得到功能信息句的嵌入特征。CNN首先輸入向量化的專利功能信息句,之后是卷積層和池化層,本文采用的是最大池化,對每個卷積核窗口內(nèi)的輸入向量選取最大值構成新向量,公式如下:
C=max{Ci}
(5)
Z={C1,C2,…,Ct}
(6)
式中:t為卷積核的數(shù)量,在訓練期間,為了防止過擬合現(xiàn)象以及加快訓練速度加入了Dropout層,可以屏蔽部分隱層神經(jīng)元。最后是全連接層,全連接層是把以前的局部特征通過權值矩陣進行重新組裝,最終輸出CNN文本嵌入特征向量。
(3) WLDA提取主題特征。當前大部分的概率主題模型都以LDA[19]構建的主題模型為基礎,它是一個典型的由文檔、主題和詞匯構成的三層貝葉斯概率生成模型,主要包含文檔-主題及主題-詞匯這兩個狄利克雷-多項式共軛結(jié)構。利用LDA可以從文檔中發(fā)現(xiàn)潛在主題,并使用主題的概率分布描述整個文檔,挖掘文檔更深層的含義。
陳磊等[20]利用Word2vec詞向量與LDA詞向量相結(jié)合的方式進行主題特征抽取。本文在其基礎上,改進了特征抽取的方式:將每個主題的前h個高概率詞語作為子集表示主題,然后將它們的概率重新調(diào)整為詞語的權重;對主題詞進行歸一化處理,即每個詞占主題的權重,將主題詞映射到Word2vec向量空間中;測量每個文檔到主題的余弦距離,以便獲得距離分布,然后將它們的距離重新調(diào)整為文檔到主題的權重,權重與主題向量的乘積即是WLDA特征向量。
文檔集D={d1,d2,…,dn},文檔中所有詞為{w1,w2,…,wm},訓練文檔集D,LDA輸出主題集{t1,t2,…,tT}下每個詞語的概率,第i個詞對主題tj的貢獻度為θij,使用Word2vec訓練文檔集D得到每個詞語固定維數(shù)的空間向量。對于每個主題向量,使用前h個高概率詞語表示,同時每個主題下的詞語概率被調(diào)整為權重,并將主題詞映射到向量空間中,公式如下:
(7)
(8)
式中:ωij表示第i個主題下第j個詞的權重;v(wz)表示詞wz訓練后的詞向量;v(ti)代表第i個主題在詞向量空間下的坐標。接下來計算每篇文檔與主題的距離,對距離進行歸一化處理得到TDi,將TDi作為主題向量的權重值,則每篇文檔的主題特征向量VWL的計算公式如下:
VWL=TDiv(ti)
(9)
(10)
式中:dti表示文檔到主題i的距離。
2.4.2功能詞語關注層
對功能信息句進行特征提取的過程中,由于句子中包含的詞數(shù)較少,難以提取關鍵信息。關鍵詞語對功能聚類十分重要,為了加強這些功能詞語在聚類中的作用,本文采用注意力機制直接從詞向量的基礎上學習每個詞的權重分類效果,如表1所示。
表1 功能重點詞分析
上文是將注意力機制與BiLSTM進行串行組合,這部分則從詞向量的基礎上直接學習得到權重,公式如下:
Vi=tanh(Wxi+bw)
(11)
(12)
式中:aAtt[i]表示第i個詞對于當前文本的重要程度;W和Va均為權重矩陣;bw為偏置。得到每個詞的權重后,假設句中的詞數(shù)為A,將詞向量按權重求和作為功能詞語部分的輸出,公式如下:
(13)
在獲得專利文本的所有特征語義表示后,本文將最終的所有特征表示提供給聚類層,以實現(xiàn)動態(tài)聚類操作。本文應用K-means算法來進行專利文本聚類,由于K-means容易受到初始聚類中心的影響,為了減少其隨機選取聚類中心的影響,盡量將初始聚類中心在空間上的分布與實際數(shù)據(jù)分布相同。本文采用量化的標準對相似數(shù)據(jù)進行劃分。輪廓系數(shù)是由Kaufman等所提出,旨在基于距離對聚類效果進行判斷。
Si是文本i的輪廓系數(shù),ai是文本i到同類其他文本的平均距離,bi是文本i到最近類別內(nèi)的所有文本的平均距離。文本數(shù)量為N,定義輪廓系數(shù)Sc如下:
(14)
(15)
通過特征提取和聚類過程的相互作用動態(tài)調(diào)整和優(yōu)化神經(jīng)網(wǎng)絡,將所有神經(jīng)網(wǎng)絡的損失函數(shù)定義為輪廓系數(shù)倒數(shù)的對數(shù),輪廓系數(shù)越大,損失函數(shù)越小。若輪廓系數(shù)的取值范圍為[-1,1],輪廓系數(shù)越接近1,代表類內(nèi)平均距離遠小于最小的類間平均距離,聚類效果越優(yōu)。通過最小化損失函數(shù)可以將整個神經(jīng)網(wǎng)絡調(diào)整到最優(yōu)結(jié)構,且聚類效果最優(yōu),公式如下:
(16)
定義損失函數(shù)后,可以根據(jù)損失函數(shù)對神經(jīng)網(wǎng)絡的特征提取過程進行訓練,調(diào)整和優(yōu)化網(wǎng)絡參數(shù)。直到損失函數(shù)達到最小,聚類過程結(jié)束。
按照國際專利分類的分類標準,本文從無機化學類(C01)共4 336篇專利中人工抽取了5 303條功能信息句,將功能信息句分為9類,每個類代表不同的功能。Lai等[21]通過理論和實驗證明,詞向量效果與數(shù)據(jù)的領域性很相關,領域性越強的數(shù)據(jù)訓練得出的詞向量表達效果越好,因此本文實驗沒有添加大量的額外語料進行訓練。王飛等[22]的研究表明混合模型算法在訓練效果上優(yōu)于單一模型算法,因此本實驗采用Skip-gram+Negative Sampling+Hierarchical Softmax混合Word2vec模型訓練詞向量。
聚類評價標準有如下三種:(1) Purity即準確率,只需要計算正確聚類的文檔數(shù)占總文檔數(shù)的比例,該方法優(yōu)點是方便計算,缺點是無法對退化的聚類方法做出正確評價。(2) RI是一種利用排列組合原理對聚類進行評價的手段。它將準確率和召回率看的同等重要,無法對不同適用不同場景。(3) F-measure是基于RI方法衍生出的一個方法,可以將準確率和召回率設置不同的權重,適用不同的場景需求。
為了驗證本文模型的有效性,本文采用評價標準F-measure。該標準經(jīng)常被用作衡量聚類方法的精度,是一種平面和層次聚類結(jié)構都適用的評價標準,可以結(jié)合準確率P和召回率R做出更為綜合的評價。其公式如下:
(17)
(18)
(19)
式中:nij表示類Cj中屬于Ki的專利文本數(shù)。聚類的總體F-measure值則可用每個類的最大F-measure值并采用該類的大小加權之后的綜合,公式如下:
(20)
式中:Dj是第j類的專利文本數(shù)量。F-measure取值范圍為(0,1),某值越大表示聚類效果越好。
實驗參數(shù)的選取直接影響最后的實驗結(jié)果。通過固定參數(shù)的方法,分別比較了100維、150維、200維,卷積核大小為3、4、5、6、7,滑動窗口的數(shù)量取16、32、64,Dropout的比例為0.3、0.5、0.6對實驗結(jié)果的影響。通過對比以上參數(shù)對模型準確率的影響,當取表2所示的參數(shù)值時CNN模型取得了較好的分類結(jié)果。
表2 CNN相關實驗參數(shù)
使用不同大小的卷積核可以抽取句子的不同嵌入特征,對嵌入特征進行合并能夠抽取更加全面的特征。卷積層采用ReLU激活函數(shù)避免了神經(jīng)元的失活現(xiàn)象,并且可以加快神經(jīng)網(wǎng)絡的收斂,不會影響卷積層的效果。使用Adam優(yōu)化算法,計算每個參數(shù)的自適應學習率,收斂速度更快,學習效果更有效。
BiLSTM-Attention的參數(shù)也使用了同樣維度的詞向量,層數(shù)為2層,隱藏層大小對比了128和256,同時加上Attention層。經(jīng)過對比,隱藏層大小為128時效果最好,同樣使用Adam作為優(yōu)化算法,不斷迭代更新網(wǎng)絡參數(shù),加快模型收斂速度。相關參數(shù)如表3所示。
表3 BiLSTM-Attention相關實驗參數(shù)
3.4.1動態(tài)聚類有效性驗證
為了驗證模型動態(tài)反饋部分的有效性,本文在相同實驗條件下進行了兩組不同的實驗,實驗結(jié)果的F-measure值如表4所示。Baseline實驗是單獨的混合模型,但是并沒有加上動態(tài)反饋部分;Baseline[Feedback]實驗是在Baseline實驗的基礎上加入了動態(tài)反饋部分。
表4 對比實驗結(jié)果
實驗結(jié)果表明,隨著專利文本數(shù)量的增加,模型準確性在逐步提升,聚類性能改善明顯,從而證明了動態(tài)反饋聚類部分的有效性。同時,專利數(shù)量越來越多,兩個實驗的準確率都得到了不同程度的提升,說明實驗中可能存在過擬合現(xiàn)象,增大專利文本數(shù)量情況會有所改善。
3.4.2 WLDA抽取主題特征有效性驗證
為了驗證模型中WLDA抽取主題特征部分的有效性,在相同條件下本文設置了如下對比實驗,實驗結(jié)果如表5所示。Baseline實驗是本文提出的基于MAF混合模型動態(tài)聚類,并沒有引入WLDA部分;Baseline[LDA]實驗是在Baseline的基礎上,將WLDA部分替換為標準的LDA;Baseline[WLDA]實驗是在Baseline的基礎上,引入了WLDA部分。
表5 對比實驗結(jié)果
實驗B、實驗C與實驗A相比F-measure值分別提升了0.4百分點、0.824百分點,證明了引入主題特征對本文混合模型聚類是有效的。同時實驗C與實驗B相比也有相對提升,也證明了本文提出的WLDA抽取主題特征的有效性,更能對主題進行特征表示。
3.4.3模型有效性驗證
為了驗證整個混合動態(tài)模型的有效性,本文設置了如下對比實驗,實驗結(jié)果如表6所示,其中對比實驗解釋如下:
TF-IDF+K-means:將功能信息句轉(zhuǎn)換為文本向量,交由K-means完成聚類。
CNN+K-means:采用和混合模型相同的輸入,單獨利用CNN進行特征提取,交由K-means完成聚類。
BiLSTM-Attention+K-means: 采用和混合模型相同的輸入,單獨利用BiLSTM-Attention進行特征提取,交由K-means完成聚類。
WLDA+K-means: 采用和混合模型相同的輸入,單獨利用WLDA進行特征提取,交由K-means完成聚類。
Baseline實驗是整個MAF混合動態(tài)聚類部分。
Baseline[-BA]實驗是去除BiLSTM-Attention部分,利用其提取語義特征,同時加入動態(tài)反饋聚類部分。
Baseline[-CNN]實驗是去除CNN部分,利用其提取嵌入特征,同時加入動態(tài)反饋聚類部分。
Baseline[-WLDA]實驗是去除WLDA部分,利用其提取主題特征,同時加入動態(tài)反饋聚類部分。
Baseline[-Attention]實驗是去除功能詞語關注部分,同時加入動態(tài)反饋聚類部分。
表6 對比實驗結(jié)果
本文利用輪廓系數(shù)來評估該模型的聚類效果,如圖3 所示。
圖3 輪廓系數(shù)
實驗結(jié)果表明,本文提出的混合模型對專利文本融合功能信息的聚類有明顯提升。實驗A與實驗B相比表現(xiàn)得并不是很好,因為原始語料中存在很多噪聲,CNN對功能信息句進行特征提取可以降低部分噪聲,F(xiàn)-measure值得到了提高,同時也減少了聚類時間,證明了CNN對特征提取的有效性。實驗A與實驗C相比,聚類的F-measure值提高了將近10百分點,聚類時間也縮短了近2 s,證明了BiLSTM-Attention對特征提取的有效性。實驗A與實驗D相比,F(xiàn)-measure雖然提高有限,但是也間接證明了本文改進的LDA提取主題向量的有效性。
Baseline系列實驗與其他實驗相比不管是F-measure還是運行效率都得到了不同程度的提升。實驗F、G、H證明了深層語義表示部分對聚類效果的有效性;通過實驗E和實驗I可知,加入功能詞語注意部分對聚類效果是有效的。由圖3可知,當K=9時輪廓系數(shù)也是最高的,也證明了面向功能信息混合模型動態(tài)聚類模型的有效性。
本文提出了面向功能信息的相似專利動態(tài)聚類混合模型。在詞向量的基礎上,通過結(jié)合深層語義表示部分和功能詞語注意部分,生成專利文本的特征表示,并且提出了一種反饋策略來動態(tài)調(diào)整和優(yōu)化網(wǎng)絡訓練。實驗結(jié)果表明,本文提出的模型表現(xiàn)出較好的性能,證明了其有效性。
特征提取仍然是自然語言處理領域的一個難點,未來將繼續(xù)完善該模型的特征提取過程,進一步探索特征提取與聚類的深度融合,提高聚類的準確性。