廖列法,姚 秀
(江西理工大學 信息工程學院,江西 贛州 341000)
專利文本分析[1]可以利用分類、聚類等方法。聚類的本質是一種分組,分組的標準是組內的樣本之間相似度盡可能高,而組間樣本之間的相似度盡可能低。聚類分析有助于分析隱含在專利數(shù)據(jù)中不易直接統(tǒng)計得出的信息,可以有效了解專利的最新動態(tài)變化。
專利文本中包含專利特定領域詞匯、技術術語以及同義詞和反義詞,傳統(tǒng)的向量化方法并不能很好解決專利文本中的多義詞問題,完整的語義信息將更加難以準確提取[2],這會直接對下游聚類帶來影響。并且現(xiàn)有的深度聚類方法容易出現(xiàn)聚類與嵌入的分離,導致聚類適應嵌入問題[3],而不是聚類誘導嵌入。
針對上述問題,提出了一種融合BERT(bidirectional encoder representations from transformers)與改進深度自動編碼器的專利聚類方法,主要工作如下:
(1)提出并證明了連接高斯混合模型和自動編碼器的理論,構建的CM定義為單隱含層的自動編碼器,通過實驗驗證了CM與GMM的等效性。
(2)將CM嵌入DAE中,形成一種新的深度聚類模型DAE-CM。模型能聯(lián)合優(yōu)化CM和DAE:DAE找到輸入在嵌入空間中的缺失,引導CM進行更好的優(yōu)化,而嵌套模型使得CM也能影響DAE的特征提取,以解決傳統(tǒng)深度聚類方法的嵌入與聚類的分離問題。
(3)利用BERT模型中的多頭注意力機制來動態(tài)生成具有上下文語義的專利文本向量表示,以解決傳統(tǒng)向量化模型產(chǎn)生的多義詞局限性,再利用DAE-CM模型對專利數(shù)據(jù)進行聚類。
對于專利文本的向量化表示,文獻[4]利用TF-IDF(term-frequency-inverse-document-frequency)方法進行向量表示,但是如果專利內容較多,通過TF-IDF生成的向量空間維度會隨著專利篇幅變多而升高,進行應用時會消耗大量的時間。文獻[5]提出利用word2vec來進行專利向量表示,但是word2vec是一個靜態(tài)詞嵌入模型,不能解決專利文本中的一詞多義問題。為了解決這個問題,文獻[6]中的ELMo(embedding from language models)使用無監(jiān)督的雙向語言模型進行預訓練,根據(jù)單詞的上下文語境動態(tài)調整單詞的embedding,有效區(qū)分同一詞在不同上下文的不同語義。但ELMo采用的是長短期記憶網(wǎng)絡(long-short term memory,LSTM)特征提取器,相比較于transformer的特征提取能力還是比較弱的。文獻[7]中的BERT采用的是transformer特征提取器,利用多頭注意力機制,對于同一個詞,在不同的上下文情況下,對應的12層Transformer的輸出結果是不一樣的,BERT一體化融合特征方式,獲得詞更加完整的表征信息,更有效解決一詞多義問題。
深度聚類結合了經(jīng)典聚類算法和深度學習,文獻[8]利用LSTM的時序記憶能力和自動編碼器的非線性特征提取能力來進行自動特征提取和非線性降維,然后采用k-means聚類算法進行聚類分析。但是這種遵循順序的聚類方式會讓聚類適應特征而聚類,很大程度上依賴于特征提取的好壞。為了改善這種情況,DEC使用深度神經(jīng)網(wǎng)絡同時學習特征表示和聚類分配[9],可以有效避免遵循順序的聚類方式的不足。文獻[10]在DEC的基礎上進行改進,提出了IDEC算法,該算法進行聯(lián)合聚類,學習適合于聚類的嵌入式特征,通過合并一個自動編碼器來維護局部結構。但這兩種方法都高度依賴初始質心的選擇,文獻[11]中的DKM,該模型與DEC具有相同的結構,即深度自動編碼器和表示質心的特別矩陣,最重要的是:模型同時對網(wǎng)絡和質心進行了優(yōu)化,解決依賴初始質心問題。本文提出的DAE-CM在一定程度上與DKM是相似的,可以聯(lián)合優(yōu)化聚類模塊與深度自動編碼器,同樣可以解決依賴初始質心問題。
BERT模型是基于Transformer[12]的雙向編碼器,Transformer能夠通過緩存以前的輸出并使用相對位置,利用更長的歷史記錄來捕獲遠程序列特征[13]。BERT模型利用多頭注意力機制來獲取具體語境的文本向量表示,將輸入embedding 進行維度擴展,接著進行多頭劃分,對于劃分出的每一個頭,與輸入中的其它詞做self-attention,得到新的向量表示。將每一個頭進行自注意力后的向量表示進行簡單拼接,為防止深度Transformer可能產(chǎn)生梯度消失、梯度爆炸的問題,采用殘差連接。利用多頭注意力機制進行編碼主要過程如圖1所示。
圖1 利用多頭注意力機制編碼
BERT的多頭注意力機制可以根據(jù)某些規(guī)則,從向量表達集合中抽取特定的向量來進行加權組合,通過對不同詞向量賦予不同的權重來加強對某些重要詞的關注,做到不同語境下對詞語的不同理解。
注意力機制的核心公式如下
(1)
多頭注意力機制(multi-head attention)的主要公式如下
MutiHead(Q,K,V)=Concat(head1,head2,…,headh)
(2)
(3)
本文選擇BERT模型對專利文本進行向量初始化表示,BERT模型中的多頭注意力機制能有效解決專利技術詞匯中的一詞多義問題,對于同一個詞,不同的上下文環(huán)境會讓這個詞被賦予不一樣的語義信息,從而獲取具體語境的專利文本向量表示。
自動編碼器可以認為是只有一層隱含層的神經(jīng)網(wǎng)絡,其基本思想就是直接使用一層或者多層的神經(jīng)網(wǎng)絡對輸入數(shù)據(jù)進行映射,通過壓縮和還原實現(xiàn)對特征的重構,它能夠通過學習獲得輸入數(shù)據(jù)的高效表征,它既能表征線性變換又能表征非線性變換。由隱含層到輸出層,是重構輸入數(shù)據(jù),這一部分稱為解碼器。隱含層指輸入層和輸出層以外,中間的那些層。輸入層和輸出層是可見的,且層的結構是相對固定的,而隱含層結構不固定,相當于不可見。
自動編碼器如圖2所示,自動編碼器對于輸入的數(shù)據(jù),可以將其通過一個Encoder來獲得一個低維的code,然后將code通過一個Decoder來重建原來的數(shù)據(jù),而Encoder和Decoder是一起訓練。
圖2 自動編碼器
編碼是把輸入映射到低維空間,其過程發(fā)生在編碼層到隱含層之間,其計算過程如式子所示
e(o)=f(WTo+n)
(4)
式中:f表示激活函數(shù),o表示自動編碼器的輸入,e(o)為o的隱藏層表示,是輸入向量o經(jīng)過有效壓縮后的低維向量表示,W是輸入層與隱藏層的權值矩陣,n是代表隱含層的偏置向量。
解碼其過程發(fā)生在編碼層到隱含層之間,解碼器通過對稱的網(wǎng)絡結構,對編碼器的輸入進行重構,其計算過程如式(5)所示
(5)
深度自動編碼器[14]可以為了滿足不同任務的需求而通過改進自動編碼器的結構和訓練策略完成,其核心作用是為了能夠學到數(shù)據(jù)的深層表征含義,對數(shù)據(jù)進行降維并學習數(shù)據(jù)的特征表示。
在數(shù)據(jù)集上擬合一個具有k個高斯分量和狄利克雷先驗的各向同性高斯混合模型,模型的完全數(shù)據(jù)的似然函數(shù)可表示為
(6)
圖3 專利聚類模型
GMM執(zhí)行的是軟分類,不同于k-means執(zhí)行的硬分類將每個數(shù)據(jù)點分配到某一個cluster,而是會給出每個數(shù)據(jù)點被分配到每個cluster的概率,高斯混合模型的本質就是融合幾個單高斯模型,來使得模型更加復雜,從而產(chǎn)生更復雜的樣本。
期望最大(expectation maximization,EM)算法可以在不知道待估計參數(shù)先驗信息和觀測數(shù)據(jù)不完備的情況下,通過迭代來計算參數(shù)的最大似然估計,該算法已通過發(fā)展成功應用于GMM的參數(shù)估計[15]。
本文提出一個替代方案,在EM算法中,式(6)可以經(jīng)過變換而產(chǎn)生一項表述為自動編碼器的重建損失的式子。
證明如下:
首先利用EM算法來最大化式(6),則先驗概率φk可表示為k個簇的平均吸引度
(7)
根據(jù)式(7),式(6)可以表示為
(8)
(9)
則式(8)可進一步表示為
(10)
F(x;η)=P(Z=k|x)=γ
(11)
(12)
根據(jù)自動編碼器的重構誤差為均方誤差的平方,式(10)的第一項可以解釋為自動編碼器的重建損失。該自動編碼器由編碼器和解碼器組成,分別為F和G。
為了更好地與自動編碼器相連接,本文更進一步,使用自動編碼器直接優(yōu)化式(10),并將CM定義為單隱含層自動編碼器,具有F和G編碼和解碼函數(shù)如下
F(X)=softmax(XWenc+Benc)=Γ
(13)
(14)
則CM的損失函數(shù)為式(10)的負函數(shù)
(15)
CM是一個單隱含層的自動編碼器,GMM背后的原理將CM限制為線性解碼器,從而只允許對輸入進行線性劃分,這顯然對于聚類要求是不夠的。于是本文將CM嵌入到DAE中,形成一種新的深度聚類模型DAE-CM,進行一個隱式的特征映射,將輸入非線性地映射到DAE的特征空間中,并在其中進行聚類,使用深度自動編碼器(DAE)顯式地學習特征映射,從而實現(xiàn)非線性聚類。
DAE-CM模型能同時優(yōu)化CM和DAE,利用深度自動編碼器找到輸入在嵌入空間中的缺失,引導CM進行更好的優(yōu)化,而嵌套模型使得CM也能影響DAE的特征提取。使用深度自動編碼器體系結構可以防止優(yōu)化過程中的特征映射產(chǎn)生退化,保留了模型的生成特性。
如果只是簡單地將深度自動編碼器的重建損失添加到CM上時,利用當前的梯度下降優(yōu)化器[16],往往會返回次優(yōu)解,導致聚類質心會有所偏差。為了幫助找到更好的優(yōu)化點,本文做了質心是標準正交的假設,如式(16)所示
(16)
雖然式(16)只涉及到CM中μ的學習,但它處于嵌套模塊中,會間接影響DAE的周圍。這個假設約束促使模型生成一個嵌入:其中質心可以同時標準正交(標準正交就是向量的模都是1,但是向量的乘積為0),并將CM的損失降至最低。于是,式(15)中的第二項、第三項則表示為如下兩個式子
(17)
(18)
式(16)中的假設對于“理想”聚類是滿足的[17],對于本文中的聚類模塊,加入這個約束有助于引導聚類朝著理想的聚類方向發(fā)展,同時還能簡化損失函數(shù)。
使用拉格朗日定理來整合正交約束,最終的損失可以表述如下
(19)
Reuters10k:這里縮寫為R10K,由800 000篇新聞文章組成,該數(shù)據(jù)集經(jīng)過預處理[18]。
Twenty Newsgroups:這里縮寫為TN,數(shù)據(jù)集收集了大約20 000左右的新聞組文檔,均勻分為20個不同主題的新聞組集合。一些新聞組的主題特別相似,還有一些卻完全不相關。
PatentsView:由美國專利商標局(USPTO)高級經(jīng)濟學家辦公室提供支持,該數(shù)據(jù)集包含專利文本數(shù)據(jù),如標題、摘要和權利要求等,已被應用于專利相似任務中[19]。
模型的聚類性能使用4個常用指標來評估,聚類準確度(accuracy,ACC)是最常見的評價指標,簡單表示為聚類正確的樣本數(shù)除以所有的樣本數(shù),及預測正確的樣本比例,其值越高,則聚類效果越好。調整蘭德系數(shù)(ARI)去掉了隨機標簽對于蘭德系數(shù)評估結果的影響,它的值越大則表示其聚類效果越好[20]?;バ畔⑹潜硎緝蓚€隨機變量之間的相互依賴程度,歸一化互信息(normalized mutual information,NMI)將數(shù)據(jù)都限定在一定范圍而便于比較,從而消除奇異數(shù)據(jù)導致的影響[21]。準確率(Precision)與召回率(Recall)相結合的F-measure指標,是Precision和Recall加權調和平均值。這些指標的范圍都是在0到1之間,為了更清晰明了地進行比較,將ACC、ARI、NMI的值乘以100。
CM和DAE-CM都是使用TensorFlow實現(xiàn)的,深層模型都是使用相同的全連接自動編碼器d-500-500-2000-p-2000-500-500-d,其中d和p分別是輸入和特征空間尺寸,并進行l(wèi)eaky relu激活。深度自動編碼器的每一層都由斜率為0.2的leaky relu激活,編碼器和解碼器的最后一層除外。使用Adam優(yōu)化器(學習率=0.001)對CM和DAE-CM訓練,貝葉斯優(yōu)化對超參數(shù)進行了優(yōu)化。CM和其對比的基準模型的訓練為150 epochs,DAE-CM及其對比的深度模型為1000 epochs。模型主要超參數(shù)設置見表1。
表1 模型的超參數(shù)
為了驗證CM模塊與高斯混合模型的等價性,在R10K、TN數(shù)據(jù)集上與其它聚類模型及高斯模型進行實驗對比,接著將本文提出的DAE-CM與傳統(tǒng)的深度聚類模型進行實驗對比,最后在PatentsView數(shù)據(jù)集上并融入消融實驗來驗證各模型的重要性及本文提出模型的優(yōu)越性。
為了驗證本文提出的CM模塊與高斯混合模型的等效性,使用基準模型與本文提出的CM進行對比實驗,基準模型包括k-means算法與完全協(xié)方差高斯模型GMM,均勻混合權重各項同性高斯模型iGMM,每個實驗重復進行20次,取平均值進行記錄。不同基準聚類模型在數(shù)據(jù)集上的性能見表2。
表2 不同基準聚類模型在數(shù)據(jù)集上的性能
實驗結果表明,CM模型的性能數(shù)據(jù)與上述幾個基準模型相差不大,CM模型與GMM具有等效性,且有些指標還高于一些其它的基準模型,在數(shù)據(jù)集R10K上,CM模型的ACC,NMI與ARI相比于k-means,GMM都比較高。其中CM的ACC超出GMM的15.4%,同時也高出k-means1.8%,相較于iGMM稍微低了1.7%,整體上還是取得了不錯的效果。
為了驗證本文提出的DAE-CM深度聚類模型的優(yōu)越性,將DAE-CM模型與傳統(tǒng)的AE+KM模型(使用自動編碼器來進行自動特征提取和非線性降維,然后采用k-means聚類算法進行聚類分析),DEC模型,DKM模型進行對比實驗,每個實驗進行20次,取平均值進行記錄。不同深度嵌入聚類模型在數(shù)據(jù)集上的性能見表3。
表3 深度嵌入聚類模型在數(shù)據(jù)集上的性能
實驗結果表明,DAE-CM相比于AE+CM、DEC、DKM模型的ACC、NMI和ARI指數(shù)都是最高的,因為DAE-CM模型能聯(lián)合優(yōu)化嵌入與聚類,對于傳統(tǒng)DAE+KM聚類,優(yōu)化了其聚類適應嵌入的缺陷;相比較于DEC,更好的優(yōu)化了初始質心的依賴問題。其中在數(shù)據(jù)集NT上,DAE-CM的ACC、NMI與ARI分別超出了AE+KM的18.4%、17.2%、17.7%。在R10K數(shù)據(jù)集上,DAE-CM的ARI相較于DEC提高了6.5%,DAE-CM的ARI相較于DEC提高了5.4%。
為了驗證各模塊的重要性及融合BERT與改進深度自動編碼器的專利聚類方法的優(yōu)越性,本文在數(shù)據(jù)集PatentsView上利用提出的BERT+DAE-CM與DKM、DAE-CM、ELMo+DAE-CM進行消融對比實驗,選取其中4000篇專利進行實驗,并設置不同數(shù)量的聚類個數(shù)進行實驗,聚類個數(shù)太多沒有意義,太少則區(qū)分不出來,聚類的個數(shù)是沒有標準定義的,通過人為設定初始聚類個數(shù),進行實驗找到聚類效果最好的最優(yōu)聚類個數(shù)值,實驗結果如圖4所示。
圖4 不同聚類個數(shù)的對比實驗結果
實驗結果表明,DKM的F-means值是最低的,可見不使用本文提出的DAE-CM 模型,模型聚類效果會變得很差。而DAE-CM模型能聯(lián)合優(yōu)化嵌入與聚類,雖然取得了不錯的聚類效果,但是對于專利文本數(shù)據(jù),缺少語義信息也會降低聚類的效果。ELMo+DAE-CM增加了ELMo模型融入語義信息以解決專利技術詞匯的一詞多義問題,其F-means值有效提升了。但本文提出的BERT+DAE-CM模型,利用BERT對專利文本進行向量化表示,其BERT中的transformer的特征提取能力要比ELMo中的LSTM特征提取器能力強,其模型的F-means值在聚類個數(shù)為10 時,模型的F-means值是最高的達到了0.9224,比ELMo+DAE-CM高出了0.0651,也比DKM高出了0.18,同時也表明其最優(yōu)聚類個數(shù)為10,此時聚類效果達到最好。
本文提出了一種融合BERT與改進深度自動編碼器的專利聚類方法。首先,利用BERT模型來對專利進行向量初始化,以解決專利文本中的一詞多義問題,接著通過理論證明了GMM的目標函數(shù)可以經(jīng)過變換,產(chǎn)生一項關于單隱含層自編碼器損失函數(shù)的式子,從而形成CM,并通過實驗驗證了其與高斯模型的等效性。并且,本文還展示了如何將CM嵌入到深度自動編碼器中形成DAE-CM,聯(lián)合優(yōu)化CM和DAE,以解決傳統(tǒng)深度聚類方法的嵌入與聚類的分離問題。實驗結果表明,DAE-CM深度聚類模型,優(yōu)于現(xiàn)有的深度聚類模型。在專利數(shù)據(jù)集上,利用本文提出的專利聚類模型進行聚類,可以看到本文提出的模型的聚類效果更好。