溫超東,曾 誠,2,3*,任俊偉,張 ?,2,3
(1.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢 430062;2.湖北省軟件工程工程技術(shù)研究中心,武漢 430062;3.湖北省智慧政務(wù)與人工智能應(yīng)用工程研究中心,武漢 430062)
(*通信作者電子郵箱zc@hubu.edu.cn)
近年來,專利申請(qǐng)數(shù)量呈現(xiàn)快速增長的趨勢。2018 年全球創(chuàng)新者共提交了330 萬件發(fā)明專利申請(qǐng),連續(xù)九年實(shí)現(xiàn)增長,漲幅為5.2%。其中,中國國家知識(shí)產(chǎn)權(quán)局受理的專利申請(qǐng)數(shù)量最多,達(dá)到154 萬件,占全球總量的46.7%[1]。為便于專利文獻(xiàn)的檢索與管理,需要對(duì)專利文獻(xiàn)按照專業(yè)技術(shù)領(lǐng)域進(jìn)行分類。1971 年《斯特拉斯堡協(xié)定》提出的國際專利分類法(IPC 分類法)是國際上通用的專利文獻(xiàn)分類法,幾乎涵蓋了所有的科技領(lǐng)域,我國所使用的也是該專利分類法[2]。該分類標(biāo)準(zhǔn)按照專利所屬的技術(shù)領(lǐng)域?qū)@M(jìn)行分類,包含部、大類、小類、大組和小組五個(gè)層級(jí)。然而,現(xiàn)階段專利分類的任務(wù)仍主要由專利審查員完成,不僅耗費(fèi)大量人力和時(shí)間,且無法有效保證準(zhǔn)確率。因此,需對(duì)專利文本進(jìn)行自動(dòng)化預(yù)分類,以實(shí)現(xiàn)專利文本的快速分類及快速審查。
與一般文本相比,專利文本具有以下特點(diǎn):專業(yè)性強(qiáng),領(lǐng)域詞匯較多;類別眾多,層級(jí)復(fù)雜;類別間相似度高,對(duì)特征表達(dá)能力要求高;各類別專利數(shù)量嚴(yán)重不均衡,給分類帶來較大挑戰(zhàn)。因此,對(duì)專利文本實(shí)現(xiàn)自動(dòng)分類需要采用更加具有針對(duì)性的分類方法。本文利用結(jié)合ALBERT(A Lite BERT)和雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)的深度學(xué)習(xí)方法實(shí)現(xiàn)多層級(jí)專利文本的自動(dòng)分類,提出了專利文本分類模型ALBERT-BiGRU,以輔助專利審查員快速準(zhǔn)確地對(duì)專利文獻(xiàn)進(jìn)行分類。
專利文本分類屬于自然語言處理領(lǐng)域,一般包括數(shù)據(jù)預(yù)處理、文本特征表示、分類器選擇及效果評(píng)價(jià)等步驟,其中文本特征表示與分類器選擇最為重要,將直接影響分類結(jié)果的準(zhǔn)確性。
在文本特征表示方面,Mikolov 等[3-4]提出了Word2vec 模型,其本質(zhì)是一種神經(jīng)網(wǎng)絡(luò)概率語言模型,包括CBOW(Continuous Bag-of-words)和Skip-Gram 兩種模型。這兩種模型能夠很好地進(jìn)行詞匯類比,但只考慮了文本的局部信息,未有效利用整體信息。為克服Word2vec 模型的缺陷,Pennington 等[5]提出全局詞向量(Global Vectors,GloVe)模型,該模型基于全局詞匯共現(xiàn)的統(tǒng)計(jì)信息來學(xué)習(xí)詞向量,同時(shí)考慮了文本的局部信息與整體信息。以上特征表示方法訓(xùn)練的詞向量均為靜態(tài)詞向量,舍棄了文本中大量詞語的位置信息,不能表示出文本的完整語義。為此,Peters等[6]提出了基于語言模型的詞向量模型(Embeddings from language models,Elmo),利用雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)生成詞的上下文表示,并根據(jù)實(shí)際數(shù)據(jù)的上下文對(duì)詞的向量表達(dá)進(jìn)行動(dòng)態(tài)調(diào)整。Radford等[7]提出生成式預(yù)訓(xùn)練詞向量模型(Generative Pre-Training,GPT),該模型采用Transformer[8]結(jié)構(gòu),在多項(xiàng)自然語言處理(Natural Language Processing,NLP)任務(wù)中取得了當(dāng)時(shí)的最佳效果。Devlin 等[9]結(jié) 合Elmo 和GPT各自的優(yōu)勢,提出了BERT(Bidirectional Encoder Representations from Transformers)預(yù)訓(xùn)練語言模型。該模型通過使用雙向Transformer編碼器對(duì)語料庫進(jìn)行訓(xùn)練得到文本的雙向編碼表示,且訓(xùn)練出的詞向量為動(dòng)態(tài)詞向量,即同一個(gè)詞在不同的上下文語境中具有不同的詞向量表達(dá),提升了詞向量的表征能力。增大BERT 預(yù)訓(xùn)練模型的規(guī)模對(duì)下游任務(wù)的效果有一定提升,但受計(jì)算資源的限制,所需的訓(xùn)練時(shí)間較長,且進(jìn)一步提升模型的規(guī)模將導(dǎo)致顯存或內(nèi)存不足。為此,Lan 等[10]提 出ALBERT(A Lite BERT)模型,該模型是基于BERT 模型的一種輕量級(jí)預(yù)訓(xùn)練語言模型,與BERT 模型均采用雙向Transformer 獲取文本的特征表示,但大大減少了模型中的參數(shù),并在多項(xiàng)NLP任務(wù)中取得了最佳效果。
文本特征分類算法一般分為兩種:一種是淺層學(xué)習(xí)的分類算法,如支持向量機(jī)(Support Vector Machine,SVM)、最鄰近分類(K-Nearest Neighbors,KNN)和樸素貝葉斯(Naive Bayes)等;另一種是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)分類算法。文獻(xiàn)[11]將獲取到的文本特征輸入到樸素貝葉斯分類器中,對(duì)其進(jìn)行分類;文獻(xiàn)[12]則將SVM 與KNN 進(jìn)行結(jié)合并應(yīng)用于專利文本分類中,根據(jù)樣本點(diǎn)與最優(yōu)超平面的距離來決定使用KNN 或SVM 作為分類器。但以上淺層學(xué)習(xí)的分類算法沒有考慮特征在類間、類內(nèi)的分布,分類效果較差。近年來,隨著深度學(xué)習(xí)的發(fā)展,研究人員開始嘗試使用神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型。Kim[13]提出文本卷積神經(jīng)網(wǎng)絡(luò)(Text Convolutional Neural Network,TextCNN)用于文本分類,但基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類算法無法考慮到文本中長距離詞之間的語義關(guān)聯(lián)。為此,Mikolov 等[14]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[15]進(jìn)行文本分類,較好地利用了當(dāng)前詞上下文信息。然而,傳統(tǒng)的RNN 存在梯度爆炸和消失問題[16],處理長序列文本的效果并不理想。Hochreiter 等[17]提出長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),解決了傳統(tǒng)RNN 梯度爆炸和消失的問題。之后,Dey 等[18]提出了門控循環(huán)單元(Gated Recurrent Unit,GRU),在保持LSTM 的效果的同時(shí)使得模型結(jié)構(gòu)更加簡單。文獻(xiàn)[19]使用LSTM-Attention 解決專利文本分類問題,有效提升了高相似度專利文本分類的準(zhǔn)確率;文獻(xiàn)[20]將文本特征輸入GRU 中進(jìn)行文本分類,有效提升了文本分類的效果。
綜合以上研究,本文旨在專利文本的特征表示層面以及分類器選擇上進(jìn)行改進(jìn),提出了一種結(jié)合ALBERT 和BiGRU的多層級(jí)專利文本分類模型ALBERT-BiGRU。使用ALBERT作為預(yù)訓(xùn)練語言模型對(duì)專利文本進(jìn)行句子層面的特征表示,以提升詞向量的表征能力;并將ALBERT 模型中最后一層Transformer 層的輸出作為下游BiGRU 模型的輸入,最大限度地保留專利文本中長距離詞之間的語義關(guān)聯(lián)。最后通過在不同層級(jí)專利文本上的對(duì)比實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。
ALBERT 模型是基于BERT 模型的一種輕量級(jí)預(yù)訓(xùn)練語言模型,與BERT 模型均采用雙向Transformer 編碼器(Trm)獲取文本的特征表示,其模型結(jié)構(gòu)如圖1 所示。其中,E1,E2,…,EN表示序列中的每一個(gè)字符,經(jīng)過多層雙向Transformer 編碼器的訓(xùn)練,最終得到文本的特征向量表示T1,T2,…,TN。
圖1 ALBERT模型結(jié)構(gòu)Fig.1 ALBERT model structure
其中,Transformer 編碼器是一個(gè)基于Self-Attention 的Seq2Seq(Sequence to Sequence)模型[21],該模型的結(jié)構(gòu)為Encoder-Decoder[22-23]。ALBERT 只采用了其Encoder 部分,該部分的模型結(jié)構(gòu)如圖2所示。Encoder由N個(gè)相同的網(wǎng)絡(luò)層堆疊而成,每個(gè)網(wǎng)絡(luò)層有兩個(gè)子網(wǎng)絡(luò)層:第一層為多頭自注意力機(jī)制層;第二層為普通的前饋網(wǎng)絡(luò)層,用于融入詞語的位置信息。另外,每個(gè)子網(wǎng)絡(luò)層都含有一個(gè)Add&Norm 層,用于將本層的輸入與輸出相加并進(jìn)行歸一化處理[24],隨后兩個(gè)子網(wǎng)絡(luò)層之間使用殘差連接[25]。
在Transformer 編碼器中,最主要的模塊是多頭自注意力機(jī)制,計(jì)算公式如下所示。
其中:WO是附加權(quán)重矩陣,能使拼接后的矩陣維度壓縮成序列長度大??;Q、K、V分別表示輸入序列中每個(gè)詞的query、key和value 向量分別是Q、K、V的權(quán)重矩陣;dk表示每個(gè)詞的query和key向量的維度;Softmax(?)為歸一化激活函數(shù),z表示N維的行向量。
圖2 Transformer encoder模型結(jié)構(gòu)Fig.2 Structure of Transformer encoder model
為減少BERT 模型的參數(shù)和增強(qiáng)模型的語義理解能力,ALBERT模型在BERT模型的基礎(chǔ)上做出了以下改進(jìn):
1)ALBERT 模型通過嵌入層參數(shù)因式分解(Factorized Embedding Parameterization)和跨層參數(shù)共享(Cross-layer Parameter Sharing)兩個(gè)方法有效減少了BERT 模型中的參數(shù),大大降低了訓(xùn)練時(shí)的內(nèi)存花銷,并有效提升了模型的訓(xùn)練速度。
其中:嵌入層參數(shù)因式分解為將一個(gè)大的詞嵌入矩陣分解成兩個(gè)小矩陣;跨層參數(shù)共享則為在不同層的Transformer編碼器之間共享所有的參數(shù)。進(jìn)行嵌入層參數(shù)因式分解后的時(shí)間復(fù)雜度變化如式(5)所示,其中:V表示詞表的大小,E表示嵌入層大小,H表示隱藏層大小,由于H?E,可知通過該分解能有效減少模型的參數(shù)。
在與BERT-large 模型相同配置的情況下,ALBERT 模型的參數(shù)量縮小至了原來的1/18,且訓(xùn)練速度加快了1.7倍。
2)使用SOP(Sentence Order Prediction)任務(wù) 代替NSP(Next Sentence Prediction)任務(wù)。為彌補(bǔ)Yang 等[26]提出的BERT 中NSP 任務(wù)存在的缺點(diǎn),ALBERT 通過使用SOP 任務(wù)代替BERT 中的NSP 任務(wù),提升了多句子輸入的下游任務(wù)的效果。SOP 任務(wù)的核心為對(duì)句子間的連貫性進(jìn)行評(píng)估,并產(chǎn)生句子間連貫損失(Inter-sentence Coherence Loss)。對(duì)于多句子輸入的下游任務(wù),SOP相對(duì)NSP能夠提升約2%的準(zhǔn)確率。
GRU 是LSTM 模型的一個(gè)變體,其模型結(jié)構(gòu)如圖3 所示。LSTM模型包含三個(gè)門計(jì)算,即輸入門、輸出門和遺忘門,GRU模型在LSTM 的基礎(chǔ)之上進(jìn)行了簡化,只由zt和rt兩個(gè)門控單元組成。其中zt表示更新門,用于控制前一時(shí)刻的狀態(tài)信息被代入到當(dāng)前狀態(tài)中的程度,zt的值越大說明前一時(shí)刻的狀態(tài)信息代入越多;rt表示重置門,用于控制忽略前一時(shí)刻的狀態(tài)信息的程度,rt的值越小說明忽略得越多。
圖3 GRU模型結(jié)構(gòu)Fig.3 GRU model structure
基于以上GRU的模型結(jié)構(gòu),可以得出GRU的前向傳播計(jì)算公式如下:
其中:σ表示sigmoid 激活函數(shù);xt表示當(dāng)前時(shí)刻的輸入,在文本分類中表示第t個(gè)詞的詞向量;ht-1和ht分別表示前一時(shí)刻隱藏層狀態(tài)和當(dāng)前時(shí)刻隱藏層狀態(tài)表示當(dāng)前時(shí)刻新的記憶;⊙表示向量的點(diǎn)乘;Wzx、Wrx和分別表示在更新門、重置門和新的記憶中對(duì)于xt的權(quán)重矩陣,Wzh、Wrh和分別表示在更新門、重置門和新的記憶中對(duì)于ht-1的權(quán)重矩陣;bz、br和分別表示在更新門、重置門和新的記憶中的偏置值。
由于GRU 模型為單向傳播模型,不能充分利用當(dāng)前文本的下文信息,為此,本文采用雙向門控單元(BiGRU)作為分類模型,并將ALBERT預(yù)訓(xùn)練語言模型與BiGRU模型相結(jié)合,組成ALBERT-BiGRU綜合模型,用于多層級(jí)專利文本分類。
ALBERT-BiGRU 綜合模型的結(jié)構(gòu)如圖4 所示,主要由以下6 個(gè)部分組成:輸入層、ALBERT 層、BiGRU 層、全連接、Softmax層和輸出層。該模型的工作流程如下:
步驟1 從專利數(shù)據(jù)集中選取“專利名稱”和“摘要”這兩個(gè)字段的內(nèi)容組成專利文本X,并通過輸入層將其輸入到ALBERT 層中,專利文本X如式(10)所示,其中Xi表示該條專利文本中的第i個(gè)詞。
步驟2 在ALBERT層對(duì)輸入的文本數(shù)據(jù)進(jìn)行序列化,將文本數(shù)據(jù)X中的每個(gè)詞轉(zhuǎn)化為其在字典中所對(duì)應(yīng)的編號(hào)。序列化后的文本數(shù)據(jù)E如式(11)所示,其中Ei表示文本中第i個(gè)詞的序列化字符。經(jīng)過多層雙向Transformer 編碼器的訓(xùn)練,最終輸出文本的特征表示。文本特征表示T如式(12)所示,其中Ti表示文本中第i個(gè)詞的特征向量。
步驟3 在BiGRU 層對(duì)ALBERT 層輸出的文本特征進(jìn)行訓(xùn)練,將文本特征分別輸入到前向GRU 層和后向GRU 層中,經(jīng)過多個(gè)GRU 隱藏單元的訓(xùn)練,最終得到兩個(gè)文本向量表示,分別記作Fg0和Fg1。將兩者在第一個(gè)維度進(jìn)行疊加,得到向量Fg,可知Fg的維度為2h,h為隱藏單元的個(gè)數(shù)。
步驟4 通過全連接層對(duì)Fg進(jìn)行兩次全連接,其中第一次全連接的輸出維度為h,第二次全連接的輸出維度為n,n表示標(biāo)簽的個(gè)數(shù)。
步驟5 對(duì)全連接層的輸出結(jié)果進(jìn)行Softmax 歸一化,得到專利文本屬于每一類的概率分布矩陣L,對(duì)L按行取最大值的索引,即得到最終的專利文本分類標(biāo)簽。
圖4 ALBERT-BiGRU模型結(jié)構(gòu)Fig.4 ALBERT-BiGRU model structure
ALBERT-BiGRU 綜合模型更新的參數(shù)包括ALBERT 和BiGRU 中的參數(shù)。為防止過擬合,在將文本特征輸入BiGRU之前,加入Dropout層,每次迭代剔除掉部分神經(jīng)元。
在進(jìn)行前向傳播時(shí),采用的損失函數(shù)為交叉熵?fù)p失函數(shù),計(jì)算方式如式(13)所示。其中,p()xi表示該條文本真實(shí)標(biāo)簽的概率分布,q()xi表示預(yù)測標(biāo)簽的概率分布。
在進(jìn)行反向傳播時(shí),對(duì)模型參數(shù)W和b進(jìn)行更新,更新方式如式(14)所示。
其中,J(W,b)表示所采用的損失函數(shù)。
本文的實(shí)驗(yàn)環(huán)境如表1所示。
為評(píng)估本文模型的有效性,使用文獻(xiàn)[2]中國家信息中心提供的專利數(shù)據(jù)集進(jìn)行驗(yàn)證。該數(shù)據(jù)集包含申請(qǐng)時(shí)間為2017 年的全國專利數(shù)據(jù),數(shù)據(jù)總量約為277 萬條,包含申請(qǐng)?zhí)?、專利名稱、摘要、專利分類等16 個(gè)核心字段。本實(shí)驗(yàn)選取“專利名稱”“摘要”和“專利分類”三個(gè)字段進(jìn)行分類模型訓(xùn)練,將“專利名稱”和“摘要”合并組成專利文本,從“專利分類”中提取分類標(biāo)簽。專利分類采用IPC 分類法,將專利分為部、大類、小類、大組和小組五個(gè)層級(jí),如“A01D41/12”,“A”是部,“01”是大類,“D”是小類,“41”是大組,“12”是小組。
表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental environment
本文選擇在部和大類兩個(gè)層級(jí)對(duì)專利進(jìn)行分類。首先對(duì)原始數(shù)據(jù)進(jìn)行清洗,剔除掉分類號(hào)為非嚴(yán)格的IPC 分類標(biāo)準(zhǔn)的數(shù)據(jù)后,數(shù)據(jù)剩余約232 萬條,包含IPC 的所有部(從A 到H),共有124 個(gè)大類,數(shù)據(jù)集詳情如表2 所示。之后對(duì)數(shù)據(jù)集進(jìn)行劃分,由于其數(shù)據(jù)量較大,本文按照98∶1∶1 的比例將其劃分為訓(xùn)練集、驗(yàn)證集和測試集。
表2 專利數(shù)據(jù)集詳情Tab.2 Patent dataset details
為評(píng)價(jià)模型的分類效果,采用準(zhǔn)確率Acc(Accuracy)和精確率P(Precision)與召回率R(Recall)的F1(調(diào)和平均值F1)對(duì)模型效果進(jìn)行評(píng)價(jià)。其中準(zhǔn)確率Acc指模型預(yù)測正確樣本數(shù)占樣本總數(shù)的比例;精確率P指在所有預(yù)測為正例的樣本中預(yù)測正確的樣本所占的比例;召回率R指在所有真實(shí)為正例的樣本中預(yù)測正確的樣本所占的比例;由于精確率和召回率會(huì)出現(xiàn)相互矛盾的情況,因此采用它們的調(diào)和平均值F1來進(jìn)行綜合評(píng)價(jià)。
計(jì)算公式如下:
其中:真正例TP表示實(shí)際為正例且預(yù)測為正例,假正例FP表示實(shí)際為負(fù)例但預(yù)測為正例,真負(fù)例TN表示實(shí)際為負(fù)例且預(yù)測為負(fù)例,假負(fù)例FN表示實(shí)際為正例但預(yù)測為負(fù)例。
ALBERT-BiGRU 模型的參數(shù)主要包括ALBERT 模型和BiGRU模型的參數(shù),在固定其他參數(shù)的前提下,依次改變可變參數(shù)的數(shù)值,以得到模型的最優(yōu)參數(shù)。
其中ALBERT 采用Google 發(fā)布的中文預(yù)訓(xùn)練模型“ALBERT-Base”,其模型參數(shù)如表3所示。
表3 ALBERT模型參數(shù)Tab.3 Parameters of ALBERT model
BiGRU 模型的隱藏層大小為128,網(wǎng)絡(luò)層數(shù)為1,選取ReLU 作為模型的激活函數(shù),并在訓(xùn)練階段將Dropout 的比例設(shè)置為0.1。
對(duì)ALBERT-BiGRU 綜合模型設(shè)置批次大小為32,迭代輪數(shù)為4,最大序列長度為300,采用交叉熵?fù)p失函數(shù),選取Adam作為模型的優(yōu)化器,并將學(xué)習(xí)率設(shè)置為1e-5。
為評(píng)估本文模型ALBERT-BiGRU 在多層級(jí)專利文本分類中的效果,分別與SVM、TextCNN、Word2vec-BiGRU 以及GloVe-BiGRU 進(jìn)行對(duì)比,在專利數(shù)據(jù)集的部級(jí)別和大類級(jí)別分別進(jìn)行實(shí)驗(yàn)。各對(duì)比模型的詳情如下:
1)SVM:采用傳統(tǒng)機(jī)器學(xué)習(xí)算法中的SVM,并選取高斯核作為核函數(shù)。
2)TextCNN:采用文獻(xiàn)[13]中的TextCNN模型。
3)Word2Vec-BiGRU:采用文獻(xiàn)[4]中的Word2Vec 提取文本特征,BiGRU 模型的參數(shù)同本文方法中的BiGRU 模型參數(shù)。
4)Glove-BiGRU:采用文獻(xiàn)[5]中的Glove 提取文本特征,BiGRU模型的參數(shù)同本文方法中的BiGRU模型參數(shù)。
經(jīng)模型對(duì)比實(shí)驗(yàn),得出各模型在部級(jí)別和大類級(jí)別中的準(zhǔn)確率如表4 所示。可以看出,在部級(jí)別中,與SVM、TextCNN、Word2vec-BiGRU 和GloVe-BiGRU 相 比,ALBERTBiGRU 模型的準(zhǔn)確分別提高了9.8、6.0、9.1 和10.9 個(gè)百分點(diǎn)。由此可知,ALBERT 預(yù)訓(xùn)練語言模型獲取的文本特征表示在應(yīng)用上效果優(yōu)于傳統(tǒng)的詞向量;同時(shí)也說明基于預(yù)訓(xùn)練語言模型的ALBERT-BiGRU 在專利文本分類方面有著強(qiáng)大性能。大類級(jí)別上的實(shí)驗(yàn)?zāi)茯?yàn)證本文模型在多個(gè)層級(jí)專利文本分類中的有效性,由表4 也可以看出,與SVM、TextCNN、Word2vec-BiGRU 和GloVe-BiGRU 相比,ALBERT-BiGRU 模型的準(zhǔn)確率分別提高了11.5、5.0、9.5和11.2個(gè)百分點(diǎn),說明本文模型ALBERT-BiGRU 在不同層級(jí)的專利文本分類任務(wù)中均有著較好表現(xiàn)。
從各部的分類效果來看,本文模型ALBERT-BiGRU 在F1值上表現(xiàn)也突出,如圖5 所示??芍疚哪P驮诎藗€(gè)部中的F1 值均高于其他模型,且F1 值的平均值為0.860,再次驗(yàn)證了本文方法的有效性。
以上實(shí)驗(yàn)結(jié)果表明,本文模型通過ALBERT 預(yù)訓(xùn)練語言模型提升了詞向量的表征能力,且使用BiGRU 神經(jīng)網(wǎng)絡(luò)作為分類模型,能夠最大限度保留專利文本中長距離詞之間的語義關(guān)聯(lián)。由此得出,本文提出的專利文本分類模型ALBERTBiGRU能有效提升不同層級(jí)專利文本分類的效果。
表4 部級(jí)別和大類級(jí)別上各模型準(zhǔn)確率 單位:%Tab.4 Accuracies of different models at department level and big class level unit:%
圖5 各模型在八個(gè)部中的F1值對(duì)比Fig.5 Comparison of F1 values of different models in eight departments
針對(duì)現(xiàn)有的專利文本分類算法大都采用Word2vec 和GloVe 等方式獲取文本的詞向量表示,舍棄了大量詞語的位置信息且不能表示出文本的完整語義的問題,提出了一種結(jié)合ALBERT 和BiGRU 的多層級(jí)專利文本分類模型ALBERTBiGRU。該模型不僅通過ALBERT 預(yù)訓(xùn)練語言模型提升了詞向量的表征能力,并且利用BiGRU 最大限度地保留了專利文本中長距離詞之間的語義關(guān)聯(lián),從而有效提升了專利文本分類的效果。在專利數(shù)據(jù)集的部和大類兩個(gè)層級(jí)分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,ALBERT 預(yù)訓(xùn)練語言模型獲取的文本特征表示在應(yīng)用上效果優(yōu)于傳統(tǒng)的詞向量,且在不同層級(jí)的專利文本分類中,本文所提出的方法ALBERT-BiGRU 在各項(xiàng)評(píng)價(jià)指標(biāo)中均有著較好表現(xiàn)。在下一步工作中,將擴(kuò)展模型到小類和大組等更深層級(jí)的分類中,以應(yīng)用于實(shí)際的專利自動(dòng)分類。