楊超宇,陳雯君,耿顯亞
(1.安徽理工大學(xué) 人工智能學(xué)院,安徽 淮南232000;2.安徽理工大學(xué) 經(jīng)濟(jì)與管理學(xué)院,安徽 淮南 232000;3.安徽理工大學(xué) 數(shù)學(xué)與大數(shù)據(jù)學(xué)院,安徽 淮南 232000)
隨著我國(guó)新一代計(jì)算機(jī)與人工智能大數(shù)據(jù)技術(shù)創(chuàng)新水平的不斷提高,授權(quán)的專利數(shù)量也在不斷增加,據(jù)世界知識(shí)產(chǎn)權(quán)局統(tǒng)計(jì)數(shù)據(jù)顯示,全球?qū)@暾?qǐng)數(shù)量自2004年起,每年至少以5%的速度增加,截至2020年我國(guó)發(fā)明專利305.8萬(wàn)件,實(shí)用新型專利694.8萬(wàn)件,外觀設(shè)計(jì)專利218.7萬(wàn)件[1]。為減少需求方在海量專利數(shù)據(jù)中檢索專利所消耗的時(shí)間成本,對(duì)同類中文專利進(jìn)行文本分析,深入挖掘每份專利文本中的關(guān)鍵詞以及各專利文本間的關(guān)聯(lián)并對(duì)其進(jìn)行再分類,幫助需求方快速匹配到心宜的專利,實(shí)現(xiàn)專利成果的轉(zhuǎn)化,進(jìn)而加速國(guó)家產(chǎn)學(xué)研政策的快速發(fā)展。采用機(jī)器學(xué)習(xí)算法高效處理專利分類任務(wù)是有必要的,但這也對(duì)海量專利數(shù)據(jù)分析技術(shù)提出更高要求[2]?,F(xiàn)階段的自然語(yǔ)言處理及文本挖掘技術(shù)常采用不同的文本特征提取方法結(jié)合各種分類器對(duì)專利數(shù)據(jù)進(jìn)行分析[3-7]。對(duì)于文本特征的提取方法主要有變換神經(jīng)網(wǎng)絡(luò)(transformerb)[8]、隱狄利克雷分布(latent dirichlet allocation)[9]和詞向量(word2vec)[10]等;采用的分類器主要有支持向量機(jī)(support vector machine)[11]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)[12]和K-近鄰(K-nearest neighbor)[13]等。其中,卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本的分類效果很好,但由于他們的并行性很差導(dǎo)致其分類速度較慢,分類效率較低;KNN算法易于實(shí)現(xiàn)且對(duì)異常值不敏感,但當(dāng)樣本數(shù)據(jù)不均衡時(shí)輸入新樣本易導(dǎo)致該樣本的K個(gè)鄰居中大容量類的樣本占比較高,使其分類效果較差;支持向量機(jī)分類器具有較強(qiáng)的自適應(yīng)能力,在保證其特征選擇適宜的前提下,樣本數(shù)據(jù)分布情況對(duì)文本分類效果影響較小,但當(dāng)樣本數(shù)據(jù)類別較多時(shí),文本分類的準(zhǔn)確性也會(huì)受到一定影響。由于中文專利信息具有數(shù)據(jù)分布不均、抽象專業(yè)詞匯較多等特性[14],導(dǎo)致國(guó)內(nèi)外學(xué)者對(duì)該領(lǐng)域內(nèi)的中文專利文本分類研究相對(duì)偏少。筆者將TF-IDF-LDA模型與SVM分類器組合改進(jìn)為一種混合中文專利文本分類算法,并將其與基于均值Word2Vec的SVM中文專利分類模型同時(shí)應(yīng)用于智能家居領(lǐng)域的中文專利文本分類,經(jīng)對(duì)比實(shí)驗(yàn)結(jié)果可知,基于均值Word2Vec的SVM中文專利分類模型分類效果較好。此外,為確保少數(shù)類不被劃分錯(cuò)誤,使用上采樣(over-sampling)方法對(duì)模型進(jìn)行優(yōu)化,使中文專利文本分類模型的準(zhǔn)確率達(dá)98%。
由于機(jī)器無(wú)法對(duì)自然語(yǔ)言進(jìn)行直接處理,所以在對(duì)文本進(jìn)行分類前需要進(jìn)行詞向量化處理,現(xiàn)階段有許多文本向量表示的方法。
1.1.1 LDA主題模型
早在2003年BLEI等[15]提出一種無(wú)監(jiān)督文本主題詞的3層貝葉斯生成模型即LDA主題模型,如圖1所示。
圖1 LDA模型圖
LDA主題模型結(jié)構(gòu)為“文字-主題-文檔”,主要應(yīng)用于大規(guī)模文檔的識(shí)別及文本潛在主題信息的挖掘。它將每個(gè)文檔視為一個(gè)詞頻向量,并將文本信息轉(zhuǎn)換為易于建模、計(jì)算的數(shù)字編碼形式。由圖1可知,LDA模型由超參數(shù)α和β決定,其中α表示文檔中隱式主題間的相對(duì)強(qiáng)度;β反映所有隱式主題本身概率分布;M表示文檔集中文檔的數(shù)量;Nm表示第m個(gè)文檔中包含的特征值的數(shù)量;θm表示第m個(gè)文檔中所有主題的概率分布,φk表示特定主題下特征詞的概率分布。
在建立LDA主題模型時(shí),常使用Gibbs抽樣的參數(shù)推理方法進(jìn)行參數(shù)估計(jì)[16]。其中兩個(gè)最重要的參數(shù)為每個(gè)主題下特征詞的概率分布φ和每個(gè)文檔的主題概率分布θ,具體公式如下:
(1)
(2)
1.1.2 Word2Vec模型
Word2Vec(word to vector)指使用“輸入層-投影層-輸出層”[17]3層神經(jīng)網(wǎng)絡(luò)模型,以分布表示的形式將文字矢量映射為一個(gè)獨(dú)熱編碼,即一種將中文專利文本信息轉(zhuǎn)化為獨(dú)熱編碼的詞向量的方法。Word2Vec包含兩種方法,即CBOW(continuous bag of words)與Skip-Gram[18],如圖2所示。
圖2 Word2Vec模型圖
由圖2可知,CBOW算法將與特征詞上下文相關(guān)的詞所對(duì)應(yīng)的詞向量輸入到模型中,通過(guò)投影層對(duì)與上下文相關(guān)的詞向量求和,并以最大概率輸出特定詞,即通過(guò)周圍的詞去預(yù)測(cè)中心詞;而Skip-Gram算法則是先將特征詞的詞向量作為模型的輸入,推斷出相關(guān)的上下文詞,并輸出與特定詞對(duì)應(yīng)的上下文詞向量,即通過(guò)中心詞預(yù)測(cè)中心詞周圍的詞。
一定程度上,Word2Vec保留了文本中上下文的詞與詞間的相關(guān)性,有效提升算法在處理文本分類任務(wù)時(shí)的準(zhǔn)確性。此外,在處理數(shù)據(jù)量較大的文件時(shí),CBOW模型較Skip-Gram模型具有更強(qiáng)的泛化能力。
SVM(support vector machines)是一種以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的機(jī)器學(xué)習(xí)方法。通過(guò)尋求結(jié)構(gòu)風(fēng)險(xiǎn)的最小值來(lái)提高學(xué)習(xí)機(jī)的泛化能力,同時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信區(qū)間,達(dá)到在統(tǒng)計(jì)樣本較少情況下獲得良好統(tǒng)計(jì)規(guī)律的目的。為獲取最大間隔的超平面并優(yōu)化模型泛化能力,將問(wèn)題轉(zhuǎn)化為對(duì)偶問(wèn)題,引入懲罰系數(shù)C和拉格朗日乘子,并利用核函數(shù)設(shè)計(jì)如下模型:
(3)
(4)
SVM算法集成了最大區(qū)間超平面、稀疏解和松弛變量等技術(shù),根據(jù)有限樣本能獲得很好的學(xué)習(xí)能力,但當(dāng)樣本規(guī)模較大時(shí),訓(xùn)練過(guò)程收斂速度較慢、時(shí)間復(fù)雜度較高。
研究所使用的實(shí)驗(yàn)環(huán)境為Win10 64位操作系統(tǒng),x64處理器,CPU型號(hào)為AMD Ryzen 75 800H with Radeon Graphics,主頻3.20Hz,內(nèi)存為16GB,固態(tài)硬盤為512GB,實(shí)驗(yàn)平臺(tái)為Jupyter Notebook(Anaconda3),Python 3.9版本開(kāi)發(fā)語(yǔ)言,用到WordCloud、Sklearn.Svm、Jieba等多方庫(kù)。
針對(duì)智能家居中文專利數(shù)據(jù)的智能分類問(wèn)題,設(shè)計(jì)一種基于均值詞嵌入模型的SVM分類方法。通過(guò)兩組平行實(shí)驗(yàn),結(jié)合詞云分析等可視化效果,突出所構(gòu)建模型的優(yōu)越性,最后使用上采樣對(duì)模型進(jìn)行方法優(yōu)化和方法評(píng)估,其整體實(shí)驗(yàn)框架如圖3所示。
圖3 整體實(shí)驗(yàn)框架設(shè)計(jì)
(1)數(shù)據(jù)獲取。使用Selenium模擬網(wǎng)頁(yè)登錄,通過(guò)觀察每頁(yè)數(shù)據(jù)存儲(chǔ)的特征,抓取patent_name、ipc_code、applicant、abstract_zh、update_time和create_time字段,使用Pandas將數(shù)據(jù)集存至p_abstract_zh.csv文件中。
(2)分詞。與英文文本不同,中文文本中沒(méi)有明確的分詞。中文專利文本能否合理分割對(duì)專利分類的準(zhǔn)確性有著重要影響。Jieba基于統(tǒng)計(jì)詞典構(gòu)建語(yǔ)料庫(kù),使用語(yǔ)料庫(kù)對(duì)輸入的中文文本數(shù)據(jù)進(jìn)行分割,并結(jié)合分割位置構(gòu)造有向無(wú)環(huán)圖。通過(guò)動(dòng)態(tài)規(guī)劃算法計(jì)算最大概率路徑,得到最終分割方法。首先,在對(duì)數(shù)據(jù)集進(jìn)行重復(fù)值、異常值及缺失值的初步清洗后選取abstract_zh字段;然后,構(gòu)建智能家居中文專利文本語(yǔ)料庫(kù),使用Jieba進(jìn)行搜索引擎分詞并加載自定義詞典;最后,通過(guò)將自定義詞典與哈工大停止詞列表結(jié)合來(lái)刪除停止詞。
(3)文本清洗。由于IPC(international patent classification)可根據(jù)主分類號(hào)按部、大類、小類、大組、小組進(jìn)行劃分,導(dǎo)致一篇專利文檔會(huì)有多個(gè)分類號(hào),數(shù)據(jù)集中共8個(gè)部,116個(gè)大類,445個(gè)小類,如表1所示。大類從第6個(gè)起類別數(shù)量差異較小,因此可以將IPC中大類數(shù)小于1 000的數(shù)據(jù)視為異常值進(jìn)行剔除,將5個(gè)大類號(hào)作為專利分類的依據(jù),經(jīng)統(tǒng)計(jì)得數(shù)據(jù)32 762條。
表1 大類號(hào)頻數(shù)統(tǒng)計(jì)top10(降序)
(4)數(shù)據(jù)可視化。為更直觀展現(xiàn)實(shí)驗(yàn)中選取的智能家居專利文本數(shù)據(jù)情況,對(duì)專利文本字符串長(zhǎng)度進(jìn)行描述性統(tǒng)計(jì)分析,去除分詞后length<100的文本,最終保留32 054條數(shù)據(jù),同時(shí)繪制專利大分類號(hào)的數(shù)量分布柱狀圖,如圖4所示。接著使用nltk.FreqDist對(duì)分詞后的文本數(shù)據(jù)3進(jìn)行詞頻統(tǒng)計(jì)并繪制分詞后的詞云圖,如圖5所示。同時(shí)使用Jieba.posseg對(duì)專利的摘要文本數(shù)據(jù)進(jìn)行詞性標(biāo)注,保留其中的名詞語(yǔ)料并將結(jié)果通過(guò)詞云圖進(jìn)行可視化展示,如圖6所示。
圖4 專利分類號(hào)數(shù)量分布柱狀圖
圖5 分詞后的詞云圖
圖6 分詞后的名詞詞云圖
為彌補(bǔ)LDA無(wú)法自己生成最優(yōu)主題數(shù)的缺陷,采用反向詞頻(term frequency-inverse document frequency)算法融合文獻(xiàn)[19]中的文本困惑度方法,將混淆的最小值或拐點(diǎn)對(duì)應(yīng)的主題數(shù)作為模型中的最佳主題數(shù)。
首先,使用文本困惑度指標(biāo)確定LDA,通過(guò)繪制學(xué)習(xí)曲線的方式找到困惑度最低的主題數(shù),如圖7所示。由圖7可知主題數(shù)為15時(shí)困惑度最低,因此以主題數(shù)15進(jìn)行LDA建模訓(xùn)練。然后,獲取每條專利文本在特定主題下的概率分布,由于有些文本沒(méi)有給出對(duì)應(yīng)主題下的概率,將這部分概率用0代替作為每條專利文本15維的特征向量。結(jié)果表明,分詞后LDA的文本表示效果并不好,考慮到主題數(shù)應(yīng)精煉且簡(jiǎn)潔,因此采用TF-IDF算法對(duì)分詞文本提煉關(guān)鍵詞,作為模型的輸入。
圖7 主題文本困惑度折線圖
TF-IDF(term frequency-inverse document frequency)是一種統(tǒng)計(jì)方法,用于評(píng)估單詞對(duì)文檔集或語(yǔ)料庫(kù)中文檔的重要性。它通常用于信息檢索與文本挖掘的加權(quán)技術(shù)。其核心思想是假設(shè)某一個(gè)或幾個(gè)詞語(yǔ)在某份中文專利文檔中出現(xiàn)的頻率較高,并且這部分詞語(yǔ)在其他專利文檔中出現(xiàn)的頻率較低,那么該部分詞語(yǔ)將作為關(guān)鍵詞代表當(dāng)前文檔的重要信息,公式如下:
TF-IDF=TF×IDF
(5)
式中:TF(term frequency)是指給定單詞在文檔中出現(xiàn)的次數(shù),即給定單詞在中文專利文檔中出現(xiàn)的次數(shù)。由于專利文本的長(zhǎng)度不同,為防止TF傾向于長(zhǎng)文檔,對(duì)專利文本進(jìn)行規(guī)范化,將一個(gè)詞在文章中出現(xiàn)的次數(shù)除以該詞在文章中出現(xiàn)最多的次數(shù)。IDF(inverse document frequency)指特定單詞的逆文檔頻率指數(shù),通過(guò)將文檔總數(shù)除以包含該單詞的文檔數(shù),取所得商的對(duì)數(shù)來(lái)獲得。如果IDF越大,包含某關(guān)鍵詞的文檔越少,表明該單詞具有很好的區(qū)分類別的能力。
通過(guò)調(diào)用gensim.models的Word2Vec模型訓(xùn)練經(jīng)文本預(yù)處理后的數(shù)據(jù),使用skip-gram神經(jīng)網(wǎng)絡(luò)模式根據(jù)上下文預(yù)測(cè)中間詞,得到每個(gè)詞語(yǔ)對(duì)應(yīng)的特征向量,分別對(duì)每篇專利文檔所出現(xiàn)的詞語(yǔ)對(duì)應(yīng)的特征向量進(jìn)行算數(shù)平均,得到每條專利文本200維的特征向量,即均值Word2Vec模型。該矩陣的每一行表示每個(gè)專利文本200維的語(yǔ)義特征,如圖8所示。
圖8 每個(gè)專利文本的語(yǔ)義特征矩陣(部分)
2.5.1 結(jié)合五折交叉驗(yàn)證的SVM參數(shù)調(diào)整方法
交叉驗(yàn)證法是將數(shù)據(jù)集劃分成K個(gè)大小相差不多的互斥子集。為確保劃分測(cè)試集與訓(xùn)練集時(shí)數(shù)據(jù)分布均衡,使用(K-1)子集的并集作為訓(xùn)練集,剩余子集作為實(shí)驗(yàn)的測(cè)試集。經(jīng)過(guò)K次訓(xùn)練后,取K次結(jié)果的平均值。該方法既可用來(lái)評(píng)估模型在數(shù)據(jù)集上的表現(xiàn),也可用來(lái)調(diào)整超參數(shù)。使用該方法對(duì)模型參數(shù)進(jìn)行反復(fù)交叉訓(xùn)練最終找到模型最優(yōu)超參數(shù)。
2.5.2 結(jié)合上采樣的數(shù)據(jù)均衡分布方法
在對(duì)數(shù)據(jù)進(jìn)行類別劃分的過(guò)程中,數(shù)據(jù)本身也會(huì)對(duì)模型訓(xùn)練的精確度產(chǎn)生很大影響,其中較為常見(jiàn)的是樣本分布不平衡問(wèn)題。此類問(wèn)題采用傳統(tǒng)方法并不能有效地反映模型的效果。因此提出一種樣本上采樣(樣本過(guò)采樣)的方法來(lái)實(shí)現(xiàn)類別之間的均衡分布。
筆者將經(jīng)LDA和Word2Vec模型訓(xùn)練后的文本向量輸入到SVM分類器中進(jìn)行多分類,并使用五折交叉驗(yàn)證方法對(duì)SVM中的正則化系數(shù)C、核函數(shù)kernel和徑向函數(shù)的Gamma進(jìn)行調(diào)整,并將數(shù)據(jù)集進(jìn)行上采樣優(yōu)化后再次輸入模型中,最后將結(jié)果可視化后發(fā)現(xiàn)Word2Vec模型的專利分類效果優(yōu)于LDA模型,且對(duì)數(shù)據(jù)集進(jìn)行優(yōu)化后的模型的準(zhǔn)確率、精確度、召回率等均有所提升。
(1)對(duì)SVM正則化系數(shù)C的調(diào)整結(jié)果如圖9所示,可知LDA主題概率模型對(duì)應(yīng)SVM的參數(shù)C最佳值為7,詞嵌入Word2Vec模型對(duì)應(yīng)SVM的參數(shù)C最佳值為1。
圖9 正則化系數(shù)C的調(diào)整結(jié)果
(2)核函數(shù)選擇結(jié)果如圖10所示。當(dāng)SVM與主題概率模型和組合詞嵌入模型相結(jié)合的核函數(shù)為RBF時(shí)精度最大,并且對(duì)超參數(shù)進(jìn)行調(diào)整后,基于詞嵌入模型的準(zhǔn)確率最低達(dá)85%以上,而基于LDA的主題概率模型所表示的文本向量輸入SVM分類器后對(duì)專利的分類效果不及前者。此外,當(dāng)gamma=0.1時(shí),模型最佳得分約為0.972。
圖10 核函數(shù)選擇結(jié)果
(3)樣本數(shù)據(jù)分布調(diào)整。為解決專利的大類別之間存在類別不均衡問(wèn)題,采用上采樣方法實(shí)現(xiàn)類別之間的均衡分布,將數(shù)據(jù)集進(jìn)行上采樣優(yōu)化后再次輸入模型中,發(fā)現(xiàn)Word2Vec模型的專利分類效果優(yōu)于LDA模型,其詞云分析結(jié)果如圖11所示。
圖11 Word2Vec訓(xùn)練后的詞云圖
由于多分類任務(wù)與二分類不同,使用macro來(lái)計(jì)算每個(gè)標(biāo)簽的指標(biāo)并找出它們未加權(quán)的平均值,結(jié)合準(zhǔn)確率A、精確度P、召回率R、精確率與召回率的調(diào)和均值F1來(lái)評(píng)價(jià)分類器的多分類效果,計(jì)算方法如式(6)~式(9)所示。若相關(guān)類別標(biāo)簽標(biāo)記為正類,其余標(biāo)記為負(fù)類,則分類器的預(yù)測(cè)結(jié)果在測(cè)試集上表現(xiàn)為正負(fù)兩種類型[20]。參數(shù)釋義如表2所示。
表2 參數(shù)釋義表
(6)
(7)
(8)
(9)
在默認(rèn)分類閾值情況下基于Word2vec的SVM所對(duì)應(yīng)準(zhǔn)確率為97.92%,精確度為99.16%,召回率為97.04%,F1為98.07%。
為驗(yàn)證均值Word2Vec-SVM中文專利文本分類模型的優(yōu)勢(shì),通過(guò)基于詞嵌入的均值Word2Vec模型將訓(xùn)練集進(jìn)行文本詞向量表示后輸入分類器,準(zhǔn)確率為97.15%,經(jīng)五折交叉驗(yàn)證調(diào)整參數(shù)后,其準(zhǔn)確率達(dá)97.35%。將保存后的模型應(yīng)用于測(cè)試集上得各類別的平均準(zhǔn)確率為96.00%左右。將相同訓(xùn)練集應(yīng)用于TF-IDF-LDA-SVM模型后準(zhǔn)確率為86.91%,測(cè)試集上平均準(zhǔn)確率為84.00%左右。對(duì)數(shù)據(jù)集進(jìn)行上采樣優(yōu)化后查看模型的評(píng)估指標(biāo),發(fā)現(xiàn)模型的評(píng)估指標(biāo)值均有顯著提升,經(jīng)對(duì)比分析后發(fā)現(xiàn)專利分類模型準(zhǔn)確率為98.51%、精確度為98.62%、召回率為98.50%、F1為98.53%,具有更好的中文專利文本分類效果。調(diào)參前后實(shí)驗(yàn)結(jié)果如表3所示。
表3 實(shí)驗(yàn)結(jié)果對(duì)比分析表 %
(1)針對(duì)中文智能家居專利文本數(shù)據(jù),構(gòu)建了一種嵌入Mean-Word2Vec的中文專利文本分類模型。將中文專利文本轉(zhuǎn)化為詞特征向量,結(jié)合SVM分類算法,完成專利分類任務(wù)。結(jié)果表明,改進(jìn)的中文專利文本分類模型在專利分類方面優(yōu)于其他的單一傳統(tǒng)分類器。
(3)對(duì)詞嵌入模型進(jìn)行深入研究提出均值Word2Vec算法,更好地表現(xiàn)了中文專利中專業(yè)詞匯間的關(guān)聯(lián)性;同時(shí)為保證各類別中數(shù)據(jù)分布的均衡性,對(duì)樣本數(shù)據(jù)進(jìn)行上采樣處理,將調(diào)整后的數(shù)據(jù)集重新輸入分類器中,發(fā)現(xiàn)模型的準(zhǔn)確率、精確度、召回率和F1均有提升。
(4)由于中文專利文本數(shù)據(jù)的特殊性,在使用文本挖掘算法對(duì)中文專利文本分類任務(wù)進(jìn)行初探時(shí),實(shí)驗(yàn)過(guò)程中仍存在許多不足之處,表現(xiàn)在:①專利語(yǔ)料庫(kù)的語(yǔ)料不全面導(dǎo)致無(wú)法得到最佳的分類結(jié)果;②模型的訓(xùn)練程度不夠;③專利數(shù)據(jù)類別存在局限性等。
(5)筆者將在后續(xù)實(shí)驗(yàn)中進(jìn)行深入研究,從而確保該算法能成功應(yīng)用于某專利信息數(shù)智檢索平臺(tái)的搜索引擎中,提高該平臺(tái)的關(guān)鍵技術(shù)共現(xiàn)功能,減少專利技術(shù)需求方檢索目標(biāo)信息的成本,促進(jìn)“校-企-企”的專利成果轉(zhuǎn)化,從而推動(dòng)產(chǎn)學(xué)研一體化聯(lián)合發(fā)展。