陳 一
(昆明理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,云南 昆明 650000)
在全球產(chǎn)業(yè)鏈重構(gòu)和大國(guó)博弈的背景下,核心技術(shù)是買不來(lái)的,要提高核心競(jìng)爭(zhēng)力,增強(qiáng)產(chǎn)業(yè)鏈供應(yīng)鏈自主可控能力,實(shí)現(xiàn)高質(zhì)量發(fā)展,還是要依靠自主創(chuàng)新。自主創(chuàng)新的過(guò)程中,專利的研究和分析具有重要的戰(zhàn)略指導(dǎo)意義,而隨著專利數(shù)量的增加,如何從海量的專利中發(fā)現(xiàn)研發(fā)熱點(diǎn),需要引入大數(shù)據(jù)挖掘的方法,可以通過(guò)對(duì)專利文本的主題聚類來(lái)探索專利的研發(fā)熱點(diǎn)。但是專利文本會(huì)涉及不同學(xué)科領(lǐng)域的專業(yè)詞匯,比如青刺果專利會(huì)涉及醫(yī)學(xué)、化學(xué)、植物學(xué)等學(xué)科領(lǐng)域的專業(yè)詞匯,做文本數(shù)據(jù)挖掘時(shí),特征詞具有不可分割性。而運(yùn)用傳統(tǒng)的TF-IDF 算法的LDA主題模型來(lái)做主題聚類不能很好的處理專業(yè)性的特征詞。針對(duì)專利文本的專業(yè)性特征詞,如何做專利的專業(yè)性主題聚類,本文以青刺果德溫特專利數(shù)據(jù)為例,首先運(yùn)用Word2vec 對(duì)青刺果專利的德溫特分類代碼和專利標(biāo)題訓(xùn)練詞向量,然后引入基于去停用詞的N-Gram 算法優(yōu)化TF-IDF 加權(quán),最后運(yùn)用LDA 做主題聚類。
青刺果(Prinsepia utilis Royle)又稱總花扁核木,是薔薇科李亞科扁核木屬植物,為常綠或落葉小灌木。青刺果耐旱、耐寒、抗逆性和適應(yīng)性強(qiáng),主要生長(zhǎng)于印度北部和中國(guó)西南部喜馬拉雅山區(qū)的高海拔地區(qū)。對(duì)青刺果的研究主要集中在化學(xué)成分分析和藥理作用方面。化學(xué)成分方面,青刺果莖中能提取到單體化合物駢雙四氫呋喃類木脂素,以及L-表兒茶素和β-谷甾醇-β-葡萄糖苷;青刺果的總黃酮的回收率在101.41%,黃酮類組成有山奈酚、兒茶素、槲皮素和圣草酚;發(fā)酵能顯著增加青刺果種子的多酚含量;青刺果油含有豐富的維生素和不飽和脂肪酸。藥理研究方面,青刺果具有降血脂、抑菌、保濕、抗氧化、延緩皮膚衰老、抗腫瘤、抑制血小板聚集等作用。青刺果具有極大的藥用價(jià)值和商用價(jià)值,關(guān)于青刺果也有大量的專利,但相關(guān)文獻(xiàn)缺少對(duì)青刺果專利進(jìn)行分析的研究,本文通過(guò)對(duì)青刺果專利文本的主題聚類來(lái)探索青刺果專利的研發(fā)熱點(diǎn)。
Word2vec 是由Mikolov 等人提出的一種用于訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型。Word2vec 詞向量是根據(jù)詞匯所在上下文計(jì)算出的,充分捕獲了上下文的語(yǔ)義信息,還能解決傳統(tǒng)向量空間模型處理短文本時(shí)的特征稀疏問(wèn)題,適用于短文本分類。青刺果專利德溫特分類代碼和專利標(biāo)題都是短文本,本文選擇Word2vec 訓(xùn)練詞向量。針對(duì)Word2vec 模型無(wú)法區(qū)分文本中詞匯的重要程度,本文引入TF-IDF 算法計(jì)算Word2vec 詞向量的權(quán)重,但是TF-IDF 算法存在過(guò)于依賴特征詞的提取效果和未考慮特征詞的出現(xiàn)位置等問(wèn)題。而Jestes 等人提出的N-Gram 算法,能保留詞匯的特征信息和特征詞的位置信息,N-Gram 算法對(duì)特定領(lǐng)域特征詞的提取效果明顯,比如在計(jì)算機(jī)病毒特征碼的提取和SQL語(yǔ)句固定維數(shù)的特征向量提取的研究,N-Gram算法能夠豐富特征詞又能清除無(wú)效特征詞帶來(lái)的影響,同時(shí)加重符合文本主題的特征詞的權(quán)重。因此,本文引入基于去停用詞的N-Gram算法,優(yōu)化TF-IDF 加權(quán)。用N-Gram 來(lái)改進(jìn)TF-IDF,特征詞的TF值可以客觀地反映特征詞對(duì)文本的重要程度,將特征詞位置因子和詞頻因子結(jié)合,距離越遠(yuǎn)、頻次越高的特征詞對(duì)文本更重要,應(yīng)賦予更高的權(quán)重。青刺果專利文本的特征詞具有專業(yè)性,經(jīng)過(guò)Word2vec訓(xùn)練詞向量和改進(jìn)的TF-ID 優(yōu)化加權(quán),再運(yùn)用LDA做主題聚類,可以提升專利主題聚類的專業(yè)性。
在德溫特專利數(shù)據(jù)庫(kù)中搜索所有年份的“青刺果”專利,把全紀(jì)錄導(dǎo)出,通過(guò)Python 爬蟲(chóng)獲取的青刺果專利德溫特分類代碼結(jié)果的部分截圖如圖1 所示,青刺果專利標(biāo)題結(jié)果的部分截圖如圖2所示。
圖1 青刺果專利德溫特分類代碼結(jié)果的部分截圖
圖2 青刺果專利標(biāo)題結(jié)果的部分截圖
以青刺果專利的德溫特分類代碼和專利標(biāo)題作為語(yǔ)料,爬取的爬取的用Word2vec的Skip_gram 模型訓(xùn)練詞向量,然后用N-Gram 改進(jìn)TF-IDF,對(duì)詞向量?jī)?yōu)化加權(quán),最后運(yùn)用Python 中的nltk 和gensim 庫(kù)做LDA主題聚類,結(jié)果如下所示。
從青刺果德溫特專利文本主題聚類出來(lái)的結(jié)果可以看出,主題詞都是醫(yī)學(xué)、化學(xué)、植物學(xué)等學(xué)科領(lǐng)域的專業(yè)詞匯,主要有七類。
第一類:皮膚,治療,保濕,化妝品,配方。
第二類:組合物,有機(jī)物,芳烴,聚合物,化合物。
第三類:植物,提取,草藥,油,粉。
第四類:提取,分離,蒸發(fā),結(jié)晶,透析。
第五類:醫(yī)療,藥品,殺菌,消炎,抗缺氧。
第六類:油,脂肪,蠟,脂肪酸,精油。
第七類:設(shè)備,發(fā)酵,釀造,食品,生產(chǎn)。
這七類主要涉及青刺果的功能、應(yīng)用、提取技術(shù)和成分分析。
從青刺果德溫特專利文本的主題聚類結(jié)果可以看出青刺果專利的研究熱點(diǎn)主要集中在青刺果的功能、應(yīng)用、提取技術(shù)和成分分析方面。青刺果是藥食兩用的植物,在食用性、藥用性以及生產(chǎn)工藝上值得繼續(xù)研究探索。但是青刺果種植受地域性限制,其產(chǎn)品的推廣及宣傳仍有待提高,相關(guān)專利在種植和包裝方面猶嫌不足,青刺果專利未來(lái)的研究可以多從種植和包裝方面進(jìn)行,以擴(kuò)大青刺果種植,降低生產(chǎn)成本,促進(jìn)產(chǎn)品營(yíng)銷,讓青刺果能夠發(fā)揮更大的社會(huì)價(jià)值,產(chǎn)生更大的經(jīng)濟(jì)效益。對(duì)于青刺果德溫特專利文本,通過(guò)運(yùn)用Word2vec 訓(xùn)練詞向量,再用N-Gram 改進(jìn)TF-IDF 優(yōu)化加權(quán),然后用LDA 做主題聚類的方法,針對(duì)青刺果專利文本涉及不同學(xué)科領(lǐng)域?qū)I(yè)詞匯的特點(diǎn),做出了專業(yè)性的主題聚類。但是如果存在亞??聘?xì)分領(lǐng)域的詞匯,就需要進(jìn)一步探索新的識(shí)別算法。