田鵬偉 張 嫻
(1. 中國科學(xué)院成都文獻情報中心知識產(chǎn)權(quán)研究咨詢中心 成都 610041;2. 百度時代網(wǎng)絡(luò)技術(shù)(北京)有限公司 北京 100085;3. 中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院圖書情報與檔案管理系 北京 100190)
專利文獻是記錄技術(shù)創(chuàng)新過程與成果的重要載體,也是聯(lián)系科技與經(jīng)濟兩大范疇的重要信息介質(zhì)。專利文本主題識別是采用文本數(shù)據(jù)挖掘手段發(fā)掘?qū)@墨I中具有可研究性及經(jīng)濟價值的主題信息,有助于把握技術(shù)創(chuàng)新前沿、預(yù)測技術(shù)發(fā)展趨勢。然而,專利數(shù)據(jù)不同于一般的科學(xué)文獻,其語言表述晦澀性、文本組織結(jié)構(gòu)特殊性增加了文本主題識別的難度,削弱了通用文本挖掘方法直接套用于專利文本主題識別的應(yīng)用效果。
目前專利文本主題識別相關(guān)研究大致可劃分為三個階段:(1)基于專利技術(shù)主題詞、主題詞關(guān)聯(lián)關(guān)系表征,研究專利文本的主題[1];(2)采用共詞分析方法、多元關(guān)系網(wǎng)絡(luò),對專利文獻進行建模,獲取專利文本的主題[2-4];(3)應(yīng)用文本挖掘技術(shù)(如LDA等主題模型)分析專利文獻,挖掘?qū)@闹黝}[5-6]。現(xiàn)有研究局限主要體現(xiàn)在三方面:a.將專利數(shù)據(jù)視作普通文本數(shù)據(jù)處理[7]。專利文獻用語晦澀,增加了文本處理難度,通用分詞結(jié)果難以達到理想的技術(shù)主題挖掘效果。b.主題識別分析維度單一,缺乏多維視角[8]。主題識別研究多依賴于主題詞共現(xiàn)網(wǎng)絡(luò),或發(fā)明人、專利權(quán)人、IPC等屬性網(wǎng)絡(luò),少有涉及多維網(wǎng)絡(luò)融合視角研究主題識別[9-12]。c.逐漸重視將多維、異構(gòu)建模思維應(yīng)用于專利分析,但針對專利技術(shù)主題識別方面的研究較少[13-14]。
異構(gòu)信息網(wǎng)絡(luò)(Heterogeneous Information Network,HIN)于2009年由Sun提出[15],也稱元網(wǎng)絡(luò),指的是網(wǎng)絡(luò)中至少存在兩種及以上種類的節(jié)點對象類型、關(guān)系類型。按網(wǎng)絡(luò)節(jié)點的同質(zhì)、異質(zhì)特性,異構(gòu)信息網(wǎng)絡(luò)可分為同質(zhì)異構(gòu)與異質(zhì)異構(gòu),常見于圖像處理、通信領(lǐng)域等[16]。異構(gòu)信息網(wǎng)絡(luò)融合指對已存在的若干信息網(wǎng)絡(luò)進行融合使其拓撲結(jié)構(gòu)合為一體,或?qū)?fù)雜系統(tǒng)中若干組實體重新構(gòu)建網(wǎng)絡(luò)。異構(gòu)信息網(wǎng)絡(luò)與專利文本主題識別相結(jié)合,有助于充分利用多維信息優(yōu)勢提升專利技術(shù)主題識別的準確性。
本文嘗試基于異構(gòu)信息網(wǎng)絡(luò)融合實現(xiàn)專利文本主題識別,提高專利技術(shù)主題識別的準確性。具體而言,利用專利文獻中的主題詞、發(fā)明人、專利權(quán)人、IPC分類號、引證信息等屬性共同構(gòu)建專利異構(gòu)信息網(wǎng)絡(luò),通過融合運算形成融合網(wǎng)絡(luò),進而開展主題識別研究,期望探索一種基于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別方法。
1.1研究思路利用異構(gòu)信息網(wǎng)絡(luò)對專利文獻數(shù)據(jù)集的多類特征屬性建模。專利文獻中特征項之間可抽象為直接或間接的矩陣表示,OVL疊加算法(overlap function)可用于計算兩個關(guān)聯(lián)矩陣間各節(jié)點的最小聯(lián)通路徑,且對術(shù)語權(quán)重大小的文檔間差異測度敏感[17]。因此,本文采用OVL疊加算法以及線性加權(quán)[18-19]方法融合構(gòu)建異構(gòu)信息網(wǎng)絡(luò),形成專利異構(gòu)信息融合網(wǎng)絡(luò)。
本文提出的技術(shù)主題識別方法研究框架(見圖1)包含:提取與技術(shù)主題密切關(guān)聯(lián)的多個類型特征,構(gòu)建專利異構(gòu)信息網(wǎng)絡(luò);采用OVL算法及線性加權(quán)方法,融合所構(gòu)建的異構(gòu)信息網(wǎng)絡(luò),形成專利異構(gòu)信息融合網(wǎng)絡(luò);基于融合后的網(wǎng)絡(luò)進行聚類,識別專利技術(shù)主題。
圖1 基于異構(gòu)信息網(wǎng)絡(luò)融合的專利文本主題識別方法研究框架
1.2專利異構(gòu)信息網(wǎng)絡(luò)建模
1.2.1 獲取數(shù)據(jù)特征項 選取下述特征項構(gòu)建網(wǎng)絡(luò):主題詞[20](對標題與摘要經(jīng)自然語言處理提取)、專利號(唯一標識)、發(fā)明人、專利權(quán)人、IPC分類號、專利引文等。
a.主題詞抽取。對專利文獻的標題、摘要進行通用的自然語言處理,提取關(guān)鍵詞信息。然后,在盡可能保全關(guān)鍵詞的前提下,剔除低頻詞匯,形成核心主題詞集合。
b.其他特征項抽取。在上述主題詞集合之外,抽取專利文獻其它內(nèi)部、外部特征信息,分別形成專利號集合、發(fā)明人集合、專利權(quán)人集合、IPC集合、專利引文集合、專利申請年集合;進行數(shù)據(jù)清洗,如專利權(quán)人、發(fā)明人名稱規(guī)范與消歧、低頻專利引文數(shù)據(jù)剔除等[21]。
1.2.2 構(gòu)建專利異構(gòu)信息網(wǎng)絡(luò) 異構(gòu)信息網(wǎng)絡(luò)的重要特點在于節(jié)點的異質(zhì)性與連邊的復(fù)雜性。共現(xiàn)關(guān)系是海量文本挖掘中一種表征特征屬性間相互關(guān)聯(lián)的有效方法。例如,通過統(tǒng)計一組特征項在同一篇文獻中出現(xiàn)的次數(shù),體現(xiàn)特征項之間的關(guān)聯(lián)關(guān)系、強度及結(jié)構(gòu)變化[22-23]。
將前述主題詞集合、其他特征項集合作為節(jié)點,其共現(xiàn)關(guān)系作為連邊,構(gòu)建網(wǎng)絡(luò)。該網(wǎng)絡(luò)中節(jié)點均是異質(zhì)節(jié)點,各節(jié)點間存在多種連接關(guān)系,因此屬典型的異構(gòu)信息網(wǎng)絡(luò)模型,如圖2所示。
圖2 專利異構(gòu)信息網(wǎng)絡(luò)模型示意
1.3專利異構(gòu)信息網(wǎng)絡(luò)融合當前的信息網(wǎng)絡(luò)融合處理方法各具優(yōu)劣[24]??紤]到異質(zhì)節(jié)點屬性特征的融合性、術(shù)語權(quán)重差異測度的敏感性、聯(lián)通路徑計算的經(jīng)濟性,本文采用“矩陣運算”+“加權(quán)融合”思路進行異構(gòu)信息網(wǎng)絡(luò)融合處理。
f2=min (Wik[A:B],Wkj[B:C])
(1)
式(1)中,Wik表示從節(jié)點i到節(jié)點k的鏈接權(quán)重,[A:B]表示矩陣的行對象是A,列對象是B;min ()則表示計算由節(jié)點i通過節(jié)點k到達節(jié)點j的最小值。
(2)
式(2)中,f1是在f2的基礎(chǔ)上計算經(jīng)過B(bi)從A到C所有最小權(quán)重之和。
將公式(1)、(2)整合可得:
(3)
則OVL計算公式可定義為:
Wij[A:C]=OVL (Wik[A:B],Wkj[B:C])
(4)
將算法衍生于對更多數(shù)量矩陣的融合處理,如下所示:
Wij[A:E]=OVL (Wil[A:B],Wlm[B:C],Wmn[C:D],Wnj[D:E])
(5)
采用OVL方法對異構(gòu)信息網(wǎng)絡(luò)進行融合處理,分別采用OVL算法對圖2中每條路徑進行融合,即形成多個不同的P-T(Patents-Terms)融合矩陣,如圖3所示。
圖3 OVL矩陣融合示意圖
1.3.2 加權(quán)計算融合網(wǎng)絡(luò) 采用加權(quán)融合對上述得到的多個Patents-Terms融合矩陣再次融合,最終形成統(tǒng)一、有效的融合矩陣,設(shè)為P-Tfusion(見圖4)。計算公式如式(6)。
圖4 矩陣加權(quán)融合示意圖
(6)
1.4專利技術(shù)主題識別基于上述融合矩陣P-Tfusion,進行技術(shù)主題識別研究。聚類運算前需考慮是否對已有數(shù)據(jù)進一步降維處理,提高識別的準確性和有效性。
1.4.1 矩陣降維 常用數(shù)據(jù)降維手段有主成分分析(Principal component analysis,PCA)、奇異值矩陣分解(Singular value decomposition,SVD)等[25-26]。就降維原理而言[27-28],上述兩種均可作為本文的降維工具,但使用PCA之前需明確知道降維后的維度k,而SVD則不需要提前指定維度,因此本文選用SVD,計算公式如式(7)。
(7)
1.4.2 專利技術(shù)主題聚類與可視化 目前已有多種文本聚類方法研究,如基于數(shù)據(jù)分類的K-means、K-medoids、PAM,基于層次聚類的BIRCH、CURE、ROCK,基于聚類簇密度的DBSCAN、OPTICS、Mean-shift等[31]。由于聚類工具與算法并非本文研究重點,因此選用經(jīng)典聚類算法K-means,用于驗證異構(gòu)信息網(wǎng)絡(luò)融合前后的專利技術(shù)主題識別效果。聚類效果評價,采用Silhouette Coefficient(輪廓系數(shù))[32]計算聚類的全局最優(yōu)系數(shù),具體如下:
采用K-means將待分類數(shù)據(jù)分為了k個類,對于類中每個向量i,分別計算它們的輪廓系數(shù),有:a(i)=average(向量i到同類中的所有其它點的距離),b(i)=min(向量i到非同類中的所有點的平均距離)。
如圖5所示,對于向量i,有:
圖5 聚類輪廓示意圖
(8)
則,向量i的輪廓系數(shù)為:
(9)
其中,a(i)表示向量i到同一簇內(nèi)其他點不相似程度的平均值;b(i)表示向量i到其他類的平均不相似程度的最小值??梢?,輪廓系數(shù)的值介于[-1,1],越趨近于1代表內(nèi)聚度和分離度都相對較優(yōu)。求取所有節(jié)點的輪廓系數(shù)平均值,就是該聚類結(jié)果的總輪廓系數(shù)。
可視化是直觀考察主題識別聚類效果優(yōu)劣的重要手段,尤其Origin工具的三維旋轉(zhuǎn)功能有助于清晰展示。本文采用Origin工具對融合處理前后網(wǎng)絡(luò)的主題聚類結(jié)果可視化呈現(xiàn),以對比技術(shù)主題識別效果。
2.1數(shù)據(jù)獲取與預(yù)處理本文選擇工業(yè)機器人技術(shù)領(lǐng)域開展實證分析。實證數(shù)據(jù)來自科睿唯安(Clarivate Analytics)的德溫特創(chuàng)新索引(Derwent Innovation Index,DII),通過概念及相關(guān)要素組配制定檢索策略。鑒于實驗數(shù)據(jù)處理能力,將檢索年限設(shè)定為2014-2015年,對檢索結(jié)果人工排雜后共獲得14 331件專利記錄。
利用DDA(Derwent Data Analyzer)和Python的NLP工具進行數(shù)據(jù)預(yù)處理。提取6項屬性特征值:專利號(Patent Numbers)、專利權(quán)人/申請人(Patent Assignees)、發(fā)明人(Inventors)、IPC分類號(International Patent Classifications)、引證專利號(Cited Patent Numbers)、主題詞(Keywords)。規(guī)整發(fā)明人、機構(gòu)申請人項名稱;對Title和Abstract項進行NLP處理抽取關(guān)鍵詞(詞組),去除停用詞、主題無關(guān)詞,自定義TF-IDF算法選取高頻詞;去除被引頻次低于2的離散數(shù)據(jù)。最終得到待分析的數(shù)據(jù)集合。數(shù)據(jù)預(yù)處理操作詳見表1。
表1 實證數(shù)據(jù)預(yù)處理結(jié)果
2.2異構(gòu)信息網(wǎng)絡(luò)融合分析
2.2.1 異構(gòu)信息網(wǎng)絡(luò)構(gòu)建 利用DDA抽取9個共現(xiàn)矩陣,構(gòu)建9個異構(gòu)共現(xiàn)網(wǎng)絡(luò):CO-PI(專利-發(fā)明人共現(xiàn))、CO-IT(發(fā)明人-主題詞共現(xiàn))、CO-PA(專利-專利權(quán)人/申請人共現(xiàn))、CO-AT(專利權(quán)人/申請-主題詞共現(xiàn))、CO-PIC(專利-IPC共現(xiàn))、CO-ICT(IPC-主題詞共現(xiàn))、CO-PC(專利-被引專利共現(xiàn))、CO-CT(被引專利-主題詞共現(xiàn))以及CO-PT(專利-主題詞共現(xiàn))。
2.2.2 異構(gòu)信息網(wǎng)絡(luò)融合 第一步,OVL融合。提取該異構(gòu)信息網(wǎng)絡(luò)中的4條路徑:Patents-Inventors-Terms、Patents-Assignees-Terms、Patents-IPCs-Terms、Patents-Citations-Terms;分別采用OVL算法融合,形成4個不同的P-T(Patents-Terms)矩陣:P-Tinventors、P-Tassignees、P-Tipcs、P-Tcitations。
第二步,對以上4個P-T矩陣進行加權(quán)融合,形成P-Tfusion矩陣。
第三步,確定加權(quán)系數(shù)。加權(quán)系數(shù)的計算通過聚類系數(shù)K值進行逆向推導(dǎo)。
a.聚類系數(shù)K值確定。K值選擇原則是在保證聚類團體較為集中的前提下,力求類更多,即K值更大。考慮到計算的時間與空間復(fù)雜度,采用控制變量法,設(shè)定α=β=γ=θ=0.25,并設(shè)置網(wǎng)絡(luò)聚類系數(shù)K(3≤K≤50)進行迭代運算,鎖定可能的聚類范圍,如圖6所示。
圖6 聚類系數(shù)K值確定
由于網(wǎng)絡(luò)聚類輪廓系數(shù)取值范圍為[-1,1],且對比參照組與實驗組發(fā)現(xiàn),K=4時對應(yīng)的聚類輪廓系數(shù)最大(不考慮K=2,因不含實際意義),因而取K=4。
2.2.3 專利技術(shù)主題識別 對融合矩陣P-Tfusion降維處理,k-means算法聚類,然后在領(lǐng)域?qū)<覅⑴c下解讀聚類結(jié)果并予以主題命名。表2列舉了專家參與下的部分聚類主題識別結(jié)果。
表2 工業(yè)機器人專利聚類主題識別結(jié)果(異構(gòu)融合網(wǎng)絡(luò)P-Tfusion,部分)
2.3對比分析與結(jié)果討論為驗證異構(gòu)信息網(wǎng)絡(luò)融合方法在專利主題識別中的應(yīng)用效果,本文采用關(guān)鍵詞直接共現(xiàn)CO-PT進行主題聚類識別作為對照組P-Treference,與實驗組P-Tfusion主題識別結(jié)果相對比,分別采用可視化、專家解讀兩種對比途徑。
2.3.1 可視化對比 利用Origin工具可視化,對比觀測兩組聚類結(jié)果的主題向量空間結(jié)構(gòu)分布。結(jié)果表明,實驗組P-Tfusion的聚類識別結(jié)果優(yōu)于對照組P-Treference,篇幅原因,此處例舉正視、正視左旋45度、正視右旋45度視圖,詳見圖7。
續(xù)表2 工業(yè)機器人專利聚類主題識別結(jié)果(異構(gòu)融合網(wǎng)絡(luò)P-Tfusion,部分)
圖7 專利技術(shù)主題識別結(jié)果可視化對比
如圖7所示,對照組P-Treference的聚類結(jié)果,其正視圖(圖7a)、左視圖(圖7c)、右視圖(圖7e)的空間分布結(jié)構(gòu)性均不具備明顯區(qū)分度,部分重疊交叉狀態(tài)較為嚴重。實驗組P-Tfusion的聚類識別結(jié)果可視化效果較為清晰,除左視圖(圖7d)顯示出部分重疊,正視圖(圖7b)、右視圖(圖7f)均呈現(xiàn)出較好的區(qū)分度,尤其右視圖表現(xiàn)出聚類結(jié)果具有幾近完全清晰的區(qū)分度,三維空間中點對之間的區(qū)分性更高、簇間間隙更明顯。
2.3.2 專家解讀 在領(lǐng)域?qū)<覅⑴c下對與P-Tfusion(表2)同時段的對照組P-Treference進行主題聚類結(jié)果解讀與命名,結(jié)果如表3所示。
表3 工業(yè)機器人專利聚類主題(關(guān)鍵詞直接共現(xiàn)網(wǎng)絡(luò)P-Treference,部分)
對比發(fā)現(xiàn),實驗組P-Tfusion4個聚類內(nèi)部間隙緊密,類間間隙較清晰,未出現(xiàn)明顯重疊。對照組P-Treference4個聚類中,#1與#4在控制系統(tǒng)方面存在部分重疊,#2與#3在描述機器人機械手與機器人機身時存在被包含關(guān)系,#3與#4之間在生產(chǎn)線效率問題上存在交叉。
2.3.3 結(jié)果討論 可視化觀測顯示,基于異構(gòu)信息網(wǎng)絡(luò)融合(以下簡稱“融合網(wǎng)絡(luò)”)處理得到的技術(shù)主題識別結(jié)果與未經(jīng)融合網(wǎng)絡(luò)(以下簡稱“非融合網(wǎng)絡(luò)”)得到的技術(shù)主題識別結(jié)果相比,其主題向量空間分布的結(jié)構(gòu)邊界更清晰、區(qū)分度更明顯。
同時,聚類主題判讀命名對比顯示,融合網(wǎng)絡(luò)主題識別結(jié)果具有更強的主題關(guān)聯(lián),非融合網(wǎng)絡(luò)的主題識別結(jié)果相對更偏向通識性、常規(guī)性描述,對技術(shù)細節(jié)內(nèi)部揭示深度較弱。如,非融合網(wǎng)絡(luò)主題識別結(jié)果中描述機器人的控制系統(tǒng)、機身描述、生產(chǎn)效率、多視圖,這些技術(shù)主題對于機器人領(lǐng)域而言更屬通用技術(shù),不具顯著特殊性,且關(guān)鍵詞描述概括性較高。領(lǐng)域?qū)<覍Ρ扰袛嗾J為,融合網(wǎng)絡(luò)的專利技術(shù)主題識別結(jié)果相對更全面,既包括了概括性機身描述,也包括關(guān)鍵性部件詳細描述,并且還識別出了前沿性機器人種類挖掘等主題。究其原因,融合網(wǎng)絡(luò)融合了專利信息的多類特征屬性,蘊涵了更豐富的顯性與隱性信息。
綜上,基于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別方法,在開展既定領(lǐng)域?qū)@夹g(shù)主題識別中具有可行性。相對于非融合的網(wǎng)絡(luò)模型,本文提出的方法得到技術(shù)主題結(jié)果在全面性、深入性方面更具優(yōu)勢,各主題的類中集中性更好,類間區(qū)分度更高、交叉性與重疊度更低,并且有助于發(fā)掘出領(lǐng)域內(nèi)前沿性技術(shù)。
當前,專利文本主題識別大多基于單一關(guān)聯(lián)關(guān)系分析,難以全面挖掘?qū)@麛?shù)據(jù)中更多隱性關(guān)聯(lián)信息。本文采用多維、異構(gòu)建模思維,提出了一種基于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別方法,對專利信息進行異構(gòu)建模,結(jié)合OVL算法對異構(gòu)信息網(wǎng)絡(luò)融合,在此基礎(chǔ)上識別專利技術(shù)主題。以工業(yè)機器人領(lǐng)域為例的實驗對比結(jié)果顯示,異構(gòu)融合的專利信息網(wǎng)絡(luò)可以有效提高技術(shù)主題聚類的全面性與準確性。
未來,關(guān)于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別研究,需要關(guān)注以下兩方面:一是優(yōu)化多維關(guān)系特征獲取。專利大數(shù)據(jù)環(huán)境下,專利信息間蘊涵的直接、間接關(guān)聯(lián)日漸豐富,不同維度的關(guān)聯(lián)關(guān)系對技術(shù)主題表征的側(cè)重、強度有所差異,要盡可能深挖更多關(guān)聯(lián)類型,構(gòu)建更豐富的多維信息關(guān)系體系。二是深入開展網(wǎng)絡(luò)融合算法應(yīng)用研究。網(wǎng)絡(luò)融合方法多樣,但目前應(yīng)用于文本主題識別的研究尚不多見,本文應(yīng)用OVL算法開展了有限的探索。不同融合算法在概念、方法上有所差異,針對異質(zhì)文本信息特征,找尋更具有效性、適用性及計算經(jīng)濟性的融合算法是未來該研究方向的重要研究命題。