• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別研究*

      2021-08-30 00:20:44田鵬偉
      情報雜志 2021年8期
      關(guān)鍵詞:專利技術(shù)主題詞異構(gòu)

      田鵬偉 張 嫻

      (1. 中國科學(xué)院成都文獻情報中心知識產(chǎn)權(quán)研究咨詢中心 成都 610041;2. 百度時代網(wǎng)絡(luò)技術(shù)(北京)有限公司 北京 100085;3. 中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院圖書情報與檔案管理系 北京 100190)

      0 引 言

      專利文獻是記錄技術(shù)創(chuàng)新過程與成果的重要載體,也是聯(lián)系科技與經(jīng)濟兩大范疇的重要信息介質(zhì)。專利文本主題識別是采用文本數(shù)據(jù)挖掘手段發(fā)掘?qū)@墨I中具有可研究性及經(jīng)濟價值的主題信息,有助于把握技術(shù)創(chuàng)新前沿、預(yù)測技術(shù)發(fā)展趨勢。然而,專利數(shù)據(jù)不同于一般的科學(xué)文獻,其語言表述晦澀性、文本組織結(jié)構(gòu)特殊性增加了文本主題識別的難度,削弱了通用文本挖掘方法直接套用于專利文本主題識別的應(yīng)用效果。

      目前專利文本主題識別相關(guān)研究大致可劃分為三個階段:(1)基于專利技術(shù)主題詞、主題詞關(guān)聯(lián)關(guān)系表征,研究專利文本的主題[1];(2)采用共詞分析方法、多元關(guān)系網(wǎng)絡(luò),對專利文獻進行建模,獲取專利文本的主題[2-4];(3)應(yīng)用文本挖掘技術(shù)(如LDA等主題模型)分析專利文獻,挖掘?qū)@闹黝}[5-6]。現(xiàn)有研究局限主要體現(xiàn)在三方面:a.將專利數(shù)據(jù)視作普通文本數(shù)據(jù)處理[7]。專利文獻用語晦澀,增加了文本處理難度,通用分詞結(jié)果難以達到理想的技術(shù)主題挖掘效果。b.主題識別分析維度單一,缺乏多維視角[8]。主題識別研究多依賴于主題詞共現(xiàn)網(wǎng)絡(luò),或發(fā)明人、專利權(quán)人、IPC等屬性網(wǎng)絡(luò),少有涉及多維網(wǎng)絡(luò)融合視角研究主題識別[9-12]。c.逐漸重視將多維、異構(gòu)建模思維應(yīng)用于專利分析,但針對專利技術(shù)主題識別方面的研究較少[13-14]。

      異構(gòu)信息網(wǎng)絡(luò)(Heterogeneous Information Network,HIN)于2009年由Sun提出[15],也稱元網(wǎng)絡(luò),指的是網(wǎng)絡(luò)中至少存在兩種及以上種類的節(jié)點對象類型、關(guān)系類型。按網(wǎng)絡(luò)節(jié)點的同質(zhì)、異質(zhì)特性,異構(gòu)信息網(wǎng)絡(luò)可分為同質(zhì)異構(gòu)與異質(zhì)異構(gòu),常見于圖像處理、通信領(lǐng)域等[16]。異構(gòu)信息網(wǎng)絡(luò)融合指對已存在的若干信息網(wǎng)絡(luò)進行融合使其拓撲結(jié)構(gòu)合為一體,或?qū)?fù)雜系統(tǒng)中若干組實體重新構(gòu)建網(wǎng)絡(luò)。異構(gòu)信息網(wǎng)絡(luò)與專利文本主題識別相結(jié)合,有助于充分利用多維信息優(yōu)勢提升專利技術(shù)主題識別的準確性。

      本文嘗試基于異構(gòu)信息網(wǎng)絡(luò)融合實現(xiàn)專利文本主題識別,提高專利技術(shù)主題識別的準確性。具體而言,利用專利文獻中的主題詞、發(fā)明人、專利權(quán)人、IPC分類號、引證信息等屬性共同構(gòu)建專利異構(gòu)信息網(wǎng)絡(luò),通過融合運算形成融合網(wǎng)絡(luò),進而開展主題識別研究,期望探索一種基于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別方法。

      1 研究方法

      1.1研究思路利用異構(gòu)信息網(wǎng)絡(luò)對專利文獻數(shù)據(jù)集的多類特征屬性建模。專利文獻中特征項之間可抽象為直接或間接的矩陣表示,OVL疊加算法(overlap function)可用于計算兩個關(guān)聯(lián)矩陣間各節(jié)點的最小聯(lián)通路徑,且對術(shù)語權(quán)重大小的文檔間差異測度敏感[17]。因此,本文采用OVL疊加算法以及線性加權(quán)[18-19]方法融合構(gòu)建異構(gòu)信息網(wǎng)絡(luò),形成專利異構(gòu)信息融合網(wǎng)絡(luò)。

      本文提出的技術(shù)主題識別方法研究框架(見圖1)包含:提取與技術(shù)主題密切關(guān)聯(lián)的多個類型特征,構(gòu)建專利異構(gòu)信息網(wǎng)絡(luò);采用OVL算法及線性加權(quán)方法,融合所構(gòu)建的異構(gòu)信息網(wǎng)絡(luò),形成專利異構(gòu)信息融合網(wǎng)絡(luò);基于融合后的網(wǎng)絡(luò)進行聚類,識別專利技術(shù)主題。

      圖1 基于異構(gòu)信息網(wǎng)絡(luò)融合的專利文本主題識別方法研究框架

      1.2專利異構(gòu)信息網(wǎng)絡(luò)建模

      1.2.1 獲取數(shù)據(jù)特征項 選取下述特征項構(gòu)建網(wǎng)絡(luò):主題詞[20](對標題與摘要經(jīng)自然語言處理提取)、專利號(唯一標識)、發(fā)明人、專利權(quán)人、IPC分類號、專利引文等。

      a.主題詞抽取。對專利文獻的標題、摘要進行通用的自然語言處理,提取關(guān)鍵詞信息。然后,在盡可能保全關(guān)鍵詞的前提下,剔除低頻詞匯,形成核心主題詞集合。

      b.其他特征項抽取。在上述主題詞集合之外,抽取專利文獻其它內(nèi)部、外部特征信息,分別形成專利號集合、發(fā)明人集合、專利權(quán)人集合、IPC集合、專利引文集合、專利申請年集合;進行數(shù)據(jù)清洗,如專利權(quán)人、發(fā)明人名稱規(guī)范與消歧、低頻專利引文數(shù)據(jù)剔除等[21]。

      1.2.2 構(gòu)建專利異構(gòu)信息網(wǎng)絡(luò) 異構(gòu)信息網(wǎng)絡(luò)的重要特點在于節(jié)點的異質(zhì)性與連邊的復(fù)雜性。共現(xiàn)關(guān)系是海量文本挖掘中一種表征特征屬性間相互關(guān)聯(lián)的有效方法。例如,通過統(tǒng)計一組特征項在同一篇文獻中出現(xiàn)的次數(shù),體現(xiàn)特征項之間的關(guān)聯(lián)關(guān)系、強度及結(jié)構(gòu)變化[22-23]。

      將前述主題詞集合、其他特征項集合作為節(jié)點,其共現(xiàn)關(guān)系作為連邊,構(gòu)建網(wǎng)絡(luò)。該網(wǎng)絡(luò)中節(jié)點均是異質(zhì)節(jié)點,各節(jié)點間存在多種連接關(guān)系,因此屬典型的異構(gòu)信息網(wǎng)絡(luò)模型,如圖2所示。

      圖2 專利異構(gòu)信息網(wǎng)絡(luò)模型示意

      1.3專利異構(gòu)信息網(wǎng)絡(luò)融合當前的信息網(wǎng)絡(luò)融合處理方法各具優(yōu)劣[24]??紤]到異質(zhì)節(jié)點屬性特征的融合性、術(shù)語權(quán)重差異測度的敏感性、聯(lián)通路徑計算的經(jīng)濟性,本文采用“矩陣運算”+“加權(quán)融合”思路進行異構(gòu)信息網(wǎng)絡(luò)融合處理。

      f2=min (Wik[A:B],Wkj[B:C])

      (1)

      式(1)中,Wik表示從節(jié)點i到節(jié)點k的鏈接權(quán)重,[A:B]表示矩陣的行對象是A,列對象是B;min ()則表示計算由節(jié)點i通過節(jié)點k到達節(jié)點j的最小值。

      (2)

      式(2)中,f1是在f2的基礎(chǔ)上計算經(jīng)過B(bi)從A到C所有最小權(quán)重之和。

      將公式(1)、(2)整合可得:

      (3)

      則OVL計算公式可定義為:

      Wij[A:C]=OVL (Wik[A:B],Wkj[B:C])

      (4)

      將算法衍生于對更多數(shù)量矩陣的融合處理,如下所示:

      Wij[A:E]=OVL (Wil[A:B],Wlm[B:C],Wmn[C:D],Wnj[D:E])

      (5)

      采用OVL方法對異構(gòu)信息網(wǎng)絡(luò)進行融合處理,分別采用OVL算法對圖2中每條路徑進行融合,即形成多個不同的P-T(Patents-Terms)融合矩陣,如圖3所示。

      圖3 OVL矩陣融合示意圖

      1.3.2 加權(quán)計算融合網(wǎng)絡(luò) 采用加權(quán)融合對上述得到的多個Patents-Terms融合矩陣再次融合,最終形成統(tǒng)一、有效的融合矩陣,設(shè)為P-Tfusion(見圖4)。計算公式如式(6)。

      圖4 矩陣加權(quán)融合示意圖

      (6)

      1.4專利技術(shù)主題識別基于上述融合矩陣P-Tfusion,進行技術(shù)主題識別研究。聚類運算前需考慮是否對已有數(shù)據(jù)進一步降維處理,提高識別的準確性和有效性。

      1.4.1 矩陣降維 常用數(shù)據(jù)降維手段有主成分分析(Principal component analysis,PCA)、奇異值矩陣分解(Singular value decomposition,SVD)等[25-26]。就降維原理而言[27-28],上述兩種均可作為本文的降維工具,但使用PCA之前需明確知道降維后的維度k,而SVD則不需要提前指定維度,因此本文選用SVD,計算公式如式(7)。

      (7)

      1.4.2 專利技術(shù)主題聚類與可視化 目前已有多種文本聚類方法研究,如基于數(shù)據(jù)分類的K-means、K-medoids、PAM,基于層次聚類的BIRCH、CURE、ROCK,基于聚類簇密度的DBSCAN、OPTICS、Mean-shift等[31]。由于聚類工具與算法并非本文研究重點,因此選用經(jīng)典聚類算法K-means,用于驗證異構(gòu)信息網(wǎng)絡(luò)融合前后的專利技術(shù)主題識別效果。聚類效果評價,采用Silhouette Coefficient(輪廓系數(shù))[32]計算聚類的全局最優(yōu)系數(shù),具體如下:

      采用K-means將待分類數(shù)據(jù)分為了k個類,對于類中每個向量i,分別計算它們的輪廓系數(shù),有:a(i)=average(向量i到同類中的所有其它點的距離),b(i)=min(向量i到非同類中的所有點的平均距離)。

      如圖5所示,對于向量i,有:

      圖5 聚類輪廓示意圖

      (8)

      則,向量i的輪廓系數(shù)為:

      (9)

      其中,a(i)表示向量i到同一簇內(nèi)其他點不相似程度的平均值;b(i)表示向量i到其他類的平均不相似程度的最小值??梢?,輪廓系數(shù)的值介于[-1,1],越趨近于1代表內(nèi)聚度和分離度都相對較優(yōu)。求取所有節(jié)點的輪廓系數(shù)平均值,就是該聚類結(jié)果的總輪廓系數(shù)。

      可視化是直觀考察主題識別聚類效果優(yōu)劣的重要手段,尤其Origin工具的三維旋轉(zhuǎn)功能有助于清晰展示。本文采用Origin工具對融合處理前后網(wǎng)絡(luò)的主題聚類結(jié)果可視化呈現(xiàn),以對比技術(shù)主題識別效果。

      2 實證分析

      2.1數(shù)據(jù)獲取與預(yù)處理本文選擇工業(yè)機器人技術(shù)領(lǐng)域開展實證分析。實證數(shù)據(jù)來自科睿唯安(Clarivate Analytics)的德溫特創(chuàng)新索引(Derwent Innovation Index,DII),通過概念及相關(guān)要素組配制定檢索策略。鑒于實驗數(shù)據(jù)處理能力,將檢索年限設(shè)定為2014-2015年,對檢索結(jié)果人工排雜后共獲得14 331件專利記錄。

      利用DDA(Derwent Data Analyzer)和Python的NLP工具進行數(shù)據(jù)預(yù)處理。提取6項屬性特征值:專利號(Patent Numbers)、專利權(quán)人/申請人(Patent Assignees)、發(fā)明人(Inventors)、IPC分類號(International Patent Classifications)、引證專利號(Cited Patent Numbers)、主題詞(Keywords)。規(guī)整發(fā)明人、機構(gòu)申請人項名稱;對Title和Abstract項進行NLP處理抽取關(guān)鍵詞(詞組),去除停用詞、主題無關(guān)詞,自定義TF-IDF算法選取高頻詞;去除被引頻次低于2的離散數(shù)據(jù)。最終得到待分析的數(shù)據(jù)集合。數(shù)據(jù)預(yù)處理操作詳見表1。

      表1 實證數(shù)據(jù)預(yù)處理結(jié)果

      2.2異構(gòu)信息網(wǎng)絡(luò)融合分析

      2.2.1 異構(gòu)信息網(wǎng)絡(luò)構(gòu)建 利用DDA抽取9個共現(xiàn)矩陣,構(gòu)建9個異構(gòu)共現(xiàn)網(wǎng)絡(luò):CO-PI(專利-發(fā)明人共現(xiàn))、CO-IT(發(fā)明人-主題詞共現(xiàn))、CO-PA(專利-專利權(quán)人/申請人共現(xiàn))、CO-AT(專利權(quán)人/申請-主題詞共現(xiàn))、CO-PIC(專利-IPC共現(xiàn))、CO-ICT(IPC-主題詞共現(xiàn))、CO-PC(專利-被引專利共現(xiàn))、CO-CT(被引專利-主題詞共現(xiàn))以及CO-PT(專利-主題詞共現(xiàn))。

      2.2.2 異構(gòu)信息網(wǎng)絡(luò)融合 第一步,OVL融合。提取該異構(gòu)信息網(wǎng)絡(luò)中的4條路徑:Patents-Inventors-Terms、Patents-Assignees-Terms、Patents-IPCs-Terms、Patents-Citations-Terms;分別采用OVL算法融合,形成4個不同的P-T(Patents-Terms)矩陣:P-Tinventors、P-Tassignees、P-Tipcs、P-Tcitations。

      第二步,對以上4個P-T矩陣進行加權(quán)融合,形成P-Tfusion矩陣。

      第三步,確定加權(quán)系數(shù)。加權(quán)系數(shù)的計算通過聚類系數(shù)K值進行逆向推導(dǎo)。

      a.聚類系數(shù)K值確定。K值選擇原則是在保證聚類團體較為集中的前提下,力求類更多,即K值更大。考慮到計算的時間與空間復(fù)雜度,采用控制變量法,設(shè)定α=β=γ=θ=0.25,并設(shè)置網(wǎng)絡(luò)聚類系數(shù)K(3≤K≤50)進行迭代運算,鎖定可能的聚類范圍,如圖6所示。

      圖6 聚類系數(shù)K值確定

      由于網(wǎng)絡(luò)聚類輪廓系數(shù)取值范圍為[-1,1],且對比參照組與實驗組發(fā)現(xiàn),K=4時對應(yīng)的聚類輪廓系數(shù)最大(不考慮K=2,因不含實際意義),因而取K=4。

      2.2.3 專利技術(shù)主題識別 對融合矩陣P-Tfusion降維處理,k-means算法聚類,然后在領(lǐng)域?qū)<覅⑴c下解讀聚類結(jié)果并予以主題命名。表2列舉了專家參與下的部分聚類主題識別結(jié)果。

      表2 工業(yè)機器人專利聚類主題識別結(jié)果(異構(gòu)融合網(wǎng)絡(luò)P-Tfusion,部分)

      2.3對比分析與結(jié)果討論為驗證異構(gòu)信息網(wǎng)絡(luò)融合方法在專利主題識別中的應(yīng)用效果,本文采用關(guān)鍵詞直接共現(xiàn)CO-PT進行主題聚類識別作為對照組P-Treference,與實驗組P-Tfusion主題識別結(jié)果相對比,分別采用可視化、專家解讀兩種對比途徑。

      2.3.1 可視化對比 利用Origin工具可視化,對比觀測兩組聚類結(jié)果的主題向量空間結(jié)構(gòu)分布。結(jié)果表明,實驗組P-Tfusion的聚類識別結(jié)果優(yōu)于對照組P-Treference,篇幅原因,此處例舉正視、正視左旋45度、正視右旋45度視圖,詳見圖7。

      續(xù)表2 工業(yè)機器人專利聚類主題識別結(jié)果(異構(gòu)融合網(wǎng)絡(luò)P-Tfusion,部分)

      圖7 專利技術(shù)主題識別結(jié)果可視化對比

      如圖7所示,對照組P-Treference的聚類結(jié)果,其正視圖(圖7a)、左視圖(圖7c)、右視圖(圖7e)的空間分布結(jié)構(gòu)性均不具備明顯區(qū)分度,部分重疊交叉狀態(tài)較為嚴重。實驗組P-Tfusion的聚類識別結(jié)果可視化效果較為清晰,除左視圖(圖7d)顯示出部分重疊,正視圖(圖7b)、右視圖(圖7f)均呈現(xiàn)出較好的區(qū)分度,尤其右視圖表現(xiàn)出聚類結(jié)果具有幾近完全清晰的區(qū)分度,三維空間中點對之間的區(qū)分性更高、簇間間隙更明顯。

      2.3.2 專家解讀 在領(lǐng)域?qū)<覅⑴c下對與P-Tfusion(表2)同時段的對照組P-Treference進行主題聚類結(jié)果解讀與命名,結(jié)果如表3所示。

      表3 工業(yè)機器人專利聚類主題(關(guān)鍵詞直接共現(xiàn)網(wǎng)絡(luò)P-Treference,部分)

      對比發(fā)現(xiàn),實驗組P-Tfusion4個聚類內(nèi)部間隙緊密,類間間隙較清晰,未出現(xiàn)明顯重疊。對照組P-Treference4個聚類中,#1與#4在控制系統(tǒng)方面存在部分重疊,#2與#3在描述機器人機械手與機器人機身時存在被包含關(guān)系,#3與#4之間在生產(chǎn)線效率問題上存在交叉。

      2.3.3 結(jié)果討論 可視化觀測顯示,基于異構(gòu)信息網(wǎng)絡(luò)融合(以下簡稱“融合網(wǎng)絡(luò)”)處理得到的技術(shù)主題識別結(jié)果與未經(jīng)融合網(wǎng)絡(luò)(以下簡稱“非融合網(wǎng)絡(luò)”)得到的技術(shù)主題識別結(jié)果相比,其主題向量空間分布的結(jié)構(gòu)邊界更清晰、區(qū)分度更明顯。

      同時,聚類主題判讀命名對比顯示,融合網(wǎng)絡(luò)主題識別結(jié)果具有更強的主題關(guān)聯(lián),非融合網(wǎng)絡(luò)的主題識別結(jié)果相對更偏向通識性、常規(guī)性描述,對技術(shù)細節(jié)內(nèi)部揭示深度較弱。如,非融合網(wǎng)絡(luò)主題識別結(jié)果中描述機器人的控制系統(tǒng)、機身描述、生產(chǎn)效率、多視圖,這些技術(shù)主題對于機器人領(lǐng)域而言更屬通用技術(shù),不具顯著特殊性,且關(guān)鍵詞描述概括性較高。領(lǐng)域?qū)<覍Ρ扰袛嗾J為,融合網(wǎng)絡(luò)的專利技術(shù)主題識別結(jié)果相對更全面,既包括了概括性機身描述,也包括關(guān)鍵性部件詳細描述,并且還識別出了前沿性機器人種類挖掘等主題。究其原因,融合網(wǎng)絡(luò)融合了專利信息的多類特征屬性,蘊涵了更豐富的顯性與隱性信息。

      綜上,基于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別方法,在開展既定領(lǐng)域?qū)@夹g(shù)主題識別中具有可行性。相對于非融合的網(wǎng)絡(luò)模型,本文提出的方法得到技術(shù)主題結(jié)果在全面性、深入性方面更具優(yōu)勢,各主題的類中集中性更好,類間區(qū)分度更高、交叉性與重疊度更低,并且有助于發(fā)掘出領(lǐng)域內(nèi)前沿性技術(shù)。

      3 結(jié) 語

      當前,專利文本主題識別大多基于單一關(guān)聯(lián)關(guān)系分析,難以全面挖掘?qū)@麛?shù)據(jù)中更多隱性關(guān)聯(lián)信息。本文采用多維、異構(gòu)建模思維,提出了一種基于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別方法,對專利信息進行異構(gòu)建模,結(jié)合OVL算法對異構(gòu)信息網(wǎng)絡(luò)融合,在此基礎(chǔ)上識別專利技術(shù)主題。以工業(yè)機器人領(lǐng)域為例的實驗對比結(jié)果顯示,異構(gòu)融合的專利信息網(wǎng)絡(luò)可以有效提高技術(shù)主題聚類的全面性與準確性。

      未來,關(guān)于異構(gòu)信息網(wǎng)絡(luò)融合的專利技術(shù)主題識別研究,需要關(guān)注以下兩方面:一是優(yōu)化多維關(guān)系特征獲取。專利大數(shù)據(jù)環(huán)境下,專利信息間蘊涵的直接、間接關(guān)聯(lián)日漸豐富,不同維度的關(guān)聯(lián)關(guān)系對技術(shù)主題表征的側(cè)重、強度有所差異,要盡可能深挖更多關(guān)聯(lián)類型,構(gòu)建更豐富的多維信息關(guān)系體系。二是深入開展網(wǎng)絡(luò)融合算法應(yīng)用研究。網(wǎng)絡(luò)融合方法多樣,但目前應(yīng)用于文本主題識別的研究尚不多見,本文應(yīng)用OVL算法開展了有限的探索。不同融合算法在概念、方法上有所差異,針對異質(zhì)文本信息特征,找尋更具有效性、適用性及計算經(jīng)濟性的融合算法是未來該研究方向的重要研究命題。

      猜你喜歡
      專利技術(shù)主題詞異構(gòu)
      試論同課異構(gòu)之“同”與“異”
      全新充電專利技術(shù)實現(xiàn)車隊充電
      鎂冶煉專利技術(shù)研究
      overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
      我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      在新興異構(gòu)SoCs上集成多種系統(tǒng)
      《疑難病雜志》2014年第13卷主題詞索引
      城步| 隆子县| 西华县| 新乡市| 都安| 灌云县| 梅河口市| 盐亭县| 邯郸市| 福贡县| 文成县| 冕宁县| 红桥区| 夏邑县| 巫山县| 临沧市| 司法| 潞城市| 济宁市| 辽宁省| 绥棱县| 陇南市| 高邮市| 邹城市| 景宁| 登封市| 花莲市| 响水县| 丹阳市| 大同县| 许昌县| 宜城市| 深泽县| 西林县| 克什克腾旗| 台湾省| 丁青县| 北碚区| 奉新县| 长沙市| 织金县|