黃柏如,周志平,王 利,趙衛(wèi)東
(同濟大學電子與信息工程學院,上海 201804)
國際上尚未對專利地圖的概念進行統(tǒng)一、標準的定義。通常專利地圖泛指利用可視化方法對搜集到的專利信息進行整理歸納,以直觀的圖表形式呈現(xiàn)的方法。通過對專利資料以及與專利資料相關的其他資料的統(tǒng)計分析,得到專利某些屬性的分布情況或專利間的關聯(lián)信息,以圖表的方式呈現(xiàn),從而直觀地反映出搜集到的大量專利資料中的信息,使得文本數(shù)量多、篇幅長、內容復雜的專利資料以更明晰的形式呈現(xiàn),為企業(yè)或國家的專利戰(zhàn)略決策提供支持[1]。
專利地圖的概念十分寬泛,視專利地圖分析者與使用者的目的和使用的技術不同,專利地圖的表現(xiàn)形式和內容多變。根據分析對象與分析方法的不同,專利地圖一般可分為3 類:定量專利地圖、定性專利地圖、定性定量結合專利地圖[2]。專利地圖功能主要包括行業(yè)技術分析管理、技術預見、企業(yè)技術預警、競爭情報挖掘、企業(yè)戰(zhàn)略制定等方面[3]。
最早的專利地圖在20 世紀60 年代誕生于日本,彼時日本由于戰(zhàn)爭原因,科技水平十分落后,而同時期歐美許多國家已經積累了大量的先進技術,因此,日本需要大量引進國外的先進技術,同時又需要注重自身的科技發(fā)展。在這樣的情況下,專利地圖作為一種實用的專利分析工具逐漸在工業(yè)界得到了應用,幫助日本企業(yè)突破了歐美國家的技術壟斷,乃至如今使日本成為世界上最大的技術輸出國之一。
目前專利地圖在國外已經得到了廣泛的應用,除日本外,韓國與美國在專利地圖的研究方面也有所發(fā)展,制作了很多不同領域的專利地圖。與此同時,對于專利地圖制作方法的基礎研究亦在不斷地更迭,如日本特許廳提出的FI 分類方法以及更為精細的F-term 分類方法能夠更高效地根據專利文獻內容對專利文獻進行分類[4]。
此外,隨著專利數(shù)據的迅速膨脹,仍采用人工抽取信息、整理信息、繪制專利地圖的方式過于費時費力甚至于無法完成,而隨著機器學習技術的興起,對于專利數(shù)據的智能化分析也隨之開始發(fā)展,如Lamirel 等人[5]使用MultiSOM 算法,根據專利文獻材料自動化地生成了多種不同專利地圖;Chang等人[6]提取了專利文獻中的關鍵詞與關鍵短語來構建專利地圖,以此監(jiān)測碳納米管場發(fā)射顯示器的技術趨勢。
我國目前對專利地圖的研究仍較少,在中國知網數(shù)據庫中檢索“專利地圖”關鍵詞,統(tǒng)計2003—2018 年間專利地圖相關中文文獻數(shù)量,結果如圖1所示。國內最早對專利地圖進行研究的是吳新銀等人[7-9],他們通過研究國外的專利地圖文獻及具體的應用實例,引入了專利地圖的基本概念,并整理了其分類與功能等,探討了專利地圖的制作方法。自2009 年以來,國內關于專利地圖的文獻發(fā)表量相較之前大幅增加,國內學者對于專利地圖的研究重視有所提升;然而就絕對值而言,有關專利地圖的中文文獻數(shù)量仍處于較低的水平,與此同時,其中大部分文獻注重的是專利地圖的應用或基于專利地圖對某一領域的研究[10-11],而針對專利地圖制作方法、表示方式等基礎理論的研究較少。
圖1 國內專利地圖相關研究的文獻量與增長率年度分布
制作專利地圖的基礎是數(shù)據,即大量的專利文獻。專利文獻包含結構化項目,即語義格式統(tǒng)一的項目,如專利申請?zhí)枴⑸暾埲掌诘?,以及非結構化項目,即無固定格式的項目,如權利要求、摘要、發(fā)明的說明書等。通常定量分析專利地圖只利用結構化項目,而對非結構化項目利用較少,得到一系列諸如柱狀圖、折線圖形式的圖表。而定性分析如技術路線圖,對非結構化項目的利用主要通過人工分析,依賴于專家的主觀判斷,也并未完全利用結構化項目,僅在結果中進行標注而已[2]。邱洪華等人[12]基于K-Means 聚類方法,從專利間關鍵詞的語義關聯(lián)出發(fā),提出了一種新穎的專利地圖制作方法,將專利申請時間與專利內容結合呈現(xiàn)出來,但對非結構化信息的利用仍依賴于人工篩選。專利文獻通常含有大量技術術語,人工解讀分析十分困難,因此在專利地圖的制作中對專利技術特征的智能提取與利用十分重要。
綜合以上分析發(fā)現(xiàn),我國對專利地圖的研究更多的仍是應用方面,而對其制作的基礎理論研究較少,目前仍存在一定的問題:(1)專利地圖的可視化表現(xiàn)形式局限,多為簡單的圖表,表達的信息量有限;(2)專利地圖制作過程中沒有充分利用結構化項目與非結構化項目,只通過其中一種信息制作專利地圖,沒有使用另一種或只在完成的專利地圖上添注另一種信息;(3)對專利地圖非結構化項目信息的利用依賴人工分析,缺少智能化分析手段。
本文提出一種新的專利地圖制作與表達方法,將采用文本挖掘的方法利用專利文本信息構建專利向量空間模型,通過密度峰值快速搜索聚類(clustering by fast search and find of density peaks,CFSFDP)算法得到具有相似關鍵詞組成的一系列專利,并通過分析同一聚類內的專利關鍵詞異同,結合非結構化項目構建以有向圖表示的專利地圖。具體制作方法流程如圖2 所示。這樣的專利地圖充分地利用了專利的多種信息,能夠清晰地表達目標技術領域中的關鍵技術與創(chuàng)新方向的發(fā)展過程,同時也更具可信度。
圖2 基于密度峰值快速搜索聚類的專利地圖制作流程
2.1.1 專利文獻關鍵詞提取
在確定研究目標后,即某個特定的專業(yè)領域,需要擬定選擇一系列關鍵詞進行專利文獻的檢索。為更全面、充分地對檢索得到的專利文本進行分析,檢索時僅使用關鍵詞是遠遠不夠的,需要從各文本中提取更多的關鍵字,為此通過計算TF-IDF(term frequency-inverse document frequency)提取關鍵詞。
逆文本頻率的具體計算公式為:
這樣得到的TF-IDF 值一方面考慮到了專利文本中詞匯與其主題的關聯(lián)性,亦考慮到了詞匯在整個專利文本庫中對于這一文本的代表性,能夠較為準確地衡量每個詞的價值。
2.1.2 專利向量空間模型與距離定義
其次,定義兩篇專利文本間的距離為其向量表示的歐氏距離。在考慮文本間的距離關系時,只考慮文本中各關鍵詞的分布情況,因此需先將其歸一化,具體方法如下:
至此完成了專利向量空間模型與距離的定義。
2.2.1 使用CFSFDP 算法聚類
經典的聚類方法K-Means 的核心思想是指定聚類中心,隨后每次迭代時根據現(xiàn)有的聚類中心將每個點歸類為最近的聚類中心的聚類,再根據這樣的聚類計算更合理的聚類中心。K-Means 方法思想簡單易于實現(xiàn),但對非凸的類簇效果較差。而基于密度的聚類方法如DBSCAN(density-based spatial clustering of applications with noise)相較K-means而言,雖對類簇的形狀無限制,對非凸形狀的類簇效果較好,但是需要給定一個密度閾值,且聚類結果對于這個閾值十分敏感。此外還有基于分布的聚類,則需要預先給定分布,通過參數(shù)化的方式聚類。
從技術發(fā)展的角度來看,在技術的推陳出新過程中,新技術專利文獻與舊技術專利文獻間存在若干共同的技術關鍵詞,而新專利文獻中必然會存在舊技術文獻中沒有的技術關鍵詞,而舊技術文獻中的舊技術或因不再使用或因成為默認程序而不再出現(xiàn)?;谝陨峡紤],根據式(4)所定義的專利向量的分布通常是不規(guī)則的,呈現(xiàn)出類樹狀的聚類分布結構,真實的聚類結果通常不會是球面甚至是非凸的,亦難以找到合適的分布模型或其他密度聚類算法中的閾值。聚類算法CFSFDP 對任意形狀的類簇均可達到聚類目的,算法中的閾值可根據數(shù)據自動指定,且對此閾值不敏感[13]。
本文根據CFSFDP 算法以及式(7)中所定義的距離,對于每個專利文本向量計算其兩個數(shù)值特征:局部密度和到最近的更高局部密度的點的距離構建專利地圖所使用的專利文本數(shù)量巨大,因此通過高斯核函數(shù)將專利文本向量映射至高維空間。給定距離閾值的兩個特征計算分別如下:
使用CFSFDP 算法進行聚類后,所有專利文本被分為若干類則每類內的專利文本具有相似的關鍵詞,即相似的專利技術、創(chuàng)新方向等等,結合專利資料的其他信息,能夠進一步挖掘各專利間的關聯(lián)。
2.2.2 構建以有向圖表示的專利地圖
根據各個聚類內的關鍵詞信息的異同,構建初始語義網絡,以有向圖表示專利地圖。初始的專利地圖包括n個節(jié)點,即提取的關鍵詞兩個節(jié)點間存在邊當且僅當:
即當同一聚類中的兩篇專利文獻具有至少K個相同關鍵詞且其中1 篇專利文獻中存在獨有的關鍵詞那么可以認為從關鍵技術t發(fā)展出了關鍵技術即由引一有向邊。
2.2.3 結構化信息的結合
上述步驟根據專利文本間的語義關聯(lián)構建了初始的專利地圖,在語義網絡的基礎上,利用結構化項目能夠生成更為準確、含有更多信息量的專利地圖。同樣的n個節(jié)點,兩個節(jié)點間存在邊當且僅當:
圖3 根據同一聚類中的專利文本建立有向邊
至此,專利地圖的構建充分利用了結構化信息與非結構化信息,并通過有向圖中的點與邊結合表達了兩方面的信息。
本文提出了一種新穎的專利地圖制作與表達方法,其主要特點包括:(1)使用文本挖掘方法智能化地從非結構化的專利文本中提取關鍵詞信息;(2)針對專利文本在所構建向量空間中的分布特點,選取了適合的CFSFDP 聚類算法進行聚類;(3)制作過程中同時利用了專利文本間的語義關聯(lián)與結構化信息;(4)對專利地圖表達方式進行了創(chuàng)新,以不同于傳統(tǒng)圖表的,更為自由、包含更多信息的形式呈現(xiàn)。
本文主要利用的是專利文本與專利申請日信息進行專利地圖的構建,得到的專利地圖以關鍵技術或創(chuàng)新方向為節(jié)點,能夠展現(xiàn)目標領域專利技術的發(fā)展過程。未來對于專利地圖制作的基礎研究在以下兩個方面仍需深入:一是在不依賴專家分析的智能化專利地圖制作過程中,如何充分考慮更多方面的專利信息以提高專利地圖的準確度和可信度;二是針對傳統(tǒng)專利地圖表達信息單一的問題,如何在專利地圖中以直觀的方式呈現(xiàn)出更多有價值的信息。