鄔少飛
武漢工程大學計算機科學與工程學院,湖北 武漢430205
專利挖掘的作用是幫助企業(yè)找到申請專利的創(chuàng)新點或技術(shù)方法,這些創(chuàng)新點和技術(shù)方法的來源可能是企業(yè)在日常技術(shù)研發(fā)中取得的成果[1],對于企業(yè)而言,專利挖掘技術(shù)可以為企業(yè)保護自身的技術(shù)提供一定的方便。專利挖掘技術(shù)一方面可以滿足企業(yè)對專利保護范圍的要求,另一方面也保證了權(quán)利要求中的法律穩(wěn)定性。而且專利挖掘的優(yōu)點是可以立體化地對企業(yè)中具有專利申請價值的技術(shù)進行搜索,進而避免企業(yè)及相關(guān)機構(gòu)在專利保護時漏洞的產(chǎn)生,從而對企業(yè)研發(fā)出的成果進行全面、充分、有效的保護[2]。而從企業(yè)的視角來看,專利挖掘技術(shù)可以在一定程度上幫助企業(yè)發(fā)現(xiàn)自己的重要專利和次要專利,并把重要專利和次要專利結(jié)合起來,編織成為嚴密的專利網(wǎng)[3],幫助企業(yè)培育核心競爭力。從更深的層面來講,專利挖掘作用也可以延伸到多個企業(yè)之間,專利挖掘可以幫助企業(yè)判斷同類企業(yè)是否具有有威脅的專利,如果其他企業(yè)具有有威脅的專利,則幫助企業(yè)進行規(guī)避專利風險方案的設計,幫助企業(yè)盡可能的擁有法律權(quán)利和商業(yè)利益[4]。以挖掘目的的分類標準對數(shù)據(jù)挖掘進行分類,可以將其分為成果保護型數(shù)據(jù)挖掘和保圍攔截型數(shù)據(jù)挖據(jù)。成果保護型數(shù)據(jù)挖掘是目前最常用的一類數(shù)據(jù)挖掘形式,其主要目的是對企業(yè)的技術(shù)研發(fā)成果進行有效保護,綜上不難發(fā)現(xiàn),專利挖掘是對一個企業(yè)技術(shù)創(chuàng)新力的有力保障。
目前國內(nèi)在專利方面投入的成本比較大,但是在專利信息挖掘領(lǐng)域的研究還處于初級階段,國內(nèi)外只有較少的研究者對專利信息挖掘問題進行了研究,研究成果主要包含在專利地圖、專利分析、專利引證等相關(guān)研究內(nèi)容。為解決目前國內(nèi)缺乏較為清晰的互聯(lián)網(wǎng)公開專利情報挖掘等問題,本文以全新的視角,對2016年-2020年以來互聯(lián)網(wǎng)公開專利情報挖掘領(lǐng)域的技術(shù)進展進行綜述,旨在提供新的途徑和方法,來為相關(guān)研究提供參考。
數(shù)據(jù)挖掘是一個過程,這個過程的主要工作是從海量的數(shù)據(jù)中找到帶有人們事先不知道的,但事實上具有的潛在有用信息和知識的過程。數(shù)據(jù)挖掘不同于傳統(tǒng)的數(shù)據(jù)分析,數(shù)據(jù)分析的對象是明確且已知的,而數(shù)據(jù)挖掘則是在前提假設不明的情況下對信息進行挖掘,對知識進行發(fā)現(xiàn),且數(shù)據(jù)挖掘得到的信息具有3個特征,其分別為未知性,有效性和可實用性這些特征也和數(shù)據(jù)分析所得到的信息的特征不一致。而基于數(shù)據(jù)挖掘技術(shù)的專利情報分析的研究對象是專利數(shù)據(jù)及網(wǎng)絡上的期刊,分析方法則是將專利情報的內(nèi)容進行集成化,數(shù)據(jù)化的處理,再進行加工分析,并對其中有用的信息進行識別,使用此方法處理專利情報,易于綜合地把握大量專利信息。
基于數(shù)據(jù)挖掘?qū)@诰虻降膶@治鲞^程包括4個階段,其中數(shù)據(jù)獲取階段一般使用網(wǎng)絡上的公開數(shù)據(jù)作為信息源;數(shù)據(jù)的預處理階段分為數(shù)據(jù)清洗、中文分詞和數(shù)據(jù)轉(zhuǎn)變。在數(shù)據(jù)重構(gòu)階段中,數(shù)據(jù)挖掘方法的數(shù)據(jù)重構(gòu)不僅只注重數(shù)據(jù)的檢索收益,而且還需要得到研究主題和概念間的聯(lián)系等更深入的分析結(jié)構(gòu)。
通過對專利挖掘領(lǐng)域的相關(guān)文獻的研讀,檢索與歸納,將專利挖掘相關(guān)技術(shù)分為6個方面。分別為術(shù)語抽取,聚類,分類,網(wǎng)絡理論,以時間為基礎的數(shù)據(jù)挖掘,基于專利挖掘的技術(shù)研究。
術(shù)語抽取的含義是從技術(shù)專利中抽取關(guān)于技術(shù)的重要詞語,術(shù)語抽取也是情報挖掘的基礎。聚類技術(shù)被用于對專利申請人進行預測和評價。是術(shù)語抽取的后一步工作。專利文本分類則被用于分類任務、專利檢索、信息分析有關(guān)的工作,也是專利挖掘中的重要工作之一。對專利文本進行分類后的工作是專利分析,社會網(wǎng)絡分析技術(shù)和以時間為基礎的方法均在專利分析中得到廣泛的應用。
術(shù)語抽取的研究被分為一般性抽取方法研究,錯誤來源分析和矯正,生僻術(shù)語研究。從專利文件中抽取重要的技術(shù)短語或詞匯被稱為專利術(shù)語抽取,在一般性抽取方法研究問題上,俞琰等[5]對專利術(shù)語抽取時難以過濾及抽取特殊詞語串的問題進行了改進,其選取候選術(shù)語的方法是將通用詞作為選取符,再利用和候選術(shù)語有相同術(shù)語部件的相似候選術(shù)語信息,并對候選術(shù)語成為術(shù)語的可能性進行評估。陽萍等[6]利用改進的雙向長短時記憶的標注序列網(wǎng)絡模型,對輸入文本進行自動化定義抽取。Chiarello等[7]提出一種算法,該算法能夠自動檢測和提取隱藏在專利中的實體。Jongchan等[8]提出了一種利用相關(guān)論文及其作者的關(guān)鍵詞從單個專利文獻中提取有效關(guān)鍵詞的方法。近幾年對錯誤抽取的研究較少,但根據(jù)以前的研究,錯誤主要來自于術(shù)語抽取時對術(shù)語的變化。生僻術(shù)語作為一種特殊的術(shù)語抽取研究對象,具有更高的抽取難度。研究者對生僻術(shù)語抽取的研究多停留在對用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)(term frequency-inverse document frequency,TF-IDF)改進的基礎,王麗客等[9]提出利用遠程監(jiān)督方法進行藏文實體關(guān)系抽取,其利用已經(jīng)構(gòu)建的藏文知識庫與分段卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),加入語言模型和注意力機制來改善語義歧義問題以及學習句子的信息,在訓練過程中加入聯(lián)合得分函數(shù)來動態(tài)修正錯誤標簽問題。實驗結(jié)果表明改進的模型有效提高了藏文實體關(guān)系抽取的準確率,且優(yōu)于基線模型效果。
以術(shù)語抽取研究為例,算法構(gòu)建只占術(shù)語抽取研究的一少半工作,更重要的工作是采用合適的實驗對算法進行驗證,例如構(gòu)建標準答案的合集。但目前在術(shù)語抽取領(lǐng)域,針對生僻術(shù)語識別的標準答案合集非常少見。這導致了一部分有關(guān)偏僻術(shù)語抽取的研究不符合文本挖掘研究的規(guī)范,也成為了制約這一領(lǐng)域發(fā)展的重要因素之一。
聚類算法可以分為兩個大的方向。一個方向為聚類方法,另一個方向為通過聚類對技術(shù)或?qū)@暾埲诉M行預測或評價。常用的聚類方法有層次聚類、k-means聚類最大最小模塊化神經(jīng)網(wǎng)絡和自組織分析。本文以層次聚類和k-means聚類為代表來說明文中所提到的幾種聚類方法的區(qū)別,kmeans聚類算法的工作流程是任意選取k個樣本點作為k個簇的原始中心;計算每一樣本點與k個中心的距離,并把它歸入距離最小中心所在的簇。待所有的樣本點歸類完成后,重新計算k個簇中心;對上述的流程進行重復,直至簇不再變動。層次聚類法的原理更為簡單,層次聚類法的基本過程可以分為3步,將每一個樣本點視為一個簇,計算各個簇之間的距離,將距離最小的兩個簇合成一個新簇。重復上述過程直至只有一簇。聚類方法常被用于建立工藝沖突矩陣,尋找工藝沖突,其工作流程的第一步是對工藝專利進行分類處理并建立工藝問題庫和工藝問題解決方案庫,然后利用特征詞提取算法對專利文本進行工藝沖突參數(shù)的挖掘,再利用核聚類算法進行工藝沖突和工藝沖突解決原理的挖掘,建立工藝沖突矩陣。目前該領(lǐng)域的相關(guān)研究文獻較少。
在通過聚類對技術(shù)或?qū)@暾埲诉M行預測或評價的研究方向上。艾楚涵等[10]利用文本挖掘的專利推薦方法幫助用戶從數(shù)量龐大的專利中找到用戶感興趣的專利并進行推薦。陳偉等[11]提出了一種基于專利文獻分析的關(guān)鍵共性技術(shù)識別框架,運用文本挖掘和技術(shù)演化分析方法,獲取特定領(lǐng)域的關(guān)鍵共性技術(shù),并在機器人和數(shù)控機床上驗證了算法的可行性和有效性。聚類方法也可以用于建立功能矩陣,Yang等[12]提出了一種半自動化的方法來建立某個給定領(lǐng)域的功能矩陣,目的是提高構(gòu)建功能矩陣的效率,降低人力成本和時間成本。
專利文本分類可以分為四大研究主題,其分別為:①分類器對《國際專利分法》的適應性問題;②與應用領(lǐng)域相結(jié)合的專利分類、專利檢索和信息分析等任務;③由于專利的特征來源不同,因此存在著一定的效果差異,有目標性地對專利文本中的特征進行選擇也是一項很重要的任務;④與發(fā)明問題解決理論(teoriya resheniya izobreatatelskikh zadatch,TRIZ)結(jié)合的分類問題。
針對信息增益算法只能考察特征對整個系統(tǒng)的貢獻,忽略特征對單個類別信息貢獻的問題上,胡云青等[13]針對傳統(tǒng)專利自動分類中訓練集標注瓶頸問題,提出基于改進三體訓練算法的半監(jiān)督分類方法。Arts等[14]則建議采用文本匹配的方法來衡量專利間技術(shù)的相似性。Mun等[15]提出一種新的技術(shù)方法,該方法利用專利共分類和分類層次的特征,對技術(shù)領(lǐng)域(technological domain,TD)內(nèi)的不同技術(shù)層次的子TD進行識別,并利用太陽能光伏技術(shù)領(lǐng)域的專利對算法進行檢驗,檢驗結(jié)果證明算法識別出的sub-TDs是有效的。在和實際應用相結(jié)合方面,在有目標性的對專利文本中的特征進行選擇的研究問題中,馬建紅等[16]從大數(shù)據(jù)的角度提出一種專利挖掘與效應對關(guān)系的方法,其利用長短期記憶網(wǎng)絡及帶有Attention機制的Bi-LSTM相結(jié)合構(gòu)成模型,并利用Soft max模型分類器進行分類并得到專利的專屬效應。實驗結(jié)果證明,模型準確有效。TRIZ是一種框架,用來解決發(fā)明問題。它和prior art search為基礎的專利研究不太相同。在發(fā)明問題解決理論 結(jié)合的分類問題上,胡學鋼等[17]提出了一種基于協(xié)同過濾的專利TRIZ分類方法來提高系統(tǒng)分類精度與效率。Liu[18]提出了一個基于經(jīng)典TRIZ和專利文本的技術(shù)創(chuàng)新模型,來彌補裝備研制方面缺乏理論和技術(shù)指導的不足。作者首先利用結(jié)構(gòu)方程方法識別經(jīng)典TRIZ與專利文本之間的耦合關(guān)系提出了一種基于經(jīng)典TRIZ和專利文本的產(chǎn)品創(chuàng)新模型,并利用帶冷卻系統(tǒng)的大功率潛水泵模型進行了驗證。
在專利挖掘領(lǐng)域的研究者中有一個普遍存在的問題,即重視應用方法,忽視提出問題,以分類研究為例,絕大多數(shù)的研究方法是將專利數(shù)據(jù)用在已經(jīng)存在或稍微改動的算法上,得到一個實驗結(jié)果即可。這種不明確解決問題的做法導致了相當多的研究僅停留在利用聚類算法或復雜神經(jīng)網(wǎng)絡來處理專利數(shù)據(jù)的層面上。在專利挖掘領(lǐng)域還存在一個常見的問題,即在解決復雜的課題時,例如在專利分類問題時,在復雜的分類情況出現(xiàn)時,現(xiàn)有技術(shù)下構(gòu)造的分類器難以取得理想的效果。此外較多的深度學習算法也未被運用到專利挖掘領(lǐng)域中來。
以復雜網(wǎng)絡為基礎的專利分析方法在研究中得到廣泛應用,Ampornphan和Tongngam[19]等利用k均值聚類、文本挖掘和關(guān)聯(lián)規(guī)則挖掘方法與社會網(wǎng)絡分析方法來獲取新興技術(shù)的知識,并從國際專利分類(international patent classiftcation,IPC)代碼和專利標題數(shù)據(jù)中發(fā)現(xiàn)信息技術(shù)的發(fā)展趨勢。Li等[20]提出了一種基于社會網(wǎng)絡分析(social network analysis,SNA)和專利分析的定量比較方法來選擇類比技術(shù),并利用中心性和密度度量分析了復雜專利網(wǎng)絡結(jié)構(gòu),以減少信息缺乏或不確定性的存在。作者以自動駕駛汽車(autonomous vehicles,AVs)為例,比較了3種基于目標技術(shù)相似性的候選技術(shù),并用平均度和密度的分析來選擇最佳候選技術(shù)。Hu等[21]根據(jù)我國造船和海洋工程裝備產(chǎn)業(yè)的現(xiàn)狀,將造船產(chǎn)業(yè)分為3類:通用造船產(chǎn)業(yè)、專用造船產(chǎn)業(yè)和海洋工程裝備產(chǎn)業(yè),并利用Patsnap專利搜索平臺,分析了中國3種類型船舶工業(yè)的專利趨勢、關(guān)鍵技術(shù)分支和關(guān)鍵申請人分布情況。根據(jù)分析結(jié)果,提出相應的政策策略,為企業(yè)準確把握未來發(fā)展方向,規(guī)避專利風險提供參考。Juhwan等[22]提出一種統(tǒng)計方法來分析人工智能技術(shù)的專利數(shù)據(jù),便于研究者對人工智能領(lǐng)域可持續(xù)技術(shù)的理解。
以時間為基礎的方法在專利分析的研究中得到廣泛應用,梁凱桐等[23]以公開生物醫(yī)藥行業(yè)專利庫作為數(shù)據(jù)庫為研究對象,通過申請概況、主要申請人、合作申請這3個角度,分析化橘紅中藥專利及申請人申請現(xiàn)狀。魏紅芹等[24]提出關(guān)于一套結(jié)構(gòu)化的技術(shù)融合分析方法。利用產(chǎn)業(yè)與專利的映射關(guān)系,構(gòu)建不同技術(shù)領(lǐng)域間知識流動矩陣;從技術(shù)溢出、技術(shù)影響兩個維度構(gòu)建技術(shù)融合趨勢圖,刻畫出4種不同的技術(shù)融合類型,并通過時間序列分析技術(shù)融合的動態(tài)過程。以國家知識產(chǎn)權(quán)局新能源汽車專利數(shù)據(jù)為例,驗證了方法的可行性,發(fā)現(xiàn)技術(shù)融合過程存在明顯的技術(shù)鄰近性,并且技術(shù)融合角色呈現(xiàn)動態(tài)變化。
專利和技術(shù)存在密切的關(guān)系,一些研究者把關(guān)注點聚焦于通過專利挖掘的技術(shù)途徑來研究技術(shù)發(fā)展的現(xiàn)狀和未來可能會呈現(xiàn)的趨勢[25]。針對這一問題,研究者通常采取的解決方法是采用共類構(gòu)建網(wǎng)絡的方法,構(gòu)建專利組合,并將構(gòu)建的專利組合用于檢測競爭,技術(shù)評估和研發(fā)組合等相關(guān)技術(shù)問題上。Madani等[26]對Web of science數(shù)據(jù)庫中抽取的143篇論文利用文獻計量學進行分析,推演出專利分析與挖掘領(lǐng)域的發(fā)展歷程,并對專利挖掘領(lǐng)域里的人才進行了研究。Lin等[27]利用新聞信息和專利文件提取信息來識別帶有新興技術(shù)專利的公司,來判斷公司是否具有增長潛力。作者采用臺灣18家汽車產(chǎn)業(yè)供應鏈公司作為研究對象,采用數(shù)據(jù)包絡分析的生產(chǎn)率指數(shù)來評估其隨時間的相對性能增長,實驗結(jié)果驗證了算法的準確性。專利的分析與使用算法出現(xiàn)年份圖如圖1所示。
圖1 專利的分析與使用算法出現(xiàn)年份圖Fig.1 Year chart of patent analysis and algorithm application
總體來說專利挖掘領(lǐng)域經(jīng)過近20年的迅速發(fā)展,出現(xiàn)了多種有效的算法,但這些算法也存在著不完善的地方急需解決[28]。這些不完善的地方可以概括為4點:1)無充足的實驗驗證;2)研究問題的界限不明確;3)在復雜問題的研究中,算法的精確度不高;4)未將新穎度較高的人工神經(jīng)網(wǎng)絡用在專利挖掘領(lǐng)域中來。
對專利情報研究中的已有技術(shù)總結(jié)如下:
從專利分析和專利使用的角度對專利挖掘技術(shù)進行研究發(fā)現(xiàn):在基礎、確定性課題,描述、評估性課題,探索、預測性課題上的專利分析可以給專利使用以一定的支持?;A、確定性課題主要使用專利挖掘研究中一直重視的課題術(shù)語抽取和自動分類。這個方法也是專利挖掘問題的熱點研究領(lǐng)域。聚類,以時間為基礎的方法主要用于探索、預測性的課題的研究。目前專利分析的不同領(lǐng)域都有支持的專利挖掘技術(shù),但這些專利挖掘技術(shù)也存在著一定的缺陷,仍需要對其進行改進。
對專利情報研究中的新技術(shù)發(fā)展趨勢進行如下總結(jié):
1)基于智能語義的專利文本檢索。原始的專利檢索過程常伴隨著難檢索,檢索速度慢,無法閱讀其他語言的問題,而人工智能技術(shù)構(gòu)建的語義檢索設備就能有效的解決以上問題。
2)基于多種數(shù)據(jù)融合的專利數(shù)據(jù)重構(gòu)與處理。一般而言專利數(shù)據(jù)具有數(shù)據(jù)量大,數(shù)據(jù)類型雜,更新快的特點,而研究者正在利用云平臺整合全球的專利數(shù)據(jù)資源,建立相應的分析中心,為未來開展更深層次的專利數(shù)據(jù)分析提供數(shù)據(jù)和計算基礎。
3)基于關(guān)聯(lián)分析、語義分析和預測分析的專利大數(shù)據(jù)挖掘。相比于數(shù)據(jù)分析而言,大數(shù)據(jù)具有先知性、有效性和可實用性的特點,未來可以借助大數(shù)據(jù)分析工具和數(shù)據(jù)挖據(jù)算法對專利數(shù)據(jù),經(jīng)濟數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)等多來源數(shù)據(jù)進行關(guān)聯(lián)分析,實現(xiàn)對數(shù)據(jù)的深層解讀,自動化生成各類專利報告。
相信在將來的專利情報分析工作中,會出現(xiàn)越來越多的數(shù)據(jù)分析工具,會出現(xiàn)專業(yè)的專利分析預警平臺,一方面使得專利情報分析工作的自動化和智能化程度更高,另一方面降低專利分析的門檻,吸引更多非專業(yè)人員從事專利情報分析工作。