□文/笪 偉 夏 麗 劉連政
(南京市知識產(chǎn)權(quán)保護中心 江蘇·南京)
[提要]本文剖析新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的創(chuàng)新特點以及專利信息挖掘過程,通過專利申請數(shù)據(jù)挖掘?qū)嵗?,?gòu)建數(shù)據(jù)模型,分析數(shù)據(jù)預(yù)處理、挖掘手段或方法選取、模型構(gòu)建、優(yōu)化與應(yīng)用等方面的主要關(guān)注點。通過在實例中采用聚類分析算法,闡述所構(gòu)建的模型優(yōu)化以及模型評價等因素與輸出分析結(jié)果的影響,以便為研究人員在相關(guān)領(lǐng)域內(nèi)對于海量數(shù)據(jù)信息的挖掘、分析與利用提供思路,尤其是在專利信息的挖掘模式、維度以及趨勢分析等方面提供參考。
近幾年,在國家層面以及地方層面對于戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展與深耕拓展的形勢下,我國的新一代信息技術(shù)產(chǎn)業(yè)得到了較快的發(fā)展,包含下一代信息網(wǎng)絡(luò)產(chǎn)業(yè)、電子核心產(chǎn)業(yè)、新興軟件和新型信息技術(shù)服務(wù)、互聯(lián)網(wǎng)與云計算、大數(shù)據(jù)服務(wù)、人工智能五部分,產(chǎn)業(yè)鏈的上下游生態(tài)也得到穩(wěn)步推進,逐步形成政府與政策引導(dǎo)、產(chǎn)業(yè)融合、創(chuàng)新成果產(chǎn)出與落地的發(fā)展新格局。發(fā)展至今,新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的多個層面基本具有以下幾點共性,這也是與其他領(lǐng)域存在明顯區(qū)別的特點:
(一)技術(shù)更新或升級的節(jié)奏較快。新一代信息技術(shù)發(fā)展具有技術(shù)更新或者升級的節(jié)奏較快等特點,而且如今各行業(yè)的信息化發(fā)展已趨向規(guī)?;⑾到y(tǒng)化,使得新一代信息技術(shù)領(lǐng)域的相關(guān)技術(shù)推進與其他眾多行業(yè)發(fā)展發(fā)生交叉,產(chǎn)生較為緊密的聯(lián)系,因而在面向新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的專利信息數(shù)據(jù)挖掘時,可著重關(guān)注專利申請趨勢、技術(shù)生命周期以及趨勢預(yù)測這幾個方面對于細粒度挖掘與分析的要求。
(二)應(yīng)用場景或者用戶需求的變化所產(chǎn)生的直接影響。綜合近些年新一代信息技術(shù)產(chǎn)業(yè)的發(fā)展情況,較多的是應(yīng)用場景的變化或者用戶需求的變化催化了創(chuàng)新成果或者創(chuàng)新模式的生成。例如,下一代信息網(wǎng)絡(luò)部分的新一代移動通信技術(shù),從4G-LTE通信技術(shù)至5G通信技術(shù),再到后續(xù)的6G通信技術(shù)研究等,直接使得應(yīng)用的場景發(fā)生較大的變化,更為高速、穩(wěn)定的數(shù)據(jù)流交互改變了人們?nèi)粘9ぷ髋c生活的溝通聯(lián)系方式以及市場與行業(yè)的進一步細分和相關(guān)技術(shù)演進。因而,在面向該領(lǐng)域的專利信息數(shù)據(jù)挖掘時,應(yīng)用場景或用戶需求的變化趨勢等成為數(shù)據(jù)挖掘與分析的一個參考維度。
(三)下一步發(fā)展的不確定性。目前來看,我們只能初步看到技術(shù)發(fā)展的整體趨勢,而對于具體在何種細分領(lǐng)域、何種應(yīng)用或場景得到顯著的發(fā)展與探索并不是很清楚,也就是新一代信息技術(shù)產(chǎn)業(yè)的后續(xù)發(fā)展存在不確定性。例如,區(qū)塊鏈相關(guān)技術(shù)的發(fā)展,早期從20世紀90年代開始就有相關(guān)研究,并且早期是“區(qū)塊+鏈”的初始形態(tài),但在近些年演進成區(qū)塊鏈的形態(tài),才成為研究與風險投資的一個熱點,雖然現(xiàn)在很多人在這方面看到了潛力與潛在利益,但從目前的發(fā)展來看,其還是缺乏較為成熟的、整體的實踐。因而在面向該領(lǐng)域的專利信息的數(shù)據(jù)挖掘時,如何進行后續(xù)發(fā)展的趨勢分析與預(yù)測、相關(guān)決策支撐等也成為研究關(guān)注點。
(一)數(shù)據(jù)挖掘特點剖析。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
發(fā)展至今,各個行業(yè)的信息化之類的系統(tǒng)已經(jīng)具有了眾多的數(shù)據(jù)信息,特別是在新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域,本身就是在構(gòu)建眾多基礎(chǔ)信息數(shù)據(jù)流的基礎(chǔ)上進行各個細分場景層面的相關(guān)處理、分析、拓展與延伸等工作,面對這些海量的數(shù)據(jù)信息,如何進行更為有效的處理與使用已然成為現(xiàn)今的一個熱門研究點。這里的處理與使用所采取的手段主要包括:海量數(shù)據(jù)信息的統(tǒng)計、分析、利用以及決策。當然,在數(shù)據(jù)挖掘過程中,也是存在目的性的,構(gòu)建較為明確的數(shù)據(jù)挖掘目標,使得人們從海量的數(shù)據(jù)信息中進行數(shù)據(jù)信息的提取、分揀、歸類,挖掘出隱含的有用數(shù)據(jù)信息,為支撐相關(guān)決策提供研究與處理的方向。對于數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用則成為一個重要的抓手。數(shù)據(jù)挖掘主要有以下幾個特點:
一是隱含性。數(shù)據(jù)挖掘就是要從海量的、存在噪聲的數(shù)據(jù)信息中提取隱含的知識信息,發(fā)現(xiàn)或者挖掘存在于其中的、人們事先并不具體了解的、潛在的有用信息以及知識,而不是常規(guī)的處理,如從數(shù)據(jù)表象層面通過一些BI工具即可獲得一些信息的過程。
二是交叉性。數(shù)據(jù)挖掘是一門交叉學(xué)科,其與人工智能、機器學(xué)習、模式識別、神經(jīng)網(wǎng)絡(luò)計算和數(shù)理統(tǒng)計等學(xué)科領(lǐng)域交叉,它將對數(shù)據(jù)信息的應(yīng)用從簡單的查詢、統(tǒng)計等基本處理操作直接轉(zhuǎn)變?yōu)閺暮A繑?shù)據(jù)信息中挖掘、搜索、發(fā)現(xiàn)隱藏于其中的有著特殊關(guān)聯(lián)的知識信息。當然,所發(fā)現(xiàn)的知識信息也是相對的,在不同領(lǐng)域、不同前提以及不同約束條件的場景中所獲取的知識信息也存在一定的差異,能夠發(fā)現(xiàn)潛在的有效知識信息或者挖掘出內(nèi)在的聯(lián)系,有助于提供或者輔助更深層次的決策支持。
三是價值性。在早期,由于計算能力以及不同行業(yè)或領(lǐng)域的業(yè)務(wù)數(shù)據(jù)的運行、生成與互聯(lián)電子化的局限性,對于海量的數(shù)據(jù)信息,人們并沒有進行深入的數(shù)據(jù)挖掘研究,大多數(shù)的數(shù)據(jù)處理止步于海量數(shù)據(jù)信息的深層次分析與挖掘。現(xiàn)在,通過數(shù)據(jù)挖掘為企業(yè)提供有價值的知識信息,進而獲取直接或者間接利益、業(yè)界優(yōu)勢,為商業(yè)決策或部署提供支撐,已然成為一個重要的手段。對海量的數(shù)據(jù)信息進行深層次的分析,有助于挖掘、發(fā)現(xiàn)商業(yè)發(fā)展以及市場競爭優(yōu)勢等方面的有用的知識信息。
(二)專利信息的挖掘。通過專利信息的挖掘,能夠幫助人們對專利文獻、相關(guān)的技術(shù)特征信息、法律信息、潛在的技術(shù)價值信息以及市場價值信息進行更深層次的、顯性化的信息提取與研究,不管是專利技術(shù)層面上對于技術(shù)創(chuàng)新發(fā)展以及相關(guān)領(lǐng)域技術(shù)演進趨勢,還是專利價值層面上對于市場價值與技術(shù)價值的權(quán)衡以及后續(xù)發(fā)展決策的支撐,能夠在創(chuàng)新主體的創(chuàng)新成果研發(fā)、專利布局、專利風險規(guī)避以及創(chuàng)新或發(fā)展決策過程中發(fā)揮重要作用。
一般來說,有關(guān)專利信息的挖掘存在兩種詮釋。第一種詮釋主要是指對貫穿檢索、分析、專利數(shù)據(jù)與文本挖掘等過程進行挖掘與研究,目的就是挖掘、發(fā)現(xiàn)并處理有用的專利信息,進而在這些有用信息的基礎(chǔ)上進行更深層次的應(yīng)用研究、輔助決策或趨勢預(yù)測等工作。第二種詮釋主要對專利數(shù)據(jù)以及專利文本兩個方面進行挖掘與研究,其中專利數(shù)據(jù)挖掘主要是對專利基礎(chǔ)數(shù)據(jù)進行處理,通過數(shù)據(jù)挖掘方法獲取專利共現(xiàn)、共引或共類、時間序列和網(wǎng)絡(luò)拓撲結(jié)構(gòu)等方面的研究成果;專利文本挖掘則是對專利文件的字段進行分析與研究,例如權(quán)利要求中涉及技術(shù)特征的字段,通過文本挖掘的方法獲取專利分類、聚類等方面的研究成果。
結(jié)合前述新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的特點以及專利信息挖掘的主要內(nèi)容,本文面向新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域,進行相關(guān)專利申請案件信息的數(shù)據(jù)挖掘與分析。
(三)專利信息挖掘的驅(qū)動分析。現(xiàn)今,常見的專利信息挖掘方向主要由目標驅(qū)動以及技術(shù)驅(qū)動兩個層面初步確立,具體分析如下。
1、目標驅(qū)動層面。一是以現(xiàn)有技術(shù)與主要競爭對手的專利布局為基礎(chǔ)進行專利信息的挖掘。得益于知識產(chǎn)權(quán)的相關(guān)法規(guī)與制度的發(fā)展和完善,以及市場不斷向前發(fā)展乃至創(chuàng)新的特性,本領(lǐng)域的技術(shù)人員能夠獲取并研究本領(lǐng)域相關(guān)的、較為先進的公開技術(shù)以及主要競爭對手的專利布局情況,從而進行相關(guān)技術(shù)的改進與創(chuàng)新,挖掘出有價值的潛在技術(shù)點或創(chuàng)新點,逐步構(gòu)建具有法律保護意義的專利內(nèi)容,以明確后續(xù)發(fā)展、風險防范與技術(shù)創(chuàng)新的決策路線。二是以變化的需求為基礎(chǔ)進行專利信息的挖掘,這里的需求主要有市場需求、用戶需求、場景或引用需求以及其他相關(guān)領(lǐng)域技術(shù)或發(fā)展模式的變化產(chǎn)生關(guān)聯(lián)性驅(qū)動,催化對專利信息的更深層次的挖掘。三是以本身開展的項目研究為基礎(chǔ)進行專利信息的挖掘。綜合前述兩個方面的內(nèi)容,主動開展項目研究以及專利信息的挖掘,這兩部分工作同時開展,在本身開展的各個項目研發(fā)的節(jié)點同步進行相關(guān)信息的挖掘,也就是說,挖掘的工作研發(fā)項目的生命周期息息相關(guān),在項目驗收之后,也需綜合本身的專利布局體系進行各階段的專利申請或布局體系的完善,以實現(xiàn)對自身創(chuàng)新成果的保護,穩(wěn)固或提升市場優(yōu)勢地位以及風險防范力。
2、技術(shù)驅(qū)動層面。這一層面直接體現(xiàn)了數(shù)據(jù)挖掘的交叉性,如人工智能、機器學(xué)習、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計等多個學(xué)科的發(fā)展,直接驅(qū)動了研究人員在專利信息的挖掘方法、手段或技術(shù)上產(chǎn)生了較大的變化。如,信息抽取、自然語言處理、特征構(gòu)建、數(shù)據(jù)建模、數(shù)據(jù)清洗、構(gòu)建模型與優(yōu)化等方面技術(shù)或算法的改進與突破,對專利信息的挖掘深度、挖掘維度以及模式等均有實質(zhì)性的推動,與其伴隨的數(shù)據(jù)分析、應(yīng)用以及決策支持、趨勢預(yù)測等方面也取得較大的進展。
(四)面向新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域的數(shù)據(jù)挖掘?qū)嵗治?。本文以南京市知識產(chǎn)權(quán)保護中心業(yè)務(wù)系統(tǒng)受理的專利申請數(shù)據(jù)以及備案主體作為基礎(chǔ)數(shù)據(jù)來源,專利申請案件的領(lǐng)域范圍為新一代信息技術(shù)產(chǎn)業(yè)領(lǐng)域。其中,選取的專利申請數(shù)據(jù)時間跨度為一年,即從2021年1月31日至2021年12月31日,在此基礎(chǔ)上進行相關(guān)的數(shù)據(jù)挖掘與分析。對專利申請相關(guān)數(shù)據(jù)的深入挖掘與分析,能夠在一定程度上反映在設(shè)定的時間維度、產(chǎn)業(yè)領(lǐng)域內(nèi),南京市知識產(chǎn)權(quán)保護中心業(yè)務(wù)系統(tǒng)的申請主體的行為以及趨勢走向情況,可以為后續(xù)更深層次的分析與應(yīng)用提供一種參考。
數(shù)據(jù)挖掘總體流程如圖1所示,主要涉及三個階段:數(shù)據(jù)集抽取階段、數(shù)據(jù)挖掘與清洗階段、模型構(gòu)建與分析階段。(圖1)
圖1 數(shù)據(jù)挖掘總體流程圖
1、數(shù)據(jù)集抽取。在這一階段涉及兩方面的基礎(chǔ)數(shù)據(jù)庫,一個是保護中心業(yè)務(wù)系統(tǒng)的專利申請數(shù)據(jù)庫,另一個是保護中心業(yè)務(wù)系統(tǒng)的備案主體數(shù)據(jù)庫。保護中心現(xiàn)有的業(yè)務(wù)系統(tǒng)中已有大量的專利申請數(shù)據(jù),根據(jù)預(yù)設(shè)條件從基礎(chǔ)數(shù)據(jù)庫中進行各項數(shù)據(jù)的抽取。本實例的專利申請數(shù)據(jù)抽取預(yù)設(shè)條件即是按照前述的領(lǐng)域、時間段設(shè)定,備案主體數(shù)據(jù)抽取預(yù)設(shè)條件為備案審核通過的申請主體信息數(shù)據(jù)。
2、數(shù)據(jù)挖掘與清洗。在這一階段涉及數(shù)據(jù)的預(yù)處理、特征提取與構(gòu)建以及后續(xù)建模數(shù)據(jù)的標準化處理,其中數(shù)據(jù)的預(yù)處理包括對系統(tǒng)的專利申請數(shù)據(jù)集的相關(guān)異常數(shù)值進行處理,如申請案件編號亂碼、提交案件數(shù)量的數(shù)值為0等異常數(shù)據(jù)記錄的處理。針對本實例,特征的提取與構(gòu)建主要從申請主體在預(yù)設(shè)條件下的最近一次專利申請案件提交情況、累計案件數(shù)量、審查總周期、備案審核通過至預(yù)設(shè)時間的時間長度、平均預(yù)審周期系數(shù)這五個方面進行考量,這里的審查總周期包括通過保護中心預(yù)審的周期以及提交至專利電子申請系統(tǒng)后的授權(quán)周期。后續(xù)建模數(shù)據(jù)的標準化處理還包括根據(jù)程序開發(fā)語言以及相應(yīng)的函數(shù)對數(shù)據(jù)進行格式或數(shù)值的轉(zhuǎn)化等處理,以符合后續(xù)運行的數(shù)據(jù)條件。
3、模型構(gòu)建與分析。結(jié)合上述五個方面的特征,基于RFM模型進行改進,通過增加備案審核通過至預(yù)設(shè)時間的時間長度,進一步分析申請主體與保護中心的業(yè)務(wù)關(guān)系黏度,通過增加平均預(yù)審周期系數(shù),以進一步反映申請主體的案件質(zhì)量,構(gòu)建專利申請主體行為模型。本實例采用Python語言,采用kmeans算法進行聚類分析。圖2為申請主體特征分布圖,通過模型分析,對專利申請主體進行分類,如圖2所示,并對不同類別的專利申請主體進行前述五個方面的特征分析,以比較不同類別的專利申請主體在保護中心的行為趨勢,并生成申請主體行為畫像。(圖2)
圖2 申請主體特征分布圖
本實例通過k-means算法進行分析時,選取的k值為3。由于k-means算法的計算過程屬于無監(jiān)督學(xué)習,因而我們在如何確定較好的k值,也就是簇的數(shù)值時,需要進行相關(guān)分析與考量,以保證簇類的數(shù)據(jù)具有較大的相似性,并且簇之間的數(shù)據(jù)存在較為明顯的差異。因此,本實例在k值的選取方面,采取了三個維度:簇內(nèi)誤方差(SSE)、輪廓系數(shù)(silhouette coefficient)、CH指標(Calinski-Harabaz),綜合這三個維度情況,進行聚類結(jié)果的測試評價,進而確定具有更優(yōu)聚類效果時所對應(yīng)的k值,即確定簇數(shù)值,將申請主體分成了三類。本實例選取的基礎(chǔ)數(shù)據(jù)集共有2,528條記錄,即在預(yù)設(shè)的條件下,共有2,528條申請主體提交至保護中心的專利申請數(shù)據(jù),此時基礎(chǔ)數(shù)據(jù)集存在同一申請主體提交的多個不同的專利申請記錄。經(jīng)數(shù)據(jù)處理之后,得到760條數(shù)據(jù)記錄,即符合模型分析的數(shù)據(jù)記錄有760條,此時的數(shù)據(jù)集中已經(jīng)按照一個申請主體只有一個數(shù)據(jù)記錄的設(shè)定完成處理,并剔除異常數(shù)值,這其中就增加了特征標簽,以符合所構(gòu)建模型進行分析時的數(shù)據(jù)要求。如表1所示,可知各類之間的相似度較小,類內(nèi)部的相似度較大,進而實現(xiàn)了申請主體群體的進一步劃分,最后輸出各類數(shù)據(jù),以進行后續(xù)決策的支撐。(表1)
表1 聚類分析結(jié)果一覽表
總而言之,專利信息的數(shù)據(jù)挖掘與分析是密不可分的,最終形成能夠被人們所認識、利用或參考的知識信息。通過上述的專利數(shù)據(jù)挖掘?qū)嵗^程,確定了在進行數(shù)據(jù)挖掘時需考慮數(shù)據(jù)預(yù)處理,挖掘手段或方法,模型構(gòu)建、優(yōu)化與應(yīng)用等主要節(jié)點的工作。在對數(shù)據(jù)處理時,不僅要考慮基礎(chǔ)數(shù)據(jù)集的準確性、適用性、全面性,還要考慮各類數(shù)據(jù)之間的內(nèi)在聯(lián)系、異常數(shù)據(jù)的處理以及模型訓(xùn)練測試所需的數(shù)據(jù)要求,如對數(shù)據(jù)進行降維處理,或者在本實例模型分析時需對數(shù)據(jù)進行無量綱化處理,以實現(xiàn)模型數(shù)據(jù)的標準化。選擇較為合適的數(shù)據(jù)挖掘手段或方法則是確定后續(xù)模型構(gòu)建、分析與優(yōu)化效果的一個方向。模型的構(gòu)建與優(yōu)化則需關(guān)注特征抽取、迭代分析、模型如何評價以及應(yīng)用這幾個方面,進一步明確更優(yōu)的模型輸出結(jié)果與更好的分析效果。