孫 冉 安 璐,2* 李 綱,2
(1.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072;2.武漢大學(xué)信息資源研究中心,湖北 武漢 430072)
科技創(chuàng)新是衡量企業(yè)和國(guó)家(地區(qū))實(shí)力的重要指標(biāo),專利數(shù)據(jù)中包含大量的前沿技術(shù)信息,企業(yè)所擁有的專利可以用來衡量企業(yè)的技術(shù)創(chuàng)新能力?!笆奈濉币?guī)劃和2035年遠(yuǎn)景目標(biāo)綱要明確提出:優(yōu)化專利資助獎(jiǎng)勵(lì)政策和考核評(píng)價(jià)機(jī)制,更好保護(hù)和激勵(lì)高價(jià)值專利,培育專利密集型產(chǎn)業(yè)[1]。近來,國(guó)家知識(shí)產(chǎn)權(quán)局明確將戰(zhàn)略性新興產(chǎn)業(yè)、在海外有同族專利權(quán)、維持年限超過10年、實(shí)現(xiàn)較高質(zhì)押融資金額、獲得國(guó)家科學(xué)技術(shù)獎(jiǎng)或中國(guó)專利獎(jiǎng)的有效發(fā)明專利看成高價(jià)值發(fā)明專利。
在以往的研究中,有關(guān)專利價(jià)值的界定較為模糊,多將其劃分為經(jīng)濟(jì)價(jià)值、技術(shù)價(jià)值、市場(chǎng)價(jià)值、法律價(jià)值、使用價(jià)值、戰(zhàn)略價(jià)值等,基于價(jià)值分類的基礎(chǔ)上,不同學(xué)者在自身學(xué)科背景視角下,結(jié)合不同的理論和方法構(gòu)建專利價(jià)值評(píng)價(jià)指標(biāo)體系,探討不同的影響因素和專利價(jià)值之間的相關(guān)性,而缺少對(duì)專利價(jià)值進(jìn)行前瞻性的預(yù)測(cè),現(xiàn)有的專利價(jià)值預(yù)測(cè)研究多以已經(jīng)獲獎(jiǎng)的國(guó)內(nèi)專利為研究對(duì)象,預(yù)測(cè)模型不適用于對(duì)大規(guī)模專利數(shù)據(jù)進(jìn)行價(jià)值預(yù)測(cè),并且不同領(lǐng)域中指標(biāo)的適用性并不一致。本文擬解決以下幾個(gè)研究問題:①如何抽取海量專利信息中的特征,構(gòu)建多特征融合的專利價(jià)值預(yù)測(cè)模型,快速有效地進(jìn)行專利價(jià)值預(yù)測(cè);②不同指標(biāo)在專利價(jià)值預(yù)測(cè)中的重要性。
根據(jù)IPlystics發(fā)布的報(bào)告《Who is Leading the 5G Patent Race?》顯示,各國(guó)(地區(qū))向歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)(ETSI)申報(bào)的5G專利達(dá)到95 526項(xiàng),其中,中國(guó)企業(yè)聲明的5G專利占比32.97%,擁有5G同族專利數(shù)最高的公司分別為華為(中國(guó))、高通(美國(guó))、中興(中國(guó))、三星(韓國(guó))、諾基亞(芬蘭),屬于5G技術(shù)的重要支柱[2]。隨著我國(guó)移動(dòng)通信技術(shù)從2G發(fā)展到第五代移動(dòng)通信技術(shù)(5G),準(zhǔn)確識(shí)別國(guó)內(nèi)外5G專利價(jià)值的需求與日俱增。
以5G專利為例,深入研究專利價(jià)值預(yù)測(cè)對(duì)企業(yè)、國(guó)家(地區(qū))實(shí)施專利戰(zhàn)略布局具有重要意義。因此,本文取國(guó)內(nèi)外的5G專利作為數(shù)據(jù)樣本,利用Logistic模型來分析國(guó)內(nèi)外5G技術(shù)的生命周期,基于BERT模型對(duì)專利標(biāo)題的文本語(yǔ)義信息進(jìn)行特征提取,構(gòu)建基于技術(shù)特征、法律特征、市場(chǎng)特征、專利權(quán)人特征、專利標(biāo)題的文本語(yǔ)義特征的專利價(jià)值預(yù)測(cè)特征體系,采用傳統(tǒng)機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、決策樹、XGBoost等)和深度學(xué)習(xí)模型(如CNN、RNN等)構(gòu)建專利價(jià)值預(yù)測(cè)模型,并探究技術(shù)特征、法律特征、市場(chǎng)特征、專利權(quán)人特征、專利標(biāo)題的文本語(yǔ)義特征在專利價(jià)值預(yù)測(cè)上的表現(xiàn)。
目前,有關(guān)專利價(jià)值前瞻性預(yù)測(cè)的研究較少,不同學(xué)者多從各自的學(xué)科視角出發(fā),圍繞專利價(jià)值指標(biāo)體系、方法對(duì)專利價(jià)值展開研究。由于專利價(jià)值具有模糊性、多維性、未知性,不同學(xué)者基于不同的背景對(duì)專利價(jià)值進(jìn)行界定,比如從市場(chǎng)應(yīng)用情況、專利申請(qǐng)規(guī)模、專利占有率、政策實(shí)用性等評(píng)價(jià)專利創(chuàng)造的經(jīng)濟(jì)價(jià)值[3];從專利技術(shù)本身的特點(diǎn)出發(fā),可將其劃分為內(nèi)在價(jià)值和外在價(jià)值[4-5];現(xiàn)多從專利需求出發(fā),將其劃分為技術(shù)價(jià)值、法律價(jià)值和經(jīng)濟(jì)價(jià)值[6-7]。有學(xué)者提出可用專利引文信息來衡量專利技術(shù)的價(jià)值[8],由于可能會(huì)存在專利“睡美人”現(xiàn)象,不能通過引文信息全面準(zhǔn)確地判斷專利價(jià)值。
隨后,學(xué)者不斷從市場(chǎng)價(jià)值、經(jīng)濟(jì)價(jià)值、法律價(jià)值、商業(yè)價(jià)值等方面對(duì)專利價(jià)值指標(biāo)體系進(jìn)行補(bǔ)充完善,Reitzig M[9]基于價(jià)值決定理論提出專利價(jià)值的影響因素包括專利生命周期、新穎性和創(chuàng)造性、技術(shù)寬度、專利功能性、排他權(quán)利、討價(jià)還價(jià)等。除此之外,專利價(jià)值的影響因素還包括專利的長(zhǎng)度、技術(shù)生命周期、專利訴訟、專利族、權(quán)利要求數(shù)、專利權(quán)人特征[10-11],不同行業(yè)領(lǐng)域的專利價(jià)值指標(biāo)也有所不同[6]。專利權(quán)人可以通過轉(zhuǎn)讓、質(zhì)押、許可等方式,實(shí)現(xiàn)顯性知識(shí)轉(zhuǎn)移,而知識(shí)水平的提升則是促進(jìn)經(jīng)濟(jì)發(fā)展的主要因素,即擁有更多知識(shí)的公司在企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)上勝過其他公司,能有效開發(fā)利用其知識(shí)資產(chǎn)的地區(qū)表現(xiàn)更好[12]。有關(guān)專利轉(zhuǎn)讓的研究多圍繞專利轉(zhuǎn)讓模式、專利轉(zhuǎn)讓網(wǎng)絡(luò)結(jié)構(gòu)分析、專利技術(shù)轉(zhuǎn)移等視角進(jìn)行展開。國(guó)內(nèi)多將專利轉(zhuǎn)讓作為專利價(jià)值指標(biāo)體系中的一部分,劉勤等[10]基于“四位一體”的高價(jià)值專利分析理念,將專利轉(zhuǎn)讓作為一個(gè)指標(biāo)來構(gòu)建專利價(jià)值預(yù)測(cè)模型。
有關(guān)專利價(jià)值評(píng)估方法主要可分為3類:①市場(chǎng)基準(zhǔn)方法,Wu M C[13]基于實(shí)物期權(quán)框架探索專利價(jià)值的影響因素,發(fā)現(xiàn)降低成本、提高專利數(shù)量和提高創(chuàng)新效率能為公司增加專利價(jià)值;②綜合評(píng)價(jià)法,以往學(xué)者多利用專家法對(duì)專利技術(shù)覆蓋范圍、產(chǎn)品市場(chǎng)價(jià)值、專利運(yùn)營(yíng)等方面進(jìn)行基于主觀經(jīng)驗(yàn)的發(fā)展評(píng)估[14],現(xiàn)在多結(jié)合層次分析法、模糊評(píng)價(jià)法等進(jìn)行綜合評(píng)價(jià)[15]。Hsieh C H[16]提出一種基于因子分析來評(píng)估專利價(jià)值和確定商業(yè)化初期戰(zhàn)略的混合方法。但不論是市場(chǎng)基準(zhǔn)法還是綜合評(píng)價(jià)法,都具有一定的主觀性,沒有統(tǒng)一的評(píng)判標(biāo)準(zhǔn);③機(jī)器學(xué)習(xí)技術(shù),為了更好地理解不同指標(biāo)對(duì)專利價(jià)值的影響,可用機(jī)器學(xué)習(xí)技術(shù)篩選出專利價(jià)值預(yù)測(cè)的關(guān)鍵指標(biāo)[17]。楊冠燦等[18]基于矩陣轉(zhuǎn)化方法,提出一種專利綜合引用網(wǎng)絡(luò)構(gòu)建方法來進(jìn)行專利價(jià)值評(píng)價(jià)。張杰等[19]采用AdaBoost算法構(gòu)建基于法律、技術(shù)和市場(chǎng)質(zhì)量的專利質(zhì)量評(píng)價(jià)模型,能識(shí)別出大部分轉(zhuǎn)讓專利為高質(zhì)量專利。Trappey A J C等[20]利用主成分分析方法從專利數(shù)據(jù)集中識(shí)別重要的專利價(jià)值指標(biāo),再構(gòu)建基于PCA預(yù)處理的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行專利價(jià)值的智能估算。結(jié)合貨幣價(jià)值和專利價(jià)值的隨機(jī)森林方法來預(yù)測(cè)技術(shù)價(jià)值,比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法具有更高的性能[21]。
綜上所述,學(xué)界對(duì)專利價(jià)值預(yù)測(cè)還處于探索階段,大部分學(xué)者提出的專利價(jià)值預(yù)測(cè)指標(biāo)體系中的指標(biāo)較為零散,同時(shí),不同領(lǐng)域下的價(jià)值指標(biāo)體系應(yīng)該有所不同,尤其是針對(duì)5G這樣的高新技術(shù),標(biāo)準(zhǔn)必要專利更強(qiáng)調(diào)專利的技術(shù)屬性。本研究擬將專利生命周期相關(guān)理論和方法應(yīng)用到價(jià)值預(yù)測(cè)中,分別從外部因素和內(nèi)部因素將專利價(jià)值劃分為市場(chǎng)價(jià)值和法律價(jià)值、技術(shù)價(jià)值、專利權(quán)人價(jià)值和專利文本語(yǔ)義特征,構(gòu)建包含技術(shù)特征、法律特征、市場(chǎng)特征、專利權(quán)人特征和專利文本語(yǔ)義特征的專利價(jià)值預(yù)測(cè)模型,有助于高新企業(yè)、科研機(jī)構(gòu)和知識(shí)產(chǎn)權(quán)管理部門識(shí)別價(jià)值較高的專利。
2.1.1 技術(shù)特征
專利的引證次數(shù)、專利被引證次數(shù)、專利對(duì)科技文獻(xiàn)的引證與專利價(jià)值顯著相關(guān)[22],但也有研究表明專利被引頻次與專利價(jià)值基本無(wú)關(guān)[23]。最早Lerner J[24]研究發(fā)現(xiàn)了公司的市場(chǎng)價(jià)值與公司所擁有專利的IPC分類號(hào)數(shù)量之間的相關(guān)性,但后續(xù)有研究表明,IPC分類號(hào)的數(shù)量對(duì)專利的價(jià)值沒有顯著影響[25]。本文將繼續(xù)評(píng)估IPC分類號(hào)的數(shù)量在預(yù)測(cè)5G專利價(jià)值中的重要性,并將專利技術(shù)寬度定義為專利所包含的IPC分類號(hào)的數(shù)量。在高新技術(shù)領(lǐng)域內(nèi),專利權(quán)人為了通過標(biāo)準(zhǔn)的實(shí)施獲取更多的許可利潤(rùn)以及占據(jù)市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),往往會(huì)將關(guān)鍵專利納入標(biāo)準(zhǔn)中,因此形成了標(biāo)準(zhǔn)必要專利(SEP),可用其來衡量國(guó)家(地區(qū))或企業(yè)在5G專利中的競(jìng)爭(zhēng)力。5G標(biāo)準(zhǔn)是由標(biāo)準(zhǔn)化組織3GPP統(tǒng)一制定。本研究將專利是否符合5G標(biāo)準(zhǔn)和專利符合的ETSI標(biāo)準(zhǔn)數(shù)作為指標(biāo)考慮在內(nèi),其中,ETSI認(rèn)定的5G標(biāo)準(zhǔn)主要包括5G、3GPP 5G NR、3GPP-Release-15等,對(duì)于不符合5G標(biāo)準(zhǔn)的專利,若其符合3G或者4G標(biāo)準(zhǔn),則表明該項(xiàng)專利也具有較高的價(jià)值,因此將專利符合的ETSI標(biāo)準(zhǔn)數(shù)也考慮在內(nèi)。在不同的技術(shù)領(lǐng)域內(nèi),專利處在不同技術(shù)生命周期發(fā)展階段會(huì)對(duì)專利價(jià)值造成不同程度的影響[26]。同時(shí)有學(xué)者研究發(fā)現(xiàn),發(fā)明人特征也能顯著影響到專利生產(chǎn)力[27]。
2.1.2 法律特征
本文從專利權(quán)利保護(hù)范圍、地域保護(hù)范圍、時(shí)間保護(hù)范圍等角度來衡量專利價(jià)值。其中,專利的權(quán)利要求數(shù)能確定專利的保護(hù)范圍,而保護(hù)范圍越大,專利價(jià)值越大[28]。權(quán)利要求數(shù)、專利的壽命、同族專利數(shù)對(duì)專利價(jià)值評(píng)估具有顯著影響力[21-22]。專利壽命也是評(píng)估專利價(jià)值的維度之一[29]。在專利生命周期的各個(gè)階段中,專利代理人會(huì)為委托人撰寫高質(zhì)量的申請(qǐng)文件,從而更好地保護(hù)專利權(quán)人的法律權(quán)益,因此,本文將專利是否委托代理機(jī)構(gòu)納入特征體系中。專利權(quán)人通過在不同國(guó)家(地區(qū))申請(qǐng)專利權(quán)來獲得更大地域范圍的法律保護(hù),專利同族國(guó)家(地區(qū))范圍越大,專利的法律價(jià)值越高[19]。
2.1.3 市場(chǎng)特征
以往的研究多從專利同族成員數(shù)量、同族總被引數(shù)量、同族國(guó)家(地區(qū))數(shù)、國(guó)民經(jīng)濟(jì)分類方面考察專利的市場(chǎng)價(jià)值。專利族的規(guī)模越大,表示其應(yīng)用范圍越寬,市場(chǎng)占有能力越強(qiáng)。與專利被引證數(shù)類似,同族專利的總被引數(shù)越多,則表明專利價(jià)值越高。同時(shí),專利合作條約(PCT)是為了方便申請(qǐng)人同時(shí)在國(guó)際上對(duì)其發(fā)明尋求國(guó)際專利保護(hù),本文將專利是否申請(qǐng)PCT作為評(píng)估專利價(jià)值的市場(chǎng)特征之一。國(guó)民經(jīng)濟(jì)分類號(hào)可以體現(xiàn)專利技術(shù)在國(guó)民經(jīng)濟(jì)的分布情況,從而在一定程度上反映專利質(zhì)量的高低。
2.1.4 專利權(quán)人特征
專利等知識(shí)產(chǎn)權(quán)的狀況可以衡量企業(yè)競(jìng)爭(zhēng)力[30],相比高校、研究所等科研機(jī)構(gòu),企業(yè)專利權(quán)人有快速實(shí)現(xiàn)專利轉(zhuǎn)化的條件,并且收益快、回報(bào)高,而國(guó)內(nèi)私營(yíng)企業(yè)和外國(guó)企業(yè)、大企業(yè)和小企業(yè)的專利發(fā)明價(jià)值之間也存在較大的差異[31]。同時(shí),專利價(jià)值在一定程度上具有內(nèi)生性,專利權(quán)人在專利研發(fā)、起草和實(shí)施階段投入不同的精力會(huì)影響專利權(quán)的強(qiáng)度,進(jìn)而增加專利的總價(jià)值,而且與大公司相比,專利為個(gè)人賺取的回報(bào)較少[32]。對(duì)于高校專利而言,專利價(jià)值可以通過被許可或出售給企事業(yè)單位來實(shí)現(xiàn)。因此,本文將專利權(quán)人分為個(gè)人、企業(yè)、科研單位、大專院校、機(jī)關(guān)團(tuán)體、合作團(tuán)體(由兩種不同的專利權(quán)人組成),并將專利權(quán)人的地域位置按照國(guó)家(地區(qū))進(jìn)行劃分。
2.1.5 專利標(biāo)題的文本語(yǔ)義特征
本文應(yīng)用BERT模型[33]來提取專利標(biāo)題的文本語(yǔ)義特征,如圖1所示。采用預(yù)訓(xùn)練BERT模型中的漢語(yǔ)版本“bert-base-chinese”,其網(wǎng)絡(luò)結(jié)構(gòu)為12層、隱藏層中有768個(gè)神經(jīng)單元、12個(gè)頭模式和110M參數(shù)。BERT模型的輸入為每條專利的標(biāo)題,進(jìn)行向量化表示并用于BERT模型的訓(xùn)練,最終得到每條專利的特征向量與分類標(biāo)簽共同組成分類器的輸入進(jìn)行最終的分類。
圖1 基于BERT模型的文本語(yǔ)義特征向量提取
基于此,本文構(gòu)建的專利價(jià)值預(yù)測(cè)指標(biāo)體系包含專利技術(shù)特征、法律特征、市場(chǎng)特征、專利權(quán)人特征、文本語(yǔ)義特征,如表1所示。
表1 專利價(jià)值預(yù)測(cè)的指標(biāo)體系
本研究中使用的專利數(shù)據(jù)來源于Incopat專利數(shù)據(jù)庫(kù)(https://www.incopat.com)。該數(shù)據(jù)庫(kù)收錄了全球120個(gè)國(guó)家/組織/地區(qū)1億余件專利信息,專利數(shù)據(jù)字段全面,更新及時(shí)。本文在選擇樣本數(shù)據(jù)時(shí),參考中國(guó)信通院權(quán)威發(fā)布的5G概念白皮書[34],設(shè)置檢索式為TIABC=(5G OR the fifth generation OR the 5th generation OR Missive Mimo OR Ultra Dense Network OR PDMA OR Pattern Division Multiple Access OR NOMA OR Non Orthogonal Multiple Access OR SCMA OR Sparse Code Multiple Access PR MUSA OR Multi-User Shared Access OR Full Spectrum Access OR Software Defined Network OR SDN OR Network Function Virtualization OR NFV OR Device-to-Device OR D2D OR Filtered-OFDM OR F-OFDM OR FBMC OR Millimeter Wave OR Q-ary LDPC OR Cloud Computing)AND IPC=H04*,設(shè)置專利檢索時(shí)間范圍為1997—2019年,分別獲得國(guó)內(nèi)、國(guó)外專利數(shù)13 288件、25 539件,獲取的數(shù)據(jù)包括專利基本信息、專利家族信息、專利引文信息、專利權(quán)人信息等。
通過實(shí)施、許可、質(zhì)押、轉(zhuǎn)讓方式獲取經(jīng)濟(jì)利益是專利價(jià)值實(shí)現(xiàn)的主要途徑,是否為轉(zhuǎn)讓專利可作為專利價(jià)值的代理變量[19]。其中,專利轉(zhuǎn)讓、許可或質(zhì)押狀態(tài)是指專利權(quán)人是否將專利轉(zhuǎn)讓、許可或質(zhì)押給他人使用。本文將至少滿足以下3個(gè)要求的有效專利標(biāo)記為高價(jià)值專利:①在海外有同族專利權(quán);②曾經(jīng)發(fā)生轉(zhuǎn)讓(個(gè)人或者科研機(jī)構(gòu)轉(zhuǎn)讓給企業(yè))/許可/質(zhì)押;③符合戰(zhàn)略性新興產(chǎn)業(yè)分類;④維持年限超過10年。其余的專利標(biāo)記為非高價(jià)值專利。標(biāo)記后數(shù)據(jù)集中包含高價(jià)值的有效專利樣本2 664個(gè),非高價(jià)值的有效專利樣本14 921個(gè)。本文采用SMOTE算法[35]均衡正負(fù)樣本數(shù)量。
Foster R N[36]提出,用S曲線模型來表征技術(shù)發(fā)展階段,并且將其分為萌芽期、成長(zhǎng)期、成熟期以及衰退期,國(guó)內(nèi)外學(xué)者廣泛采用Logistic模型來呈現(xiàn)技術(shù)的生命周期[37],預(yù)測(cè)技術(shù)發(fā)展趨勢(shì)和技術(shù)成熟度。模型的計(jì)算公式如式(1)所示:
(1)
(2)
其中,m代表模型生成的CART樹棵數(shù)。F表示所有可能的CART樹,fm(xi)表示CART樹m的分類結(jié)果。
特征重要性是一種為預(yù)測(cè)模型的輸入特征進(jìn)行評(píng)分的方法,可以揭示進(jìn)行預(yù)測(cè)時(shí)每個(gè)特征的相對(duì)重要性。SHapley Additive exPlanation(SHAP)[39]解釋方法的基本原理是計(jì)算每個(gè)特征對(duì)模型的邊際貢獻(xiàn),然后計(jì)算該特征在所有特征序列中不同的邊界貢獻(xiàn),最后該特征所有邊際貢獻(xiàn)的均值即為SHAP值。SHAP解釋方法可以反映出專利樣本的特征的正負(fù)影響力。
假設(shè)模型基準(zhǔn)分(所有樣本的目標(biāo)變量的均值)為ybase,第i個(gè)樣本為xi,第i個(gè)樣本的第j個(gè)特征為xij,特征的邊際共現(xiàn)為msij,邊的權(quán)重為wk,模型對(duì)該樣本的預(yù)測(cè)值為yi,則第i個(gè)樣本的第1個(gè)特征的SHAP值f(xi1)如式(3)所示,同時(shí)SHAP值要服從式(4)。
(3)
(4)
本文使用Loglet Lab 4軟件對(duì)5G技術(shù)的國(guó)內(nèi)外專利增長(zhǎng)數(shù)據(jù)按照S型曲線進(jìn)行擬合,得到模型參數(shù)的擬合統(tǒng)計(jì)結(jié)果如表2所示。各國(guó)(地區(qū))5G技術(shù)S曲線擬合優(yōu)度R2值分均大于0.92,表示5個(gè)模型的擬合效果均較好。
表2 5G技術(shù)擬合結(jié)果統(tǒng)計(jì)表
S曲線擬合如圖2(a)所示。從表2和圖2可以看出,各國(guó)5G技術(shù)的萌芽期為2006—2013年,隨后在2013年逐漸步入成長(zhǎng)期,到2025年開始步入成熟期,預(yù)計(jì)在2032年進(jìn)入衰退期。模型預(yù)測(cè)中國(guó)、美國(guó)、韓國(guó)、日本的5G技術(shù)的最大累計(jì)申請(qǐng)量分別為32 652件、20 121件、18 411件、5 250件。5G專利申請(qǐng)量增長(zhǎng)速度如圖2(b)所示,中國(guó)和其他國(guó)家(地區(qū))申請(qǐng)5G專利的增長(zhǎng)速度分別在2016年和2015年達(dá)到峰值,隨后增長(zhǎng)速度逐漸下降。
注:(a)圖中的橫坐標(biāo)為年份,縱坐標(biāo)為累計(jì)申請(qǐng)專利數(shù)量;(b)圖中的橫坐標(biāo)為年份,縱坐標(biāo)為技術(shù)成熟度,其計(jì)算來源于k值。
本文基于BERT模型對(duì)專利標(biāo)題的文本信息進(jìn)行特征提取,將輸出的特征向量分別輸入到深度學(xué)習(xí)(CNN、RNN、DPCNN、RCNN)模型。同時(shí),將專利文本語(yǔ)義特征向量融合技術(shù)特征、專利權(quán)人特征、法律特征、市場(chǎng)特征,分別訓(xùn)練并構(gòu)建隨機(jī)森林、決策樹、SVM、XGBoost預(yù)測(cè)模型,采用精確率(precision)、召回率(recall)、F1值和準(zhǔn)確度(accuracy)來評(píng)估模型的分類效果,如式(5)~(8)所示。
(5)
(6)
(7)
(8)
其中,TP表示高價(jià)值專利樣本被預(yù)測(cè)為高價(jià)值的個(gè)數(shù),F(xiàn)P表示低價(jià)值專利樣本被預(yù)測(cè)為高價(jià)值的個(gè)數(shù),F(xiàn)N表示高價(jià)值專利樣本被預(yù)測(cè)為低價(jià)值的個(gè)數(shù),TN表示低價(jià)值專利樣本被預(yù)測(cè)為低價(jià)值的個(gè)數(shù)。
實(shí)驗(yàn)數(shù)據(jù)中訓(xùn)練集、測(cè)試集和驗(yàn)證集的比例為6∶2∶2。深度學(xué)習(xí)模型設(shè)置參數(shù)學(xué)習(xí)率為5e-5、隨機(jī)失活率為0.1、最大文本長(zhǎng)度為32、批大小為64。采取Adam優(yōu)化器,通過設(shè)置早停法來避免模型過擬合的問題。實(shí)驗(yàn)環(huán)境為2*Intel(R)Xeon(R)E5-2640 v4 x86_64,2.4GHz,20核心,Nvidia Tesla V100,內(nèi)存16G。采用十折交叉驗(yàn)證和GridSearchCV(網(wǎng)格搜索)算法進(jìn)行分類器的參數(shù)優(yōu)化。各模型分類結(jié)果如表3所示,基于多特征融合的XGBoost模型在精確率、F1值和準(zhǔn)確度上效果最佳。
表3 模型的評(píng)估結(jié)果
為了分析特征對(duì)數(shù)據(jù)樣本的影響范圍,本文基于SHAP解釋方法對(duì)專利價(jià)值預(yù)測(cè)結(jié)果進(jìn)行解釋性分析,如圖3所示。其中,紅色和藍(lán)色的樣本點(diǎn)分別代表該樣本在該特征上取值的高和低,SHAP值為負(fù)的樣本點(diǎn)代表特征對(duì)該樣本點(diǎn)取對(duì)應(yīng)顏色值時(shí)的高價(jià)值專利概率有負(fù)向貢獻(xiàn)。SHAP值為正的樣本點(diǎn)代表特征對(duì)該樣本點(diǎn)取對(duì)應(yīng)顏色值時(shí)的高價(jià)值專利概率有正向貢獻(xiàn)。同族國(guó)家(地區(qū))數(shù)、公開國(guó)別、被引證次數(shù)、簡(jiǎn)單同族個(gè)數(shù)、是否委托代理、技術(shù)生命周期、同族被引證次數(shù)、優(yōu)先權(quán)國(guó)家(地區(qū))、引證專利數(shù)等特征對(duì)模型影響效果較為顯著,被引證次數(shù)、引證專利數(shù)、同族被引證次數(shù)、權(quán)利要求數(shù)量越高,會(huì)增加樣本為高價(jià)值專利的概率。同族國(guó)家(地區(qū))數(shù)較高時(shí),樣本為高價(jià)值專利的概率較高,大部分同族國(guó)家(地區(qū))數(shù)較低的專利樣本為高價(jià)值專利的概率較低。V442、V328、V182等表征專利標(biāo)題文本語(yǔ)義特征的向量維度,文本語(yǔ)義特征的重要性因向量的多維性而較高。
圖3 基于SHAP解釋方法的特征重要性排序(左圖)和特征分析(右圖)
隨后,本文分別選取同族國(guó)家(地區(qū))數(shù)、簡(jiǎn)單同族個(gè)數(shù)、技術(shù)生命周期、同族被引證次數(shù)、IPC分類號(hào)數(shù)和國(guó)名經(jīng)濟(jì)分類這6個(gè)特征繪制SHAP特征依賴圖,如圖4所示。從圖4中可以發(fā)現(xiàn),同族國(guó)家(地區(qū))數(shù)和簡(jiǎn)單同族個(gè)數(shù)較低時(shí),專利為高價(jià)值專利的概率越低。簡(jiǎn)單同族個(gè)數(shù)低于20或者同族國(guó)家(地區(qū))數(shù)大于2時(shí),沒有委托代理的樣本為高價(jià)值專利的概率越高。處于成熟期的樣本經(jīng)過委托代理為高價(jià)值專利的概率較高。隨著同族被引證次數(shù)的增加,樣本為高價(jià)值專利的概率增加,當(dāng)同族被引證次數(shù)增加到一定值后,經(jīng)過委托代理為高價(jià)值專利的概率比沒有經(jīng)過委托代理的概率高。當(dāng)IPC分類號(hào)的個(gè)數(shù)為不大于2時(shí),樣本更傾向于為高價(jià)值專利,IPC分類號(hào)的個(gè)數(shù)大于2時(shí),沒有經(jīng)過委托代理的樣本更傾向于為非高價(jià)值專利。國(guó)民經(jīng)濟(jì)分類為C39(計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè))的樣本經(jīng)過委托代理為高價(jià)值專利的概率比沒有經(jīng)過委托代理的高。
圖4 SHAP特征依賴圖
本文針對(duì)專利價(jià)值預(yù)測(cè)問題,以高新技術(shù)5G專利為數(shù)據(jù)樣本,采用S曲線模型方法分析各國(guó)5G技術(shù)生命周期。本研究的主要貢獻(xiàn)在于從影響專利價(jià)值的內(nèi)部因素和外部因素著手,結(jié)合5G專利的技術(shù)領(lǐng)域特點(diǎn),基于多種機(jī)器學(xué)習(xí)算法構(gòu)建和評(píng)估多特征融合的專利價(jià)值預(yù)測(cè)模型。隨后,采用SHAP方法評(píng)估市場(chǎng)特征、技術(shù)特征、法律特征、專利權(quán)人特征和文本語(yǔ)義特征在專利價(jià)值預(yù)測(cè)問題中的重要性。
研究發(fā)現(xiàn),各國(guó)5G技術(shù)萌芽于2006年,在2013年步入成長(zhǎng)期,到2025年開始步入成熟期,預(yù)計(jì)在2032年進(jìn)入衰退期?;赬GBoost算法的多特征融合專利價(jià)值預(yù)測(cè)模型的F1值達(dá)到了0.894,高于其他基線模型,能較為準(zhǔn)確的預(yù)測(cè)專利價(jià)值,為專利價(jià)值預(yù)測(cè)領(lǐng)域中指標(biāo)設(shè)計(jì)和模型構(gòu)建提供了嘗試。從二級(jí)指標(biāo)來看,本文所構(gòu)建的基于同族國(guó)家(地區(qū))數(shù)、公開國(guó)別、被引證次數(shù)、簡(jiǎn)單同族個(gè)數(shù)、是否委托代理、技術(shù)生命周期等特征對(duì)專利價(jià)值預(yù)測(cè)顯示出了較強(qiáng)的解釋能力。本文所構(gòu)建的多特征融合的專利價(jià)值預(yù)測(cè)模型可幫助投資者較為準(zhǔn)確地選擇被預(yù)測(cè)為高價(jià)值的專利進(jìn)行投資,有效規(guī)避專利價(jià)值預(yù)測(cè)不準(zhǔn)確所產(chǎn)生的損失。未來可探索該專利價(jià)值預(yù)測(cè)方法在其他技術(shù)領(lǐng)域的有效性。
致謝:感謝圖書情報(bào)國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心為本研究提供的實(shí)驗(yàn)支持!