孫 冉 安 璐,2* 李 綱,2
(1.武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072;2.武漢大學(xué)信息資源研究中心,湖北 武漢 430072)
科技創(chuàng)新是衡量企業(yè)和國(guó)家(地區(qū))實(shí)力的重要指標(biāo),專(zhuān)利數(shù)據(jù)中包含大量的前沿技術(shù)信息,企業(yè)所擁有的專(zhuān)利可以用來(lái)衡量企業(yè)的技術(shù)創(chuàng)新能力。“十四五”規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要明確提出:優(yōu)化專(zhuān)利資助獎(jiǎng)勵(lì)政策和考核評(píng)價(jià)機(jī)制,更好保護(hù)和激勵(lì)高價(jià)值專(zhuān)利,培育專(zhuān)利密集型產(chǎn)業(yè)[1]。近來(lái),國(guó)家知識(shí)產(chǎn)權(quán)局明確將戰(zhàn)略性新興產(chǎn)業(yè)、在海外有同族專(zhuān)利權(quán)、維持年限超過(guò)10年、實(shí)現(xiàn)較高質(zhì)押融資金額、獲得國(guó)家科學(xué)技術(shù)獎(jiǎng)或中國(guó)專(zhuān)利獎(jiǎng)的有效發(fā)明專(zhuān)利看成高價(jià)值發(fā)明專(zhuān)利。
在以往的研究中,有關(guān)專(zhuān)利價(jià)值的界定較為模糊,多將其劃分為經(jīng)濟(jì)價(jià)值、技術(shù)價(jià)值、市場(chǎng)價(jià)值、法律價(jià)值、使用價(jià)值、戰(zhàn)略價(jià)值等,基于價(jià)值分類(lèi)的基礎(chǔ)上,不同學(xué)者在自身學(xué)科背景視角下,結(jié)合不同的理論和方法構(gòu)建專(zhuān)利價(jià)值評(píng)價(jià)指標(biāo)體系,探討不同的影響因素和專(zhuān)利價(jià)值之間的相關(guān)性,而缺少對(duì)專(zhuān)利價(jià)值進(jìn)行前瞻性的預(yù)測(cè),現(xiàn)有的專(zhuān)利價(jià)值預(yù)測(cè)研究多以已經(jīng)獲獎(jiǎng)的國(guó)內(nèi)專(zhuān)利為研究對(duì)象,預(yù)測(cè)模型不適用于對(duì)大規(guī)模專(zhuān)利數(shù)據(jù)進(jìn)行價(jià)值預(yù)測(cè),并且不同領(lǐng)域中指標(biāo)的適用性并不一致。本文擬解決以下幾個(gè)研究問(wèn)題:①如何抽取海量專(zhuān)利信息中的特征,構(gòu)建多特征融合的專(zhuān)利價(jià)值預(yù)測(cè)模型,快速有效地進(jìn)行專(zhuān)利價(jià)值預(yù)測(cè);②不同指標(biāo)在專(zhuān)利價(jià)值預(yù)測(cè)中的重要性。
根據(jù)IPlystics發(fā)布的報(bào)告《Who is Leading the 5G Patent Race?》顯示,各國(guó)(地區(qū))向歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)(ETSI)申報(bào)的5G專(zhuān)利達(dá)到95 526項(xiàng),其中,中國(guó)企業(yè)聲明的5G專(zhuān)利占比32.97%,擁有5G同族專(zhuān)利數(shù)最高的公司分別為華為(中國(guó))、高通(美國(guó))、中興(中國(guó))、三星(韓國(guó))、諾基亞(芬蘭),屬于5G技術(shù)的重要支柱[2]。隨著我國(guó)移動(dòng)通信技術(shù)從2G發(fā)展到第五代移動(dòng)通信技術(shù)(5G),準(zhǔn)確識(shí)別國(guó)內(nèi)外5G專(zhuān)利價(jià)值的需求與日俱增。
以5G專(zhuān)利為例,深入研究專(zhuān)利價(jià)值預(yù)測(cè)對(duì)企業(yè)、國(guó)家(地區(qū))實(shí)施專(zhuān)利戰(zhàn)略布局具有重要意義。因此,本文取國(guó)內(nèi)外的5G專(zhuān)利作為數(shù)據(jù)樣本,利用Logistic模型來(lái)分析國(guó)內(nèi)外5G技術(shù)的生命周期,基于BERT模型對(duì)專(zhuān)利標(biāo)題的文本語(yǔ)義信息進(jìn)行特征提取,構(gòu)建基于技術(shù)特征、法律特征、市場(chǎng)特征、專(zhuān)利權(quán)人特征、專(zhuān)利標(biāo)題的文本語(yǔ)義特征的專(zhuān)利價(jià)值預(yù)測(cè)特征體系,采用傳統(tǒng)機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、決策樹(shù)、XGBoost等)和深度學(xué)習(xí)模型(如CNN、RNN等)構(gòu)建專(zhuān)利價(jià)值預(yù)測(cè)模型,并探究技術(shù)特征、法律特征、市場(chǎng)特征、專(zhuān)利權(quán)人特征、專(zhuān)利標(biāo)題的文本語(yǔ)義特征在專(zhuān)利價(jià)值預(yù)測(cè)上的表現(xiàn)。
目前,有關(guān)專(zhuān)利價(jià)值前瞻性預(yù)測(cè)的研究較少,不同學(xué)者多從各自的學(xué)科視角出發(fā),圍繞專(zhuān)利價(jià)值指標(biāo)體系、方法對(duì)專(zhuān)利價(jià)值展開(kāi)研究。由于專(zhuān)利價(jià)值具有模糊性、多維性、未知性,不同學(xué)者基于不同的背景對(duì)專(zhuān)利價(jià)值進(jìn)行界定,比如從市場(chǎng)應(yīng)用情況、專(zhuān)利申請(qǐng)規(guī)模、專(zhuān)利占有率、政策實(shí)用性等評(píng)價(jià)專(zhuān)利創(chuàng)造的經(jīng)濟(jì)價(jià)值[3];從專(zhuān)利技術(shù)本身的特點(diǎn)出發(fā),可將其劃分為內(nèi)在價(jià)值和外在價(jià)值[4-5];現(xiàn)多從專(zhuān)利需求出發(fā),將其劃分為技術(shù)價(jià)值、法律價(jià)值和經(jīng)濟(jì)價(jià)值[6-7]。有學(xué)者提出可用專(zhuān)利引文信息來(lái)衡量專(zhuān)利技術(shù)的價(jià)值[8],由于可能會(huì)存在專(zhuān)利“睡美人”現(xiàn)象,不能通過(guò)引文信息全面準(zhǔn)確地判斷專(zhuān)利價(jià)值。
隨后,學(xué)者不斷從市場(chǎng)價(jià)值、經(jīng)濟(jì)價(jià)值、法律價(jià)值、商業(yè)價(jià)值等方面對(duì)專(zhuān)利價(jià)值指標(biāo)體系進(jìn)行補(bǔ)充完善,Reitzig M[9]基于價(jià)值決定理論提出專(zhuān)利價(jià)值的影響因素包括專(zhuān)利生命周期、新穎性和創(chuàng)造性、技術(shù)寬度、專(zhuān)利功能性、排他權(quán)利、討價(jià)還價(jià)等。除此之外,專(zhuān)利價(jià)值的影響因素還包括專(zhuān)利的長(zhǎng)度、技術(shù)生命周期、專(zhuān)利訴訟、專(zhuān)利族、權(quán)利要求數(shù)、專(zhuān)利權(quán)人特征[10-11],不同行業(yè)領(lǐng)域的專(zhuān)利價(jià)值指標(biāo)也有所不同[6]。專(zhuān)利權(quán)人可以通過(guò)轉(zhuǎn)讓、質(zhì)押、許可等方式,實(shí)現(xiàn)顯性知識(shí)轉(zhuǎn)移,而知識(shí)水平的提升則是促進(jìn)經(jīng)濟(jì)發(fā)展的主要因素,即擁有更多知識(shí)的公司在企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)上勝過(guò)其他公司,能有效開(kāi)發(fā)利用其知識(shí)資產(chǎn)的地區(qū)表現(xiàn)更好[12]。有關(guān)專(zhuān)利轉(zhuǎn)讓的研究多圍繞專(zhuān)利轉(zhuǎn)讓模式、專(zhuān)利轉(zhuǎn)讓網(wǎng)絡(luò)結(jié)構(gòu)分析、專(zhuān)利技術(shù)轉(zhuǎn)移等視角進(jìn)行展開(kāi)。國(guó)內(nèi)多將專(zhuān)利轉(zhuǎn)讓作為專(zhuān)利價(jià)值指標(biāo)體系中的一部分,劉勤等[10]基于“四位一體”的高價(jià)值專(zhuān)利分析理念,將專(zhuān)利轉(zhuǎn)讓作為一個(gè)指標(biāo)來(lái)構(gòu)建專(zhuān)利價(jià)值預(yù)測(cè)模型。
有關(guān)專(zhuān)利價(jià)值評(píng)估方法主要可分為3類(lèi):①市場(chǎng)基準(zhǔn)方法,Wu M C[13]基于實(shí)物期權(quán)框架探索專(zhuān)利價(jià)值的影響因素,發(fā)現(xiàn)降低成本、提高專(zhuān)利數(shù)量和提高創(chuàng)新效率能為公司增加專(zhuān)利價(jià)值;②綜合評(píng)價(jià)法,以往學(xué)者多利用專(zhuān)家法對(duì)專(zhuān)利技術(shù)覆蓋范圍、產(chǎn)品市場(chǎng)價(jià)值、專(zhuān)利運(yùn)營(yíng)等方面進(jìn)行基于主觀經(jīng)驗(yàn)的發(fā)展評(píng)估[14],現(xiàn)在多結(jié)合層次分析法、模糊評(píng)價(jià)法等進(jìn)行綜合評(píng)價(jià)[15]。Hsieh C H[16]提出一種基于因子分析來(lái)評(píng)估專(zhuān)利價(jià)值和確定商業(yè)化初期戰(zhàn)略的混合方法。但不論是市場(chǎng)基準(zhǔn)法還是綜合評(píng)價(jià)法,都具有一定的主觀性,沒(méi)有統(tǒng)一的評(píng)判標(biāo)準(zhǔn);③機(jī)器學(xué)習(xí)技術(shù),為了更好地理解不同指標(biāo)對(duì)專(zhuān)利價(jià)值的影響,可用機(jī)器學(xué)習(xí)技術(shù)篩選出專(zhuān)利價(jià)值預(yù)測(cè)的關(guān)鍵指標(biāo)[17]。楊冠燦等[18]基于矩陣轉(zhuǎn)化方法,提出一種專(zhuān)利綜合引用網(wǎng)絡(luò)構(gòu)建方法來(lái)進(jìn)行專(zhuān)利價(jià)值評(píng)價(jià)。張杰等[19]采用AdaBoost算法構(gòu)建基于法律、技術(shù)和市場(chǎng)質(zhì)量的專(zhuān)利質(zhì)量評(píng)價(jià)模型,能識(shí)別出大部分轉(zhuǎn)讓專(zhuān)利為高質(zhì)量專(zhuān)利。Trappey A J C等[20]利用主成分分析方法從專(zhuān)利數(shù)據(jù)集中識(shí)別重要的專(zhuān)利價(jià)值指標(biāo),再構(gòu)建基于PCA預(yù)處理的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行專(zhuān)利價(jià)值的智能估算。結(jié)合貨幣價(jià)值和專(zhuān)利價(jià)值的隨機(jī)森林方法來(lái)預(yù)測(cè)技術(shù)價(jià)值,比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法具有更高的性能[21]。
綜上所述,學(xué)界對(duì)專(zhuān)利價(jià)值預(yù)測(cè)還處于探索階段,大部分學(xué)者提出的專(zhuān)利價(jià)值預(yù)測(cè)指標(biāo)體系中的指標(biāo)較為零散,同時(shí),不同領(lǐng)域下的價(jià)值指標(biāo)體系應(yīng)該有所不同,尤其是針對(duì)5G這樣的高新技術(shù),標(biāo)準(zhǔn)必要專(zhuān)利更強(qiáng)調(diào)專(zhuān)利的技術(shù)屬性。本研究擬將專(zhuān)利生命周期相關(guān)理論和方法應(yīng)用到價(jià)值預(yù)測(cè)中,分別從外部因素和內(nèi)部因素將專(zhuān)利價(jià)值劃分為市場(chǎng)價(jià)值和法律價(jià)值、技術(shù)價(jià)值、專(zhuān)利權(quán)人價(jià)值和專(zhuān)利文本語(yǔ)義特征,構(gòu)建包含技術(shù)特征、法律特征、市場(chǎng)特征、專(zhuān)利權(quán)人特征和專(zhuān)利文本語(yǔ)義特征的專(zhuān)利價(jià)值預(yù)測(cè)模型,有助于高新企業(yè)、科研機(jī)構(gòu)和知識(shí)產(chǎn)權(quán)管理部門(mén)識(shí)別價(jià)值較高的專(zhuān)利。
2.1.1 技術(shù)特征
專(zhuān)利的引證次數(shù)、專(zhuān)利被引證次數(shù)、專(zhuān)利對(duì)科技文獻(xiàn)的引證與專(zhuān)利價(jià)值顯著相關(guān)[22],但也有研究表明專(zhuān)利被引頻次與專(zhuān)利價(jià)值基本無(wú)關(guān)[23]。最早Lerner J[24]研究發(fā)現(xiàn)了公司的市場(chǎng)價(jià)值與公司所擁有專(zhuān)利的IPC分類(lèi)號(hào)數(shù)量之間的相關(guān)性,但后續(xù)有研究表明,IPC分類(lèi)號(hào)的數(shù)量對(duì)專(zhuān)利的價(jià)值沒(méi)有顯著影響[25]。本文將繼續(xù)評(píng)估IPC分類(lèi)號(hào)的數(shù)量在預(yù)測(cè)5G專(zhuān)利價(jià)值中的重要性,并將專(zhuān)利技術(shù)寬度定義為專(zhuān)利所包含的IPC分類(lèi)號(hào)的數(shù)量。在高新技術(shù)領(lǐng)域內(nèi),專(zhuān)利權(quán)人為了通過(guò)標(biāo)準(zhǔn)的實(shí)施獲取更多的許可利潤(rùn)以及占據(jù)市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),往往會(huì)將關(guān)鍵專(zhuān)利納入標(biāo)準(zhǔn)中,因此形成了標(biāo)準(zhǔn)必要專(zhuān)利(SEP),可用其來(lái)衡量國(guó)家(地區(qū))或企業(yè)在5G專(zhuān)利中的競(jìng)爭(zhēng)力。5G標(biāo)準(zhǔn)是由標(biāo)準(zhǔn)化組織3GPP統(tǒng)一制定。本研究將專(zhuān)利是否符合5G標(biāo)準(zhǔn)和專(zhuān)利符合的ETSI標(biāo)準(zhǔn)數(shù)作為指標(biāo)考慮在內(nèi),其中,ETSI認(rèn)定的5G標(biāo)準(zhǔn)主要包括5G、3GPP 5G NR、3GPP-Release-15等,對(duì)于不符合5G標(biāo)準(zhǔn)的專(zhuān)利,若其符合3G或者4G標(biāo)準(zhǔn),則表明該項(xiàng)專(zhuān)利也具有較高的價(jià)值,因此將專(zhuān)利符合的ETSI標(biāo)準(zhǔn)數(shù)也考慮在內(nèi)。在不同的技術(shù)領(lǐng)域內(nèi),專(zhuān)利處在不同技術(shù)生命周期發(fā)展階段會(huì)對(duì)專(zhuān)利價(jià)值造成不同程度的影響[26]。同時(shí)有學(xué)者研究發(fā)現(xiàn),發(fā)明人特征也能顯著影響到專(zhuān)利生產(chǎn)力[27]。
2.1.2 法律特征
本文從專(zhuān)利權(quán)利保護(hù)范圍、地域保護(hù)范圍、時(shí)間保護(hù)范圍等角度來(lái)衡量專(zhuān)利價(jià)值。其中,專(zhuān)利的權(quán)利要求數(shù)能確定專(zhuān)利的保護(hù)范圍,而保護(hù)范圍越大,專(zhuān)利價(jià)值越大[28]。權(quán)利要求數(shù)、專(zhuān)利的壽命、同族專(zhuān)利數(shù)對(duì)專(zhuān)利價(jià)值評(píng)估具有顯著影響力[21-22]。專(zhuān)利壽命也是評(píng)估專(zhuān)利價(jià)值的維度之一[29]。在專(zhuān)利生命周期的各個(gè)階段中,專(zhuān)利代理人會(huì)為委托人撰寫(xiě)高質(zhì)量的申請(qǐng)文件,從而更好地保護(hù)專(zhuān)利權(quán)人的法律權(quán)益,因此,本文將專(zhuān)利是否委托代理機(jī)構(gòu)納入特征體系中。專(zhuān)利權(quán)人通過(guò)在不同國(guó)家(地區(qū))申請(qǐng)專(zhuān)利權(quán)來(lái)獲得更大地域范圍的法律保護(hù),專(zhuān)利同族國(guó)家(地區(qū))范圍越大,專(zhuān)利的法律價(jià)值越高[19]。
2.1.3 市場(chǎng)特征
以往的研究多從專(zhuān)利同族成員數(shù)量、同族總被引數(shù)量、同族國(guó)家(地區(qū))數(shù)、國(guó)民經(jīng)濟(jì)分類(lèi)方面考察專(zhuān)利的市場(chǎng)價(jià)值。專(zhuān)利族的規(guī)模越大,表示其應(yīng)用范圍越寬,市場(chǎng)占有能力越強(qiáng)。與專(zhuān)利被引證數(shù)類(lèi)似,同族專(zhuān)利的總被引數(shù)越多,則表明專(zhuān)利價(jià)值越高。同時(shí),專(zhuān)利合作條約(PCT)是為了方便申請(qǐng)人同時(shí)在國(guó)際上對(duì)其發(fā)明尋求國(guó)際專(zhuān)利保護(hù),本文將專(zhuān)利是否申請(qǐng)PCT作為評(píng)估專(zhuān)利價(jià)值的市場(chǎng)特征之一。國(guó)民經(jīng)濟(jì)分類(lèi)號(hào)可以體現(xiàn)專(zhuān)利技術(shù)在國(guó)民經(jīng)濟(jì)的分布情況,從而在一定程度上反映專(zhuān)利質(zhì)量的高低。
2.1.4 專(zhuān)利權(quán)人特征
專(zhuān)利等知識(shí)產(chǎn)權(quán)的狀況可以衡量企業(yè)競(jìng)爭(zhēng)力[30],相比高校、研究所等科研機(jī)構(gòu),企業(yè)專(zhuān)利權(quán)人有快速實(shí)現(xiàn)專(zhuān)利轉(zhuǎn)化的條件,并且收益快、回報(bào)高,而國(guó)內(nèi)私營(yíng)企業(yè)和外國(guó)企業(yè)、大企業(yè)和小企業(yè)的專(zhuān)利發(fā)明價(jià)值之間也存在較大的差異[31]。同時(shí),專(zhuān)利價(jià)值在一定程度上具有內(nèi)生性,專(zhuān)利權(quán)人在專(zhuān)利研發(fā)、起草和實(shí)施階段投入不同的精力會(huì)影響專(zhuān)利權(quán)的強(qiáng)度,進(jìn)而增加專(zhuān)利的總價(jià)值,而且與大公司相比,專(zhuān)利為個(gè)人賺取的回報(bào)較少[32]。對(duì)于高校專(zhuān)利而言,專(zhuān)利價(jià)值可以通過(guò)被許可或出售給企事業(yè)單位來(lái)實(shí)現(xiàn)。因此,本文將專(zhuān)利權(quán)人分為個(gè)人、企業(yè)、科研單位、大專(zhuān)院校、機(jī)關(guān)團(tuán)體、合作團(tuán)體(由兩種不同的專(zhuān)利權(quán)人組成),并將專(zhuān)利權(quán)人的地域位置按照國(guó)家(地區(qū))進(jìn)行劃分。
2.1.5 專(zhuān)利標(biāo)題的文本語(yǔ)義特征
本文應(yīng)用BERT模型[33]來(lái)提取專(zhuān)利標(biāo)題的文本語(yǔ)義特征,如圖1所示。采用預(yù)訓(xùn)練BERT模型中的漢語(yǔ)版本“bert-base-chinese”,其網(wǎng)絡(luò)結(jié)構(gòu)為12層、隱藏層中有768個(gè)神經(jīng)單元、12個(gè)頭模式和110M參數(shù)。BERT模型的輸入為每條專(zhuān)利的標(biāo)題,進(jìn)行向量化表示并用于BERT模型的訓(xùn)練,最終得到每條專(zhuān)利的特征向量與分類(lèi)標(biāo)簽共同組成分類(lèi)器的輸入進(jìn)行最終的分類(lèi)。
圖1 基于BERT模型的文本語(yǔ)義特征向量提取
基于此,本文構(gòu)建的專(zhuān)利價(jià)值預(yù)測(cè)指標(biāo)體系包含專(zhuān)利技術(shù)特征、法律特征、市場(chǎng)特征、專(zhuān)利權(quán)人特征、文本語(yǔ)義特征,如表1所示。
表1 專(zhuān)利價(jià)值預(yù)測(cè)的指標(biāo)體系
本研究中使用的專(zhuān)利數(shù)據(jù)來(lái)源于Incopat專(zhuān)利數(shù)據(jù)庫(kù)(https://www.incopat.com)。該數(shù)據(jù)庫(kù)收錄了全球120個(gè)國(guó)家/組織/地區(qū)1億余件專(zhuān)利信息,專(zhuān)利數(shù)據(jù)字段全面,更新及時(shí)。本文在選擇樣本數(shù)據(jù)時(shí),參考中國(guó)信通院權(quán)威發(fā)布的5G概念白皮書(shū)[34],設(shè)置檢索式為T(mén)IABC=(5G OR the fifth generation OR the 5th generation OR Missive Mimo OR Ultra Dense Network OR PDMA OR Pattern Division Multiple Access OR NOMA OR Non Orthogonal Multiple Access OR SCMA OR Sparse Code Multiple Access PR MUSA OR Multi-User Shared Access OR Full Spectrum Access OR Software Defined Network OR SDN OR Network Function Virtualization OR NFV OR Device-to-Device OR D2D OR Filtered-OFDM OR F-OFDM OR FBMC OR Millimeter Wave OR Q-ary LDPC OR Cloud Computing)AND IPC=H04*,設(shè)置專(zhuān)利檢索時(shí)間范圍為1997—2019年,分別獲得國(guó)內(nèi)、國(guó)外專(zhuān)利數(shù)13 288件、25 539件,獲取的數(shù)據(jù)包括專(zhuān)利基本信息、專(zhuān)利家族信息、專(zhuān)利引文信息、專(zhuān)利權(quán)人信息等。
通過(guò)實(shí)施、許可、質(zhì)押、轉(zhuǎn)讓方式獲取經(jīng)濟(jì)利益是專(zhuān)利價(jià)值實(shí)現(xiàn)的主要途徑,是否為轉(zhuǎn)讓專(zhuān)利可作為專(zhuān)利價(jià)值的代理變量[19]。其中,專(zhuān)利轉(zhuǎn)讓、許可或質(zhì)押狀態(tài)是指專(zhuān)利權(quán)人是否將專(zhuān)利轉(zhuǎn)讓、許可或質(zhì)押給他人使用。本文將至少滿足以下3個(gè)要求的有效專(zhuān)利標(biāo)記為高價(jià)值專(zhuān)利:①在海外有同族專(zhuān)利權(quán);②曾經(jīng)發(fā)生轉(zhuǎn)讓(個(gè)人或者科研機(jī)構(gòu)轉(zhuǎn)讓給企業(yè))/許可/質(zhì)押;③符合戰(zhàn)略性新興產(chǎn)業(yè)分類(lèi);④維持年限超過(guò)10年。其余的專(zhuān)利標(biāo)記為非高價(jià)值專(zhuān)利。標(biāo)記后數(shù)據(jù)集中包含高價(jià)值的有效專(zhuān)利樣本2 664個(gè),非高價(jià)值的有效專(zhuān)利樣本14 921個(gè)。本文采用SMOTE算法[35]均衡正負(fù)樣本數(shù)量。
Foster R N[36]提出,用S曲線模型來(lái)表征技術(shù)發(fā)展階段,并且將其分為萌芽期、成長(zhǎng)期、成熟期以及衰退期,國(guó)內(nèi)外學(xué)者廣泛采用Logistic模型來(lái)呈現(xiàn)技術(shù)的生命周期[37],預(yù)測(cè)技術(shù)發(fā)展趨勢(shì)和技術(shù)成熟度。模型的計(jì)算公式如式(1)所示:
(1)
(2)
其中,m代表模型生成的CART樹(shù)棵數(shù)。F表示所有可能的CART樹(shù),fm(xi)表示CART樹(shù)m的分類(lèi)結(jié)果。
特征重要性是一種為預(yù)測(cè)模型的輸入特征進(jìn)行評(píng)分的方法,可以揭示進(jìn)行預(yù)測(cè)時(shí)每個(gè)特征的相對(duì)重要性。SHapley Additive exPlanation(SHAP)[39]解釋方法的基本原理是計(jì)算每個(gè)特征對(duì)模型的邊際貢獻(xiàn),然后計(jì)算該特征在所有特征序列中不同的邊界貢獻(xiàn),最后該特征所有邊際貢獻(xiàn)的均值即為SHAP值。SHAP解釋方法可以反映出專(zhuān)利樣本的特征的正負(fù)影響力。
假設(shè)模型基準(zhǔn)分(所有樣本的目標(biāo)變量的均值)為ybase,第i個(gè)樣本為xi,第i個(gè)樣本的第j個(gè)特征為xij,特征的邊際共現(xiàn)為msij,邊的權(quán)重為wk,模型對(duì)該樣本的預(yù)測(cè)值為yi,則第i個(gè)樣本的第1個(gè)特征的SHAP值f(xi1)如式(3)所示,同時(shí)SHAP值要服從式(4)。
(3)
(4)
本文使用Loglet Lab 4軟件對(duì)5G技術(shù)的國(guó)內(nèi)外專(zhuān)利增長(zhǎng)數(shù)據(jù)按照S型曲線進(jìn)行擬合,得到模型參數(shù)的擬合統(tǒng)計(jì)結(jié)果如表2所示。各國(guó)(地區(qū))5G技術(shù)S曲線擬合優(yōu)度R2值分均大于0.92,表示5個(gè)模型的擬合效果均較好。
表2 5G技術(shù)擬合結(jié)果統(tǒng)計(jì)表
S曲線擬合如圖2(a)所示。從表2和圖2可以看出,各國(guó)5G技術(shù)的萌芽期為2006—2013年,隨后在2013年逐漸步入成長(zhǎng)期,到2025年開(kāi)始步入成熟期,預(yù)計(jì)在2032年進(jìn)入衰退期。模型預(yù)測(cè)中國(guó)、美國(guó)、韓國(guó)、日本的5G技術(shù)的最大累計(jì)申請(qǐng)量分別為32 652件、20 121件、18 411件、5 250件。5G專(zhuān)利申請(qǐng)量增長(zhǎng)速度如圖2(b)所示,中國(guó)和其他國(guó)家(地區(qū))申請(qǐng)5G專(zhuān)利的增長(zhǎng)速度分別在2016年和2015年達(dá)到峰值,隨后增長(zhǎng)速度逐漸下降。
注:(a)圖中的橫坐標(biāo)為年份,縱坐標(biāo)為累計(jì)申請(qǐng)專(zhuān)利數(shù)量;(b)圖中的橫坐標(biāo)為年份,縱坐標(biāo)為技術(shù)成熟度,其計(jì)算來(lái)源于k值。
本文基于BERT模型對(duì)專(zhuān)利標(biāo)題的文本信息進(jìn)行特征提取,將輸出的特征向量分別輸入到深度學(xué)習(xí)(CNN、RNN、DPCNN、RCNN)模型。同時(shí),將專(zhuān)利文本語(yǔ)義特征向量融合技術(shù)特征、專(zhuān)利權(quán)人特征、法律特征、市場(chǎng)特征,分別訓(xùn)練并構(gòu)建隨機(jī)森林、決策樹(shù)、SVM、XGBoost預(yù)測(cè)模型,采用精確率(precision)、召回率(recall)、F1值和準(zhǔn)確度(accuracy)來(lái)評(píng)估模型的分類(lèi)效果,如式(5)~(8)所示。
(5)
(6)
(7)
(8)
其中,TP表示高價(jià)值專(zhuān)利樣本被預(yù)測(cè)為高價(jià)值的個(gè)數(shù),F(xiàn)P表示低價(jià)值專(zhuān)利樣本被預(yù)測(cè)為高價(jià)值的個(gè)數(shù),F(xiàn)N表示高價(jià)值專(zhuān)利樣本被預(yù)測(cè)為低價(jià)值的個(gè)數(shù),TN表示低價(jià)值專(zhuān)利樣本被預(yù)測(cè)為低價(jià)值的個(gè)數(shù)。
實(shí)驗(yàn)數(shù)據(jù)中訓(xùn)練集、測(cè)試集和驗(yàn)證集的比例為6∶2∶2。深度學(xué)習(xí)模型設(shè)置參數(shù)學(xué)習(xí)率為5e-5、隨機(jī)失活率為0.1、最大文本長(zhǎng)度為32、批大小為64。采取Adam優(yōu)化器,通過(guò)設(shè)置早停法來(lái)避免模型過(guò)擬合的問(wèn)題。實(shí)驗(yàn)環(huán)境為2*Intel(R)Xeon(R)E5-2640 v4 x86_64,2.4GHz,20核心,Nvidia Tesla V100,內(nèi)存16G。采用十折交叉驗(yàn)證和GridSearchCV(網(wǎng)格搜索)算法進(jìn)行分類(lèi)器的參數(shù)優(yōu)化。各模型分類(lèi)結(jié)果如表3所示,基于多特征融合的XGBoost模型在精確率、F1值和準(zhǔn)確度上效果最佳。
表3 模型的評(píng)估結(jié)果
為了分析特征對(duì)數(shù)據(jù)樣本的影響范圍,本文基于SHAP解釋方法對(duì)專(zhuān)利價(jià)值預(yù)測(cè)結(jié)果進(jìn)行解釋性分析,如圖3所示。其中,紅色和藍(lán)色的樣本點(diǎn)分別代表該樣本在該特征上取值的高和低,SHAP值為負(fù)的樣本點(diǎn)代表特征對(duì)該樣本點(diǎn)取對(duì)應(yīng)顏色值時(shí)的高價(jià)值專(zhuān)利概率有負(fù)向貢獻(xiàn)。SHAP值為正的樣本點(diǎn)代表特征對(duì)該樣本點(diǎn)取對(duì)應(yīng)顏色值時(shí)的高價(jià)值專(zhuān)利概率有正向貢獻(xiàn)。同族國(guó)家(地區(qū))數(shù)、公開(kāi)國(guó)別、被引證次數(shù)、簡(jiǎn)單同族個(gè)數(shù)、是否委托代理、技術(shù)生命周期、同族被引證次數(shù)、優(yōu)先權(quán)國(guó)家(地區(qū))、引證專(zhuān)利數(shù)等特征對(duì)模型影響效果較為顯著,被引證次數(shù)、引證專(zhuān)利數(shù)、同族被引證次數(shù)、權(quán)利要求數(shù)量越高,會(huì)增加樣本為高價(jià)值專(zhuān)利的概率。同族國(guó)家(地區(qū))數(shù)較高時(shí),樣本為高價(jià)值專(zhuān)利的概率較高,大部分同族國(guó)家(地區(qū))數(shù)較低的專(zhuān)利樣本為高價(jià)值專(zhuān)利的概率較低。V442、V328、V182等表征專(zhuān)利標(biāo)題文本語(yǔ)義特征的向量維度,文本語(yǔ)義特征的重要性因向量的多維性而較高。
圖3 基于SHAP解釋方法的特征重要性排序(左圖)和特征分析(右圖)
隨后,本文分別選取同族國(guó)家(地區(qū))數(shù)、簡(jiǎn)單同族個(gè)數(shù)、技術(shù)生命周期、同族被引證次數(shù)、IPC分類(lèi)號(hào)數(shù)和國(guó)名經(jīng)濟(jì)分類(lèi)這6個(gè)特征繪制SHAP特征依賴圖,如圖4所示。從圖4中可以發(fā)現(xiàn),同族國(guó)家(地區(qū))數(shù)和簡(jiǎn)單同族個(gè)數(shù)較低時(shí),專(zhuān)利為高價(jià)值專(zhuān)利的概率越低。簡(jiǎn)單同族個(gè)數(shù)低于20或者同族國(guó)家(地區(qū))數(shù)大于2時(shí),沒(méi)有委托代理的樣本為高價(jià)值專(zhuān)利的概率越高。處于成熟期的樣本經(jīng)過(guò)委托代理為高價(jià)值專(zhuān)利的概率較高。隨著同族被引證次數(shù)的增加,樣本為高價(jià)值專(zhuān)利的概率增加,當(dāng)同族被引證次數(shù)增加到一定值后,經(jīng)過(guò)委托代理為高價(jià)值專(zhuān)利的概率比沒(méi)有經(jīng)過(guò)委托代理的概率高。當(dāng)IPC分類(lèi)號(hào)的個(gè)數(shù)為不大于2時(shí),樣本更傾向于為高價(jià)值專(zhuān)利,IPC分類(lèi)號(hào)的個(gè)數(shù)大于2時(shí),沒(méi)有經(jīng)過(guò)委托代理的樣本更傾向于為非高價(jià)值專(zhuān)利。國(guó)民經(jīng)濟(jì)分類(lèi)為C39(計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè))的樣本經(jīng)過(guò)委托代理為高價(jià)值專(zhuān)利的概率比沒(méi)有經(jīng)過(guò)委托代理的高。
圖4 SHAP特征依賴圖
本文針對(duì)專(zhuān)利價(jià)值預(yù)測(cè)問(wèn)題,以高新技術(shù)5G專(zhuān)利為數(shù)據(jù)樣本,采用S曲線模型方法分析各國(guó)5G技術(shù)生命周期。本研究的主要貢獻(xiàn)在于從影響專(zhuān)利價(jià)值的內(nèi)部因素和外部因素著手,結(jié)合5G專(zhuān)利的技術(shù)領(lǐng)域特點(diǎn),基于多種機(jī)器學(xué)習(xí)算法構(gòu)建和評(píng)估多特征融合的專(zhuān)利價(jià)值預(yù)測(cè)模型。隨后,采用SHAP方法評(píng)估市場(chǎng)特征、技術(shù)特征、法律特征、專(zhuān)利權(quán)人特征和文本語(yǔ)義特征在專(zhuān)利價(jià)值預(yù)測(cè)問(wèn)題中的重要性。
研究發(fā)現(xiàn),各國(guó)5G技術(shù)萌芽于2006年,在2013年步入成長(zhǎng)期,到2025年開(kāi)始步入成熟期,預(yù)計(jì)在2032年進(jìn)入衰退期?;赬GBoost算法的多特征融合專(zhuān)利價(jià)值預(yù)測(cè)模型的F1值達(dá)到了0.894,高于其他基線模型,能較為準(zhǔn)確的預(yù)測(cè)專(zhuān)利價(jià)值,為專(zhuān)利價(jià)值預(yù)測(cè)領(lǐng)域中指標(biāo)設(shè)計(jì)和模型構(gòu)建提供了嘗試。從二級(jí)指標(biāo)來(lái)看,本文所構(gòu)建的基于同族國(guó)家(地區(qū))數(shù)、公開(kāi)國(guó)別、被引證次數(shù)、簡(jiǎn)單同族個(gè)數(shù)、是否委托代理、技術(shù)生命周期等特征對(duì)專(zhuān)利價(jià)值預(yù)測(cè)顯示出了較強(qiáng)的解釋能力。本文所構(gòu)建的多特征融合的專(zhuān)利價(jià)值預(yù)測(cè)模型可幫助投資者較為準(zhǔn)確地選擇被預(yù)測(cè)為高價(jià)值的專(zhuān)利進(jìn)行投資,有效規(guī)避專(zhuān)利價(jià)值預(yù)測(cè)不準(zhǔn)確所產(chǎn)生的損失。未來(lái)可探索該專(zhuān)利價(jià)值預(yù)測(cè)方法在其他技術(shù)領(lǐng)域的有效性。
致謝:感謝圖書(shū)情報(bào)國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心為本研究提供的實(shí)驗(yàn)支持!