盧志平 唐健廷
(1.廣西科技大學(xué)經(jīng)濟(jì)與管理學(xué)院 柳州 545006)(2.廣西工業(yè)高質(zhì)量發(fā)展研究中心 柳州 545006)
國(guó)家將2025 年每萬(wàn)人口擁有高價(jià)值發(fā)明專(zhuān)利12 件的預(yù)期目標(biāo)作為一項(xiàng)政策指標(biāo),寫(xiě)入了“十四五”規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要中[1]。而高價(jià)值專(zhuān)利體現(xiàn)在專(zhuān)利的質(zhì)量上,表現(xiàn)為專(zhuān)利的各個(gè)維度的價(jià)值[2]。因此圍繞專(zhuān)利進(jìn)行質(zhì)量評(píng)估,是篩選高價(jià)值專(zhuān)利的一個(gè)關(guān)鍵。
由于專(zhuān)利質(zhì)量與專(zhuān)利市場(chǎng)價(jià)值存在區(qū)別,導(dǎo)致傳統(tǒng)的專(zhuān)利評(píng)估方法并不適用于專(zhuān)利質(zhì)量評(píng)估,因此不少國(guó)內(nèi)外學(xué)者就專(zhuān)利質(zhì)量的評(píng)估方法進(jìn)行了研究。對(duì)專(zhuān)利質(zhì)量的評(píng)估指標(biāo)進(jìn)行約減,降低復(fù)雜度[3];采用FANP 法對(duì)企業(yè)對(duì)專(zhuān)利組合的質(zhì)量進(jìn)行評(píng)估[4];通過(guò)文獻(xiàn)計(jì)量分析的方式,對(duì)高校中鋰電池領(lǐng)域?qū)@|(zhì)量進(jìn)行評(píng)估[5]。通過(guò)對(duì)專(zhuān)利的投資組合價(jià)值指數(shù)進(jìn)行計(jì)算,來(lái)評(píng)估專(zhuān)利的質(zhì)量[6]。而對(duì)大量的專(zhuān)利同時(shí)進(jìn)行評(píng)估時(shí),常用到機(jī)器學(xué)習(xí)的方法。通過(guò)對(duì)機(jī)器學(xué)習(xí)方法中不同的評(píng)估模型進(jìn)行比較,神經(jīng)網(wǎng)絡(luò)模型獲得較好的實(shí)驗(yàn)效果[7~8]。而神經(jīng)網(wǎng)絡(luò)模型本身存在著收斂速度慢,算法不完備的局限性。因此有學(xué)者先對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,進(jìn)而對(duì)專(zhuān)利的質(zhì)量進(jìn)行評(píng)估分析[9~10]。
綜上所述,由于機(jī)器學(xué)習(xí)的特點(diǎn),可以有效節(jié)省了人為評(píng)估的費(fèi)用成本和時(shí)間成本,同時(shí)也克服了主觀性因素的存在。但是這類(lèi)方法在對(duì)專(zhuān)利進(jìn)行質(zhì)量評(píng)估時(shí)存在容易陷入局部最優(yōu)和收斂速度慢的局限性,因此,本文先用CRITIC—熵權(quán)法對(duì)指標(biāo)進(jìn)行篩選,并約減指標(biāo),避免冗余。并運(yùn)用Logistic混沌結(jié)合的麻雀搜索算法去優(yōu)化BP神經(jīng)網(wǎng)絡(luò)中收斂速度慢的局限性。該模型可以篩選出高價(jià)值的專(zhuān)利,為高?;蛘咂髽I(yè)的專(zhuān)利交易選擇提供決策支持。
早期學(xué)者對(duì)于專(zhuān)利質(zhì)量?jī)r(jià)值評(píng)估的研究很多都是參考《專(zhuān)利價(jià)值分析指標(biāo)體系操作手冊(cè)》[11],但這本手冊(cè)里面給出的指標(biāo)很多都是涉及了定性分析,難以量化。本文通過(guò)相關(guān)文獻(xiàn)梳理[2]和咨詢專(zhuān)家的意見(jiàn),構(gòu)建了一種可定量評(píng)估專(zhuān)利質(zhì)量的指標(biāo)體系。
CRITIC 法可以體現(xiàn)指標(biāo)間的沖突性,而熵權(quán)法則可以衡量指標(biāo)之間的離散程度。兩種方法結(jié)合可以使得指標(biāo)權(quán)重結(jié)果更加合理[12]。因此,本文使用CRITIC—熵權(quán)法去計(jì)算各個(gè)指標(biāo)的客觀權(quán)重,其計(jì)算步驟如下。
1)首先對(duì)專(zhuān)利特征指標(biāo)進(jìn)行無(wú)量綱化處理,由此得到標(biāo)準(zhǔn)矩陣X*如式(1)所示。
2)由標(biāo)準(zhǔn)矩陣X*通過(guò)式(2)和式(3)計(jì)算得到標(biāo)準(zhǔn)差σj與指標(biāo)間的相關(guān)系數(shù)ρij。
3)計(jì)算各指標(biāo)所含的信息量Gj和客觀權(quán)重w1,其中,Gj為指標(biāo)j與另外各指標(biāo)沖突性的量化指標(biāo)。Gj越大,表示指標(biāo)j權(quán)重越大。
最后,客觀權(quán)重w1的計(jì)算方式如式(5)所示。
4)通過(guò)式(6)計(jì)算樣本i出現(xiàn)指標(biāo)j的概率pij,通過(guò)式(7)計(jì)算j項(xiàng)指標(biāo)的熵值ej。
5)通過(guò)式(8)計(jì)算出第j項(xiàng)指標(biāo)的熵權(quán)w2。
6)根據(jù)專(zhuān)家組所討論的意見(jiàn),系數(shù)β取值為0.5,并通過(guò)式(9)計(jì)算綜合權(quán)重wj。
麻雀搜索算法(SSA)是通過(guò)模擬麻雀覓食并逃避捕食者的行為而提出來(lái)的一種群智能算法,該算法的收斂速度較快,局部搜索能力也較強(qiáng),但全局的搜索能力較弱,也容易陷入局部最優(yōu)而無(wú)法跳出[13]。因此,選擇Logistic 混沌序列對(duì)麻雀種群進(jìn)行初始化,提高初始解的質(zhì)量,增強(qiáng)算法的全局搜索能力。
3.2.1 SSA算法主要實(shí)現(xiàn)步驟
1)對(duì)SSA 算法的參數(shù)進(jìn)行初始化,包括麻雀的種群規(guī)模在N,發(fā)現(xiàn)者數(shù)量PN以及跟隨者數(shù)量N-PN,偵查者數(shù)量SN,迭代次數(shù)最大為itermax,搜索維數(shù)D,麻雀的初始位置定義為xi=表示個(gè)體i的適應(yīng)度。
2)更新種群中發(fā)現(xiàn)者的位置信息,位置更新如式(10)所示:
3)更新跟隨者的位置,位置更新如式(11)所示:
4)在每一次迭代發(fā)生后,隨機(jī)選擇SN個(gè)個(gè)體進(jìn)行偵察預(yù)警行為。位置更新公式如下:
β為符合標(biāo)準(zhǔn)整體分布的隨機(jī)數(shù),xw和xb為最優(yōu)、最差個(gè)體位置,當(dāng)適應(yīng)度f(wàn)i=fg時(shí),個(gè)體向附近位置移動(dòng);當(dāng)fi≠fg時(shí),個(gè)體向當(dāng)前最優(yōu)位置移動(dòng),其值收斂于最優(yōu)位置。
3.2.2 Logistic映射
Logistic 混沌映射具有長(zhǎng)期不可預(yù)測(cè)性,其產(chǎn)生的序列{xn,n=0,1,2,3…}是非周期性、且存在發(fā)散的數(shù)列,并且初始值表現(xiàn)十分敏感。Logistic映射的方程式如(13)所示:
其中,參數(shù)μ(0,4],xn(0,1),當(dāng)3.5699…<μ≤4時(shí),Logistic映射呈混沌狀態(tài)。
3.2.3 混沌優(yōu)化的SSA算法
SSA 算法中加入Logistic 混沌優(yōu)化,增加種群的多樣性,通過(guò)混沌擾動(dòng)避免搜索個(gè)體陷入局部最優(yōu)的限制,使算法持續(xù)進(jìn)行全局搜索。其流程如圖1所示。
圖1 CSSA算法流程圖
1)應(yīng)用Logistic 映射生成的混沌序列對(duì)算法的參數(shù)進(jìn)行初始化,包括麻雀的種群規(guī)模N,最大迭代次數(shù)itermax,搜索空間維數(shù)D,并生成N個(gè)D維向量。
2)通過(guò)式(13)對(duì)麻雀種群的個(gè)體的D個(gè)維度進(jìn)行迭代,并用式(14)將Logistics 映射產(chǎn)生的變量值映射到個(gè)體上,其中l(wèi)b和ub分別為維度的上邊界和下邊界。
3)計(jì)算i個(gè)個(gè)體的適應(yīng)度f(wàn)i,以及記錄所在的位置d,并根據(jù)個(gè)體適應(yīng)優(yōu)劣進(jìn)行排序。
4)將適應(yīng)度前70%的個(gè)體作為發(fā)現(xiàn)者,剩下的30%則為跟隨者,根據(jù)式(10)和式(11)更新發(fā)現(xiàn)者和跟隨者的位置。
5)從種群中隨機(jī)選取20%的個(gè)體作為偵查者,并根據(jù)式(12)更新其位置。
6)當(dāng)搜索陷入局部最優(yōu)時(shí),產(chǎn)生混沌序列對(duì)個(gè)體進(jìn)行混沌擾動(dòng)。如式(15)所示:
7)重新更新種群中個(gè)體的適應(yīng)度和其位置。
8)判斷算法運(yùn)行是否達(dá)到最大迭代次數(shù)或者求解精度,進(jìn)而執(zhí)行結(jié)果輸出或返回4)。
為了解決BPNN 容易陷入局部最優(yōu),收斂速度慢的局限性。本文將CSSA 與BPNN 結(jié)合,通過(guò)CS?SA算法中的搜索能力較強(qiáng)的特點(diǎn),對(duì)BPNN模型進(jìn)行優(yōu)化。步驟如下:
1)通過(guò)CSSA 算法的尋優(yōu)結(jié)果,計(jì)算得到最優(yōu)的初始權(quán)值和閾值,并導(dǎo)入BP神經(jīng)網(wǎng)絡(luò)。
2)將模型的輸出值與訓(xùn)練的專(zhuān)利樣本中實(shí)際的期望值進(jìn)行誤差計(jì)算,如式(16)所示:
3)若該模型誤差未達(dá)到初始時(shí)設(shè)定的誤差,則該網(wǎng)絡(luò)模型將所計(jì)算得到的誤差向前反饋,重新調(diào)整神經(jīng)元之間連接的權(quán)值和修正閾值參數(shù)。其中權(quán)值的調(diào)整為μi+γΔμi,γ是學(xué)習(xí)率(0<γ<1),控制算法的更新速度,Δμi是負(fù)梯度方向。
CSSA—BPNN 模型經(jīng)過(guò)反復(fù)地調(diào)整連接權(quán)和修正閾值,最后使得訓(xùn)練誤差達(dá)到所設(shè)定的數(shù)值或者誤差前饋次數(shù)達(dá)到最大,則停止訓(xùn)練,并保存訓(xùn)練完成的預(yù)測(cè)模型。
本文采用準(zhǔn)確率(accuracy)、精確率(preci?sion)、召回率(recall)和F1 值共4 個(gè)指標(biāo)對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)價(jià),如式(18)和(19)所示,其中,M為分類(lèi)正確的樣本個(gè)數(shù),N為樣本總數(shù),MP為預(yù)測(cè)正確的正例數(shù),NP為預(yù)測(cè)為正例的數(shù),Nc表示實(shí)際正例數(shù)。
2021 年中國(guó)汽車(chē)專(zhuān)利的公開(kāi)量總共為32 萬(wàn)件,同比增長(zhǎng)4.2%,持續(xù)保持穩(wěn)步增長(zhǎng)態(tài)勢(shì)。發(fā)明專(zhuān)利授權(quán)量為8.4 萬(wàn)件,同比大幅增長(zhǎng)23.3%。可以看出中國(guó)汽車(chē)的專(zhuān)利在申請(qǐng)和授權(quán)的數(shù)量上持續(xù)提升。也反映出汽車(chē)產(chǎn)業(yè)已在專(zhuān)利密集型產(chǎn)業(yè)中占據(jù)了一席之地[14]。同時(shí),新能源汽車(chē)產(chǎn)業(yè)作為政府扶持的戰(zhàn)略新興產(chǎn)業(yè),其產(chǎn)出的專(zhuān)利更具戰(zhàn)略性意義。因此,本文以新能源汽車(chē)領(lǐng)域的專(zhuān)利為評(píng)估對(duì)象,對(duì)CSSA-BPNN評(píng)估模型的性能進(jìn)行測(cè)試。
本文從incoPat 專(zhuān)利數(shù)據(jù)庫(kù)獲取研究需要的數(shù)據(jù)。根據(jù)表1 的指標(biāo)體系,下載了15 個(gè)特征指標(biāo)。首先,考慮到專(zhuān)利技術(shù)生命周期的存在,因此選擇了2011 年-2021 年這十年授權(quán)的新能源汽車(chē)領(lǐng)域的專(zhuān)利。由于在incoPat 專(zhuān)利數(shù)據(jù)庫(kù)中,發(fā)明授權(quán)專(zhuān)利最低價(jià)值度為2,最高價(jià)值度為10;因此將價(jià)值度2~4標(biāo)記為為低價(jià)值專(zhuān)利,賦值為0,將價(jià)值度5~7 標(biāo)記為普通價(jià)值專(zhuān)利賦值為0.5,將價(jià)值度8~10 標(biāo)記為高價(jià)值專(zhuān)利賦值為1。在三個(gè)等級(jí)的專(zhuān)利中各隨機(jī)抽取了1000 條數(shù)據(jù)信息,共3000 件專(zhuān)利去構(gòu)建專(zhuān)利指標(biāo)數(shù)據(jù)庫(kù)。選擇其中90%為訓(xùn)練集,10%作為測(cè)試集,分別用于之后模型的訓(xùn)練和測(cè)試。
表1 專(zhuān)利質(zhì)量評(píng)價(jià)體系
專(zhuān)利評(píng)估的過(guò)程中所涉及的特征指標(biāo)較多,各個(gè)指標(biāo)之間存在著相互關(guān)聯(lián),為了避免模型在訓(xùn)練學(xué)習(xí)的過(guò)程中出現(xiàn)過(guò)度擬合,因此需要對(duì)特征指標(biāo)進(jìn)行約減,降低模型的復(fù)雜程度[15]。本文采用CRITIC—熵權(quán)法對(duì)指標(biāo)評(píng)估權(quán)重,約減權(quán)重低的指標(biāo),保留重要的指標(biāo)并將其輸入到神經(jīng)網(wǎng)絡(luò)模型中。根據(jù)收集得到3000 條專(zhuān)利樣本形成一個(gè)指標(biāo)矩陣R,通過(guò)3.1 節(jié)的計(jì)算步驟,得到各個(gè)指標(biāo)的權(quán)重,如表2所示。
對(duì)表2 中指標(biāo)的權(quán)重進(jìn)行排序,并將權(quán)重小于0.04 的指標(biāo)作為數(shù)據(jù)噪聲剔除,剩下10 個(gè)重要指標(biāo)(C1,C2,C3,C4,C6,C9,C11,C12,C13,C15),這些指標(biāo)占總體權(quán)重的84.5%。
表2 特征指標(biāo)權(quán)重
為驗(yàn)證模型在專(zhuān)利質(zhì)量評(píng)估方面的效果,將專(zhuān)利樣本數(shù)據(jù)輸入到CSSA—BPNN 模型、GA—BPNN模型、PSO—BPNN 和BPNN 模型中進(jìn)行測(cè)試和對(duì)比,其中初始種群數(shù)量為20,迭代次數(shù)為500,神經(jīng)網(wǎng)絡(luò)輸入層的神經(jīng)元個(gè)數(shù)為10,預(yù)設(shè)誤差為0.001;分類(lèi)結(jié)果如圖2 所示,并通過(guò)式(18)和式(19)計(jì)算評(píng)價(jià)模型性能的4 個(gè)指標(biāo),其中X 軸表示專(zhuān)利樣本的統(tǒng)計(jì)項(xiàng)數(shù),Y 軸表述為價(jià)值度。結(jié)果如表3所示。
圖2 四種模型結(jié)果
通過(guò)表3 可以知道,四類(lèi)模型的各項(xiàng)指標(biāo)均大于0.75,而且三種經(jīng)過(guò)算法優(yōu)化的BPNN 模型的各項(xiàng)性能指標(biāo)均優(yōu)于未經(jīng)優(yōu)化的BPNN 模型。其中,CSSA—BPNN 模型的性能最優(yōu),在準(zhǔn)確率和精確率方面比BPNN 模型高0.04,在在召回率和F1 值上面,CSSA—BPNN 模型也是最高,達(dá)到了0.819 和0.808。證明了該模型的有效性和穩(wěn)健性較好。因此,利用CSSA—BPNN模型對(duì)專(zhuān)利質(zhì)量進(jìn)行評(píng)估是可行的。
表3 模型性能指標(biāo)對(duì)比
并對(duì)三種算法進(jìn)行500 次迭代,其迭代收斂圖和結(jié)果如圖3和表4所示。
圖3 三種算法迭代對(duì)比圖
從表4 可以看出,PSO 收斂代數(shù)為393 代,收斂代數(shù)在三種優(yōu)化算法中是最高的,GA 收斂代數(shù)為122 代,但總耗時(shí)為267.6s,總耗時(shí)是最長(zhǎng)。CSSA收斂代數(shù)為51代,總耗時(shí)192.2s,相比于GA和PSO具有更高的效率和更低的運(yùn)算耗時(shí)。而且CSSA算法得到的平均適應(yīng)值和最小適應(yīng)值均小于GA 和PSO,說(shuō)明該算法比傳統(tǒng)的優(yōu)化算法具有較高的求解質(zhì)量。
表4 三種算法收斂結(jié)果對(duì)比
本文關(guān)注專(zhuān)利質(zhì)量評(píng)估指標(biāo)的適用性和可操作性,探究機(jī)器學(xué)習(xí)的方法應(yīng)用于專(zhuān)利質(zhì)量評(píng)估,通過(guò)混沌映射改進(jìn)麻雀搜索算法,并結(jié)合神經(jīng)網(wǎng)絡(luò)去構(gòu)建專(zhuān)利質(zhì)量評(píng)估模型。與PSO、GA 優(yōu)化的模型進(jìn)行仿真對(duì)比,得到以下結(jié)論:1)CSSA—BPNN模型對(duì)專(zhuān)利質(zhì)量進(jìn)行評(píng)估時(shí),模型的各項(xiàng)指標(biāo)均優(yōu)于BPNN 模型和PSO、GA 優(yōu)化的BPNN 模型,并且分類(lèi)準(zhǔn)確率達(dá)到0.797。2)在算法尋優(yōu)中,CSSA 比PSO、GA具有更高的效率和更低的運(yùn)算耗時(shí)。
本次研究的主要?jiǎng)?chuàng)新內(nèi)容如下:1)在專(zhuān)利質(zhì)量評(píng)估體系中同時(shí)考慮了專(zhuān)利的技術(shù)維度指標(biāo)、法律維度指標(biāo)、市場(chǎng)維度指標(biāo)和主體特征指標(biāo)。可以綜合體現(xiàn)出專(zhuān)利的技術(shù)競(jìng)爭(zhēng)力、經(jīng)濟(jì)關(guān)聯(lián)性、權(quán)利穩(wěn)定性等多個(gè)方面的價(jià)值。2)構(gòu)建CSSA—BPNN 模型對(duì)新能源汽車(chē)領(lǐng)域的專(zhuān)利進(jìn)行質(zhì)量評(píng)估,證明了該評(píng)估模型整體性能比傳統(tǒng)算法較優(yōu)。3)通過(guò)兩種客觀權(quán)重方法去確定專(zhuān)利各項(xiàng)特征指標(biāo)的權(quán)重,避免主觀因素對(duì)權(quán)重的影響。