苑朋彬,趙蘊(yùn)華
?
斯馬里科夫統(tǒng)一方程描述專利信息離散分布的適用性評(píng)價(jià)*
苑朋彬,趙蘊(yùn)華
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
本文主要從圖像法的角度探討多重分類號(hào)下專利布氏分布的特點(diǎn),并以斯馬里科夫統(tǒng)一方程計(jì)算值為參考,通過對(duì)比IPC和主IPC區(qū)域劃分角度下圖像的擬合效果和K-S檢驗(yàn)結(jié)果,得到在主IPC區(qū)域劃分角度下方程適用性較高,多重分類號(hào)對(duì)專利布氏分布的影響較小。
斯馬里科夫統(tǒng)一方程;主IPC;K-S檢驗(yàn);專利;離散分布
科學(xué)信息離散分布的特點(diǎn)是全部信息活動(dòng)的基石,也是對(duì)科學(xué)信息活動(dòng)進(jìn)行有效管理的基礎(chǔ)。因而,揭示和研究信息離散分布現(xiàn)象是情報(bào)學(xué)的重要課題[1]。布拉德福定律(簡(jiǎn)稱布氏定律)首次以位次/頻率排序的方法將科技期刊文獻(xiàn)信息的離散分布規(guī)律予以揭示,隨后該定律被運(yùn)用到確定核心期刊、制定采購(gòu)策略、優(yōu)化館藏、評(píng)價(jià)檢索系統(tǒng)、比較學(xué)科成熟度等多個(gè)方面[2]。
專利信息同科技期刊文獻(xiàn)信息一樣,在技術(shù)學(xué)科間也存在很大交叉性。因此,近年來諸多學(xué)者如張鵬等[3]、呂義超等[4]、胡晨希等[5]、羅愛靜等[6]按照布氏定律的研究思路劃分專利技術(shù)區(qū)域,從區(qū)域法的角度證明專利文獻(xiàn)在某一主題領(lǐng)域的分布存在明顯的集中、離散現(xiàn)象,為確定核心專利分類號(hào)、核心專利權(quán)人等提供一種實(shí)用方法。
然而對(duì)專利文獻(xiàn)涉及的技術(shù)類別以IPC分類號(hào)進(jìn)行標(biāo)引可知:一篇專利文獻(xiàn)可能不僅屬于一個(gè)技術(shù)類別,還可能屬于多個(gè)技術(shù)類別;分類號(hào)與專利文獻(xiàn)的對(duì)應(yīng)關(guān)系為n:1,而期刊與文獻(xiàn)的對(duì)應(yīng)關(guān)系為1:1。盡管上述學(xué)者從區(qū)域法的角度證實(shí)專利分布遵循布氏分布的比例關(guān)系,但專利形態(tài)分布是否遵循布氏分布,多重分類號(hào)對(duì)專利布氏分布是否存在影響,仍有待探討。
因此,本文從圖像法的角度探討專利形態(tài)分布的離散特點(diǎn)。圖像法常采用一定的數(shù)學(xué)模型對(duì)研究對(duì)象的分散規(guī)律進(jìn)行刻畫。斯馬里科夫統(tǒng)一方程是基于科技期刊論文提出并用來描述布拉德福分散曲線的數(shù)學(xué)方程之一[7],以此方程作為研究基礎(chǔ),能夠在一定程度上揭示專利信息的離散分布狀況。通過對(duì)比不同技術(shù)成熟度主題的方程擬合效果,確定不同技術(shù)成熟度、多重分類號(hào)的專利分布特點(diǎn),在此基礎(chǔ)上,分別對(duì)比IPC分類號(hào)和主IPC分類號(hào)的方程適用性,以確定何種劃分角度的專利分布更符合布氏形態(tài)分布。
首先,選取處于能量管理領(lǐng)域不同技術(shù)成熟度的兩個(gè)技術(shù)分支進(jìn)行斯馬里科夫統(tǒng)一方程的擬合,以方程計(jì)算值為參考,觀察專利分布形態(tài)的特點(diǎn);其次,通過對(duì)比IPC和主IPC兩種區(qū)域劃分角度的圖像擬合效果和K-S檢驗(yàn)結(jié)果,得出不同區(qū)域劃分角度下多重分類號(hào)對(duì)專利布氏分布產(chǎn)生影響的大?。蛔詈?,確定何種區(qū)域劃分角度的方程適用性更高,更符合布氏形態(tài)分布。
2.1 數(shù)據(jù)來源及預(yù)處理
本試驗(yàn)數(shù)據(jù)選取德溫特專利數(shù)據(jù)庫(kù)收錄的燃料電池汽車能量管理技術(shù)領(lǐng)域和純電動(dòng)汽車能量管理技術(shù)領(lǐng)域的相關(guān)專利。選取二者作為研究對(duì)象,能夠在一定程度上對(duì)比斯馬里科夫統(tǒng)一方程在同一技術(shù)領(lǐng)域不同技術(shù)分支、不同生命周期階段下的適用性。運(yùn)用關(guān)鍵詞結(jié)合德溫特手工代碼進(jìn)行檢索,檢索日期為2016年1月5日,檢索時(shí)間為1963年1月1日至今的所有專利數(shù)據(jù),去重后得到燃料電池汽車能量管理技術(shù)相關(guān)專利829條,純電動(dòng)汽車能量管理技術(shù)相關(guān)專利4 956條。
采用主IPC區(qū)域劃分角度分析時(shí),需要對(duì)德溫特專利數(shù)據(jù)庫(kù)中PD(Patent Detail)字段進(jìn)行逐條提取,刪除重復(fù)IPC,保留同族專利申請(qǐng)國(guó)的主分類號(hào);然后,將處理好的數(shù)據(jù)按照位次/頻率排序,形成布氏分布表(見表1和表2)。其中n代表按照專利數(shù)量降序排列的累計(jì)序列號(hào),R(n)代表累計(jì)專利數(shù),由于專利與專利分類號(hào)間是1:n的對(duì)應(yīng)關(guān)系,所以R(n)量大于實(shí)際專利總數(shù)。
2.2 斯馬里科夫統(tǒng)一方程擬合專利分布
斯馬里科夫統(tǒng)一方程能有效模擬無(wú)格魯斯下垂時(shí)的布拉德福分布。目前,關(guān)于布氏定律圖像描述的公式較多,已產(chǎn)生10多個(gè)經(jīng)驗(yàn)型數(shù)學(xué)公式[2],較為著名的有布魯克斯模型、萊姆庫(kù)勒模型、斯馬里科夫統(tǒng)一方程等,許多學(xué)者針對(duì)各種公式進(jìn)行擇優(yōu)評(píng)價(jià),發(fā)現(xiàn)斯馬里科夫統(tǒng)一方程擬合效果更好。例如,王崇德等運(yùn)用斯馬里科夫統(tǒng)一方程和Egghe公式對(duì)應(yīng)用物理學(xué)和潤(rùn)滑工程兩個(gè)領(lǐng)域的文獻(xiàn)數(shù)據(jù)分布進(jìn)行擬合[8],得出斯馬里科夫統(tǒng)一方程對(duì)圖像的描述要優(yōu)于Egghe公式;周愛民根據(jù)圖像是否存在格魯斯下垂,提出當(dāng)圖像不存在格魯斯下垂時(shí),斯馬里科夫統(tǒng)一方程的擬合效果比其他模型略好[9]。
斯馬里科夫統(tǒng)一方程中、、、為參數(shù),n代表相關(guān)的專利累計(jì)號(hào),見公式(1)。運(yùn)用到專利系統(tǒng)中,以專利量降序排序?qū)?yīng)的序列號(hào)對(duì)數(shù)ln(n)為橫坐標(biāo),以專利累積量R(n)為縱坐標(biāo),繪制各點(diǎn)形成布拉德福離散分布曲線(見圖1)[10]。若令x=ln(n),其方程則變成關(guān)于x的方程,如公式(2)所示,此方程可用一元非線性回歸來擬合專利布氏分布的4個(gè)參數(shù)。
R(n)=lg(n+Pe)+(1)
R(x)=lg(ex+Pe)+(2)
2.3 K-S假設(shè)檢驗(yàn)方程擬合效果
方程最終擬合效果主要通過K-S法進(jìn)行檢驗(yàn)。K-S檢驗(yàn)(Kolmogorov-Smirnov)又稱D檢驗(yàn),是一種擬合優(yōu)度檢驗(yàn)方法,常被用于檢驗(yàn)一組樣本數(shù)據(jù)的實(shí)際分布是否符合某一指定的理論分布。其基本原理是通過實(shí)際值頻數(shù)和理論值頻數(shù)的對(duì)比,找出最大的差異點(diǎn),然后參照抽樣分布,確定此差異是否出于偶然。運(yùn)用到專利系統(tǒng)中,基于IPC和主IPC兩種劃分角度,作出兩組獨(dú)立假設(shè)。
假設(shè)1(IPC劃分角度):
H0:專利的IPC分布總體符合斯馬里科夫統(tǒng)一方程;
H1:專利的IPC分布總體不符合斯馬里科夫統(tǒng)一方程。
假設(shè)2(主IPC劃分角度):
H0:專利的主IPC分布總體符合斯馬里科夫統(tǒng)一方程;
H1:專利的主IPC分布總體不符合斯馬里科夫統(tǒng)一方程。
D=max|(Fn(x)-F0(x))|,其中Fn(x)為隨機(jī)樣本的累計(jì)分布函數(shù),F(xiàn)0(x)表示理論分布函數(shù)。當(dāng)D>D(n,α)[D(n,α)是顯著性水平為α,樣本量為n的拒絕臨界值],拒絕原假設(shè)H0,反之則拒絕原假設(shè)H1。取α=0.05,表示該模型在95%的置信區(qū)間是可信的。
3.1 擬合效果對(duì)比研究
采用斯馬里科夫統(tǒng)一方程進(jìn)行參數(shù)估計(jì)和曲線擬合,將實(shí)際專利分散曲線和理論分散曲線呈現(xiàn)在同一圖上。圖1分別展示了在IPC和主IPC區(qū)域劃分角度下,燃料電池汽車能量管理技術(shù)領(lǐng)域和純電動(dòng)汽車能量管理技術(shù)領(lǐng)域的擬合效果,其中橫坐標(biāo)為遞減排列的專利對(duì)應(yīng)的序號(hào)對(duì)數(shù)值ln(n),縱坐標(biāo)為專利累計(jì)數(shù)量R(n),R代表相關(guān)系數(shù),取值范圍在0—1,R越大,自變量對(duì)因變量的解釋程度越高。
利用斯馬里科夫統(tǒng)一方程對(duì)燃料電池汽車能量管理技術(shù)領(lǐng)域?qū)@稚⑶€的擬合,分別得到IPC和主IPC劃分角度下的基本擬合公式(3)和公式(4)。
R(x)=601.763 65lg(e-0.302 88e-0.007 53ex) +88.974 30 (3)
R(x)=233.673 51lg(e+0.703 33e-0.010 89ex) -42.772 34 (4)
對(duì)純電動(dòng)汽車能量管理技術(shù)領(lǐng)域?qū)@稚⑶€的擬合,分別得到IPC和主IPC劃分角度下的基本擬合公式(5)和公式(6)。
R(x)=1 827.492 15lg(e-0.805 58e-0.003 18ex) +3 688.858 42 (5)
R(x)=743.389 53lg(e-0.674 88e-0.005 06ex) +1 541.106 90(6)
標(biāo)號(hào)1的曲線代表專利實(shí)際值分散曲線,觀察圖1,兩種模式下的專利分散曲線均由一段下凹的曲線和上升的直線組成,目前尚未出現(xiàn)格魯斯下垂現(xiàn)象[11],符合經(jīng)典的布氏分散曲線描述。根據(jù)周愛民的研究,當(dāng)圖像不存在格魯斯下垂時(shí),斯馬里科夫統(tǒng)一方程的擬合效果比其他模型略好[9],因此,該方程對(duì)于圖形的描述具有一定準(zhǔn)確性和適用性。
標(biāo)號(hào)2的曲線代表斯馬里科夫統(tǒng)一方程擬合的理論值分散曲線。分別對(duì)比燃料電池能量管理技術(shù)領(lǐng)域和純電動(dòng)汽車能量管理技術(shù)領(lǐng)域的曲線擬合效果可知:在主IPC區(qū)域劃分角度下的擬合效果圖較IPC劃分角度擬合效果圖存在明顯的差距收縮。一方面,主要體現(xiàn)在專利分散曲線頭部擬合效果的提升以及實(shí)際值和理論值間差距的減?。涣硪环矫?,體現(xiàn)在相關(guān)系數(shù)R在主IPC劃分角度下均有所增大,相關(guān)性有所提高。
從圖1可見,無(wú)論是在IPC還是主IPC區(qū)域劃分角度下,分布曲線圖像均符合布氏定律,即由一段曲線和上升的直線組成。專利分布在一定程度上服從布氏分布的規(guī)律特點(diǎn),但集中度更高,主要體現(xiàn)在曲線頭部的實(shí)際值要大于理論值;從圖像擬合效果看,兩種區(qū)域劃分角度下專利分散曲線均可用斯馬里科夫統(tǒng)一方程擬合,且主IPC劃分角度下,相關(guān)系數(shù)R增大;斯馬里科夫統(tǒng)一方程對(duì)兩個(gè)領(lǐng)域的擬合效果均好于IPC區(qū)域劃分方式,在一定程度上說明主IPC區(qū)域劃分角度更適合方程的擬合。
3.2 K-S檢驗(yàn)對(duì)比研究
盡管上述相關(guān)系數(shù)R都在0.9以上,相關(guān)程度較高,但方程最終能否擬合實(shí)際分布狀況要通過K-S檢驗(yàn)來驗(yàn)證。分別計(jì)算實(shí)際累計(jì)頻率和理論累計(jì)頻率,然后根據(jù)D=Max|(Fn(x)-F0(x))|找出最大臨界值MaxD。表3和表4分別展示了在IPC、主IPC區(qū)域劃分角度下,燃料電池汽車能量管理技術(shù)領(lǐng)域和純電動(dòng)汽車能量管理技術(shù)領(lǐng)域的K-S檢驗(yàn)情況。
燃料電池汽車能量管理技術(shù)領(lǐng)域經(jīng)計(jì)算得到不同區(qū)域劃分角度下D的拒絕臨界值分別為DIPC(788,0.05)=0.048 4,D主IPC(392,0.05)=0.068 7。
純電動(dòng)汽車能量管理技術(shù)領(lǐng)域經(jīng)計(jì)算得到不同區(qū)域劃分角度下D的拒絕臨界值分別為DIPC(2 040,0.05)=0.030 1,D主IPC(1 037,0.05)=0.042 2。
根據(jù)表3和表4,將IPC、主IPC劃分角度下各技術(shù)領(lǐng)域的最大臨界值MaxD和D檢驗(yàn)值整理得到K-S檢驗(yàn)結(jié)果表(見表5)。按照K-S檢驗(yàn)的思路,MaxD>D(n,0.05),則拒絕原假設(shè)H0,認(rèn)為不能通過K-S檢驗(yàn),反之接受假設(shè)H0。可以看出,IPC區(qū)域劃分角度下的燃料電池汽車能量管理技術(shù)領(lǐng)域和純電動(dòng)汽車能量管理技術(shù)領(lǐng)域的MaxD均大于D檢驗(yàn)值,即不能通過檢驗(yàn),因此,可認(rèn)為專利IPC總體分布并不符合斯馬里科夫統(tǒng)一方程的分布;而主IPC區(qū)域劃分角度下的燃料電池汽車能量管理技術(shù)領(lǐng)域和純電動(dòng)汽車能量管理技術(shù)領(lǐng)域的MaxD均小于D檢驗(yàn)值,即通過檢驗(yàn),所以可以用斯馬里科夫統(tǒng)一方程來描述其分布。從統(tǒng)計(jì)學(xué)角度進(jìn)一步說明,多重分類號(hào)下的專利分布在整體上服從布氏形態(tài)分布,且主IPC角度下采用斯馬里科夫統(tǒng)一方程描述專利信息離散分布的適用性要好于IPC角度。
采用布氏定律研究方法揭示專利信息離散分布的特點(diǎn)與規(guī)律,對(duì)于確定核心專利技術(shù)、核心專利權(quán)人、制定專利檢索策略、評(píng)價(jià)技術(shù)發(fā)展成熟度有重要的現(xiàn)實(shí)意義。通過圖像擬合效果和K-S檢驗(yàn)結(jié)果對(duì)多重分類號(hào)下的專利分布進(jìn)行探討,結(jié)果表明:專利信息同樣存在集中與分散趨勢(shì),而且其分布曲線圖像符合經(jīng)典布拉德福分散曲線走勢(shì)。因?yàn)樗柜R里科夫統(tǒng)一方程是基于布拉德福定律提出的反映科學(xué)信息離散分布的方程,所以通過斯馬里科夫統(tǒng)一方程論證專利信息離散分布是否符合布氏定律是可行的。通過對(duì)IPC和主IPC不同區(qū)域劃分角度方程適用性的對(duì)比研究,發(fā)現(xiàn)主IPC劃分角度的圖像擬合效果更好,且能通過K-S檢驗(yàn),因此,該分類角度下的專利分布更符合布氏形態(tài)分布,且多重分類號(hào)對(duì)專利布氏形態(tài)分布并未造成明顯影響。
本研究從圖像法的角度探討專利布氏形態(tài)分布特點(diǎn),將描述布氏定律的斯馬里科夫統(tǒng)一方程運(yùn)用到專利主IPC的分散曲線描述中,并采用數(shù)學(xué)模型和假設(shè)檢驗(yàn)的方法進(jìn)行驗(yàn)證,進(jìn)一步揭示將布氏定律研究思路運(yùn)用到專利信息系統(tǒng)的可行性。同時(shí)本研究存在一定的局限性,僅選取同一技術(shù)領(lǐng)域的兩個(gè)技術(shù)分支進(jìn)行專利文獻(xiàn)離散分布探討,而未深入探討技術(shù)發(fā)展成熟度對(duì)專利布氏分布的影響。未來研究工作將利用更多的技術(shù)領(lǐng)域?qū)嵺`驗(yàn)證該方程在專利分布中的適用性,還將探索核心專利權(quán)人的布氏分布特點(diǎn)。
[1] 馬費(fèi)成,陳銳,袁紅.科學(xué)信息離散分布規(guī)律的研究:從文獻(xiàn)單元到內(nèi)容單元的實(shí)證分析(I):總體研究框架[J].情報(bào)學(xué)報(bào),1999,18(1):79-84.
[2] 張海燕.關(guān)于布拉德福定律及其應(yīng)用的若干思考[J].情報(bào)探索, 2013,194(12):19-21.
[3] 張鵬,劉平,唐田田,等.布拉德福定律在專利分析系統(tǒng)中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2010(Z1):84-87.
[4] 呂義超,劉紅光,王君.布拉德福定律在專利文獻(xiàn)中應(yīng)用的可行性研究[J].圖書情報(bào)研究,2011,4(2):49-52.
[5] 胡晨希,邵蓉.基于布拉德福定律的藥品核心專利分析[J].中國(guó)藥事,2012,26(2):134-136,139.
[6] 羅愛靜,尹瑾.基于信息分析的中藥領(lǐng)域核心專利技術(shù)發(fā)展研究[J].情報(bào)雜志,2009(S1):37-39.
[7] 邱均平.信息計(jì)量學(xué)[M]. 武漢:武漢大學(xué)出版社,2007:109-123.
[8] 王崇德,趙艷.布拉德福分布解析式的擇優(yōu)評(píng)鑒[J].情報(bào)學(xué)報(bào), 1998(4):66-71.
[9] 周愛民.幾種布拉德福分散曲線擬合模型的實(shí)證比較[J].情報(bào)雜志, 2013,32(1):59-62.
[10] 何榮利,黃振文.關(guān)于布拉德福定律中的兩個(gè)問題[J].中國(guó)科技期刊研究,2009,20(6):1078-1080.
[11] GROOS O V. Bradford' s Law and the Keenan-Atherton data[J].American Documentation,2007,18(1):46.
The Suitability Evaluation to Use Sri LankaMali Cove Unified Equation for Describing the Patent Information Discrete Distribution
YUAN PengBin, ZHAO YunHua
(Institute of Scientific and Technical Information of China, Beijing 100038, China)
Adopting the image method, this paper mainly discusses the characteristics of patent distribution basing on the multi-classification. By comparing the fitting effect and K-S inspection result reference to Sri LankaMali eventually comes to the conclusion that under the division angle of "main IPC", the equation of applicability is higher and the influence of multi-classification to the distribution is smaller.
Sri LankaMali Cove Unified Equation; Main IPC; Kolmogorov-Smirnov Inspection; Patent Discrete Distribution
G350
10.3772/j.issn.1673-2286.2016.8.002
(2016-07-04)
苑朋彬,男,1990年生,碩士研究生,研究方向:技術(shù)競(jìng)爭(zhēng)情報(bào),E-mail:yuanpb2014@istic.ac.cn。
趙蘊(yùn)華,女,1967年生,研究館員,研究方向:重點(diǎn)科技領(lǐng)域研究,E-mail:zhaoyh@istic.ac.cn。
* 本研究得到國(guó)家科技支撐計(jì)劃課題“面向科技創(chuàng)新的專利信息加工與服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用示范”(編號(hào):2015XM56)和國(guó)家社會(huì)科學(xué)基金項(xiàng)目“綠色技術(shù)創(chuàng)新驅(qū)動(dòng)我國(guó)戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展的戰(zhàn)略研究”(編號(hào):13CGL007)資助。