盧 青 趙澎碧
(1.上饒師范學(xué)院政治與法律學(xué)院,江西 上饒 334001;2.中科柔性(北京)科技發(fā)展有限公司,北京 100000)
·理論探索·
大數(shù)據(jù)環(huán)境下的專利分析模型研究
盧 青1趙澎碧2
(1.上饒師范學(xué)院政治與法律學(xué)院,江西 上饒 334001;2.中科柔性(北京)科技發(fā)展有限公司,北京 100000)
“大數(shù)據(jù)”(Big Data)應(yīng)用已經(jīng)拓展到眾多領(lǐng)域,在以專利資源為主導(dǎo)的知識(shí)產(chǎn)權(quán)領(lǐng)域,將發(fā)揮重要作用。本文分析了大數(shù)據(jù)專利分析現(xiàn)狀,對(duì)美日韓主要專利軟件(平臺(tái))進(jìn)行了深入分析比較,并結(jié)合其優(yōu)缺點(diǎn),構(gòu)建出了大數(shù)據(jù)專利分析模型(PDAP)。
大數(shù)據(jù);專利分析平臺(tái);大數(shù)據(jù)專利分析模型;PDAP
在信息技術(shù)快速發(fā)展的今天,社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等應(yīng)用范圍越來(lái)越廣,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)存儲(chǔ)分析技術(shù)面臨新的挑戰(zhàn),大數(shù)據(jù)的概念由此應(yīng)運(yùn)而生。同時(shí),技術(shù)的進(jìn)步使得語(yǔ)義分析、智能算法、統(tǒng)計(jì)分析工具等不斷完善和推廣,“大數(shù)據(jù)”(Big Data)和云計(jì)算技術(shù)日益成熟,一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代正在開啟。
專利作為國(guó)家自主創(chuàng)新成果的重要載體,具啟發(fā)性、可靠性和準(zhǔn)確性。世界知識(shí)產(chǎn)權(quán)組織研究表明,全世界最新的發(fā)明創(chuàng)造信息 90%以上首先通過(guò)專利文獻(xiàn)反映出來(lái),因此在研究開發(fā)過(guò)程中,發(fā)揮專利文獻(xiàn)和專利制度的作用,不僅能提高研究的起點(diǎn),而且能節(jié)約 40%的研發(fā)費(fèi)用和 60%的研發(fā)時(shí)間。
大數(shù)據(jù)提供了空前的數(shù)據(jù)量,每個(gè)數(shù)據(jù)都是情報(bào)數(shù)據(jù)源,與大數(shù)據(jù)的專利數(shù)據(jù)相結(jié)合,隱含著巨大的經(jīng)濟(jì)價(jià)值。從2015年開始,我國(guó)知識(shí)產(chǎn)權(quán)相繼實(shí)現(xiàn)年發(fā)明申請(qǐng)量和有效發(fā)明專利擁有量都突破了100萬(wàn)件的成就,彰顯出中國(guó)市場(chǎng)的創(chuàng)新活力。世界知識(shí)產(chǎn)權(quán)組織2016年11月發(fā)布報(bào)告指出,2015年中國(guó)專利申請(qǐng)量達(dá)110多萬(wàn)件,幾乎占到全球總量的四成。同時(shí),中國(guó)專利申請(qǐng)?jiān)鏊僮羁?,增幅高達(dá)18.7%[1]。俄羅斯莫斯科大學(xué)的《創(chuàng)建分布式計(jì)算系統(tǒng)的分析模型》論文提到:“美國(guó)、日本、韓國(guó)、中國(guó)”已成為世界專利大國(guó)的第一陣營(yíng)[2]。2015年9月15日,國(guó)家知識(shí)產(chǎn)權(quán)局局長(zhǎng)申長(zhǎng)雨在專利信息年會(huì)上指出:要實(shí)現(xiàn)專利信息服務(wù)與互聯(lián)網(wǎng)和大數(shù)據(jù)的深度結(jié)合,既要依托互聯(lián)網(wǎng)提高專利信息的傳播利用效率,也要借助大數(shù)據(jù)對(duì)專利數(shù)據(jù)信息進(jìn)行深度整合加工挖掘處理,并實(shí)現(xiàn)與經(jīng)濟(jì)貿(mào)易等數(shù)據(jù)的關(guān)聯(lián)分析,使得更有價(jià)值的隱性信息浮出水面,加以利用[3]。
加強(qiáng)加快知識(shí)產(chǎn)權(quán)運(yùn)營(yíng)平臺(tái)建設(shè),利用網(wǎng)絡(luò)環(huán)境下的大數(shù)據(jù),通過(guò)專利分析模型進(jìn)行目標(biāo)分析就是一種可行和高效的科學(xué)方法。本文對(duì)國(guó)內(nèi)外主要專利軟件(平臺(tái))進(jìn)行了深入分析比較,構(gòu)建了大數(shù)據(jù)專利分析模型(PDAP)。
“大數(shù)據(jù)”(Big Data)概念在上世紀(jì)90年代最初提出時(shí),是對(duì)無(wú)法用傳統(tǒng)手段進(jìn)行抓取、管理和處理的數(shù)據(jù)的統(tǒng)稱。近年來(lái)圍繞大數(shù)據(jù)產(chǎn)生的新技術(shù),高速、大規(guī)模的數(shù)據(jù)交換、互聯(lián),以及從前無(wú)法想象的數(shù)據(jù)處理方式已經(jīng)成為現(xiàn)實(shí)[4]。這為專利分析提供了一種利器。
專利信息與大數(shù)據(jù)進(jìn)行“聯(lián)姻”,會(huì)誕生出此前不曾預(yù)料的價(jià)值。如利用專利的申請(qǐng)人信息,就能夠?qū)Σ煌愋偷膭?chuàng)新主體進(jìn)行專利情報(bào)分析;利用發(fā)明人信息,就能從多個(gè)角度對(duì)創(chuàng)新者進(jìn)行分析……
我國(guó)專利申請(qǐng)總量2012年全年達(dá)205萬(wàn)件,而2013年8月7日至8月14日的1周內(nèi),中國(guó)就有4 451件發(fā)明專利獲得授權(quán),美國(guó)有5 725件專利獲得授權(quán)[4]。如此大量的專利“大數(shù)據(jù)”,使得對(duì)專利內(nèi)容的分揀、選取、利用都成了“大任務(wù)”。目前,世界各國(guó)的在線專利文獻(xiàn)檢索服務(wù)均已比較成熟。國(guó)家知識(shí)產(chǎn)權(quán)局也建成了專利檢索與服務(wù)系統(tǒng),任何用戶都可在中國(guó)專利數(shù)據(jù)庫(kù)中進(jìn)行搜索,其中大部分都可看到專利說(shuō)明書等詳情。
基于傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)與搜索技術(shù),目前的專利數(shù)據(jù)已可以針對(duì)多種著錄項(xiàng)目進(jìn)行檢索,性能成熟穩(wěn)定,但在大數(shù)據(jù)技術(shù)下仍可期望有更多進(jìn)展。專利文獻(xiàn)的內(nèi)容以直接公開技術(shù)信息及相關(guān)法律信息為主,其著錄項(xiàng)目不可能包含所有商業(yè)競(jìng)爭(zhēng)情報(bào)分析所需要的信息,其后大量隱性信息則需要大數(shù)據(jù)的支持來(lái)獲得[4]。
大數(shù)據(jù)最大的特點(diǎn)是“要數(shù)據(jù)全集,不要采樣”,目前已有專利信息的全部著錄項(xiàng)目都會(huì)得到利用。不僅專利權(quán)人、發(fā)明人、摘要這些重要的信息欄目會(huì)被重點(diǎn)分析,包括公開(公告)日期、優(yōu)先權(quán)日、申請(qǐng)日、IPC分類號(hào)、申請(qǐng)人地址在內(nèi)的信息也會(huì)獲得活力,能夠?qū)Σ煌愋偷膭?chuàng)新主體進(jìn)行專利情報(bào)的分析,能夠從多個(gè)角度對(duì)創(chuàng)新者進(jìn)行分析。做專利信息的深度加工和先進(jìn)的檢索分析平臺(tái),有很大的市場(chǎng)前景。
目前的大數(shù)據(jù)分析技術(shù)已經(jīng)能夠大幅度加快數(shù)據(jù)的檢索速度,實(shí)現(xiàn)實(shí)時(shí)處理數(shù)據(jù)規(guī)模超過(guò)萬(wàn)億甚至十萬(wàn)億,數(shù)據(jù)從產(chǎn)生到能夠查詢到結(jié)果這個(gè)間隔不超過(guò)5秒。在大數(shù)據(jù)知識(shí)型相關(guān)網(wǎng)絡(luò)中,數(shù)據(jù)巨量但有序,數(shù)據(jù)關(guān)系復(fù)雜但相關(guān)。通過(guò)大數(shù)據(jù)技術(shù)相關(guān)計(jì)算,完全可以將隱蔽、不相關(guān)、非結(jié)構(gòu)化的知識(shí)轉(zhuǎn)換為結(jié)構(gòu)化的相關(guān)知識(shí)。在大數(shù)據(jù)專利分析中,非結(jié)構(gòu)化的專利文本信息,都可通過(guò)實(shí)時(shí)自動(dòng)相關(guān)計(jì)算,快速進(jìn)行精確量化,通過(guò)復(fù)雜計(jì)算發(fā)現(xiàn)隱藏在大數(shù)據(jù)專利中的各種潛在相關(guān)模式。
在專利數(shù)據(jù)庫(kù)中,對(duì)專利申請(qǐng)?zhí)枴⑹跈?quán)號(hào)、專利名稱、申請(qǐng)人等基本信息,現(xiàn)在都做到了有效搜索,成了分析平臺(tái)(軟件)的“標(biāo)配”,因此分析工具的對(duì)比中就不列此項(xiàng)了。
近年來(lái),國(guó)內(nèi)的專利分析平臺(tái)(軟件)發(fā)展迅速,有的已經(jīng)處于國(guó)外領(lǐng)先水平,特別是分析工具的研發(fā)應(yīng)用,促使了統(tǒng)計(jì)分析功能不斷完善,如INCOPAT、PATENTICS等,為企業(yè)提供競(jìng)爭(zhēng)情報(bào)和決策服務(wù)起到了越來(lái)越重要的作用。本文統(tǒng)計(jì)分析了國(guó)內(nèi)主要的25家平臺(tái)(系統(tǒng)),其主要特點(diǎn)見(jiàn)表1。
表1 國(guó)內(nèi)主要專利分析平臺(tái)(系統(tǒng))及其特點(diǎn)
表1(續(xù))
在大數(shù)據(jù)進(jìn)行專利分析應(yīng)用方面,美國(guó)、日本、韓國(guó)等專利強(qiáng)國(guó)開展研究比較早,軟件也比較成熟。特別是美國(guó)的分析工具有強(qiáng)大的挖掘、準(zhǔn)確的分析和豐富的可視化等功能,并且軟件種類繁多。表2統(tǒng)計(jì)分析了美日韓主要的專利分析工具,并從數(shù)據(jù)轉(zhuǎn)化、文本挖掘、文本分析和可視化等方面列出其主要特點(diǎn)[11]。
從以上對(duì)國(guó)內(nèi)外主要專利分析軟件(平臺(tái))分析可看出,共同點(diǎn)是數(shù)據(jù)庫(kù)建設(shè)比較完善,數(shù)據(jù)采集比較全面,數(shù)據(jù)更新比較用時(shí),檢索功能強(qiáng)大,圖表統(tǒng)計(jì)分析基本形成,初步形成了對(duì)個(gè)人和企業(yè)的個(gè)性專業(yè)服務(wù)。但若在服務(wù)項(xiàng)目和技術(shù)水平上進(jìn)行比較,可發(fā)現(xiàn)國(guó)內(nèi)的專利分析平臺(tái)(軟件)大多是功能形式比較單一,僅限于表格,沒(méi)有圖形或文字分析報(bào)告。另外,中國(guó)科技情報(bào)所和各省、市的情報(bào)所的網(wǎng)站上都有中國(guó)專利數(shù)據(jù)庫(kù),但都僅限于各種途徑的檢索,而且一般不提供免費(fèi)服務(wù),專利統(tǒng)計(jì)信息基本上沒(méi)有,也不提供專利統(tǒng)計(jì)服務(wù)。
表2 美日韓專利分析工具及其特點(diǎn)
總之,在大數(shù)據(jù)已經(jīng)開始廣泛應(yīng)用的今天,國(guó)內(nèi)專利分析軟件(平臺(tái))存在有十大不足。即:1)對(duì)專利文本內(nèi)容的分析不足;2)智能檢索分析和機(jī)器語(yǔ)言的應(yīng)用不夠完善;3)專利分析結(jié)果的可視化智能分析表現(xiàn)單??;4)平臺(tái)對(duì)接、跨區(qū)域平臺(tái)運(yùn)營(yíng)能力較弱;5)企業(yè)專利預(yù)警分析軟弱;6)國(guó)家專利數(shù)據(jù)庫(kù)開放程度還不高;7)對(duì)專利成果交易、轉(zhuǎn)移的分析不足;8)專利成果交易和轉(zhuǎn)換率的分析不夠;9)專利質(zhì)量的比較分析涉及不多;10)專利成果對(duì)國(guó)家創(chuàng)新、競(jìng)爭(zhēng)力的貢獻(xiàn)率分析不足。
通過(guò)上面國(guó)內(nèi)外成熟的專利軟件的分析,結(jié)合他們的特性,我們遵循大數(shù)據(jù)分析的設(shè)計(jì)思路來(lái)構(gòu)建專利分析模型,以軟件的模塊化作為開發(fā)設(shè)計(jì)原則,以方便系統(tǒng)的更新與改進(jìn)。此模型我們稱為“大數(shù)據(jù)專利分析平臺(tái)”(Patent Data Analysis Platform,簡(jiǎn)稱PDAP)。目前,人工智能語(yǔ)義搜索和神經(jīng)網(wǎng)絡(luò)工具已經(jīng)在繁雜的多元數(shù)據(jù)中得到了應(yīng)用。PDAP基于機(jī)器學(xué)習(xí)來(lái)進(jìn)行非結(jié)構(gòu)性數(shù)據(jù)和混合性數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)性數(shù)據(jù);基于智能分析工具進(jìn)行數(shù)據(jù)挖掘、清洗、對(duì)比和分類,并對(duì)專利技術(shù)特征詞和特征向量進(jìn)行歸庫(kù);基于專利分析工具結(jié)合專利指標(biāo)體系來(lái)建立相關(guān)模型,并進(jìn)行各類層面的可視化分析,實(shí)現(xiàn)各種功能。
PDAP整個(gè)系統(tǒng)的設(shè)計(jì)思想采取模塊化設(shè)計(jì),以解決軟件的復(fù)雜性,且使系統(tǒng)不至于隨著數(shù)據(jù)的變大而失控,使其可控、可維護(hù)、可擴(kuò)展,然后定義良好的接口把若干模塊組合起來(lái)。這些模塊相對(duì)獨(dú)立,塊塊之間用接口(協(xié)議)通信,多個(gè)塊組合可完成一系列功能。這些模塊接口定義后就能組配出各種分析功能,而組配是靈活自由的。如此,隨著分析算法的補(bǔ)充完善,可對(duì)局部進(jìn)行改造、優(yōu)化甚至替換,使得專利分析模型不斷適應(yīng)實(shí)際環(huán)境的變化。
即:PDAP=A+B+C……,其中:A、B、C等代表各個(gè)模塊,每個(gè)模塊都可單獨(dú)完成特定的任務(wù),如時(shí)間模塊可提取某個(gè)時(shí)間段的專利數(shù)據(jù)。如時(shí)間模塊與頻率模塊組合,可提取某個(gè)時(shí)間段的專利產(chǎn)生頻率圖。
PDAP開發(fā)系統(tǒng)的基本原則是以系統(tǒng)總體目標(biāo)為宗旨,為用戶提供一個(gè)技術(shù)先進(jìn)、成熟可靠、靈活運(yùn)用的分析系統(tǒng)。因此,系統(tǒng)設(shè)計(jì)遵循如下原則:
1)開放性——系統(tǒng)在設(shè)計(jì)時(shí)考慮到功能的可擴(kuò)展性與維護(hù)的方便性,使用的操作平臺(tái)類型、應(yīng)用服務(wù)器、編程語(yǔ)言和數(shù)據(jù)庫(kù),將遵循通用性、開放性,以期達(dá)到減少后續(xù)分析功能的增加和維護(hù)修改的難度。
2)先進(jìn)性——開發(fā)語(yǔ)言采用(java、php、python、c#)+H5,后臺(tái)數(shù)據(jù)庫(kù)采用mysql,這種組合技術(shù)是完全基于Linux平臺(tái)進(jìn)行開發(fā),降低了系統(tǒng)運(yùn)營(yíng)成本,提高了系統(tǒng)的穩(wěn)定性和易維護(hù)性。
3)高性能——PDAP系統(tǒng)的硬件搭配,能夠使平臺(tái)充分勝任對(duì)大量用戶同時(shí)處理專利分析的要求和專利數(shù)據(jù)信息量不斷增長(zhǎng)的要求。
4)實(shí)用性——PDAP平臺(tái)以專利常用需求的分析為目標(biāo),以方便用戶為原則,在吸取國(guó)內(nèi)外專利分析經(jīng)驗(yàn)的基礎(chǔ)上增加國(guó)家創(chuàng)新能力(科技創(chuàng)新)等功能;同時(shí)可以利用大數(shù)據(jù),分析用戶的行為特性。
5)安全性——充分考慮系統(tǒng)及數(shù)據(jù)資源的容災(zāi)、備份、恢復(fù)等安全要求,為系統(tǒng)提供強(qiáng)大的數(shù)據(jù)庫(kù)備份工具。
PDAP模型大數(shù)據(jù)技術(shù)棧是由文件系統(tǒng)、數(shù)據(jù)管理、業(yè)務(wù)計(jì)算和展示模塊構(gòu)成(見(jiàn)圖1)。其中:文件系統(tǒng)是專利及相關(guān)的公報(bào)、年鑒等數(shù)據(jù)庫(kù)的一種資源管理系統(tǒng);數(shù)據(jù)管理是對(duì)數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)(如專利主分類號(hào)、發(fā)明人 、申請(qǐng)人 、申請(qǐng)日期等)、非結(jié)構(gòu)化數(shù)據(jù)(如專利的圖片、XML、HTML、專利和各類報(bào)表、圖像等)進(jìn)行存儲(chǔ)和管理,如某個(gè)時(shí)間維度的專利數(shù)據(jù),某個(gè)行業(yè)維度的專利數(shù)據(jù)等;業(yè)務(wù)計(jì)算是用批處理、流處理和圖計(jì)算等不同的計(jì)算范式(認(rèn)可度分析、時(shí)間維度、頻率分析、行業(yè)分析等),來(lái)衍生出編程模型的計(jì)算模型;展示模塊是利用統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、可視化分析及工具語(yǔ)言等,來(lái)展示出專利信息的樹狀圖、條形圖、分布圖、熱力圖等。
圖1 PDAP模型大數(shù)據(jù)技術(shù)棧
從不同渠道(如各國(guó)家或地區(qū)、國(guó)內(nèi)各省市)來(lái)獲取專利數(shù)據(jù)和相關(guān)數(shù)據(jù),作為數(shù)據(jù)分析的數(shù)據(jù)源,但這些數(shù)據(jù)格式是不固定的,甚至是“散亂”的,利用起來(lái)困難,因此要通過(guò)專利數(shù)據(jù)分布系統(tǒng)來(lái)進(jìn)行“整理”。在PDAP的分布式文件系統(tǒng)中,初步的對(duì)全國(guó)31個(gè)省市的專利按時(shí)間(2010-2015年)進(jìn)行獲取,并加入此時(shí)間段內(nèi)的公報(bào)和年鑒相關(guān)數(shù)據(jù),作為文件目錄,初步分布到各個(gè)系統(tǒng)里面,進(jìn)一步做出R&D投入產(chǎn)生專利的比值、各省市研發(fā)人員產(chǎn)生專利的比值等方面的精細(xì)化分析。
圖2揭示了構(gòu)建PDAP遵循的基本架構(gòu),圖3、圖4分別表示“數(shù)據(jù)源”的基本特征、“數(shù)據(jù)庫(kù)”的基本特征。“數(shù)據(jù)庫(kù)”基本特征是大數(shù)據(jù)應(yīng)用的基礎(chǔ)。
構(gòu)建PDAP的基本思路是分級(jí)分類、分級(jí)提取和分級(jí)分析,針對(duì)不同的分類,使用不同的數(shù)據(jù)分析工具。PDAP主要采用以下幾種“數(shù)據(jù)分析工具”。
1)SAS統(tǒng)計(jì)分析軟件:可對(duì)大數(shù)據(jù)專利下的復(fù)雜數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,具有編程擴(kuò)展其分析能力,可數(shù)據(jù)訪問(wèn)、數(shù)據(jù)儲(chǔ)存及管理、應(yīng)用開發(fā)、圖形處理、數(shù)據(jù)分析、報(bào)告編制、運(yùn)籌學(xué)方法、計(jì)量經(jīng)濟(jì)學(xué)與預(yù)測(cè)等。
圖2 PDAP的基本架構(gòu)
2)Excel電子表格軟件:對(duì)分類后的數(shù)據(jù)進(jìn)行簡(jiǎn)單的分組和求和需求時(shí)使用,特別是新增強(qiáng)的可視化和網(wǎng)絡(luò)關(guān)系分析,使用方便簡(jiǎn)捷;但對(duì)復(fù)雜的多元的數(shù)據(jù)結(jié)構(gòu)及大數(shù)據(jù)量的支持仍然較弱,所以當(dāng)數(shù)據(jù)量過(guò)大時(shí),會(huì)自動(dòng)關(guān)閉并轉(zhuǎn)換到其他分析工具。
3)SPSS統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案:可與Excel軟件相結(jié)合使用,做數(shù)據(jù)的因子分析、聚類分析等等,以達(dá)到整個(gè)系統(tǒng)的“平衡”。
圖3 “數(shù)據(jù)源”基本特征
圖4 “數(shù)據(jù)庫(kù)”的基本特征
然而,類型不同、格式不同,其算法也不同,但是,其目的是能夠更加快捷地進(jìn)行處理。大數(shù)據(jù)專利文獻(xiàn)經(jīng)過(guò)智能工具進(jìn)行數(shù)據(jù)挖掘、清洗、對(duì)比和分類,分析出專利技術(shù)特征詞和特征向量后進(jìn)行歸庫(kù)。筆者參考索意互動(dòng)(北京)信息技術(shù)有限公司的Patentics軟件,經(jīng)過(guò)研究,得出相關(guān)模型:
LM={(TCi,VCi);i∈[1∶M]}(X,Y)
X,Y——表示專利文本統(tǒng)計(jì)的起始時(shí)間與結(jié)束時(shí)間;
M——表示(X,Y)時(shí)間段內(nèi)的專利授權(quán)量;
TCi——表示M個(gè)專利的技術(shù)特征集合;
VCi——表示M個(gè)專利的特征向量集合。
PDAP呈現(xiàn)給用戶的不僅有大量數(shù)據(jù)的列表,還可以有直觀呈現(xiàn)大數(shù)據(jù)特點(diǎn)的可視化分析,如復(fù)雜的圖表、專利地形圖、專利熱力圖、專利氣泡圖等。
根據(jù)專利的應(yīng)用特征和大數(shù)據(jù)分析工具而初步建立的PDAP系統(tǒng),是國(guó)家科技創(chuàng)新和企業(yè)技術(shù)創(chuàng)新決策的支持系統(tǒng),將是一項(xiàng)具有重大現(xiàn)實(shí)意義的研究課題。PDAP系統(tǒng)的架構(gòu)已經(jīng)建立起來(lái),對(duì)部分功能模塊進(jìn)行了研發(fā)。筆者選擇2014年中國(guó)專利數(shù)據(jù)和國(guó)民經(jīng)濟(jì)相關(guān)數(shù)據(jù)進(jìn)行測(cè)試分析,其數(shù)據(jù)在PDAP系統(tǒng)中的列表如表3。
表3 利用PDAP系統(tǒng)對(duì)2014年中國(guó)專利數(shù)據(jù)和國(guó)民經(jīng)濟(jì)相關(guān)數(shù)據(jù)測(cè)試分析的結(jié)果
注:①此數(shù)據(jù)是從國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)庫(kù)中的各省市相關(guān)的數(shù)據(jù)導(dǎo)入,合計(jì)數(shù)值與統(tǒng)計(jì)局的全國(guó)數(shù)據(jù)有一定的差異,在此以各省市的數(shù)據(jù)合計(jì)為準(zhǔn)。②A—各地區(qū)的GDP(億元);③R—各地區(qū)的常住人口(萬(wàn)人);④B—研究與試驗(yàn)發(fā)展(R&D)經(jīng)費(fèi)支出,指各地區(qū)/調(diào)查單位用于開展R&D活動(dòng)(基礎(chǔ)研究、應(yīng)用研究和試驗(yàn)發(fā)展)的實(shí)際支出(萬(wàn)元);⑤C—規(guī)模以上工業(yè)企業(yè)R&D人員全時(shí)當(dāng)量(人年);⑥M1—專利受理量(項(xiàng));⑦M(jìn)2—專利授權(quán)量(項(xiàng));⑧M%=M2/M1—專利有效率;⑨N=(M1-M2)—無(wú)效專利數(shù)量;⑩N%=(M1-M2)/M1—專利無(wú)效率;P1=M2/B—R&D萬(wàn)元投入產(chǎn)生專利的比值,反映研發(fā)水平的指標(biāo)之一;P2=M2/C—研發(fā)人員(人年)產(chǎn)生專利的比值,反映研發(fā)水平的指標(biāo)之一。
圖5 、圖6分別是放大千倍后顯示的各省市R&D投入產(chǎn)生專利的比值和各省市研發(fā)人員產(chǎn)生專利的比值。
大數(shù)據(jù)專利分析模型的構(gòu)建,所依賴的數(shù)據(jù)源已經(jīng)得到政府部門的大力支持,目前面臨的主要問(wèn)題是:1)專利分析指標(biāo)體系的確定,世界上還沒(méi)有統(tǒng)一而完善的專利評(píng)測(cè)指標(biāo)體系,理論方面還在進(jìn)行探討。2)專利分析工具的程序開發(fā)和應(yīng)用方面,以及文本的機(jī)器語(yǔ)義檢索和分析還有待進(jìn)一步提升。3)大數(shù)據(jù)的安全問(wèn)題必須從法律和技術(shù)兩方面進(jìn)行加強(qiáng)保護(hù)。4)國(guó)內(nèi)對(duì)專利分析結(jié)果的可視化方面要進(jìn)一步開發(fā)研究。
雖然,對(duì)PDAP系統(tǒng)的構(gòu)建我們邁出了第一步,但許多模塊的測(cè)試應(yīng)用工作還需要得到實(shí)際的檢驗(yàn)。
圖5 各省市R&D投入(萬(wàn)元)產(chǎn)生專利數(shù)量(放大千倍顯示)
圖6 各省市研發(fā)人員(人/年)產(chǎn)生專利數(shù)量(放大千倍顯示)
PDAP的研發(fā)是我們?cè)趯@麘?yīng)用方面做的一種嘗試,思路是:第一步在專利分布文件系統(tǒng)的基礎(chǔ)上,通過(guò)Hadoop,或者其它類似key-value形式的數(shù)據(jù)緩存分析系統(tǒng)提取專利和相關(guān)的數(shù)據(jù),作為專利數(shù)據(jù)索引,便于后續(xù)根據(jù)用戶需求來(lái)快速獲取指定的數(shù)據(jù)內(nèi)容;第二步是根據(jù)時(shí)間點(diǎn)、專利的區(qū)域、產(chǎn)生頻率、專利認(rèn)可度等維度初步對(duì)專利數(shù)據(jù)索引分析,確定用戶的“需求域”以及需要進(jìn)一步分析的專利數(shù)據(jù);第三步是根據(jù)需求,將分析計(jì)算后的專利數(shù)組可視化(行業(yè)分布圖、專利產(chǎn)生頻率圖等)展示出來(lái),便于直接觀看,獲取需求信息。
本文首先分析了大數(shù)據(jù)環(huán)境下專利分析的發(fā)展?fàn)顩r,對(duì)國(guó)內(nèi)外主要專利軟件(平臺(tái))進(jìn)行了特征分析和優(yōu)勢(shì)比較,并結(jié)合其優(yōu)缺點(diǎn),構(gòu)建出大數(shù)據(jù)專利分析模型(PDAP)。然后對(duì)部分功能模塊進(jìn)行測(cè)試。隨著數(shù)據(jù)可及性的提高,諸如產(chǎn)業(yè)、貿(mào)易、金融等各種類型、各種角度數(shù)據(jù)的公開,將這些數(shù)據(jù)與專利數(shù)據(jù)結(jié)合,通過(guò)關(guān)聯(lián)分析可以獲得更加深刻的洞察力,為用戶提供及時(shí)、可靠的競(jìng)爭(zhēng)情報(bào)。當(dāng)然,PDAP系統(tǒng)還需進(jìn)一步完善專利評(píng)測(cè)指標(biāo)體系和相關(guān)數(shù)據(jù)的篩選。此外,數(shù)據(jù)安全性、專利分析可視化、構(gòu)建更加完善的專利分析模型等都是我們未來(lái)要努力的方向。
[1]王賓,胡喆,陳宇軒.中國(guó)專利漸成世界創(chuàng)新“推手”[N].新華每日電訊,2016-12-23,(5).
[2]Архипова М.Ю.Карпов Евгений.Анализ и моделирование патентной активности в России и развитых странах мира;《Анализ факторов развития национальной инновационной системы в России》,проект 11—02-00426а,2011.
[3]王宇.讓豐富的專利信息資源煥發(fā)出推動(dòng)創(chuàng)新創(chuàng)業(yè)的蓬勃力量[N].中國(guó)知識(shí)產(chǎn)權(quán)報(bào),2015-09-16,(1).
[4]劉陽(yáng)子.“大數(shù)據(jù)”能否連通專利信息“孤島”[N].中國(guó)知識(shí)產(chǎn)權(quán)報(bào),2013-08-22,(3).
[5]Divakar Mysore,Shrikant Khupat,Shweta Jain.“大數(shù)據(jù)架構(gòu)和模式”[EB/OL].大數(shù)據(jù)動(dòng)向,http://kb.cnblogs.com/page/510978/,2015-01-29.
[6]石書德.從主要專利質(zhì)量指標(biāo)看我國(guó)專利的發(fā)展水平[J].科技和產(chǎn)業(yè),2012,12(7):123-126.
[7]GUAN J C,GAO X.Exploring the h-index atpatent Level[J].Journal of the American Society for Information Science and Technology,2008,59(13):1-6.
[8]國(guó)務(wù)院.“十三五”國(guó)家科技創(chuàng)新規(guī)劃[S].2016.
[9]王曰芬,劉衛(wèi)江,邱玉婷.專利預(yù)警信息分析系統(tǒng)的體系架構(gòu)設(shè)計(jì)[J].情報(bào)理論與實(shí)踐,2014,37(6):107-111.
[10]李靜,郭吉安.企業(yè)專利預(yù)警指標(biāo)體系研究[J].圖書情報(bào)工作,2009,53(4):69-73.
[11]王曰芬,張旭,鄔尚君.在線專利分析軟件的總體架構(gòu)[J].現(xiàn)代圖書情報(bào)技術(shù),2008,(10):48-53.
ResearchonPatentAnalysisModelinBigDataEnvironment
Lu Qing1Zhao Pengbi2
(1.School of Politics and Law,Shangrao Normal University,Shangrao 334001,China;2.Zhongke Soft(Beijing)Technology Development Co., LTD,Beijing 100000,China)
The application of Big Data has expanded to many fields,and will play an important role in the intellectual property which is dominated by patent resources.This paper analyzed the status of patent analysis of big data,analyzed and compared the main patent software(platform)in China and abroad.Combing with their advantages and disadvantages,the paper constructed a big data patent analysis model(PDAP).
big data;patent analysis platform;data patent analysis model;PDAP
10.3969/j.issn.1008-0821.2018.01.005
G255.53
A
1008-0821(2018)01-0037-08
2017-09-25
2016年江西省知識(shí)產(chǎn)權(quán)軟科學(xué)項(xiàng)目“大數(shù)據(jù)環(huán)境下的專利分析模型研究”(項(xiàng)目編號(hào)ZR201602)。
盧青(1965-),女,研究員,碩士生導(dǎo)師,研究方向:公共管理。趙澎碧(1965-),男,研究員,研究方向:大數(shù)據(jù)應(yīng)用與架構(gòu)。
孫國(guó)雷)