武蘭芬
摘要
近年來,云計(jì)算和大數(shù)據(jù)的共同發(fā)展極大地提高了決策的效率、科學(xué)性和精確性。作為技術(shù)創(chuàng)新的重要知識(shí)來源,專利大數(shù)據(jù)蘊(yùn)含的豐富的技術(shù)、法律和經(jīng)濟(jì)價(jià)值信息,亟待深度挖掘和充分利用。本文闡述云計(jì)算和大數(shù)據(jù)的關(guān)系,分析專利大數(shù)據(jù)的特點(diǎn),探討云計(jì)算在專利大數(shù)據(jù)分析中的應(yīng)用。
【關(guān)鍵詞】云計(jì)算 專利大數(shù)據(jù) 數(shù)據(jù)挖掘
全球的專利數(shù)據(jù)總量至今已經(jīng)超過1億條,而且專利數(shù)據(jù)每周都在進(jìn)行更新。專利大數(shù)據(jù)蘊(yùn)含的豐富的技術(shù)、法律和經(jīng)濟(jì)信息具有巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。以云計(jì)算技術(shù)推動(dòng)專利大數(shù)據(jù)的深度挖掘和分析,可以加快實(shí)現(xiàn)專利大數(shù)據(jù)在我國(guó)創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略和經(jīng)濟(jì)社會(huì)發(fā)展中的應(yīng)用。
1 云計(jì)算與大數(shù)據(jù)
云計(jì)算作為一種計(jì)算資源配置模式,通過提供泛在、便捷、按需的網(wǎng)絡(luò)訪問,使用戶進(jìn)入可配置的計(jì)算資源共享池,按照需求使用網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用和服務(wù)等。云計(jì)算的基本特征包括按需自助服務(wù)、廣泛的網(wǎng)絡(luò)訪問、資源池化、快速擴(kuò)展性、服務(wù)可計(jì)量化。
大數(shù)據(jù)的本質(zhì)是從海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的規(guī)律并對(duì)事物發(fā)展的可能性做出預(yù)測(cè)。國(guó)際商業(yè)機(jī)器有限公司(IBM)的數(shù)據(jù)科學(xué)家將大數(shù)據(jù)的特性歸納為四個(gè)方面:
(1)數(shù)量巨大(volume),據(jù)估計(jì)每天產(chǎn)生的數(shù)據(jù)量可以達(dá)到2.3萬億GB;
(2)形式多樣(variety),數(shù)據(jù)來源于商業(yè)交易、智能設(shè)備、社交媒體和互聯(lián)網(wǎng)日志等,數(shù)據(jù)格式包括著錄數(shù)據(jù)、文本、圖片、音頻、視頻等各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);
(3)速度快(velocity),數(shù)據(jù)產(chǎn)生和處理的速度都非??欤?/p>
(4)真實(shí)性要求高(veracity),數(shù)據(jù)分析和決策的精確依賴于數(shù)據(jù)的可靠性和正確性。
云計(jì)算和大數(shù)據(jù)的發(fā)展對(duì)人們的思維、管理方式和決策能力都產(chǎn)生了深遠(yuǎn)影響。云計(jì)算解決的是計(jì)算資源的共享和高效利用,而大數(shù)據(jù)的意義在于對(duì)數(shù)據(jù)的深度挖掘、分析和應(yīng)用。對(duì)海量數(shù)據(jù)的挖掘需要高速實(shí)時(shí)運(yùn)行的數(shù)據(jù)分析技術(shù)和計(jì)算資源,云計(jì)算所具備的按需服務(wù)、動(dòng)態(tài)調(diào)配、快速擴(kuò)展等特點(diǎn)正好解決了大數(shù)據(jù)處理技術(shù)的需求。云計(jì)算和大數(shù)據(jù)的結(jié)合可以加速實(shí)現(xiàn)海量數(shù)據(jù)資源的深度挖掘和利用。
2 專利大數(shù)據(jù)的特點(diǎn)
專利是反映科技創(chuàng)新最重要的知識(shí)產(chǎn)權(quán)形式,保護(hù)對(duì)象為整個(gè)實(shí)用技術(shù)領(lǐng)域,許多發(fā)明成果僅通過專利文獻(xiàn)公開,并不見諸于其它科技文獻(xiàn)。專利信息不僅揭示發(fā)明創(chuàng)造的實(shí)用技術(shù),也用來確定專利權(quán)人獨(dú)占的權(quán)利范圍,還可以反映專利產(chǎn)品和投資的市場(chǎng)趨勢(shì),是集技術(shù)、法律和經(jīng)濟(jì)于一體的信息。專利信息是知識(shí)產(chǎn)權(quán)戰(zhàn)略管理和決策中最基礎(chǔ)最重要的信息來源,高質(zhì)量的專利信息對(duì)于知識(shí)產(chǎn)權(quán)的創(chuàng)造、運(yùn)用、保護(hù)和管理起著重要的促進(jìn)作用。
專利大數(shù)據(jù)是指專利相關(guān)活動(dòng)中產(chǎn)生的數(shù)據(jù),包括專利申請(qǐng)、審查、許可、轉(zhuǎn)讓和訴訟等各方面的數(shù)據(jù)。專利大數(shù)據(jù)的挖掘,不僅要關(guān)注專利數(shù)據(jù)本身的價(jià)值,也要重視專利與產(chǎn)業(yè)、經(jīng)濟(jì)和貿(mào)易等數(shù)據(jù)的關(guān)聯(lián)分析,實(shí)現(xiàn)專利數(shù)據(jù)對(duì)產(chǎn)業(yè)和經(jīng)濟(jì)社會(huì)發(fā)展的貢獻(xiàn)和價(jià)值。對(duì)專利大數(shù)據(jù)進(jìn)行深度挖掘和充分利用,不僅可以提高我國(guó)知識(shí)產(chǎn)權(quán)的發(fā)展水平,而且可以為我國(guó)創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)提供良好的助力。專利大數(shù)據(jù)蘊(yùn)含著極其豐富的知識(shí)資源,其特點(diǎn)主要有:
2.1 數(shù)據(jù)量巨大,更新周期快
作為最能體現(xiàn)技術(shù)創(chuàng)新水平的發(fā)明專利,2011-2015年間全球申請(qǐng)量從214萬件增長(zhǎng)到288萬件,我國(guó)的申請(qǐng)量從52萬件增長(zhǎng)到110萬件,連續(xù)5年位居世界首位。隨著各國(guó)技術(shù)創(chuàng)新速度的不斷加快,專利申請(qǐng)量逐年增長(zhǎng),專利文獻(xiàn)數(shù)據(jù)也越來越多。各國(guó)專利局都在不斷地對(duì)專利數(shù)據(jù)進(jìn)行更新,更新的速度縮短到了每周。更新的專利文獻(xiàn)和數(shù)據(jù)被隨時(shí)添加到專利數(shù)據(jù)庫中。
2.2 數(shù)據(jù)繁雜,差異性顯著
由于專利保護(hù)的地域性特點(diǎn),各國(guó)專利制度存在明顯差異,專利收錄時(shí)間、專利類型、保護(hù)期限等因素的不一致性導(dǎo)致各國(guó)專利數(shù)據(jù)存在很大的差別。除了專利申請(qǐng)審查過程中產(chǎn)生的專利申請(qǐng)公開和授權(quán)數(shù)據(jù),專利數(shù)據(jù)還包括專利交易中發(fā)生的專利許可轉(zhuǎn)讓數(shù)據(jù),以及侵權(quán)訴訟中出現(xiàn)的專利訴訟數(shù)據(jù)等。另外,由于各國(guó)專利審查標(biāo)準(zhǔn)和程序不同,專利的質(zhì)量和價(jià)值也存在很大的差異。這些都導(dǎo)致在專利數(shù)據(jù)的海洋中尋找真正有價(jià)值信息的成本較高。
2.3 數(shù)據(jù)處理和挖掘難度大
專利數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)以著錄項(xiàng)目為主,包括專利號(hào)、申請(qǐng)?zhí)?、申?qǐng)日期、授權(quán)日期、申請(qǐng)人、發(fā)明人和專利分類號(hào)等。非結(jié)構(gòu)化數(shù)據(jù)包括文本數(shù)據(jù)和圖像數(shù)據(jù),通常專利分析中以文本信息為主,包括專利的名稱、摘要、權(quán)利要求書和說明書等。結(jié)構(gòu)化數(shù)據(jù)可以使用數(shù)理統(tǒng)計(jì)分析方法,而非結(jié)構(gòu)化數(shù)據(jù)因?yàn)榧夹g(shù)和法律用語晦澀難懂,尤其對(duì)于中文專利文本,文本挖掘難度很大。
目前我國(guó)對(duì)于專利大數(shù)據(jù)的開發(fā)和利用還處于發(fā)展階段的初期,存在巨大的市場(chǎng)需求和發(fā)展空間。
3 專利大數(shù)據(jù)分析中云計(jì)算的應(yīng)用
在大數(shù)據(jù)背景下,企業(yè)、研究機(jī)構(gòu)、服務(wù)中介、政府部門和公共群體都需要在海量的專利信息中提取、處理和利用可使用的數(shù)據(jù)、信息和知識(shí)。數(shù)據(jù)的爆發(fā)式增長(zhǎng),對(duì)于低成本、低能耗、高可靠性的存儲(chǔ)方式提出了更高要求。大數(shù)據(jù)需要高度發(fā)達(dá)的計(jì)算中心作為支撐。云計(jì)算能夠?yàn)榇髷?shù)據(jù)提供強(qiáng)大的存儲(chǔ)和計(jì)算能力。采用云計(jì)算技術(shù)建設(shè)國(guó)家專利數(shù)據(jù)中心,可以推進(jìn)專利數(shù)據(jù)的集中化和標(biāo)準(zhǔn)化,實(shí)現(xiàn)專利基礎(chǔ)數(shù)據(jù)資源的統(tǒng)一管理。為了保證應(yīng)對(duì)海量數(shù)據(jù)時(shí)的分析效率,高效并行處理能力也是不可或缺的。應(yīng)用云計(jì)算技術(shù)于數(shù)據(jù)挖掘和分析的過程中,可以提高和改善大數(shù)據(jù)的使用效率和效果。
數(shù)據(jù)分析是大數(shù)據(jù)的處理核心。專利大數(shù)據(jù)挖掘和分析過程包括專利數(shù)據(jù)的檢索、提取、清洗、分析和利用。云計(jì)算技術(shù)可以運(yùn)用在數(shù)據(jù)分析的不同階段,不同的階段可以采用公共云、私有云和混合云等不同的服務(wù)模式。
在專利數(shù)據(jù)檢索和提取階段,需要使用專利大數(shù)據(jù)網(wǎng)絡(luò)平臺(tái),該網(wǎng)絡(luò)平臺(tái)是以提供專利大數(shù)據(jù)檢索服務(wù)的“云端”應(yīng)用平臺(tái),可以為用戶提供大批量、實(shí)時(shí)和智能化的專利大數(shù)據(jù)檢索。專利大數(shù)據(jù)網(wǎng)絡(luò)平臺(tái)可以根據(jù)用戶的使用目的、時(shí)間、流量和方式等收取不同的平臺(tái)使用費(fèi)用。在此階段,對(duì)海量的專利數(shù)據(jù)進(jìn)行篩選和臨時(shí)存儲(chǔ),可以采用公共云的服務(wù)方式,能夠充分利用公共云無限擴(kuò)展的計(jì)算和存儲(chǔ)能力,同時(shí)大幅降低用戶的信息存儲(chǔ)成本和空間。
在專利數(shù)據(jù)的清洗和分析階段,可以運(yùn)用云計(jì)算的并行處理技術(shù)提高數(shù)據(jù)整理、加工和分析的效率,服務(wù)模式則可以采用混合云的形式。對(duì)于技術(shù)、產(chǎn)業(yè)發(fā)展趨勢(shì)等的宏觀性分析,可以利用公共云的海量數(shù)據(jù)處理和分析優(yōu)勢(shì),對(duì)于與用戶自身相關(guān)的專利數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手研判信息、企業(yè)兼合并知識(shí)產(chǎn)權(quán)數(shù)據(jù)等,可以采取私有云的服務(wù)方式,進(jìn)行更深層次的專利數(shù)據(jù)挖掘。
在專利大數(shù)據(jù)的利用階段,數(shù)據(jù)分析獲得的有價(jià)值信息和知識(shí)可以以“云”的形式在用戶內(nèi)部實(shí)現(xiàn)共享。由于這些信息和知識(shí)需要與用戶運(yùn)營(yíng)和發(fā)展戰(zhàn)略相結(jié)合,為保護(hù)信息和決策的安全性,適宜采取私有云的方式。
4 結(jié)語
在大數(shù)據(jù)時(shí)代,提高對(duì)專利數(shù)據(jù)的深度挖掘、分析和利用,獲取更多更有價(jià)值的隱性信息,可以極大地提升知識(shí)產(chǎn)權(quán)戰(zhàn)略管理和科學(xué)決策的水平。云計(jì)算應(yīng)用于專利大數(shù)據(jù)領(lǐng)域,將會(huì)達(dá)到降低數(shù)據(jù)存儲(chǔ)成本,提高數(shù)據(jù)加工和分析能力,加快數(shù)據(jù)處理速度等良好的效果。云計(jì)算和大數(shù)據(jù)的綜合運(yùn)用,可以為我國(guó)的發(fā)明人、企業(yè)、政府決策者、公共用戶等提供更快更全面的專利數(shù)據(jù)服務(wù),推動(dòng)決策從“經(jīng)驗(yàn)加感覺型”向“數(shù)據(jù)加事實(shí)型”轉(zhuǎn)變,為我國(guó)的科技創(chuàng)新提供更科學(xué)更高效的信息來源和情報(bào)服務(wù)。
參考文獻(xiàn)
[1]尹林.大數(shù)據(jù)與云計(jì)算的關(guān)系探討[J].通信與信息技術(shù),2015(09):50-52,92.
[2]陳燕,黃迎燕,方建國(guó)等.專利信息采集與分析(第2版)[M].北京:清華大學(xué)出版社,2014.
[3]鄧鵬.大數(shù)據(jù)時(shí)代專利分析服務(wù)的機(jī)遇與挑戰(zhàn)[J].中國(guó)發(fā)明與專利,2014(02):29-31.
[4]敖翔,謝虹霞.專利大數(shù)據(jù)發(fā)展路徑研究[J].中國(guó)發(fā)明與專利,2016(05):14-16.