[摘要] 本文站在企業(yè)戰(zhàn)略決策和獲取競爭優(yōu)勢的角度闡述了專利情報分析對于企業(yè)技術(shù)經(jīng)濟發(fā)展的重要意義和影響。探討了數(shù)據(jù)挖掘技術(shù)在專利情報分析中的優(yōu)勢。在此基礎(chǔ)上,提出了以數(shù)據(jù)挖掘為主、以傳統(tǒng)的數(shù)理統(tǒng)計學(xué)為輔的專利情報數(shù)據(jù)挖掘方法,并做了深入的實證研究,展示了數(shù)據(jù)挖掘技術(shù)在企業(yè)戰(zhàn)略發(fā)展和決策的前景。
[關(guān)鍵詞] 專利情報 數(shù)據(jù)挖掘 企業(yè)決策 競爭優(yōu)勢
一、專利情報分析在企業(yè)戰(zhàn)略決策中的地位和作用
隨著當(dāng)代世界經(jīng)濟的全球化、貿(mào)易的自由化,國內(nèi)外企業(yè)間的競爭日益激烈。在科學(xué)技術(shù)迅猛發(fā)展的今天,企業(yè)間的競爭已轉(zhuǎn)化為科學(xué)技術(shù)的競爭、技術(shù)創(chuàng)新能力的競爭,并集中體現(xiàn)為自主知識產(chǎn)權(quán),特別是專利數(shù)量及質(zhì)量的競爭。因此,專利情報在企業(yè)發(fā)展中的戰(zhàn)略地位正逐步得到增強。企業(yè)只有站在戰(zhàn)略的高度來認識和處理專利工作,強化專利發(fā)明的創(chuàng)造及專利管理,并在經(jīng)營活動中有效地實施專利戰(zhàn)略去開拓市場,才能有效地遏止競爭對手,以較少的投入獲得較大的市場競爭份額,不斷提高企業(yè)自身的競爭能力,取得市場競爭優(yōu)勢和經(jīng)濟效益。
專利情報技術(shù)價值只有通過分析才能充分體現(xiàn)出來。在各國企業(yè)紛紛開展的專利戰(zhàn)略研究中,最核心的部分就是專利情報分析。企業(yè)從研發(fā)項目選題決策到研發(fā)項目實施過程,專利情報分析都可以有效地支持企業(yè)的研發(fā)活動,為企業(yè)制定技術(shù)開發(fā)戰(zhàn)略提供科學(xué)準(zhǔn)確的決策依據(jù)。專利情報分析可以讓企業(yè)決策者和研發(fā)人員準(zhǔn)確了解到:其一,現(xiàn)有技術(shù)所處的成長階段;其二,新技術(shù)的發(fā)展動態(tài)和可能應(yīng)用的領(lǐng)域;其三,本行業(yè)的技術(shù)發(fā)展動態(tài);其四,競爭熱點技術(shù)領(lǐng)域;其五,競爭對手的研發(fā)動態(tài);其六,新產(chǎn)品的可能壽命、潛在市場和經(jīng)濟價值。
總之,專利情報分析不僅是企業(yè)爭奪專利的前提,更能為企業(yè)發(fā)展提供技術(shù)策略,評估競爭對手的情報,認清自己的相對專利地位和技術(shù)領(lǐng)域的發(fā)展趨勢,在技術(shù)開發(fā)、合作和貿(mào)易中有效地保護自身權(quán)益,制定出正確的技術(shù)開發(fā)戰(zhàn)略、最佳的研發(fā)計劃。
二、數(shù)據(jù)挖掘是目前最先進的專利情報分析方法
1.數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一種利用各種分析工具建構(gòu)數(shù)據(jù)分析模型,從而在大型的數(shù)據(jù)庫(或數(shù)據(jù)倉庫)中提取人們感興趣的知識的過程。這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識一般可以表達為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式。這些表達形式蘊含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,為科學(xué)研究、經(jīng)營決策、市場策劃、經(jīng)濟預(yù)測、工業(yè)控制等提供依據(jù)。
2.數(shù)據(jù)挖掘技術(shù)產(chǎn)生的背景
伴隨數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,企業(yè)管理中積累了大量的有用數(shù)據(jù),包括市場、客戶、供貨商、競爭對手,以及未來趨勢等重要信息,企業(yè)管理對數(shù)據(jù)處理技術(shù)要求不斷提高。但是信息超載與非結(jié)構(gòu)化,使得企業(yè)決策組織無法有效利用現(xiàn)存的信息,甚至使決策行為產(chǎn)生混亂與誤用?;诳傮w假定進行推斷和檢驗的傳統(tǒng)的統(tǒng)計分析方法對這些海量、異構(gòu)、分散數(shù)據(jù)的處理已顯得無能為力, 顯露出很大的局限性。因此,如何從這些復(fù)雜的專利文獻數(shù)據(jù)中以智能化的操作方式深入分析其中隱含的規(guī)律, 如何發(fā)現(xiàn)、提取這些知識并加以利用就成了當(dāng)務(wù)之急。
計算機技術(shù)的快速發(fā)展為專利情報分析提供了極大的便利條件,產(chǎn)生了數(shù)據(jù)挖掘等當(dāng)今信息科學(xué)的前沿技術(shù)和管理方法,促使專利情報分析方法向自動化、智能化、可視化的方向發(fā)展。
3.專利情報數(shù)據(jù)挖掘的優(yōu)勢和發(fā)展現(xiàn)狀
與傳統(tǒng)的基于統(tǒng)計的專利情報分析法(如:查詢、報表、聯(lián)機應(yīng)用分析等)相比,專利情報數(shù)據(jù)挖掘方法具有明顯的優(yōu)勢。
(1)方法優(yōu)勢。數(shù)據(jù)挖掘與傳統(tǒng)的統(tǒng)計分析方法的本質(zhì)區(qū)別在于統(tǒng)計是根據(jù)隨機性的觀測樣本數(shù)據(jù)以及問題的條件和假定,對未知事務(wù)做出以概率形式表述的推斷;而數(shù)據(jù)挖掘則是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。與統(tǒng)計相比,數(shù)據(jù)挖掘工具處理大量的實際數(shù)據(jù)更有優(yōu)勢,無須專業(yè)的統(tǒng)計背景也能使用數(shù)據(jù)挖掘的工具,而且,數(shù)據(jù)挖掘從大型數(shù)據(jù)庫提取所需數(shù)據(jù),利用專屬計算機軟件進行分析,更能滿足企業(yè)的需求。此外,從理論的角度來看,數(shù)據(jù)挖掘與統(tǒng)計也不同,其目的在于方便企業(yè)的末端使用者應(yīng)用,而非為統(tǒng)計學(xué)家提供檢驗工具。
(2)成果優(yōu)勢。數(shù)據(jù)挖掘技術(shù)同統(tǒng)計分析方法相比較, 挖掘算法的研究成果無論從數(shù)量上還是實用性上都具有巨大優(yōu)勢。例如根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘算法包括分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。近幾年來,自然語言理解、語義關(guān)聯(lián)分析、詞頻分布統(tǒng)計、語料學(xué)研究等可以用于進行情報分析的技術(shù)方法和工具,已經(jīng)成為數(shù)據(jù)挖掘算法的重要研究方向。因此,無論從體系結(jié)構(gòu)上,還是從具體方法上,數(shù)據(jù)挖掘算法都能夠很好地融合到專利情報分析系統(tǒng)中去。
(3)發(fā)展現(xiàn)狀。目前,大多數(shù)國內(nèi)學(xué)者對專利情報的分析仍停留在對數(shù)量特征的統(tǒng)計分析上,并且對于專利數(shù)據(jù)中的各種偏差性影響幾乎都沒有考慮,而國外學(xué)者則多利用數(shù)據(jù)挖掘的理論和數(shù)據(jù)可視化手段,正在研究專利信息的自動分析方法??傊?,對于專利信息的利用,國內(nèi)目前基本上仍處于定性分析和信息的統(tǒng)計計算管理水平上,尚不能從內(nèi)容上自動挖掘?qū)@麛?shù)據(jù)中的知識規(guī)律。
三、專利情報數(shù)據(jù)挖掘的方法與流程
數(shù)據(jù)挖掘的產(chǎn)生并不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù),相反,對于統(tǒng)計分析方法,數(shù)據(jù)挖掘主要體現(xiàn)在利用統(tǒng)計和人工智能技術(shù)進行高級多元統(tǒng)計方法的應(yīng)用上,是對這些方法的拓展和深化。因此,本文提出以數(shù)據(jù)挖掘為主、以數(shù)理統(tǒng)計為輔的兩者結(jié)合的專利情報數(shù)據(jù)挖掘方法。專利情報數(shù)據(jù)挖掘的任務(wù)就是從專利數(shù)據(jù)中發(fā)現(xiàn)模式。數(shù)據(jù)挖掘的模式主要有關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。與之對應(yīng)的分析方法包括關(guān)聯(lián)分析、分類分析、聚類分析、模式識別、可視化方法、人工神經(jīng)網(wǎng)絡(luò)等等。其中,關(guān)聯(lián)分析是本文專利情報數(shù)據(jù)挖掘方法研究的重點。
在現(xiàn)有研究的基礎(chǔ)上,根據(jù)實際需要,可將專利情報數(shù)據(jù)挖掘流程劃分為以下四大模塊:數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘與監(jiān)測、數(shù)據(jù)可視化以及情報分析與整合。其中,后三項統(tǒng)稱為數(shù)據(jù)挖掘分析。
(1)數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理:根據(jù)專利情報分析工作的目的,確定解決問題的性質(zhì)和數(shù)據(jù)挖掘的目標(biāo),明確科技監(jiān)測的需求,初步選取監(jiān)測對象。利用Spider技術(shù),對下載服務(wù)器下達獲取指令,服務(wù)器將相關(guān)數(shù)據(jù)進行獲取,形成本地化數(shù)據(jù)庫;對于獲取的數(shù)據(jù),采用數(shù)據(jù)預(yù)處理技術(shù)從目標(biāo)數(shù)據(jù)集中剔除錯誤數(shù)據(jù)和冗余數(shù)據(jù),去除噪聲及無關(guān)數(shù)據(jù),進行有效數(shù)據(jù)提取,經(jīng)數(shù)據(jù)集成后,形成特定領(lǐng)域的情報監(jiān)測數(shù)據(jù)集,為監(jiān)測分析做準(zhǔn)備。
(2)數(shù)據(jù)挖掘與監(jiān)測:結(jié)合監(jiān)測需求,運用技術(shù)預(yù)測、自然語言處理、信息萃取、知識發(fā)現(xiàn)等工具,依據(jù)特定的數(shù)據(jù)挖掘算法(如關(guān)聯(lián)分析、模糊聚類、技術(shù)組(群)自動識別、關(guān)鍵技術(shù)識別、自然語言處理等),在數(shù)據(jù)庫中提取數(shù)據(jù)模式。
(3)數(shù)據(jù)可視化:運用一定的方法將提取出的數(shù)據(jù)模式表達成某種易于理解的、直觀的知識或模式(圖,表等),對監(jiān)測數(shù)據(jù)集和所擁有的本地化數(shù)據(jù)庫進行初步分析,形成監(jiān)測分析結(jié)果報告,提交給情報分析人員。
(4)情報分析與整合:情報人員結(jié)合自己的專業(yè)知識,對監(jiān)測分析結(jié)果進行系統(tǒng)、深層次地分析,在相關(guān)持續(xù)性投入技術(shù)、破壞性技術(shù)和新的研究方向等領(lǐng)域形成情報信息的監(jiān)測分析報告,提交給該領(lǐng)域相關(guān)方面的專家。由專家憑借自己的知識和經(jīng)驗,對分析報告進行評估,再將評估意見反饋給情報人員,對監(jiān)測報告進行修訂,形成最終報告。由專家的專業(yè)知識來保證情報分析的有效性和可靠性。
四、專利情報數(shù)據(jù)挖掘方法的實證研究
依據(jù)上述方法和步驟,以通信技術(shù)領(lǐng)域的中國專利數(shù)據(jù)為例,對專利情報數(shù)據(jù)挖掘方法進行實證研究。我們對該領(lǐng)域進行了管理層面和技術(shù)層面的深入分析,并以可視化圖表的形式展現(xiàn)分析結(jié)果。以下是其中對高產(chǎn)申請人進行專利情報數(shù)據(jù)挖掘的全過程。
1.數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理
本文所采用的數(shù)據(jù)來自國家知識產(chǎn)權(quán)局專利數(shù)據(jù)庫(www.sipo.gov.cn),在該數(shù)據(jù)庫中我們選擇所有專利類型,包括發(fā)明專利、實用新型專利和外觀設(shè)計專利作為數(shù)據(jù)源。數(shù)據(jù)獲取的具體過程如下:
(1)根據(jù)通信領(lǐng)域的特點結(jié)合專家意見確定我國通信技術(shù)領(lǐng)域的關(guān)鍵技術(shù)名詞。
(2)以上述技術(shù)名詞為關(guān)鍵詞,在中國專利數(shù)據(jù)庫的摘要和題目字段中進行檢索,形成我國通信技術(shù)領(lǐng)域原始數(shù)據(jù)庫。
對該原始數(shù)據(jù)庫中的數(shù)據(jù)進行數(shù)據(jù)抽取、數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換等一系列數(shù)據(jù)預(yù)處理工作,獲得我國通信技術(shù)領(lǐng)域最終的專利數(shù)據(jù)庫,有效專利總數(shù)為4339條,數(shù)據(jù)覆蓋的時間范圍是1985年至2007年9月。
2.高產(chǎn)主IPC挖掘分析
(1)數(shù)據(jù)挖掘方法。采取分類分析與OLAP分析相結(jié)合的挖掘方法,對我國通信技術(shù)領(lǐng)域?qū)@鱅PC(專利分類號)排名前十位的技術(shù)及其年度分布狀況進行深入細致的分析。首先,采取K近鄰規(guī)則分類法,對高產(chǎn)主IPC的分布狀況進行分類,制成可視化圖表,并根據(jù)分類結(jié)果得出分析結(jié)論;然后,在此基礎(chǔ)上,對這些技術(shù)的年度分布狀況作進一步的剖析,挖掘出該技術(shù)的發(fā)展趨勢,運用OLAP技術(shù)形象地展現(xiàn)出分析結(jié)果,并由此得出更深層次的專利情報。
(2)分類分析。K近鄰規(guī)則分類法是指從測試樣本點開始生成,不斷擴大區(qū)域,直到包含進K個訓(xùn)練樣本點為止,并且把測試樣本點的類別歸為這最近的K個訓(xùn)練樣本點出現(xiàn)頻率最大的類別。表中展示了利用此分類法分析出的通信技術(shù)領(lǐng)域中國專利主IPC(專利分類號)數(shù)量在100以上的分布情況,此處的IPC分類僅劃分到小類(取前四位)。從表中可以看出,通信領(lǐng)域的專利主要集中在H04L(數(shù)字信息的傳輸)小類,例如電報通信等,共有專利945件,即21.8%的專利都與其相關(guān)。其次是H04B(傳輸,包括載有信息信號的傳輸,其傳輸與信息的特性無關(guān))、H04Q(選擇),分別有892件、543件,這些都是與通信領(lǐng)域的相關(guān)處理技術(shù)密切關(guān)聯(lián)的。
表 我國通信技術(shù)高產(chǎn)主IPC分布情況
(3)OLAP分析。根據(jù)上述分類分析結(jié)果,采用OLAP技術(shù),進一步挖掘IPC排名前十位的技術(shù)年度分布狀況。由挖掘可知,通訊領(lǐng)域的技術(shù)申請專利最早出現(xiàn)在1986年,分布在H04L(數(shù)字信息的傳輸)、HO4B(傳輸,包括載有信息信號的傳輸,其傳輸與信息的特性無關(guān))和H04J(多路復(fù)用通訊)3個部類。在以后的年度,各類IPC技術(shù)不斷發(fā)展,申請專利數(shù)量逐漸增多,并且都在2005年達到了最大值。
圖中,我們可以更清楚地看到IPC排名前十的技術(shù)發(fā)展趨勢。很明顯地,排名前三的IPC 發(fā)展速度相對更快。其中信息傳輸技術(shù)(H04B)一直持續(xù)發(fā)展,專利數(shù)量逐年增長,尤其在2001年之后增長迅速,成為通訊領(lǐng)域的主要發(fā)展技術(shù)。數(shù)字信息的傳輸技術(shù)(H04L),雖然出現(xiàn)的時間很早,但在隨后的幾年里中斷了發(fā)展,直到近幾年,數(shù)字信息傳輸技術(shù)才成為發(fā)展的熱點,并在2004年首次超過了H04B技術(shù),其后發(fā)展突飛猛進,成為通訊領(lǐng)域?qū)@麛?shù)量最多的技術(shù)。
圖 IPC排名前十的技術(shù)發(fā)展趨勢分布
(4)挖掘結(jié)果綜述。對排名前十位的主IPC技術(shù)及其年度發(fā)展趨勢分布的挖掘可以反映出專利申請人的經(jīng)濟利益趨向和市場開拓方向。由上述表和圖可以看出,通信技術(shù)的研發(fā)主要集中在H04B(傳輸)和H04L(數(shù)字信息的傳輸,例如電報通信)上。與調(diào)制解調(diào)器、服務(wù)器和路由器等相關(guān)的技術(shù)是該領(lǐng)域的關(guān)鍵技術(shù)和研發(fā)重點。據(jù)此,企業(yè)可以比較國內(nèi)外技術(shù)發(fā)展水平,識別技術(shù)空白點,避免同一科技領(lǐng)域的重復(fù)研究,節(jié)約資源,減少投資風(fēng)險和策劃的不確定性,選擇和確定科研項目,確定有價值的專利、產(chǎn)品領(lǐng)域或替代品,更好地關(guān)注有市場前景的技術(shù),改良發(fā)明創(chuàng)新思路,調(diào)整自身的研發(fā)方向,增加專利的回報,以獲取更大的經(jīng)濟效益。
五、結(jié)論與展望
本文對專利情報數(shù)據(jù)挖掘方法進行了全面深入的探討,并依據(jù)挖掘流程對其進行了針對性的實證研究。結(jié)果表明,通過數(shù)據(jù)挖掘技術(shù),能夠使企業(yè)從以往的海量資料庫中整理與收集、有效快速地獲取信息,轉(zhuǎn)換數(shù)據(jù)表達形式,揭示數(shù)據(jù)背后隱藏的規(guī)律,挖掘出不同的信息與知識,充分發(fā)揮信息再利用的作用,以滿足企業(yè)戰(zhàn)略決策的需要,擴大產(chǎn)品和市場,提高企業(yè)的競爭優(yōu)勢和經(jīng)濟效益;獲取大量的與專利技術(shù)的經(jīng)濟市場及技術(shù)本身的價值有關(guān)的重要情報:專利技術(shù)的經(jīng)濟市場范圍、發(fā)明創(chuàng)造的技術(shù)價值等等,從而為企業(yè)的戰(zhàn)略決策提供強有力的技術(shù)支持。數(shù)據(jù)挖掘技術(shù)成功地參與企業(yè)科學(xué)管理的例子已經(jīng)為國外很多知名企業(yè)所公認。
然而,我國目前的大部分企業(yè)還沒能夠?qū)⑵髽I(yè)的經(jīng)營和專利戰(zhàn)略很好地結(jié)合起來,相信隨著企業(yè)專利戰(zhàn)略意識的不斷加強,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和專利情報數(shù)據(jù)挖掘方法輔助企業(yè)尋找和提高盈利增長點的事例越來越多,專利情報數(shù)據(jù)挖掘方法一定會在我國各個領(lǐng)域和眾多企業(yè)中得到廣泛應(yīng)用和發(fā)展。
參考文獻:
[1]張明龍:我國專利發(fā)展現(xiàn)狀與趨勢分析[J].發(fā)展, 2008, 1
[2]曹雷:面向?qū)@麘?zhàn)略的專利信息分析研究[J].科技管理研究, 2005, 3
[3]唐煒劉細文:專利分析法及其在企業(yè)競爭對手分析中的應(yīng)用[J].現(xiàn)代情報, 2005, 9
[4]趙巖趙慧娟:數(shù)據(jù)挖掘理論與技術(shù)[J].福建電腦,2006,2
[5]樊冬梅:統(tǒng)計與數(shù)據(jù)挖掘的關(guān)系探討[J].會計實務(wù),2006.9
[6]魏瑜陸靜:數(shù)據(jù)挖掘與統(tǒng)計學(xué)的關(guān)系淺析[J].沿海企業(yè)與科技, 2005,9
[7]胡永剛:數(shù)據(jù)挖掘中可視化技術(shù)綜述[J].計算機與現(xiàn)代化, 2004,10
[8]周奕辛:數(shù)據(jù)清洗算法的研究與應(yīng)用[D].2005,7
[9]夏火松:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社, 2004,3
[10] 張彥,張為民:專利情報分析[J].現(xiàn)代情報,2007,
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。