• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      企業(yè)戰(zhàn)略性知識輪廓:化工專利數(shù)據(jù)挖掘與分析*

      2021-08-30 00:20:44郭鑫彬
      情報雜志 2021年8期
      關鍵詞:文檔集群專利

      王 江 郭鑫彬

      (北京化工大學 經(jīng)濟管理學院 北京 100029)

      0 引 言

      近年來,隨著科學技術的不斷更新和發(fā)展,知識爆炸式增長已經(jīng)成為不可逆轉的趨勢。大數(shù)據(jù)時代下,種類繁多且數(shù)量龐大的數(shù)據(jù)庫數(shù)不勝數(shù),企業(yè)也越來越難以管理由各種系統(tǒng)、過程和事務所生成的海量數(shù)據(jù)[1],對企業(yè)最困難也最重要的問題是:如何充分利用擁有的知識數(shù)據(jù)庫,并對其進行管理和分析,挖掘出對企業(yè)有價值、有意義的模式和洞見。

      企業(yè)戰(zhàn)略分析中,專利數(shù)據(jù)分析是最重要的分析手段之一。世界上最大的技術知識源就是專利信息,據(jù)WIPO的報告,專利信息包含了R&D產(chǎn)出的90%以上,剩下的5%~10%表現(xiàn)在科學文獻中,所以企業(yè)申請專利的目的不僅僅是為了保護核心技術,同時也設置了技術進入的門檻[2]。事實上,專利信息是相關技術競爭者之間不得不向公眾透露的,而在其他情況下都不會透露的技術領域關鍵信息的唯一方式,同時這也意味著企業(yè)的專利保護實際上是以核心技術的公開為代價的,因此專利文獻就成為獲取最新技術的主要來源。

      根據(jù)以往研究經(jīng)驗,分析專利最好的方法是專利分類[3],其能量化分析嵌入企業(yè)中的知識資源。但現(xiàn)有的基于信息檢索的分類系統(tǒng)(如IPC分類)在此方面的價值和專業(yè)性有限,并且傳統(tǒng)分類過程的高勞動強度和主觀性因素也限制了專利數(shù)據(jù)價值利用過程,再考慮到傳統(tǒng)知識數(shù)據(jù)庫管理方法的頻繁更新所帶來的高收集和高維護成本,同時新興技術的復雜性要求企業(yè)改進對創(chuàng)新過程中跨學科活動的性質和影響的理解,因此,其必須拓寬涵蓋不同技術領域的知識基礎,而這增加了技術和創(chuàng)新管理的難度[4]。

      事實上,企業(yè)可以通過使用超越傳統(tǒng)人工專利分類的方法(機器學習算法)創(chuàng)造出對于企業(yè)戰(zhàn)略性知識輪廓更加動態(tài)的視圖,來完成企業(yè)資源的良好配置。機器學習方法所固有的優(yōu)勢是分析的靈活性、多功能性和穩(wěn)定性,這為企業(yè)的戰(zhàn)略預見和技術管理提供了更具價值的方法。本文認為企業(yè)可以通過使用大數(shù)據(jù)方法來管理技術智能,在創(chuàng)新和戰(zhàn)略方面培育更具交互式和可適應性的學習形式,并開發(fā)了大數(shù)據(jù)預測方法支持戰(zhàn)略規(guī)劃的前景。

      1 文獻回顧

      本研究涉及到知識管理領域的兩個方面,一是有關于企業(yè)知識分類、知識戰(zhàn)略和知識輪廓的基礎理論研究。知識分類是企業(yè)進行知識管理所必須的基礎研究[5],不同的學者從不同的角度提出了相應的知識分類方法。對企業(yè)而言, 最具影響力和實踐意義的是Polanyi[6]從可轉移性角度提出的將知識劃分為言傳知識(articulated knowledge)和意會知識(tacit knowledge),前者是指可用書面文字、圖表或數(shù)學公式表達出來的知識,后者是指不能用語言文字所闡述的知識,并且其認為人類的大部分知識是以意會的方式存在的;經(jīng)濟合作與發(fā)展組織 (OECD) 在1996年發(fā)表的《以知識為基礎的經(jīng)濟》報告中, 以Polanyi的知識分類理論為基礎, 進而把人類的知識分為四大類: 關于事實和現(xiàn)實的知識、關于自然規(guī)律和原理方面的知識、關于技能和訣竅方面的知識和關于人力資源方面的知識,其中前兩類為可編碼的顯性知識, 后兩類為不能明言的隱性知識[7]。所以說,對隱性知識的研究是企業(yè)知識管理的重點,并且專利也是企業(yè)隱性知識顯性化過程中最具法律效力的產(chǎn)出研究對象。知識戰(zhàn)略是應知識時代的要求,所提出的將傳統(tǒng)的戰(zhàn)略管理與新興的知識管理思想結合起來的新概念,越來越多的企業(yè)意識到知識在企業(yè)經(jīng)營中的重要性, 以產(chǎn)品為焦點的競爭正被以知識為基礎的競爭所取代。Zack[8]、Drew[9]和Teece[10]分別從知識的視角提出:知識戰(zhàn)略是基于知識作為最重要的資源和首要生產(chǎn)要素基礎上的發(fā)展戰(zhàn)略,是面對知識經(jīng)濟興起的基本發(fā)展戰(zhàn)略,提高獲取知識、運用知識和創(chuàng)造新知識的能力是知識戰(zhàn)略的核心。知識戰(zhàn)略過程的最終產(chǎn)出即為戰(zhàn)略性知識,其能為如何利用知識獲得和保持競爭優(yōu)勢,如何分析和評價企業(yè)的現(xiàn)有知識并發(fā)展具有戰(zhàn)略價值的知識和如何有效配置企業(yè)知識,使之形成獨特的資產(chǎn)和能力, 從而保證企業(yè)在市場上的競爭地位等相關問題提供了戰(zhàn)略指導,并且戰(zhàn)略性知識也是屬于企業(yè)隱性知識中重要的一種。知識輪廓源于企業(yè)知識基礎理論,其理論將知識視為企業(yè)最大的資源,強調了企業(yè)間擁有的不同的知識庫是其相互區(qū)別的根本原因,也是企業(yè)競爭優(yōu)勢的來源。Jaffe[11]指出,知識基礎是企業(yè)內各類知識元素(包括信息、科技、關鍵技術和技巧)或者是企業(yè)內個體所擁有知識的集合,是企業(yè)技術創(chuàng)新活動的起點。以往的研究主要在廣度、深度、一致性和分解性等維度對企業(yè)知識基礎的結構特征進行分析和論證[12],而知識輪廓是以知識深度和廣度維度為主,對企業(yè)知識基礎開展的相關研究。其中知識廣度定義為一個企業(yè)擁有的所有知識元素,反映了企業(yè)可以利用的知識領域的數(shù)量,而知識深度則定義為企業(yè)某一特定技術領域內的專業(yè)知識水平[13]。企業(yè)技術知識基礎越寬,企業(yè)知識多樣化程度就越高,反之,就越單一;而企業(yè)知識基礎越深,說明企業(yè)對某一技術領域的知識越熟悉,其知識就越復雜,反之,對知識越不熟悉,企業(yè)知識就越簡單。進一步講,知識的廣度和深度實際上是解釋企業(yè)績效的更重要的變量,而不是知識的存量[14]。企業(yè)被要求在特定領域擁有一定的知識深度和廣度,這使得企業(yè)才能夠快速應對技術變革,并且在企業(yè)層面對這兩個變量的評估能使我們清晰地掌握企業(yè)戰(zhàn)略的發(fā)展焦點。

      結合上述基礎理論研究,提煉出企業(yè)戰(zhàn)略性知識輪廓的概念:企業(yè)所擁有的核心技術知識元素在深度和廣度維度上的動態(tài)戰(zhàn)略特征。其中專利分析是分析企業(yè)戰(zhàn)略性知識輪廓的可行方法,專利數(shù)據(jù)提供了洞察企業(yè)知識組成的能力,通過專利數(shù)據(jù)的定量分析和識別企業(yè)戰(zhàn)略性知識輪廓,能揭示出隱藏在企業(yè)信息庫中有規(guī)律性的知識,為企業(yè)實施多元化戰(zhàn)略提供參考,并促進企業(yè)挖掘交叉領域的商機,有利于成為新產(chǎn)業(yè)的開發(fā)者和領導者。

      二是在專利數(shù)據(jù)基礎上的無監(jiān)督學習和主題建模的方法研究。大數(shù)據(jù)時代下,機器學習是專利數(shù)據(jù)定量分析方法的重要選擇,無監(jiān)督學習作為機器學習中的一種,其產(chǎn)生一種基于輸入的結果,且不受任何來自環(huán)境的反饋的影響。作為一種自動分類學習方法,無監(jiān)督學習不同于有監(jiān)督學習之處在于,其依賴于一個正式的框架使算法能夠發(fā)現(xiàn)相應的模式,并且大多數(shù)無監(jiān)督方法為依賴于輸入數(shù)據(jù)的概率模型。主題模型就是一種重要的無監(jiān)督學習方法,其中隱含狄利克雷分布(Latent Dirichlet Allocation)是一種從文本中提取潛在模式的主題模型,基本邏輯為語料庫中的每個文檔都是潛在主題的隨機混合物,每個潛在主題以單詞分布為特征[15]。LDA允許我們根據(jù)文檔中使用的語義文本揭示這些潛在的概率分布,從而根據(jù)文檔中潛在的模式對文檔進行分類。早在2007年,Blei等[16]研究展示了主題模型在建模語義文本結構方面的可用性,并且發(fā)現(xiàn)主題模型能在不需要對語言有明確理解的情況下,提取出具有令人驚訝的可解釋性和有用的結構。近年來主題建模被應用于專利數(shù)據(jù)的實踐研究,如Venugopalan等[3]以基于主題的方法分析專利數(shù)據(jù)的結構,使用專利摘要和權利要求作為基礎,對太陽能光伏專利的數(shù)據(jù)集進行準確性和實用性測試;王博等[17]將LDA主題模型引入專利內容分析領域,實現(xiàn)專利主題的劃分,解決以往專利主題分類不精確的相關問題;Huang等[18]進一步將專利挖掘擴展到生物醫(yī)學領域,研究專利文件中的疾病覆蓋范圍和潛在主題,對專利疾病管理技術創(chuàng)新的重點和趨勢有了更深入的了解。

      2 研究過程、方法和模型

      本文提出基于LDA主題模型的企業(yè)專利知識庫戰(zhàn)略挖掘系統(tǒng)的整體框架,實現(xiàn)對專利數(shù)據(jù)的提取、處理、分析和可視化的主題挖掘全過程,如圖1所示。

      圖1 知識挖掘過程

      2.1專利數(shù)據(jù)收集及預處理樣本企業(yè)專利數(shù)據(jù)來源于德溫特專利索引數(shù)據(jù)庫。以8個國際著名化工企業(yè)的專利權人的代碼為檢索條件,檢索專利公開時間為1963-2018年,提取出總量為187 446的專利數(shù)據(jù)庫。經(jīng)過對初始數(shù)據(jù)庫進行專利缺失、重復和無效短文本的剔除操作后,可用于文本挖掘的專利數(shù)據(jù)為183 306條,如表1所示。

      表1 企業(yè)專利擁有數(shù)量情況

      進而對專利數(shù)據(jù)集的專利摘要進行文本預處理,經(jīng)過文本清洗、切分、去特殊字符、去停用詞、拼寫檢查、詞形還原和特征提取等[19]預處理步驟后,將高度非結構化的初始專利文本數(shù)據(jù)轉化為可被計算機識別和處理的詞向量數(shù)據(jù)。

      2.2企業(yè)知識主題模型的構建LDA模型是一種文檔主題概率生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構,每層均有相應的隨機變量或參數(shù)控制[20],其中假定每個文檔具有類似于概率隱含語義索引模型的主題組合,且隱含主題包含相應的Dirichlet先驗分布,滿足文檔到主題服從多項式分布,主題到詞服從多項式分布。LDA模型可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息,且其算法核心思想為降維。

      LDA概率主題模型生成文檔過程[21]如下:

      a.從狄利克雷分布α中取樣生成文檔m的主題分布θm;

      b.從主題的多項式分布θm中取樣生成文檔m第n個詞的主題Zm,n;

      c.從狄利克雷分布β中取樣生成主題Zm,n對應的詞語分布φk;

      d.從詞語的多項式分布φk中采樣最終生成詞語Wm,n。

      在算法流程圖2中,陰影圓為可觀測變量,空心圓為潛在變量,箭頭的方向指明了前后變量間的條件依賴,方框及其右下角數(shù)字分別代表了重復抽樣及其迭代次數(shù),其中參數(shù)α和β對LDA主題模型的文檔集層進行了定義,α是每篇文檔下主題的多項分布的Dirichlet先驗參數(shù),β是每個主題下特征詞的多項分布的Dirichlet先驗參數(shù),經(jīng)過學習訓練得到參數(shù)θ和φ,從而確定LDA主題模型。其中K為樣本中隱含的待挖掘的主題數(shù)量,M為樣本文檔總數(shù),Nm是第m篇文檔的單詞總數(shù),Zm,n是第m篇文檔中第n個詞的主題,Wm,n是m篇文檔中的第n個詞。剩下來的兩個隱含變量θm和φk分別表示第m篇文檔下的主題分布和第k個主題下特征詞的分布,前者是K維向量,后者是V維向量(V為詞典中詞總數(shù))。

      圖2 LDA模型盤子表示法

      其中LDA主題模型的生成概率公式為:

      (1)

      2.3最優(yōu)主題數(shù)目K值的確定在概率語言模型中, 困惑度是用來評估語言模型優(yōu)劣的指標, 其基本思想是給測試集賦予較高概率值的語言模型,較好且較小的困惑度意味著模型對文本集有較好的預測作用, 且困惑度一般隨著潛在主題數(shù)量的增加呈現(xiàn)遞減的規(guī)律。LDA算法依賴于用戶輸入專利文檔分類的主題數(shù)量,不同參數(shù)K值的輸入使得模型有著不同的困惑度,所以最優(yōu)主題數(shù)目的確定是構建LDA模型的重難點。本文借鑒Blei等[15]提出的一種以樣本集中每篇文本的角度來計算困惑度的方法:

      (2)

      p(wd)=∑p(z|d)*p(wd|z)

      (3)

      公式中D表示為樣本語料庫,共有M篇文檔,Nd表示每片樣本文檔總單詞數(shù),而p(wd)代表樣本文檔d中的詞wd產(chǎn)生的概率,p(z|d)表示為一篇樣本中每個潛在主題出現(xiàn)的概率,p(wd|z)表示經(jīng)預處理形成的詞典中每一個單詞在相應每個潛在主題下出現(xiàn)的概率。

      由于模型的穩(wěn)定性與困惑度呈現(xiàn)反比的規(guī)律,本文采用試錯法對預處理的數(shù)據(jù)庫進行不同主題數(shù)(K值)的測試以及困惑度值的計算,在考慮LDA存在的隨機性不良因素影響后,加入隨機時間種子,得出的不同主題對應的困惑度關系折線圖及模擬曲線如圖3所示,當主題數(shù)為53時,困惑值達到了最低點,此時對于樣本數(shù)據(jù)的有效信息度擬合值達到最佳。

      圖3 困惑度折線圖和模擬曲線曲線圖

      2.4企業(yè)專利數(shù)據(jù)挖掘及結果展示本研究通過Python語言實現(xiàn)LDA主題算法整個過程,完成了對化工專利數(shù)據(jù)的主題挖掘,算法參數(shù)的最優(yōu)輸入采用K值為53,超參數(shù)α和β采用Python中算法經(jīng)驗的默認值,同時為保證模型的收斂,在LDA算法參數(shù)中的Gibbs抽樣[21]的迭代次數(shù)設置為1 000以上,經(jīng)過重復迭代,最終結果形成了188 306×53規(guī)模的文檔—主題矩陣(θm)和具有53行的主題—關鍵詞矩陣(φk),其中θm和φk分別給出了第m篇樣本文檔中的主題z的分布和主題z下關鍵詞的概率分布。

      主題分布θm和關鍵詞分布φk是本研究接下來分析和研究的重點,文檔—主題概率分布見表2,表中每行對應一篇樣本文檔,每列對應相應的隱含主題,表中的值對應著樣本文檔在特定主題下的概率值;主題—關鍵詞分布見表3,其每行代表對應主題,表中展示排名靠前的關鍵詞及其在相應主題下的概率分布值。

      表2 文檔—主題分布表(部分)

      表3 主題—關鍵詞分布表(部分)

      3 結果分析

      3.1企業(yè)戰(zhàn)略性知識輪廓分析第四次工業(yè)革命以來,技術的復雜性不斷影響著創(chuàng)新的動力,行業(yè)內對跨學科活動的需求有了明顯增加。研究表明,技術多樣化的知識體系是企業(yè)的一個重要特征[23],因為在創(chuàng)新過程中,多個領域的知識被交叉、結合在一起。為了更好分析知識資源的變化,我們必須了解一個行業(yè)的多維知識庫,以企業(yè)知識深度和知識廣度作為基本維度,挖掘樣本企業(yè)間技術創(chuàng)新和多樣化的異同點。所以從知識深度和廣度上操作一個企業(yè)的知識庫,以更好接近未來企業(yè)戰(zhàn)略發(fā)展的知識輪廓尤為重要。

      通常來說,廣度與專利分類的多樣性有關,深度與企業(yè)專利組合中專利分類的集中程度有關[24],而對于分析企業(yè)知識庫的重大挑戰(zhàn)是:如何以量化的手段分析企業(yè)知識的廣度與深度。顯然我們需要一種更具適應性的方法來分析專利數(shù)據(jù),為此本研究進一步利用LDA算法得出的文檔—主題概率分布矩陣,通過技術多元化指數(shù)(TD)和主題聚類相結合的分析方法以更好的顯示知識庫的實際廣度和深度。

      3.1.1 企業(yè)知識廣度分析 為了更好地定量研究企業(yè)知識廣度,將赫芬達爾指數(shù)(HHI)與專利多元化相結合,對赫爾芬達指數(shù)進行形式轉換,形成可以定量分析企業(yè)擁有的知識元素和領域的技術多元化指數(shù)(TD)[25]。其中赫芬達爾指數(shù)最常應用于經(jīng)濟領域,是一種測量產(chǎn)業(yè)集中度的綜合指數(shù),指一個行業(yè)中各市場競爭主體所占行業(yè)總收入或總資產(chǎn)百分比的平方和,用于計量市場份額的變化,即市場中廠商規(guī)模的離散度,而技術多元化指數(shù)應用于專利組合衡量多樣化。進一步利用文檔—主題概率計算樣本企業(yè)的技術多元化指數(shù),其計算公式為:

      (4)

      定義中,Ni表示i樣本企業(yè)專利在所有潛在主題上的概率之和,Nij為i企業(yè)專利在相應潛在主題j上的概率之和,K為主題數(shù)量。同時可以看出,TD值越高,說明企業(yè)的投資組合越廣,而TD值越小,說明企業(yè)的技術重點相對較窄。通過對文檔—主題概率矩陣數(shù)據(jù)處理,得出的相應樣本企業(yè)專利組合規(guī)模與技術多元化指數(shù)的散點圖如圖4所示。

      從圖4中可以清晰觀察到:大多數(shù)企業(yè)(旭日成、巴斯夫、三菱化學和陶氏)都擁有高度多元化的投資組合,但從數(shù)量上看,這些企業(yè)明顯落后于相對最大的知識產(chǎn)權持有者(中石化和住友化學),而LG和拜耳的技術投資組合相對集中,說明其更注重技術深度,從而降低了TD的數(shù)值。與LG、拜耳以及擁有更廣泛技術組合的其他四家企業(yè)相比之下,中石化和住友擁有著大量專利。總之,該圖突出顯示出了樣本企業(yè)間的知識特性的差異,說明LG和拜耳現(xiàn)有知識庫集中某些技術領域,這可以從相對較低的多樣性指數(shù)以及接下來的深度研究結果中明顯看出;而對于住友和中石化具有的高技術組合,這很大程度上是由于業(yè)務范圍遠遠延伸出了化工行業(yè),使得其比競爭對手擁有更大的知識廣度。圖4突出了樣本企業(yè)在專利數(shù)量和密度之間的位置差異,展現(xiàn)了樣本企業(yè)各自知識空間焦點的異同。進而仔細觀察還發(fā)現(xiàn)每個企業(yè)的TD值都高于0.92,從整個化工行業(yè)的角度來看,這些優(yōu)秀標桿企業(yè)都有著復雜的專利組合和較高的知識廣度,這意味著知識廣度對企業(yè)技術創(chuàng)新和核心競爭力發(fā)展有顯著正向影響。

      圖4 樣本企業(yè)專利組合規(guī)模與技術多元化指數(shù)的散點圖

      由此可以明確根據(jù)TD值和專利數(shù)目的組合將具體行業(yè)內的企業(yè)分成四類:第一類企業(yè)同時具有較多的專利數(shù)量和技術組合,如中石化和住友化學;第二類則是具有較多專利數(shù)量但技術相對較集中的企業(yè),如LG化學和拜耳;第三類則為具有較多技術組合但相對較少的專利數(shù)量的企業(yè),如旭日成、巴斯夫、三菱化學和陶氏;而第四類有著較少的專利數(shù)量和技術組合的企業(yè),由于其不具較強代表性和分析價值,且本研究選取樣本企業(yè)為全球化工行業(yè)內標桿企業(yè),第四類企業(yè)未出現(xiàn)于樣本集和圖4中。同時,圖4中無第四類樣本企業(yè)的細節(jié)也從側面角度證明我們正確選取了具有目標期望的樣本企業(yè),這說明對于任何企業(yè)來說,專利技術集中且數(shù)量少的知識特征不利于企業(yè)創(chuàng)新,不符合企業(yè)發(fā)展的規(guī)律,其直接影響著企業(yè)核心競爭力。

      3.1.2 企業(yè)知識深度分析 主題聚類為量化分析企業(yè)知識深度提供了很好的啟發(fā),研究充分利用LDA算法得出的文檔—主題和主題—關鍵詞概率分布矩陣,對樣本企業(yè)i在潛在主題j中獲得專利的概率進行聚類,將樣本企業(yè)的主題概率的和重新調整為0到1之間的數(shù)值,通過python語言進行數(shù)據(jù)預處理,使用基于行和列的層次聚類對數(shù)據(jù)處理的矩陣進行聚類,為了更好地展示結果和進一步分析,將聚類結果以熱圖的形式進行可視化處理,如圖5所示。

      圖5 基于行和列的層次聚類熱圖(黑色框架顯示了聚集主題)

      圖5采用層次聚類方法分別對潛在主題和樣本企業(yè)兩個維度進行了聚類,從中可以清晰觀察到LDA算法挖掘出的53個隱含主題由行樹狀圖按相似性進一步聚類成9個集群類別,經(jīng)整理得到的集群結果如表4所示。

      表4 主題聚類表

      對表4的聚類結果進一步分析,并基于對主題中出現(xiàn)概率高的單詞的定性評估,以及對9個集群進行人工評價和標記,結果如表5所示。

      圖5中熱圖顏色的深淺清晰顯示了單個企業(yè)的知識焦點,結合表5生動展示出了樣本企業(yè)各自知識庫的知識組成和結構特征。橫向來看,中石化、拜耳和LG化學分別在石油化工、農(nóng)業(yè)化學、化學電池技術領域中處于完全領先地位,知識基礎之深使得其他競爭對手望塵莫及,而在其他技術領域中,每個樣本企業(yè)的核心競爭力都各有千秋,但是具體知識領域內企業(yè)間知識深度的差異還是在熱圖中被清晰展示出來。

      表5 聚類定性評估

      更重要的是從縱向角度看,企業(yè)間的聚類結果又進一步以知識深度解釋了企業(yè)知識焦點存在著明顯的質的差異,并在投資組合的相似性和多樣性基礎上進一步區(qū)分了樣本企業(yè)。從企業(yè)聚類結果中可以觀察到,中石化是明顯區(qū)別于其他7個樣本企業(yè)的,中石化有著較多的技術領域和投資組合以及更深的知識深度,這也是其區(qū)別于住友化學的內在因素。整體而言,中石化、拜耳和住友企業(yè)有著更深的知識深度,相反,LG、旭日成、三菱化學、巴斯夫和陶氏5個樣本企業(yè)具有相對較低的知識深度。

      表5的集群結果基本代表了整個化工行業(yè)技術領域的核心,集群把互相關聯(lián)或相似主題聚集在一起,使得集群間的關聯(lián)性大大降低,所以說其聚類結果能更好體現(xiàn)出企業(yè)戰(zhàn)略核心,有利于進一步挖掘和推斷出整個化工行業(yè)發(fā)展知識輪廓。同時展示出與傳統(tǒng)IPC分類的統(tǒng)一化、標準化特點不同的是,LDA產(chǎn)生的主題分布更加有利于專利信息管理、分析和挖掘,從而能應對不同背景的問題,給予相應的知識分析方案。

      3.2行業(yè)內企業(yè)戰(zhàn)略性知識輪廓趨勢預測為了進一步分析化工行業(yè)知識庫并對其發(fā)展進行展望,將文檔—主題矩陣中專利概率數(shù)據(jù)與年份聯(lián)系起來,結合主題聚類的結果,推斷出化工行業(yè)的戰(zhàn)略性知識輪廓的動態(tài),創(chuàng)建一個按年份對潛在主題的專利文件進行分配的矩陣,其顯示樣本企業(yè)每年每個主題的文檔概率的總和,用此矩陣來評估化工行業(yè)中不斷增長的知識領域和可視化分析,引用Hyndman[26-27]提出的分層時間序列模型進行趨勢預測,將基于軟分類的聚合主題的時間序列擴展到未來,創(chuàng)建一個面向未來的技術管理中心。

      分組預測方法可以利用數(shù)據(jù)中的結構,對于分組數(shù)據(jù)來說,每組數(shù)據(jù)的預測必須等同于組成該組的各個序列的預測,即預測時從系統(tǒng)角度出發(fā),考慮各個分組之間的關聯(lián)性,這種預測方法保證了分析結果在各個聚合級別如單個主題、主題集群或整個企業(yè)樣本之間保持一致性,這使我們能夠預測個別企業(yè)的知識軌跡,并與樣本中的其他企業(yè)進行比較,創(chuàng)建不同主題領域動態(tài)發(fā)展的管理視圖。

      由于專利數(shù)據(jù)樣本來自于1963—2018年間,時間跨度較長,為了更好分析化工行業(yè)知識庫的時間動態(tài),本研究以2000年為時間節(jié)點,將專利數(shù)據(jù)庫一分為二進行相應的預測分析。還需注意的是,本研究對于專利時間的定義為專利權人在各個國家最早申請時間,考慮到專利從申請到授權的整個周期有著較長的等待時間,產(chǎn)生了知識信息的時滯性,對于專利的最早申請時間的分析能更好的體現(xiàn)出企業(yè)的戰(zhàn)略性知識輪廓的動態(tài);觀察和試驗發(fā)現(xiàn)2018年的數(shù)據(jù)也存在著較大的時滯性,不能作為基礎數(shù)據(jù)進行時間序列的預測,但這并不影響之前的企業(yè)知識分析。

      3.2.1 二十世紀行業(yè)內企業(yè)戰(zhàn)略性知識輪廓概況 本研究對LDA算法得出的文檔—主題概率矩陣進行時間標記,提取出2000年以前的專利數(shù)據(jù)概率矩陣并對其數(shù)據(jù)處理,從企業(yè)和技術集群兩個角度對數(shù)據(jù)進行統(tǒng)計分析,得到的二十世紀化工行業(yè)企業(yè)知識戰(zhàn)略分布如圖6、圖7所示。

      圖6 企業(yè)知識占比圖

      圖7 技術集群占比圖

      通過圖6可以清晰觀察到,旭日成、拜耳、陶氏和住友是此時期內行業(yè)中專利數(shù)據(jù)知識占比最多的四個企業(yè),且這些企業(yè)知識庫的數(shù)量占比總和超過了90%,進而我們推斷這4個企業(yè)是老牌化工企業(yè)的典型代表,結合圖4得到的這些企業(yè)都具有較大的技術多元化指數(shù)的結論,不難推斷出這些老牌化工企業(yè)在二十世紀必然有著巨大的企業(yè)核心競爭力和技術創(chuàng)新能力,同時也有著強有力的技術壟斷能力。

      進一步結合圖7和表5挖掘化工行業(yè)技術集群戰(zhàn)略,清晰觀察到集群5(有機材料技術)是當時化工行業(yè)的最熱門成熟的技術焦點;同時集群2(石油化工)、集群4(化學藥劑)、集群7(塑料制品)和集群8(農(nóng)業(yè)化學)相關技術也是行業(yè)內的重心和支撐技術,處于技術生命周期的成熟期;而像集群3(電子化工)和集群9(纖維、染色劑)等技術則處于蓬勃發(fā)展的階段,屬于技術生命周期的發(fā)展期;相反,像集群1(化學電池技術)和集群6(光敏技術)則處于萌芽期,在行業(yè)內剛剛有一片立足之地。

      3.2.2 行業(yè)內企業(yè)戰(zhàn)略性知識輪廓與技術集群預測 通過逐年聚合2000—2017年期間的專利文檔主題概率,分析行業(yè)內戰(zhàn)略性知識輪廓和技術集群的時間動態(tài),結果如圖8所示。

      圖8 行業(yè)內各技術集群相對重要性的時間動態(tài)圖

      圖8顯示了圖5中各集群的相關性,可以看出:集群2(石油化工)和集群7(塑料制品)的相對重要性處于不斷波動的狀態(tài),但重要性總體一直處于較高的數(shù)值,說明以石油原料為基礎或衍生的化工技術一直都是化工行業(yè)技術發(fā)展的核心,是化工行業(yè)的支撐產(chǎn)業(yè);而集群4(化學藥劑)、集群5(有機材料技術)和集群9(纖維、染色劑)等技術則一直處于相對重要性總體降低的趨勢,考慮到這些技術大多具有高污染和高危害特點,與世界各國所提倡的綠色可再生理念相悖,這些化工技術的重要性降低也理所當然,進而我們可得出綠色化工是實現(xiàn)化工行業(yè)可持續(xù)發(fā)展的必然趨勢。與此同時,作為知識領域新興技術群組集群3(電子化工)和集群1(化學電池技術)的相對重要性處于逐年升高的趨勢;而集群9(纖維、染色劑)的相對重要性則一直處于較低狀態(tài)水平,猜測原因可能為領域內存在著技術困難等,其有著較大的開發(fā)空間;最后集群6所代表的新興光化學技術,雖然整體重要性偏低,但在08年之前一直處于上升趨勢,熱度很高,之后時間里發(fā)生了下降轉折,但整體處于上升狀態(tài),也說明了此項技術潛力巨大。

      近年來行業(yè)知識領域這種明顯的時間變化大致可以歸因于,化工行業(yè)所受內部技術創(chuàng)新和外部政策環(huán)境影響,產(chǎn)生了從高污染技術到綠色安全技術日益增長的重要性的明確轉變,而且專利文本挖掘的結果顯示了此種化工行業(yè)戰(zhàn)略性知識輪廓的轉變,企業(yè)也逐步將技術重點轉向更具價值的化工技術新領域。

      從潛在主題時間動態(tài)變化來看,圖9顯示了兩個專利增長率增長最快的潛在主題(圖9(a)和圖9(b))和減少最多的兩個主題(圖9(c)和圖9(d))的詞云,其中專利增長率是根據(jù)2015-2016年和2016-2017年的平均增長率計算的,以此來獲得近期穩(wěn)定的增長模式。其中增長最快的主題是化學電解質,平均增長率為24.9%;增長第二高的領域是水溶劑技術,平均增長率為20.2%;而兩個下降的主題分別是生物遺傳化學和聚乙烯纖維材料領域,每年下降超過10%。

      圖9 最近三年中專利申請增長最快和減少最快的部分主題詞云

      為了更好地獲得并驗證企業(yè)知識水平的未來發(fā)展動態(tài),添加一個可以描述企業(yè)當前是否正在某個領域建立一個不斷增長的,或者在某些領域正在減少存在投資組合的預測維度,將分層時間序列預測模型和差分整合移動平均自回歸模型(ARIMA)相結合,對行業(yè)知識庫中的專利數(shù)量的總體趨勢和聚類集群趨勢進行了7年的動態(tài)預測,結果如圖10和圖11所示:

      圖10 專利數(shù)量預測圖

      圖10和圖11分別預測和顯示了層次結構頂端和中間的集群層次的時間序列行為,其中圖10預測到未來專利數(shù)量總量必然呈直線上升趨勢;而圖11預測低污染新興技術集群1和6的專利數(shù)量和重要性有著明顯的增加,高污染傳統(tǒng)技術集群4和5的專利數(shù)量和相對重要性明顯下降,而其他支柱性行業(yè)技術集群的專利數(shù)量則接近于零或零增長。結合圖8的分析結論,證明了此預測結果與預期效果和現(xiàn)實環(huán)境政策發(fā)展基本一致。同時也說明:從企業(yè)和行業(yè)層面上,研究挖掘的成果可以將當前和預測的知識概況與競爭對手進行比較,產(chǎn)生用于未來知識投資的管理決策的見解。

      圖11 技術集群趨勢預測圖

      4 結論與啟示

      本文提出了大數(shù)據(jù)機器學習繪制企業(yè)戰(zhàn)略性知識輪廓的知識學習方法,以化工行業(yè)為實例,研究了行業(yè)內企業(yè)和技術的發(fā)展現(xiàn)狀及趨勢預測,證明了其對企業(yè)戰(zhàn)略和知識管理的重要性,得出以下主要結論:

      a.優(yōu)秀企業(yè)的知識庫都具有良好的知識深度和知識廣度,這對于企業(yè)技術創(chuàng)新和核心競爭力發(fā)展有顯著正向作用,無論是老牌企業(yè)還是新興企業(yè),都注重技術領域的多元化和組合的多樣性。

      b.LDA算法訓練出的主題能很好的提煉出包含整個化工行業(yè)的技術焦點,結合主題聚類和時間動態(tài),能充分將行業(yè)技術集群聚合在一起,清晰的展現(xiàn)出企業(yè)“有意識”隱藏的戰(zhàn)略性知識,為決策者提供良好可靠的指導見解。

      c.二十世紀化工行業(yè)的技術焦點和戰(zhàn)略核心基本都是以石油原料為基礎或衍生的相關化工技術,并結合十九世紀化工技術革命在化肥合成、人工合成燃料和制藥工業(yè)產(chǎn)生的巨大突破的歷史事實,說明了此階段化工技術普遍具有高污染、高破壞和環(huán)境不友好性等特點。

      d.二十一世紀以來,世界各國都意識到化工行業(yè)技術發(fā)展在提供給人們生活便利的同時,也帶來相應的潛在污染威脅;化工行業(yè)順應綠色安全可持續(xù)理念的趨勢符合技術創(chuàng)新和時代發(fā)展的浪潮。同時研究結果也清晰展示:未來企業(yè)必然秉承綠色工業(yè)理念為核心的技術發(fā)展戰(zhàn)略,微電子化學、電池化學和化工新材料技術領域將是未來化工行業(yè)發(fā)展的熱門。

      同時這種方法也有利于管理者洞悉企業(yè)戰(zhàn)略性知識輪廓和核心技術發(fā)展趨勢,給予管理者如何利用和挖掘專利知識的方法啟示:第一,專利數(shù)據(jù)包含著許多重要的隱性知識和信息,今后應加強對專利數(shù)據(jù)的深度挖掘技術的重視;第二,在大數(shù)據(jù)時代,要充分利用各種數(shù)據(jù)和應用機器學習方法,來更好的節(jié)省企業(yè)的資源,幫助決策者更好的制定決策;第三,專利知識是企業(yè)核心競爭力和技術創(chuàng)新的體現(xiàn),企業(yè)管理者應能將專利信息與產(chǎn)業(yè)聯(lián)系起來,著眼于行業(yè)戰(zhàn)略遠見和企業(yè)動態(tài)發(fā)展能力。

      猜你喜歡
      文檔集群專利
      專利
      水運工程(2022年7期)2022-07-29 08:37:38
      有人一聲不吭向你扔了個文檔
      海上小型無人機集群的反制裝備需求與應對之策研究
      發(fā)明與專利
      傳感器世界(2019年4期)2019-06-26 09:58:44
      一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設計
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費數(shù)據(jù)分析中的應用
      勤快又呆萌的集群機器人
      基于RI碼計算的Word復制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      專利
      政和县| 红安县| 古蔺县| 神池县| 青川县| 福贡县| 屏东市| 武功县| 田林县| 肃宁县| 屯昌县| 新和县| 化州市| 内乡县| 乌拉特前旗| 芦山县| 江山市| 平凉市| 沛县| 平安县| 铜梁县| 新干县| 武川县| 积石山| 扎鲁特旗| 定南县| 崇左市| 乳山市| 都匀市| 高雄市| 土默特右旗| 芮城县| 永城市| 新竹县| 柳林县| 巨鹿县| 扎兰屯市| 彭山县| 石门县| 色达县| 马山县|