劉招斌 楊 辰 黃曉明 馬 建 梁劍平
(1.香港城市大學商學院 香港 999077;2.深圳大學管理學院 深圳 518000;3.中山大學管理學院 廣州 510000)
技術(shù)機會分析 (Technology Opportunity Analysis, TOA) 是通過文獻計量和技術(shù)檢測的方式挖掘科研文獻去獲得技術(shù)知識[1],從而在特定領域?qū)崿F(xiàn)技術(shù)的進步[2],是國家獲取國際技術(shù)競爭優(yōu)勢的重要手段。為了搶占技術(shù)競爭的先機,科技部于2021年8月19日向各有關(guān)單位和科研人員征集顛覆性技術(shù)研發(fā)方向[3]。2020年,中國研究與試驗發(fā)展 (R&D) 經(jīng)費投入總量突破2.4萬億元,約為美國的54%,是日本的2.1倍,穩(wěn)居世界第二[4]。然而,當前的TOA策略很難辨別出一項顛覆性技術(shù)中的各個子技術(shù)的實際發(fā)展情況,進而影響了各級基金評審對各個子技術(shù)的經(jīng)費分配決策,造成研發(fā)經(jīng)費的浪費,最終不利于國家獲取未來的技術(shù)競爭優(yōu)勢。
當前TOA的策略主要有兩種:技術(shù)驅(qū)動策略 (Technology-driven Strategy, TDS) 和市場驅(qū)動策略 (Market-driven Strategy, MDS) 。目前大部分研究所采用的策略是TDS,而少量研究采用MDS。TDS通過分析專利摘要及專利引用網(wǎng)絡去尋求新的技術(shù)機會,MDS從用戶評論[5]及產(chǎn)品[6]出發(fā)去尋求新的技術(shù)以滿足市場新的需求[7]。MDS本質(zhì)是需求驅(qū)動策略。然而,這兩種方法都存在一定的局限性,TDS缺乏需求預測導向而無法有效識別出符合國家未來發(fā)展需求的技術(shù)機會,MDS容易忽視新興的技術(shù)機會。隨著技術(shù)發(fā)展得越來越快,“文化墮距”現(xiàn)象出現(xiàn)了,即是制度、文化、人的感知跟不上技術(shù)的發(fā)展[8]。當“文化墮距”發(fā)生時,成熟的技術(shù)已經(jīng)被用于大量產(chǎn)品而大規(guī)模生產(chǎn),新興技術(shù)則被用于少量產(chǎn)品而鮮為人知,導致市場所感知的技術(shù)是成熟的技術(shù),而容易忽略掉最新的技術(shù)發(fā)展。MDS不利于國家識別新興技術(shù)以獲取未來的技術(shù)競爭優(yōu)勢。
為了克服兩種策略的不足,本研究提出了需求和技術(shù)聯(lián)合驅(qū)動策略(Market and Technology Driven Strategy, MTDS),結(jié)合專家法和隱含狄利克雷分布 (Latent Dirichlet Allocation, LDA)去分析前沿政策文本及海量專利信息。MTDS一共有三個模塊:需求驅(qū)動模塊、技術(shù)驅(qū)動模塊和技術(shù)機會識別模塊。在需求驅(qū)動模塊,利用專家知識去抽取各個子技術(shù)和子應用需求;在技術(shù)驅(qū)動模塊,利用LDA去分析專利文本;在技術(shù)機會識別模塊,計算了各個子技術(shù)和子應用的權(quán)重分布并根據(jù)閾值識別出了新興子技術(shù)。期間,把專家知識融入到LDA計算的過程和結(jié)果之中,通過專家知識修正LDA的偏差。本研究還通過區(qū)塊鏈技術(shù)的案例分析,驗證了提出的策略的可行性,并為各級基金評審的區(qū)塊鏈研發(fā)經(jīng)費分配決策提供了相關(guān)建議。
在早期,文獻計量更多地被用于TOA[9-11]。也有研究采用比較傳統(tǒng)的調(diào)查數(shù)據(jù)和深度訪談數(shù)據(jù)進行機會分析[12]。隨著文獻數(shù)量的迅速增加和文本處理技術(shù)的發(fā)展,越來越多的NLP技術(shù)以及機器學習算法被用到TOA中,如領域知識網(wǎng)絡[13]、異常檢測 (LOF)[14]、生成地形圖[15]、鏈路預測[6]、LDA[16]、SAO[17]等。此外,有學者還利用深度學習算法進行技術(shù)機會發(fā)現(xiàn)[18-20]。
不同的方法各有優(yōu)缺點。其中,LDA主題模型是一種能夠有效挖掘和發(fā)現(xiàn)文本數(shù)據(jù)中潛在主題的非監(jiān)督學習方法[21]。LDA利用概率模型將文檔向量化,然后采用詞袋模型進行主題聚類或文本分類,可以有效地從海量文本信息中挖掘隱藏主題[22]。此外,由于LDA識別出來的每個主題的概率分布不同, 概率較高的主題是文檔集的核心主題,概率較低的主題是文檔集中的邊緣主題或者新興主題[23]。因此,LDA適合于海量文本的主題挖掘,并且LDA識別的主題概率分布適合于核心主題以及新興主題的識別。因為LDA的優(yōu)勢,近年來,LDA被越來越多國內(nèi)外的學者用于技術(shù)主題識別和機會分析當中。因此,本研究也將利用LDA進行技術(shù)機會分析。
此外,作為一種非監(jiān)督機器學習算法,LDA的可控程度較低。如果僅僅依靠機器學習而忽略專家知識的融入,那么結(jié)果將缺乏專業(yè)知識[16],導致所預見的未來技術(shù)不準確。Kim等認為專家的參與可以更好地解決缺乏預見性的問題[24]。為了解決LDA的誤差問題,周源等 把專家知識融入到LDA的分析當中,最后成功地識別了機器人技術(shù)的未來發(fā)展機會[16]。因此,本研究將結(jié)合專家法和LDA進行技術(shù)機會識別。
本研究設計了MTDS去分析技術(shù)機會。由圖1可以看出,該模型主要由3個模塊組成,分別是:需求驅(qū)動模塊、技術(shù)驅(qū)動模塊和技術(shù)機會識別模塊。過往研究主要將技術(shù)機會界定為純粹的技術(shù)發(fā)展的可能性。而Tihanyi等認為在對技術(shù)機會進行界定的時候,除了技術(shù)因素,還應該把市場因素也考慮進去,市場因素指的是市場對技術(shù)創(chuàng)新的可接受的范圍[25]。呂一博等認為技術(shù)機會可由技術(shù)領域和市場領域共同推動[26]。為此,本研究將技術(shù)機會定義為技術(shù)和應用兩個方面的可能性。其中,應用指的是技術(shù)的應用場景。
圖1 MTDS模型
在需求驅(qū)動模塊中,將從技術(shù)發(fā)展政策中獲取技術(shù)需求和應用需求。
在技術(shù)驅(qū)動模塊中,將從所有專利數(shù)據(jù)中抽取技術(shù)主題以及從企業(yè)參與研發(fā)的專利中抽取應用主題。一般來說,學校研發(fā)的專利需要經(jīng)歷專利轉(zhuǎn)移的過程,轉(zhuǎn)化到企業(yè)后才能進行生產(chǎn),而企業(yè)參與研發(fā)的專利,包括企業(yè)研發(fā)以及校企合作研發(fā)的專利,可能直接就用于企業(yè)生產(chǎn)。因此,為了更準確地評估技術(shù)的應用情況,本研究將企業(yè)參與研發(fā)的專利進行應用主題的挖掘。而對于技術(shù)主題,則將采用所有相關(guān)的專利進行挖掘。
在技術(shù)機會識別模塊中,將識別出新興技術(shù)和新興應用,并將其作為技術(shù)機會。
MTDS可以彌補TDS缺乏需求預測導向的問題。技術(shù)發(fā)展政策是由諸多專家學者、企業(yè)領袖等參與制定,因此政策本身就具有比較強的未來導向。政策內(nèi)容即為國家未來技術(shù)發(fā)展的需求。
MTDS可以彌補MDS 容易忽視新興技術(shù)的問題。技術(shù)發(fā)展政策盡可能囊括了各項子技術(shù)。但是現(xiàn)實中的這些子技術(shù)的發(fā)展速度是不一樣的,有相對成熟的,也有新興的。然而,國家的科研經(jīng)費有限,如果把政策指定的所有子技術(shù)都作為技術(shù)機會,那么基金評審可能因為“文化墮距”的感知問題把更多經(jīng)費分配給相對成熟的子技術(shù),導致新興子技術(shù)得不到充分的發(fā)展。為此,本研究還將通過回顧專利數(shù)據(jù)的方式了解各個子技術(shù)的實際發(fā)展情況,最后識別出新興子技術(shù)。
從圖2可知,執(zhí)行MTDS一共有7個步驟:第一,收集技術(shù)發(fā)展政策以及對應技術(shù)的專利信息;第二,利用專家知識去解讀技術(shù)發(fā)展政策并梳理出技術(shù)和應用需求;第三,篩選出企業(yè)參與研發(fā)的專利;第四,結(jié)合專家知識,分別對所有專利摘要和企業(yè)參與研發(fā)的專利摘要進行LDA主題抽??;第五,利用專家知識分別給子技術(shù)和子應用主題進行命名;第六,結(jié)合技術(shù)需求和技術(shù)主題,計算出技術(shù)需求里每個子技術(shù)的權(quán)重。其中,技術(shù)需求里的部分子技術(shù)可能不會出現(xiàn)在技術(shù)主題中。根據(jù)主題概率分布法[23],這些未出現(xiàn)的子技術(shù)是新興的,其對應主題概率很低,從而導致在有限的主題數(shù)目挖掘中這些新興主題沒有出現(xiàn)。因此,本研究將此部分的子技術(shù)的權(quán)重近似為0,應用主題同理。第七,利用專家知識為權(quán)重序列設定一個閾值,然后根據(jù)閾值篩選出新興技術(shù)和新興應用。
圖2 MTDS方法架構(gòu)
案例研究具有一定的科學性和合理性,被廣泛應用于TOA方法的驗證。因此,本研究將做一個區(qū)塊鏈縱向案例研究,并把國家自然科學基金委資助的區(qū)塊鏈基金項目作為新興技術(shù)機會的有效性和可行性的證明。
作為一個顛覆性技術(shù),區(qū)塊鏈技術(shù)受到國家的高度重視,出臺了很多區(qū)塊鏈政策,基金委資助了很多區(qū)塊鏈研發(fā)基金,知識庫出現(xiàn)了很多區(qū)塊鏈專利,為分析新興子技術(shù)和子應用提供了恰當?shù)膱鼍啊?/p>
本研究一共邀請了3名研究區(qū)塊鏈技術(shù)的在讀博士生為本研究提供專家知識。其中,有兩個資訊系統(tǒng)系的在讀博士,還有一個計算機科學系的在讀博士。
本研究在中國知網(wǎng) (CNKI)上檢索專利,以“區(qū)塊鏈”作為關(guān)鍵詞進行主題搜索。截止到2021年8月29日,一共獲得30 783條區(qū)塊鏈技術(shù)相關(guān)的中國專利,其中,一共篩選出24 354條公司參與研發(fā)的專利。
以2020年5月6日教育部辦公廳印發(fā)的《高等學校區(qū)塊鏈技術(shù)創(chuàng)新行動計劃》(以下簡稱《行動計劃》)的通知這一技術(shù)發(fā)展政策作為本研究的政策依據(jù)。
本研究還梳理了2016-2019年國家自然科學基金委公布的有關(guān)區(qū)塊鏈研究的基金項目,包括面上項目(19項)和青年科學基金項目(13項)。
《行動計劃》主要囊括了兩種需求:核心技術(shù)攻關(guān)需求和應用示范需求, 如表1所示。經(jīng)過專家的解讀和梳理,核心技術(shù)攻關(guān)需求一共有8大類,每一類下又有若干子技術(shù),總共23個子技術(shù),應用示范需求一共有9個。
表1 政策需求清單
本研究用LDA進行主題提取。為了確定主題的數(shù)目,采用Perplexity指標和專家知識相結(jié)合的辦法去確定。Perplexity是一種廣泛使用的性能度量,可以有效地描述語言模型的預測質(zhì)量[27]?;诋斍罢咝枨笾懈鱾€子技術(shù)和應用的數(shù)目,專家建議將主題數(shù)的上限設置為30個。然后讓模型自動生成1個主題到30個主題。當Perplexity值最小時,其對應的主題數(shù)量最佳。
圖3 主題數(shù)與Perplexity的關(guān)系-所有的專利
由圖3可知,LDA對所有專利進行主題抽取,當主題數(shù)為30個時,Perplexity值最小。經(jīng)過專家的識別和命名,本研究一共從這30個主題中識別出了在核心技術(shù)攻關(guān)需求里的16個子技術(shù) (技術(shù)主題),如表2所示。其中,核心技術(shù)攻關(guān)需求里另外的7個子技術(shù)未能被LDA從所有專利中挖掘出來,如表3所示。
圖4 主題數(shù)與Perplexity的關(guān)系-企業(yè)參與研發(fā)的專利
由圖4可知,LDA對企業(yè)參與研發(fā)的專利進行主題抽取,當主題數(shù)為29個時,Perplexity值最小。經(jīng)過專家的識別和命名,本研究一共從這29個主題中識別出了應用示范需求的6個應用場景 (應用主題),如表2所示。而應用示范需求里另外的3個應用場景未能被LDA從專利中挖掘出來,如表3所示。
表2 被LDA識別的子技術(shù)和應用
表3 未被LDA識別的子技術(shù)和應用
對核心技術(shù)攻關(guān)需求里的23個子技術(shù)進行權(quán)重計算。對于被LDA挖掘出來的16個子技術(shù),本研究利用LDA模型進行權(quán)重預測,然后計算每個子技術(shù)的累加權(quán)重,最后做歸一化處理,每個子技術(shù)的累加權(quán)重除以總的專利數(shù)30 783。對于尚未被LDA挖出來的7個子技術(shù),根據(jù)主題概率分布法的假設,這7個子技術(shù)因為在專利集中出現(xiàn)的概率極低,所以在30個主題挖掘中沒有出現(xiàn)。因此,本研究將這7個子技術(shù)的概率近似為0,結(jié)果如圖5所示。
圖5 核心技術(shù)攻關(guān)需求里23個子技術(shù)對應的歸一化權(quán)重
同理,對應用示范需求里的9個應用場景進行權(quán)重計算,結(jié)果如圖6所示。
圖6 應用示范需求里9個應用場景對應的歸一化權(quán)重
根據(jù)專家的建議及主題概率分布[23],本研究定義中位數(shù)為技術(shù)機會識別的閾值。
首先,篩選新興技術(shù)。核心技術(shù)攻關(guān)需求一共23個子技術(shù),按照權(quán)重從大到小的順序排列,中位數(shù)為第12個子技術(shù)對應的權(quán)重,即是基于區(qū)塊鏈與軟件定義網(wǎng)絡的信任交互技術(shù)(1.579%),那么排在該子技術(shù)后面的技術(shù)就是新興技術(shù)。
同理,篩選新興應用。應用示范需求一共9個應用場景,按照權(quán)重從大到小順序排列,中位數(shù)為第5個應用場景對應的權(quán)重,即是區(qū)塊鏈在分布式能源交易中的應用研究(1.285%),那么排在該應用場景后面的應用就是新興應用。
篩選出來的新興技術(shù)和新興應用如表4所示。
表4 新興技術(shù)和新興應用
政策內(nèi)容是有效的和可操作的。通過梳理區(qū)塊鏈政策叢,本研究發(fā)現(xiàn)當前很多政策文件雖然都提到了區(qū)塊鏈,但是都只是倡議發(fā)展區(qū)塊鏈,并未對發(fā)展區(qū)塊鏈的方向進行描述,本研究并不能從大部分政策中梳理出實際有效的技術(shù)和應用需求。而《行動計劃》則充分全面地討論了區(qū)塊鏈技術(shù)所涉及諸多子技術(shù)和應用場景,因此,《行動計劃》內(nèi)容是有效的和可操作的。
研究結(jié)果是有效的。2016-2019年資助的大部分基金項目屬于本研究中定義的相對成熟的技術(shù)研究,包括面向高吞吐處理的區(qū)塊鏈數(shù)據(jù)管理、安全可擴展可插拔區(qū)塊鏈共識機制研究、基于DAG結(jié)構(gòu)的高吞吐區(qū)塊鏈構(gòu)建方法研究、面向區(qū)塊鏈系統(tǒng)隱私保護的關(guān)鍵密碼技術(shù)研究等。有極個別項目屬于本研究定義的新興技術(shù)研究項目,比如面向區(qū)塊鏈智能合約漏洞自動檢測與修復的符號邏輯建模與推理 (執(zhí)行時間從2020-01至2023-12)。同時,大部分應用也屬于本研究所定義的相對成熟的應用,包括基于區(qū)塊鏈的數(shù)字資產(chǎn)復雜交易中相關(guān)密碼協(xié)議研究、區(qū)塊鏈賦能的下一代智能電網(wǎng)主動能量體社群P2P交易行為建模、規(guī)則設計與復雜性分析、基于區(qū)塊鏈的供應鏈產(chǎn)品質(zhì)量提升策略優(yōu)化與協(xié)調(diào)等。而扶貧是中國社會近年來的新興問題,區(qū)塊鏈在扶貧領域的應用是新興的方向,但目前尚未在區(qū)塊鏈基金項目體現(xiàn)出來。由此可見,2016-2019年贊助的基金項目的分布與本研究所發(fā)現(xiàn)的主題分布大致是相同的。本研究所發(fā)現(xiàn)的個別新興技術(shù)也開始被基金評審開始意識到,并在未來幾年內(nèi)給予資助。因此,本研究建議各級基金評審可以考慮把研發(fā)經(jīng)費向未被關(guān)注的新興技術(shù)和新興應用上傾斜。
技術(shù)機會分析對于國家獲取未來的技術(shù)競爭優(yōu)勢具有重大戰(zhàn)略意義。為了保證國家未來的技術(shù)競爭優(yōu)勢,國家投入了大量的研發(fā)經(jīng)費去資助符合國家未來發(fā)展需求的新興技術(shù)的研發(fā)。為此,各級基金評審需要基于技術(shù)機會去合理地分配研發(fā)經(jīng)費。然而,當前的兩種TOA策略很難辨別出一項顛覆性技術(shù)中的各個子技術(shù)的實際發(fā)展情況,不利于各級基金評審做出有效的分配決策。為此,本研究提出了MTDS。MTDS結(jié)合專家法和LDA去分析前沿技術(shù)政策文本和海量的專利信息。最后,本研究對區(qū)塊鏈技術(shù)做了案例研究,成功驗證了MTDS的可行性。MTDS既可以彌補TDS缺乏需求預測導向的問題,又可以彌補MDS 容易忽視新興技術(shù)的問題,進而更好地幫助各級基金評審做出技術(shù)研發(fā)基金分配決策。同時,MTDS能夠拓展到多個顛覆性技術(shù)領域的新興子技術(shù)的機會識別,具有重要的理論及應用價值。
當然,本研究存在一定的局限性?;跀?shù)據(jù)的局限性,本研究尚無法處理專利時延性問題。為了增加結(jié)論的科學性和準確性,未來的研究將增加數(shù)據(jù)內(nèi)容,將專利時效考慮其中,從而更好地找到新興技術(shù)機會。