馮立杰,秦浩,王金鳳,劉鵬,仵軒,張芷芯
(1. 鄭州大學管理學院,鄭州 450001;2. 上海海事大學物流工程學院,上海 201306;3. 河南省創(chuàng)新方法工程技術研究中心,鄭州 450001;4. 上海海事大學中國(上海)自貿(mào)區(qū)供應鏈研究院,上海 201306)
顛覆性技術被認為是推動技術創(chuàng)新和經(jīng)濟增長的重要驅動力[1]。作為技術創(chuàng)新的重要內(nèi)容,顛覆性技術具有強烈的破壞力,能夠打破原有技術生命周期,構建新的技術軌道,并逐漸取代現(xiàn)有主流技術,從而對社會產(chǎn)生深遠影響[2]。因此,通過科學方法識別潛在顛覆性技術,將有助于定位重要的研發(fā)方向,合理分配資源配置,指導科技決策與規(guī)劃,從而進一步提升企業(yè)競爭力,幫助國家搶占發(fā)展先機[3]。
對此,有學者嘗試采用多種方法識別顛覆性技術,主要包括基于專家經(jīng)驗的識別方法、基于模型的識別方法以及基于數(shù)據(jù)挖掘的識別方法等?;趯<医?jīng)驗的識別方法主要是德爾菲法[4]、技術路線圖[5]、調(diào)查問卷法[6]等。這些方法囿于專家知識范圍的影響,具有較強的主觀性,且專家資源較為稀缺,難以實現(xiàn)顛覆性技術識別的準確性與全面性?;谀P偷淖R別方法主要是以一定的理論框架和標準為基礎,結合統(tǒng)計方法構建相關模型以識別顛覆性技術。例如,于光輝等[7]采用專利引用信息和Bass模型構建了對顛覆性技術識別和判斷的新方法,并用技術擴散的S形規(guī)律進行驗證;Cheng等[8]基于SIRS(susceptible, infectious, recovered, suscepti‐ble)流行病模型,提出了一種顛覆性技術擴散模型,用于識別潛在的顛覆性技術。但這些方法受限于學者自身領域專業(yè)知識與市場信息,難以抽象顛覆性技術的核心內(nèi)容或者屬性,從而影響顛覆性技術識別的準確性。隨著數(shù)據(jù)驅動概念的深入,基于數(shù)據(jù)挖掘的識別方法越來越受到關注。當前,基于數(shù)據(jù)挖掘的識別方法主要是結合統(tǒng)計學、文獻計量學以及指標評估等方法識別顛覆性技術。例如,陳育新等[9]基于技術與市場構建顛覆性潛力測度指標,通過結合滑動窗口與LDA(latent Dirichlet allo‐cation)主題模型,提出了一個能夠動態(tài)識別具有顛覆性潛力的技術,并用IPC(international patent classification)關聯(lián)強度驗證識別結果;李乾瑞等[10]基于專利視角,運用熵權法和模糊一致矩陣方法,從4個維度構建了一套系統(tǒng)的顛覆性技術識別體系,并對5個技術領域展開了3個維度的對比分析以驗證模型的可行性;Dotsika等[11]以科技文獻為數(shù)據(jù)源,依據(jù)關鍵詞在共現(xiàn)網(wǎng)絡中的接近度和遠離度來識別顛覆性技術。這些方法具有較強的客觀性,在一定程度上降低了專家對于識別結果的影響。但顛覆性技術早期特征信號較弱,識別難度較高,且上述方法主要考慮技術本身,較少考慮市場等因素。
為進一步彌補僅考慮技術本身導致的顛覆性技術識別的低準確性,部分學者結合多源數(shù)據(jù)進行顛覆性技術識別。例如,馬永紅等[12]運用LDA主題模型從專利中提取技術主題,并采用4個特征識別候選顛覆性技術,基于網(wǎng)頁新聞數(shù)據(jù)分析技術的市場屬性,進而識別出顛覆性技術;譚曉等[13]基于論文、專利與項目等數(shù)據(jù)源,結合社團發(fā)現(xiàn)、主題識別、主題演化等方法,構建了科學-技術-市場模型用于識別顛覆性技術;呂璐成等[14]基于專家知識和技術層次體系確定候選顛覆性技術,結合專利、論文、基金、企業(yè)與輿情等數(shù)據(jù)源評估顛覆性潛力,并界定了兩類顛覆性技術。綜上所述,已有文獻從多源數(shù)據(jù)出發(fā),從多個維度開展顛覆性技術的識別,進一步提升了顛覆性技術識別的準確性。
顯然,現(xiàn)有顛覆性技術的識別文獻從多方面進行了有益探索,但仍存在以下不足。一是鮮有研究考慮社交媒體數(shù)據(jù)對于顛覆性技術識別的重要性。顛覆性技術在發(fā)展的過程中,以滿足用戶需求為導向,能夠吸引主流用戶[15],而社交媒體是社會大眾反映對顛覆性技術關注度與情感傾向的重要平臺。通過社交媒體數(shù)據(jù),能夠對潛在顛覆性技術作進一步分類,以提升顛覆性技術早期識別的準確性。二是鮮有研究利用深度學習模型分析顛覆性技術的指標特征,從海量專利中挖掘出深層次的復雜非線性顛覆性技術關鍵特征,并運用該特征來識別未來潛在顛覆性技術,從而進一步減少專家經(jīng)驗的主觀性,并提高潛在顛覆性技術識別的效率。
鑒于此,為避免專家經(jīng)驗評估帶來的主觀性以及上述研究較少考慮社交媒體數(shù)據(jù)等問題,本文擬基于專利與社交媒體雙數(shù)據(jù)源,通過結合深度學習模型、BERTopic主題建模等,提出一種潛在顛覆性技術的識別路徑。具體研究路徑如下:首先,基于專利數(shù)據(jù),劃分數(shù)據(jù)集,構建出專利指標與技術影響力之間的關系;其次,依托雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(bi-directional long short-term memory,Bi-LSTM)擬合專利指標與技術影響力之間的關系,預測出候選顛覆性技術,并結合BERTopic提取技術主題;再其次,通過BERTopic基于社交媒體數(shù)據(jù)提取出社會主題,并通過關注度和情感傾向對社會主題進行評價;最后,通過語義相似度,將社會主題與技術主題匹配映射,并將技術主題分為高關注度-積極態(tài)度、高關注度-消極態(tài)度、低關注度-積極態(tài)度與低關注度-消極態(tài)度4種類型,根據(jù)4種類型技術主題各自的特點,識別出潛在顛覆性技術。
長短時記憶循環(huán)神經(jīng)網(wǎng)絡(long short term memory,LSTM)是一種基于循環(huán)神經(jīng)網(wǎng)絡(recur‐rent neural network,RNN)結構的改進模型,相較于RNN,LSTM解決了RNN存留的“梯度爆炸”和“梯度消失”等問題[16],并考慮了輸入和輸出之間的時間關系[17]。LSTM由遺忘門Ft、輸入門It和輸出門Ot共3個門結構組成,并由這3個門來更新網(wǎng)絡。LSTM中的內(nèi)存單元Ct和隱藏狀態(tài)Ht由前狀態(tài)Ct-1和Ht-1更新得到,具體更新過程計算公式[18]為
其中,Xt為t時刻輸入LSTM的數(shù)據(jù);Ht為LSTM在時間t更新網(wǎng)絡的輸出;W為每個門單元的權重矩陣;b為每個門的偏置向量;σ為sigmoid函數(shù);tanh為tanh函數(shù)。LSTM模型結構如圖1[19]所示。
圖1 LSTM模型結構[19]
LSTM模型只能通過上一時刻的時序信息預測下一時刻的信息,為了充分利用文本信息,本文引入雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(Bi-LSTM),該模型由兩個方向相反的LSTM模型組成,同時處理文本信息,以獲得具有相反時間序列的兩個隱藏層狀態(tài),并將其堆疊以獲得相同的輸出。Bi-LSTM模型結構如圖2[20]所示。
圖2 Bi-LSTM結構模型[20]
截至目前,Bi-LSTM已被廣泛應用于變壓器故障診斷[21]、交通事故檢測與狀態(tài)分析[22]、醫(yī)療保健數(shù)據(jù)監(jiān)測[23]、專利數(shù)據(jù)效應匹配[24]等眾多領域,且在不同領域均表現(xiàn)出了良好性能。但該模型有較高的技術環(huán)境要求:一是需要質(zhì)量和數(shù)量較高的數(shù)據(jù)集,并進行有效的數(shù)據(jù)清洗與預處理;二是Bi-LSTM在訓練過程中需要大量的參數(shù)調(diào)整和優(yōu)化,以達到最佳性能。
隨著科研大數(shù)據(jù)的發(fā)展,人們能夠獲取更多顛覆性技術的特征,相較于人工定義顛覆性技術特征,深度學習模型依據(jù)自身多層非線性結構,在處理復雜數(shù)據(jù)時,能夠更加全面、準確地提取數(shù)據(jù)特征,從而預測出候選顛覆性技術[25]。鑒于此,本文擬運用Bi-LSTM擬合專利指標數(shù)據(jù)與技術影響力之間的關系,以預測候選顛覆性技術。
BERTopic是一種主題建模技術,能夠從海量專利文獻中提取技術主題及其關鍵詞。由于其能在提取技術主題時保留重要的詞匯,且相較于LDA、STM(structural topic model)[26]等模型,能夠充分考慮文本語義信息。因此,眾多學者利用BERTopic提取了專利主題[27]、在線評論主題[28]、論文主題[29]等,這些研究均驗證了BERTopic應用在不同文本的普適性。故本文使用BERTopic主題建模模型提取潛在顛覆性技術主題。BERTopic模型在BERT(bi-directional encoder representation from transform‐ers)基礎上,使用了UMAP(uniform manifold ap‐proximation and projection)降維、HDBSCAN(hier‐archical density-based spatial clustering of applications with noise)文本聚類和c-TF-IDF(class-based TFIDF)提取主題詞3個步驟,其運行原理如圖3[30]所示。
圖3 BERTopic運行原理[30]
鑒于此,本文擬運用BERTopic主題建模,分別基于專利數(shù)據(jù)提取候選顛覆性技術主題及主題關鍵詞和基于社交媒體數(shù)據(jù)提取社會主題及主題關鍵詞。考慮到專利數(shù)據(jù)和社交媒體數(shù)據(jù)不同主體、不同訴求和不同關注等因素導致的差異,本文通過語義相似度對兩者進行匹配映射,并從社會大眾關注度和社會大眾情感傾向兩個維度對社會主題進行評價,從而實現(xiàn)對技術主題的分類。
本文通過融合專利數(shù)據(jù)與社交媒體數(shù)據(jù),并依托Bi-LSTM與BERTopic主題建模,構建了潛在顛覆性技術識別研究路徑,如圖4所示。
圖4 研究路徑
本文通過制定與具象技術主題相關的檢索策略來收集相關專利數(shù)據(jù)。為提升數(shù)據(jù)分析的有效性,在正式分析之前,需要對已經(jīng)收集的專利數(shù)據(jù)進行預處理。首先,對檢索到的專利進行甄選,剔除與具象技術領域相關度不高的專利;其次,由于最短顛覆性技術認證時限為6年[31],本文按時間段將專利數(shù)據(jù)集劃分為訓練集與預測集,并保證每個數(shù)據(jù)集的時間跨度至少為6年;最后,保存每個專利對應的指標,為后續(xù)構建深度學習模型奠定基礎。
2.2.1 顛覆性技術指標選取及體系構建
在文獻計量領域中,許多學者從技術、科學、市場等多種角度出發(fā),綜合多個指標描述顛覆性技術[32]。結合顛覆性技術特性和現(xiàn)有專利指標體系,同時考慮指標的可獲得性,本文使用技術類、科學類以及市場類3類共8項指標對顛覆性技術各方面特征進行測度,構建顛覆性技術的技術指標體系。各類指標名稱以及衡量方式如表1所示。
表1 指標名稱及衡量方式
(1)技術類指標[33]:技術類指標包括技術新穎性(technological novelty,TN)、技術價值(techno‐logical value,TV)、技術涵蓋度(technological scope,TS)、專利權人數(shù)量(patentees,PAT)、發(fā)明人數(shù)量(inventors,INV)等指標。技術新穎性描述了目標專利對其他技術的參考程度,即引用其他專利的數(shù)量越多,其新穎性就越低;技術價值描述了目標專利對其他技術的影響程度,即被其他專利引用的數(shù)量越多,其影響力就越高;技術涵蓋度描述了目標專利技術覆蓋的范圍,即專利所屬類別數(shù)越多,其技術范圍度就越廣;專利權人數(shù)量描述了目標專利的未來技術發(fā)展力與影響力,專利權人的能力與水平將影響技術的未來發(fā)展與影響力,即專利擁有的專利權人越多,其技術未來發(fā)展力與影響力就越高;發(fā)明人數(shù)量描述了目標專利的未來技術發(fā)展的潛力,擁有多個發(fā)明人的專利往往具有更大的發(fā)展?jié)摿Α?/p>
(2)科學類指標[34]:科學類指標包括科學關聯(lián)度(scientific relevance,SR)指標??茖W關聯(lián)度描述了目標專利與科學文獻的關聯(lián)程度,即專利引用非專利文獻的數(shù)量越多,其與科學的關聯(lián)度就越高。
(3)市場類指標:市場類指標包括專利族大小(number of patent families,NF)、專利競爭力(pat‐ent competitiveness,PC)等指標。專利族大小描述了目標專利在全球布局的廣度,即專利的專利族越大,其在全球布局區(qū)域越廣,花費成本越高[35];專利競爭力描述了目標專利在市場的競爭能力,通常用權利要求數(shù)來表征,即專利的權利要求數(shù)越多,其競爭力越強[36]。
2.2.2 顛覆性技術影響力評估
高技術影響力作為顛覆性技術的核心特征,常常被專利的前向引用次數(shù)所衡量。即若一項技術越被頻繁、廣泛地應用到未來技術中,則意味著其具有越大的技術影響力[37]。但針對特定領域而言,高被引專利并不一定是被本領域所引用,也有可能是被其他領域所引用。即對于其他技術領域而言是顛覆性技術,對本領域而言只是高價值專利。此外,有些顛覆性技術早期影響力較弱,意味著前向引用次數(shù)較少。因此,直接使用專利的前向引用次數(shù)來衡量技術的影響力并不妥當。鑒于此,本文采用黃魯成等[38]提出的NPCIA(novel patent cross-impact analysis)法,用于衡量技術間的交叉影響及技術影響力(technological influence,TI),計算公式為
其中,N(j)為包含技術j的專利數(shù)量;N(i∩j)為同時包含技術i和技術j的專利數(shù)量;Si為技術影響力系數(shù);n為技術數(shù)量;i和j為技術的子集;aij為技術i對技術j的交叉影響。
本文將技術影響力按大小分為高和低兩個等級。為了更加準確地設置技術影響力大小之間的閾值,需探究不同閾值大小與模型預測準確率之間的關系。因此,本文使用回歸分析,通過比對不同閾值大小對預測模型準確率的影響,確定合理的技術影響力大小的閾值[39]。將大于等于該閾值的專利樣本視為高技術影響力專利,并貼上標簽“1”,其余專利樣本視為低技術影響力專利,并貼上標簽“0”,為后續(xù)深度學習模型的構建提供數(shù)據(jù)源[40]。
2.3.1 深度學習模型訓練
一個技術領域會存在海量的專利,且有較多指標對其進行衡量及描述。作為一種神經(jīng)網(wǎng)絡分類器,深度學習模型能夠處理大量數(shù)據(jù)[41]。因此,本文使用深度學習模型來預測候選顛覆性技術,而使用深度學習模型預測候選顛覆性技術的關鍵是構建出專利指標和專利未來影響力之間的關系。
為了進一步提高識別精度以構建合適的深度學習模型,本文將專利數(shù)據(jù)集劃分為兩個部分——數(shù)據(jù)集1和數(shù)據(jù)集2。其中,數(shù)據(jù)集1用于幫助深度學習模型擬合專利指標與專利未來影響力之間的關系。其具體訓練步驟如下:首先,從訓練集中依據(jù)前述構建的指標體系提取相應的指標;其次,依據(jù)前述未來影響力算法,人工計算并標注每個專利的未來影響力;最后,使用未經(jīng)訓練的深度學習模型擬合技術指標與專利未來影響力之間的關系。深度學習模型的構建如圖5所示。
圖5 深度學習模型構建
在建立深度學習模型之初,首先,需要對模型的各種參數(shù)進行初始化設置,具體包括神經(jīng)元數(shù)量、Epoch以及Batch size等;其次,使用數(shù)據(jù)集1對深度學習模型進行訓練,從而實現(xiàn)模型的迭代與參數(shù)的更新;最后,完成訓練,保存深度學習模型。
2.3.2 深度學習模型測試
為了評估深度學習模型的訓練效果,本文隨機將數(shù)據(jù)集1按8∶1∶1劃分為訓練集、驗證集與測試集[42],并使用準確率、精確率、召回率和F1-score共4個指標對訓練效果進行評估。計算公式為
其中,Acc為準確率;Pre為精確率;Re為召回率;TP和TN分別為判斷正確的正樣本和負樣本;FP和FN分別為判斷錯誤的正樣本和負樣本;P和N分別為正樣本和負樣本。
2.3.3 候選顛覆性技術預測及技術主題提取
依托上述深度學習模型的訓練預測候選顛覆性技術。其具體步驟如下:首先,提取數(shù)據(jù)集2中的專利指標;其次,將指標信息輸入完成訓練的深度學習模型中,并輸出相應的技術影響力;最后,將具有高技術影響力的專利視為候選顛覆性技術,并使用BERTopic模型提取候選顛覆性技術的技術主題,其具體流程如圖6所示。
圖6 候選顛覆性技術預測流程
通過專利數(shù)據(jù)預測出的候選顛覆性技術,難以反映社會大眾對其的關注度與情感傾向。已有研究表明,除去技術改進的自身動力,技術發(fā)展本身也是一項社會行動[43]。社會大眾往往基于自身利益,動態(tài)、持續(xù)性地關注某個主題領域。即如果某項科學研究的社會大眾關注度較高,態(tài)度較為積極,那么意味著該研究具有較高的社會影響力。顛覆性技術作為科研活動的成果表現(xiàn)之一,也同樣適用[44]。因此,本文以社交媒體數(shù)據(jù)為數(shù)據(jù)源,探究社會大眾對前述預測出的候選顛覆性技術的關注度與情感傾向,以進一步提升潛在顛覆性技術的準確性及全面性,具體步驟如下。
Step1.數(shù)據(jù)獲取及社會主題提取。以社交媒體數(shù)據(jù)庫為數(shù)據(jù)源,利用Python爬取與目標技術領域相關的內(nèi)容及閱讀量,并使用BERTopic提取出相應的社會主題以及文本-主題概率矩陣。
Step2.社會主題關注度與情感分數(shù)計算?;谖谋?主題概率矩陣匹配社會主題與文本,并分別以文本閱讀量的算術平均數(shù)作為社會主題的社會大眾關注度,以文本情感分數(shù)的算術平均數(shù)作為社會主題的社會大眾情感分數(shù)。
Step3.二維坐標構建與技術主題分類。構建二維評價坐標,從4個象限出發(fā)對社會主題進行分類,并基于語義相似度將上述技術主題與社會主題進行匹配映射,進而依據(jù)社會關注度與社會情感分數(shù)兩個指標將技術主題劃分為高關注度-積極態(tài)度、高關注度-消極態(tài)度、低關注度-積極態(tài)度以及低關注度-消極態(tài)度4種。
Step4.基于各指標的潛在顛覆性技術識別?;趯<乙庖婈U釋4種技術主題類型的顛覆性潛力,并識別潛在顛覆性技術。
具體流程如圖7所示。
圖7 潛在顛覆性技術識別流程
2.4.1 社交媒體數(shù)據(jù)獲取及社會主題提取
本文通過制定與具象技術主題相關的檢索策略,收集相關社交媒體數(shù)據(jù),并獲取社會主題。具體過程如下:首先,對獲得的數(shù)據(jù)進行清洗,去除與主題相關度不高和無關的數(shù)據(jù);其次,對清洗過后的數(shù)據(jù)進行預處理,包括HTML(hyper text markup language)解碼、刪除標點符號等,并進行規(guī)范化儲存;最后,使用BERTopic模型提取社會主題及文本-主題概率矩陣,并結合相關領域專家意見,去除相關度不高的主題,得到最終高相關度的社會主題。
2.4.2 社會主題關注度與情感分數(shù)計算
社會主題的關注度為該主題下的所有文本的閱讀量算術平均數(shù)。具體過程如下:首先,基于文本-主題概率矩陣,并結合相關領域專家意見,篩選出每個主題下的文本;其次,統(tǒng)計每個文本的閱讀量,并計算算術平均數(shù);最后,將每個主題的閱讀量作為社會大眾的社會關注度。
本文使用Python中的SnowNLP來計算社會大眾對社會主題的情感分數(shù)[45]。具體過程如下:首先,根據(jù)先驗概率和條件概率,使用樸素貝葉斯算法計算每個詞語對于正面情感和負面情感的概率;其次,根據(jù)文本-主題概率得到每篇文本所屬每個主題的概率,依據(jù)每個文本所屬主題概率大小并結合文本具體內(nèi)容,匹配主題與文本;再其次,根據(jù)文本每個句子中所有詞的情感極性進行加權平均,計算每個句子的情感分數(shù),將每個句子的情感分數(shù)加權平均得到每個文本的情感分數(shù),從而基于主題與文本的匹配結果計算每個主題的情感分數(shù);最后,設置情感分數(shù)閾值,將高于該閾值的主題視為社會大眾具有積極態(tài)度的社會主題,將低于該閾值的主題視為社會大眾具有消極態(tài)度的社會主題,將等于該閾值的主題視為社會大眾具有中性態(tài)度的社會主題。
在計算每個句子的情感分數(shù)時,需要將該句子中的所有詞語的情感極性進行加權平均,從而得到該句子的情感分數(shù)。每個詞語的權重大小根據(jù)其出現(xiàn)頻率而確定,頻率較大的詞語權重較大,頻率較小的詞語權重較小,這樣可以更好地反映每個詞語在整個句子情感分數(shù)計算中的貢獻程度。句子的情感分數(shù)計算公式為
其中,sen為情感分數(shù);wi為詞語的權重;pi為情感概率;n為一個句子中包含的詞語個數(shù)。
在計算每個文本的情感分數(shù)時,同樣需要將每個句子的情感分數(shù)進行加權平均,從而得到每個文本的情感分數(shù)。每個句子的權重根據(jù)其出現(xiàn)在文本中的位置而確定,出現(xiàn)在文本首句和末句的句子權重較大,并將剩余權重分配至其他句子中。這樣可以更好地反映每個句子在整個文本情感分數(shù)計算中的貢獻程度。文本的情感分數(shù)計算公式為
其中,pas為情感分數(shù);seni為句子的權重;vi為句子的權重;m為一個文本中包含的句子個數(shù)。
2.4.3 二維坐標構建與技術主題分類
以主題關注度為橫坐標、以主題情感分數(shù)為縱坐標構建二維評價坐標?;诟魃鐣黝}的指標大小,將各社會主題映射到二維坐標中。通過社會主題與技術主題進行匹配映射,從而將技術主題按照高關注度-積極態(tài)度、高關注度-消極態(tài)度、低關注度-積極態(tài)度以及低關注度-消極態(tài)度分為4類。
技術主題與社會主題之間的匹配映射是基于二者的語義相似度實現(xiàn)的,其具體計算過程如下:首先,使用BERT模型對技術主題與社會主題分別進行編碼以得到其向量;其次,按照余弦相似度的計算公式計算社會主題與每個技術主題之間的余弦相似度;最后,將技術主題與每個社會主題中余弦相似度最大者進行匹配映射,并基于相關領域專家知識對其進一步闡釋說明。
2.4.4 基于社會主題的潛在顛覆性技術識別
本文依據(jù)社會大眾對技術主題的關注度與情感傾向,預測未來技術主題的顛覆性潛力。技術主題的關注度大小與情感傾向和數(shù)量廣泛的社會大眾自身利益息息相關,即技術主題的關注度大小與情感傾向在一定程度上代表了社會影響力。而顛覆性技術相較于主流技術,能夠改變技術的發(fā)展方向,離不開其對社會產(chǎn)生的巨大影響,從而得到大規(guī)模的擴散并被社會廣泛接受[46]。因此,社會大眾對技術主題的關注度大小與情感傾向和其顛覆性潛力有很大的關系。
(1)高關注度-積極態(tài)度的技術主題:高關注度意味著社會大眾持續(xù)關注該技術主題,積極態(tài)度意味著社會大眾對該技術主題較為滿意。該類技術主題可能擁有較大的技術先進性,從而導致?lián)碛休^高的社會影響力,并且未來有較大可能性快速占據(jù)市場,完成顛覆。
(2)高關注度-消極態(tài)度的技術主題:高關注度意味著社會大眾持續(xù)關注該技術主題,而消極態(tài)度意味著社會大眾對該技術主題不太滿意。該類技術主題往往產(chǎn)生于低端市場,可能初始性能不高,導致社會大眾對其態(tài)度消極,但因其便宜、簡單、方便等特點而受到廣泛關注。未來可能會借助成本優(yōu)勢與市場優(yōu)勢向主流市場侵蝕并完成顛覆[47]。
(3)低關注度-積極態(tài)度的技術主題:低關注度意味著社會大眾尚未關注或較少關注該技術主題,而積極態(tài)度意味著社會大眾對該技術主題較為滿意。該類技術主題具有邊緣消費者看重的全新功能或屬性,未來,隨著性能和功能的不斷完善,逐漸滿足多數(shù)大的需求,有可能完成顛覆[48],也可能因無法滿足用戶而不再受到關注。
(4)低關注度-消極態(tài)度的技術主題:低關注度意味著社會大眾尚未關注或較少關注該技術主題,消極態(tài)度意味著社會大眾對該技術主題不太滿意。該類技術主題可能處于萌芽期,因技術的不完善使得人們對其態(tài)度不夠積極,加之時間原因暫時還未受到廣泛關注。但在技術發(fā)展的早期,即使顛覆性技術也呈現(xiàn)“弱信號”的特征[49],因此,對于該類技術主題,還需等待時間的驗證,亦不能排除其顛覆性的潛力。
綜上所述,本文認為高關注度-積極態(tài)度、高關注度-消極態(tài)度以及低關注度-積極態(tài)度的技術主題更有可能成為顛覆性技術;而低關注度-消極態(tài)度的技術主題具有較大不確定性,需要等待時間的驗證。
醫(yī)療機器人的出現(xiàn),打破了常規(guī)醫(yī)療的現(xiàn)狀,有力地推動了醫(yī)療技術的變革,越來越多的企業(yè)加入醫(yī)療機器人產(chǎn)業(yè)化隊伍[50]。醫(yī)療機器人由于具有交叉性、前瞻性等特點,很有可能引起新一輪技術革命,從而催生一系列顛覆性技術[51]。盡管我國近年來大力扶持醫(yī)療機器人產(chǎn)業(yè)的發(fā)展,但是與世界先進水平仍存在一定的差距[52],亟須開展?jié)撛陬嵏残约夹g的識別,以幫助國家和企業(yè)明晰未來的發(fā)展方向,進而縮小與發(fā)達國家的技術差距。鑒于此,本文選擇醫(yī)療機器人領域進行實證分析,以闡釋上述方法的應用過程,并驗證其合理性。
本文采用incoPat數(shù)據(jù)庫(http://www.incopat.com)為專利數(shù)據(jù)源。經(jīng)初步檢索,得到10652項專利。對原始數(shù)據(jù)進行數(shù)據(jù)清洗,去除相關度低和重復的專利,最終得到9300項專利。具體檢索時間、檢索表達式等信息如表2所示。
表2 醫(yī)療機器人的專利檢索信息
依據(jù)2.1節(jié)提出的數(shù)據(jù)集劃分方法,本文按時間段進行劃分。2011年1月1日至2016年12月31日的專利數(shù)據(jù)為數(shù)據(jù)集1,將其稱為2020年候選顛覆性技術,共有1982項專利;2017年1月1日至2022年12月31日的專利數(shù)據(jù)為數(shù)據(jù)集2,將其稱為2026年候選顛覆性技術,共有7318項專利。
3.2.1 醫(yī)療機器人的指標選取及體系構建
按照2.2.1節(jié)中提出的方法提取訓練集中專利樣本的專利指標。訓練集共1982個樣本,其中每一個樣本都有8維數(shù)據(jù),包含8個專利指標的數(shù)值。由于各指標數(shù)值跨度較大,直接使用該數(shù)據(jù)會影響模型的訓練效果[53]。因此,本文對所有專利指標數(shù)值中不為0的取對數(shù)處理,數(shù)值為0的取0。訓練集中各專利樣本指標描述性統(tǒng)計如表3所示。
表3 專利樣本各指標描述性統(tǒng)計
3.2.2 醫(yī)療機器人的專利樣本技術影響力評估
按照公式(7)和公式(8)計算每個專利樣本的技術影響力,并借助XGB(extreme gradient boosting)模型開展回歸分析,以確定不同技術影響力閾值大小對模型預測準確率的影響,從而確立最佳技術影響力閾值。具體結果如圖8所示。
圖8 不同技術影響力閾值大小對模型預測準確率的影響
由圖8可知,在閾值為1.3時,模型預測準確率達到峰值,隨后處于下降狀態(tài),因此,本文將技術影響力大小的閾值設為1.3,并將技術影響力不低于1.3的專利樣本貼上標簽“1”,將剩余專利樣本貼上標簽“0”。部分專利樣本的部分指標如表4所示。
表4 部分專利樣本的技術影響力
3.3.1 醫(yī)療機器人的深度學習模型訓練
由于高影響力和低影響力的專利樣本比例為1∶11,樣本的不均衡導致Bi-LSTM模型無法充分學習到高影響力專利樣本的特征。為了進一步提升Bi-LSTM模型的學習效果,本文在訓練集中復用正樣本專利數(shù)據(jù),使得用于構建模型的訓練集中正負樣本相對均衡[54]。經(jīng)訓練,最終確定了各模型參數(shù),具體參數(shù)設置情況如表5所示。
表5 Bi-LSTM模型訓練參數(shù)設置
訓練完畢之后,需要檢驗模型的擬合程度。將Bi-LSTM訓練集的擬合效果與真實值進行對比可知,Bi-LSTM的擬合程度整體上與真實值差別不大,可以用于下一階段的候選顛覆性技術預測。具體對比結果如圖9所示。
圖9 Bi-LSTM的預測結果與實際結果對比(彩圖請見http://qbxb.istic.ac.cn/)
3.3.2 醫(yī)療機器人的深度學習模型測試
為了評估Bi-LSTM訓練效果,按照2.3.2節(jié)的公式(9)~公式(12)分別計算準確率、精確率、召回率和F1-score指標,并與RF(random forest)、 VSM(vector space model)與LR(logistic regression)等模型進行對比。評估指標如表6所示。
表6 Bi-LSTM、RF、SVM與LR模型訓練效果對比
由表6可知,Bi-LSTM在各項指標表現(xiàn)上均優(yōu)于其他模型,即該模型在候選顛覆性技術分類任務中整體性能更高,能夠更好地擬合候選顛覆性技術指標與其未來技術影響力之間復雜的非線性關系。因此,可將Bi-LSTM用于2026年候選顛覆性技術的預測。
3.3.3 醫(yī)療機器人的候選顛覆性技術預測
提取數(shù)據(jù)集2中的專利各指標數(shù)據(jù),經(jīng)由訓練完成的Bi-LSTM模型,得到了數(shù)據(jù)集2中各專利的未來技術影響力。數(shù)據(jù)集2中共有7318項專利,預計有395項專利具有高技術影響力,并視為候選顛覆性技術,占預測集專利數(shù)量的5.4%。
為了進一步明晰候選顛覆性技術的技術主題及主題關鍵詞分布信息,本文使用BERTopic主題建模來提取候選顛覆性技術的技術主題及主題關鍵詞。在此基礎上,結合領域專家意見,可得到9個技術主題。各主題代表的技術領域清晰,具有較好的聚類效果,因此,可根據(jù)各技術主題所含主題關鍵詞的內(nèi)容進行命名。具體如表7所示。
表7 醫(yī)療機器人候選顛覆性技術主題及主題關鍵詞
由表7可知,醫(yī)療機器人領域候選顛覆性技術的技術主題主要分布在區(qū)塊鏈技術、智能感知技術、醫(yī)學影像采集技術、上下肢外骨骼康復、血管介入手術、自主導航與云服務技術、神經(jīng)外科手術、柔性微型醫(yī)療技術和神經(jīng)網(wǎng)絡技術9個技術主題中。為了進一步提升識別的準確性,需要結合社交媒體數(shù)據(jù)對其加以研判。
3.4.1 醫(yī)療機器人的社交媒體數(shù)據(jù)獲取及社會主題提取
隨著互聯(lián)網(wǎng)的發(fā)展,社會大眾逐漸在社交媒體中發(fā)表有關潛在顛覆性技術的推文,這些推文包含社會大眾對其的情感傾向、認知看法與未來期望等,因此具有重要的研究價值[55]。綜合考慮數(shù)據(jù)的可獲得性與質(zhì)量等特點,本文選擇以微信公眾號中的推文、小紅書中的筆記以及知乎中的回答作為社交媒體數(shù)據(jù)。各社交媒體平臺的檢索信息及特點如表8所示。
表8 各社交媒體平臺的檢索信息及特點
因各類型數(shù)據(jù)龐大,本文借助Python來爬取與醫(yī)療機器人相關的社交媒體數(shù)據(jù)。經(jīng)數(shù)據(jù)預處理,濾除重復數(shù)據(jù)以及與主題相關度不高的數(shù)據(jù)等,最終獲得668條有效推文。具體檢索關鍵詞、檢索時間等信息如表9所示。
表9 醫(yī)療機器人的微信公眾號推文檢索信息
使用BERTopic主題建模提取上述微信公眾號推文、小紅書筆記以及知乎回答中的社會主題及主題關鍵詞,初步得到33個主題,刪除無關主題及低相關度主題,最終得到7個主題。具體結果如表10所示。
表10 醫(yī)療機器人相關的微信公眾號社會主題及主題關鍵詞
3.4.2 醫(yī)療機器人的社會主題關注度與情感分數(shù)計算
基于文本-主題概率矩陣,結合相關領域專家意見,將文本匹配到不同社會主題下。按照2.4.2節(jié)提出的方法,分別計算不同社會主題的關注度及情感分數(shù),并將情感分數(shù)的算術平均值設為情感分數(shù)閾值。經(jīng)計算,情感分數(shù)的閾值為0.65,故將S1、S2、S3、S4主題設為積極態(tài)度,將S5、S6、S7主題設為消極態(tài)度,各社會主題的關注度與情感分數(shù)如表11所示。
表11 社會主題的關注度及情感分數(shù)
3.4.3 二維坐標構建與醫(yī)療機器人技術主題分類
根據(jù)關注度與情感分數(shù)兩個指標,以情感分數(shù)為縱坐標、以關注度為橫坐標構建二維評價坐標,以更直觀、清晰地了解社會大眾對于醫(yī)療機器人領域相關主題的關注度與情感分數(shù)。依據(jù)各指標的平均值,將該二維坐標劃分為4個象限,分別是高關注度-積極態(tài)度、高關注度-消極態(tài)度、低關注度-積極態(tài)度和低關注度-消極態(tài)度。其中,醫(yī)療機器人的輔助治療屬于高關注度-積極態(tài)度,處于S2區(qū)域;機器人的智能化與精準治療、臨床機器人應用與系統(tǒng)開發(fā)以及機器人在外科手術中的應用屬于低關注度-積極態(tài)度,處于S3區(qū)域;其余3個主題屬于低關注度-消極態(tài)度,處于S4區(qū)域。具體情況如圖10所示。
圖10 醫(yī)療機器人社會主題的關注度與情感傾向二維評價坐標
為了將技術主題與社會主題進行匹配映射,需計算其余弦相似度。按照2.4.3節(jié)提出的方法,利用BERT模型對其進行編碼以得到其向量化表示,并計算每個技術主題與社會主題之間的余弦相似度。醫(yī)療機器人技術主題與社會主題之間的余弦相似度計算結果如表12所示。
基于表12的計算結果,依次統(tǒng)計各個技術主題與每個社會主題之間的余弦相似度大小,并將技術主題與社會主題之間余弦相似度中最大者進行匹配映射,并依托相關領域專家知識,對其進一步闡釋說明。具體來說,神經(jīng)外科手術需要非常細致和精細的操作,與機器人在外科手術中的應用相關,故將其匹配;神經(jīng)網(wǎng)絡技術可以幫助機器人系統(tǒng)的學習和優(yōu)化,從而實線個性化與準確治療,與機器人的智能化與精準治療相關,故將其匹配;智能感知技術可以檢測患者的生理狀態(tài)、行為習慣等信息,從而實現(xiàn)更加準確和個性化的治療效果,與機器人的智能化與精準治療相關,故將其匹配;區(qū)塊鏈技術可以用于記錄和管理醫(yī)療數(shù)據(jù)的安全性,并實現(xiàn)數(shù)據(jù)的可追溯性,從而為醫(yī)療機器人提供更加豐富、準確的數(shù)據(jù)信息,提升機器人的診斷與治療效果,與醫(yī)療機器人的輔助治療相關,故將其匹配;柔性微型醫(yī)療技術可以幫助醫(yī)生在狹小的空間內(nèi)對患者進行檢查或治療,與醫(yī)療機器人的輔助治療相關,故將其匹配;自主導航與云服務技術可以幫助醫(yī)生遠程觀察并操作臨床機器人查看醫(yī)療影像與數(shù)據(jù)以及遠程指導手術過程等,與臨床機器人應用與系統(tǒng)開發(fā)有關,故將其匹配;醫(yī)學影像采集技術可以幫助機器人獲取更加清晰、準確的醫(yī)學影像系統(tǒng),與機器人在醫(yī)學影像技術應用相關,故將其匹配;上下肢外骨骼康復是一種常見的機器人輔助康復方法,與運動康復與機器人技術應用有關,故將其匹配;血管介入手術通常需要在血管內(nèi)進行精細的操作,與微創(chuàng)外科技術與機器人應用有關,故將其匹配。
為了進一步明晰技術主題與社會主題之間的匹配映射關系,以社會大眾關注度大小為橫坐標、以社會大眾情感態(tài)度為縱坐標構建二維坐標系,如圖11所示。其中,社會主題中的醫(yī)療機器人的輔助治療因具有較高關注度和較為積極的態(tài)度,位于坐標系中的第一象限;又因上述的社會主題與技術主題的匹配結果,將該主題與技術主題中的區(qū)塊鏈技術、柔性微型醫(yī)療技術進行匹配映射;其余社會主題所處的象限以及相匹配映射的技術主題同理。
圖11 醫(yī)療機器人技術主題與社會主題匹配映射
3.4.4 醫(yī)療機器人潛在顛覆性技術識別
根據(jù)上述社會主題二維評價與技術主題和社會主題匹配結果,可將技術主題劃分為4類,分別是高關注度-積極態(tài)度、高關注度-消極態(tài)度、低關注度-積極態(tài)度和低關注度-消極態(tài)度,具體結果如表13所示。
表13 醫(yī)療機器人候選顛覆性技術主題所屬類別
依據(jù)各技術主題的指標大小,對醫(yī)療機器人領域相關技術主題具體闡釋如下。
具有高關注度-積極態(tài)度的技術主題有2個,分別是柔性微型醫(yī)療技術與區(qū)塊鏈技術。該類技術主題未來有較大可能性快速占據(jù)市場,完成顛覆。
(1)柔性微型醫(yī)療技術可以使機器人通過微小的切口或者腔道進行胃腸道、肺部等部位的檢查和治療,相較于傳統(tǒng)的內(nèi)窺鏡,柔性微型醫(yī)療機器人更加靈活、精確,并減少了手術對患者的傷害和恢復時間。除此之外,柔性微型機器人還可以通過柔性身體結構,實現(xiàn)對患者關節(jié)、肌肉等部位的康復治療。
(2)區(qū)塊鏈技術可以為機器人提供更加安全、可靠的數(shù)據(jù)加密和存儲方式,以確?;颊邆€人數(shù)據(jù)的安全;可以通過智能合約實現(xiàn)醫(yī)生的資質(zhì)認證和訪問權限控制,從而確保會診過程的安全性和可信度。除此之外,還可以幫助機器人實現(xiàn)醫(yī)療數(shù)據(jù)的共享和交換,促進病例數(shù)據(jù)和治療方案的共享和優(yōu)化。
具有低關注度-積極態(tài)度的技術主題有4個,分別是神經(jīng)外科技術、智能感知技術、神經(jīng)網(wǎng)絡技術以及自主導航與云服務技術。該類技術主題隨著未來性能和功能的不斷完善,若能夠逐漸滿足大部分社會大眾的需求,則有可能完成顛覆。
(1)神經(jīng)外科技術可以幫助機器人實現(xiàn)高精度的運動和立體成像技術,從而實現(xiàn)對神經(jīng)系統(tǒng)病變部位的準確定位和操作;可以幫助機器人通過MRI(magnetic resonance imaging)和CT(computed to‐mography)等成像技術,實現(xiàn)對腦功能區(qū)的影像采集和分析。除此之外,神經(jīng)外科機器人通過植入電極等裝置,實時監(jiān)測神經(jīng)元活動和神經(jīng)信號傳導情況。
(2)智能感知技術可以幫助機器人識別患者的身體狀態(tài)、疾病類型等,進而改變室內(nèi)溫度、適度等參數(shù),提升患者的舒適度和治療效果,從而實現(xiàn)精準的診斷和治療。除此之外,還可以幫助機器人智能獲取醫(yī)生的指令,同時將患者的信息同步反饋給醫(yī)護人員,以便及時調(diào)整治療方案。
(3)神經(jīng)網(wǎng)絡技術可以幫助機器人通過對大量醫(yī)學數(shù)據(jù)的分析和處理,預測疾病發(fā)展趨勢,評估患者疾病風險,提供個性化的治療方案和干預措施。除此之外,還可以幫助機器人自動學習并模擬醫(yī)生的手術技巧,提升手術的精度和安全性。
(4)自主導航與云服務技術可以幫助機器人在醫(yī)院內(nèi)部自主移動,從而實現(xiàn)對患者與醫(yī)生的快速響應與服務。除此之外,該技術也可以幫助機器人在云端通過深度學習算法和人工智能技術,對大量的病理圖片進行識別和分析,從而提供更準確的病理學結果。
具有低關注度-消極態(tài)度的技術主題有3個,分別是醫(yī)學影像采集技術、上下肢外骨骼康復與血管介入技術。對于該類技術主題,還需等待時間的驗證,不能排除其顛覆性的潛力。
(1)醫(yī)學影像采集技術可以使機器人通過不同的成像技術,獲取人體內(nèi)部的結構、病變及異常情況,從而幫助醫(yī)生實現(xiàn)精準定位、準確診斷與治療。除此之外,還可以對人體各個部位的影像進行三維重建,輔助醫(yī)生進行手術規(guī)劃與操作,既提高了手術的精度與效率,又減輕了患者的痛苦與風險。
(2)上下肢外骨骼康復可以使機器人通過機械和電氣相結合的控制方式,協(xié)助患者進行康復訓練;可以通過內(nèi)置的傳感器和計算機視覺技術,對患者的步態(tài)進行分析和識別。即上下肢外骨骼康復機器人有助于改善患者日常生活中的行走和站立能力,提高康復效果和生活質(zhì)量。
(3)血管介入技術可以幫助機器人通過微小切口或穿刺進入血管內(nèi)部,完成血管內(nèi)手術;或是通過導管和氣囊等裝置將血管擴大,從而緩解血管狹窄造成的癥狀。除此之外,該技術還可以幫助機器人進行神經(jīng)介入治療,利用導管和支架等裝置,恢復閉塞性動脈供血,保護受損腦細胞,從而促進患者的恢復。
本文提出了一種基于深度學習模型,融合專利數(shù)據(jù)和社交媒體數(shù)據(jù)來識別潛在顛覆性技術的方法,并以醫(yī)療機器人領域為例進行了驗證,是潛在顛覆性技術識別的重要補充。
本文的學術貢獻主要體現(xiàn)在以下兩個層面。
一是在候選顛覆性技術預測階段,本文依托Bi-LSTM挖掘出隱藏在海量專利數(shù)據(jù)中的顛覆性技術關鍵特征,并運用這些特征識別候顛覆性技術。該方法不僅能夠有效挖掘隱藏在海量數(shù)據(jù)中的潛在顛覆性技術,并且相較于以往人工歸納顛覆性技術特征的方法,具有更高的效率、更低的成本以及更高的客觀性。
二是在潛在顛覆性技術識別階段,提出了一種融合專利數(shù)據(jù)與社交媒體數(shù)據(jù)的潛在顛覆性技術識別方法,該方法綜合考慮了技術影響力、社會大眾關注度與社會大眾情感傾向等,進而將潛在顛覆性技術劃分為高關注度-積極態(tài)度、高關注度-消極態(tài)度、低關注度-積極態(tài)度以及低關注度-消極態(tài)度4種類型,并對其顛覆性潛力做出了闡釋,是現(xiàn)有顛覆性技術識別方法的重要補充,能夠為政府決策、產(chǎn)業(yè)投資等提供參考依據(jù),具有重要的理論和實踐價值。
本文尚存在以下局限性。雖然以醫(yī)療儀器人為例驗證了本文方法的可行性,但缺乏對多領域技術的系統(tǒng)研究,未來研究有待于擴展補充其他領域的專利數(shù)據(jù)源,以擴大潛在顛覆性技術識別所涵蓋的領域范圍,進一步提升研究方法的普適性。此外,本文采用的數(shù)據(jù)主要來自專利數(shù)據(jù)和社交媒體數(shù)據(jù),雖然這些數(shù)據(jù)包含了大量的技術信息和社會信息,但仍存在不足;未來可以考慮引入更多的數(shù)據(jù)源,如新聞媒體、科技網(wǎng)站等,以獲得更全面和多樣化的數(shù)據(jù)。