龔花萍 袁麗哲 周江涌
(南昌大學公共政策與管理學院,江西 南昌 330031)
在新一輪科技革命和“大數據”時代的雙重背景下,區(qū)域科技創(chuàng)新活動日益活躍,區(qū)域內部競爭不斷加劇。面對錯綜復雜的區(qū)域內外部環(huán)境下的趨勢性變化,如何充分挖掘區(qū)域科技競爭情報,搶占科技創(chuàng)新先機并爭奪區(qū)域核心競爭力制高點,成為區(qū)域科技創(chuàng)新過程中不可忽視的重要議題。新興技術作為傳統(tǒng)產業(yè)改造升級的重要催化劑,一直在區(qū)域科技創(chuàng)新活動中扮演先導性角色,新興技術識別也一直是技術競爭情報領域和科技創(chuàng)新活動中重點關注的研究方向,如何在信息日益龐雜、技術日益細化的區(qū)域科技創(chuàng)新環(huán)境下,針對新興技術進行競爭情報識別,對于區(qū)域創(chuàng)新系統(tǒng)中各類創(chuàng)新主體都具有重大意義。但目前對于區(qū)域科技創(chuàng)新與新興技術的聯系及其競爭情報識別方法等的研究較為松散,缺乏較為系統(tǒng)性的整體識別框架研究。
本文以區(qū)域創(chuàng)新系統(tǒng)理論和競爭情報理論為著力點,構建面向區(qū)域科技創(chuàng)新的新興技術識別指標體系,在此基礎上構建面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架,并以圖像檢索領域專利識別為例驗證其識別框架的可實踐性與合理性,實現在區(qū)域科技創(chuàng)新環(huán)境下新興技術競爭情報定量化、規(guī)?;统绦蚧R別,以期能從情報學視角為區(qū)域科技創(chuàng)新提供新興技術識別的競爭情報支持和方法參考,以此貫徹國家區(qū)域協調發(fā)展戰(zhàn)略,助力完善國家創(chuàng)新區(qū)域布局和區(qū)域科技創(chuàng)新活動的順利開展。
“區(qū)域科技創(chuàng)新”這一概念最初源于20世紀90年代末Cooke P N等學者提出的區(qū)域創(chuàng)新系統(tǒng)(Regional Innovation System,RIS)理論[1],區(qū)域科技創(chuàng)新產生于區(qū)域創(chuàng)新系統(tǒng),是區(qū)域創(chuàng)新系統(tǒng)的重要組成部分,如圖1所示。在區(qū)域創(chuàng)新系統(tǒng)內部,政府組織、科研機構、企業(yè)等各類創(chuàng)新主體之間表現出相互分工、相互協作、相互關聯的協同關系,共同利用創(chuàng)新要素和創(chuàng)新資源營造創(chuàng)新氛圍。葉振宇[2]認為,區(qū)域科技創(chuàng)新核心主體在推動新興技術突破與產業(yè)升級中扮演了重要的中堅力量角色,而新興技術的突破升級也勢必改變區(qū)域產業(yè)發(fā)展的技術創(chuàng)新路徑,進而促進區(qū)域科技創(chuàng)新中各類創(chuàng)新主體加快構建創(chuàng)新體系的步伐,因此,受區(qū)域科技創(chuàng)新主體需求驅動的新興技術競爭情報在區(qū)域創(chuàng)新中扮演了更為重要的角色。
圖1 區(qū)域創(chuàng)新系統(tǒng)與區(qū)域科技創(chuàng)新
目前,學界就“新興技術”的概念界定與特征尚未達成共識,這也為區(qū)域科技創(chuàng)新視角下新興技術概念特征提供了可擴展空間?,F有新興技術理論研究針對不同研究問題給出了不同的定義和特征,主要聚焦于根本創(chuàng)新性[3]、相對增長性[4]、不確定性[5]等。Breitzman A等通過專利引文工具定位新興技術驗證了集群性作為新興技術特征的合理性[6]。李仕明等認為,新興技術具有“贏者通吃”(Winner-take-all)屬性[7],即擁有新興技術意味著擁有了市場競爭的絕對優(yōu)勢。
近年來,新興技術競爭情報識別研究逐漸受到學界和社會各方的關注,新興技術的競爭情報支持也一直是國家及產業(yè)R&D戰(zhàn)略決策中重點關注的對象。現有相關研究多聚焦于技術層面的新興技術競爭情報識別,提出了許多卓有成效的識別技術與方法。從新興技術識別的數據表示方法的角度來看,國內外相關研究大體可分為3類。第一類是基于文本主題挖掘的識別對象數據表示。如張嶷[8]基于K-Means主題聚類方法,提出了語義TRIZ的新興技術識別模型。Porter A L等[9]則從術語層面著手,通過對抽取的專利術語計算新興分數的方法來篩選新興技術主題。第二類是基于共現聚類的識別對象數據表示。如陳亮等[10]通過對專利集合文本中不同時間段的術語共現情況進行同質塊建模,并分析頻次變化率來識別新興技術系統(tǒng)及構成要素。Gl?nzel W等[11]從觀測對象的時序關聯出發(fā),揭示分類號聚類在不同時間截面上體現的持續(xù)性等新興技術特征。第三類是基于引文網絡分析的識別對象數據表示。如肖彬[12]通過引入結構洞中的有效規(guī)模、效率、限制度、等級度等指標來對動態(tài)技術軌道的演變趨勢與發(fā)展方向進行評價,驗證了基于專利引文網絡的技術軌道評價模型的有效性。
綜上,當前國內外有關新興技術識別的數據表示方法趨于多樣化,但仍體現出一些不足:一是現有研究多傾向于對新興技術識別技術方法的探索,對基于新興技術本質內核的指標構建研究相對較少;二是已有研究往往將新興技術視作單獨整體看待,割裂了新興技術與其演變環(huán)境要素的聯系,特別是缺乏將其置于區(qū)域科技創(chuàng)新環(huán)境中并作為科技創(chuàng)新產物予以識別;三是關于新興技術識別與競爭情報研究有機結合的理論研究稍顯不足,缺乏對于新興技術競爭情報識別整合框架的嘗試,這也為本文提供了研究空間。由此可引出本文研究思路和擬解決問題:
第一,如何挖掘新興技術主題并構建面向區(qū)域科技創(chuàng)新的新興技術識別指標體系以實現新興技術識別的模塊化、程序化;第二,如何構建面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架以滿足區(qū)域科技創(chuàng)新活動中各類創(chuàng)新主體對于新興技術競爭情報的自動化、規(guī)?;投炕R別的需求。
因此,針對當前新興技術識別指標體系的不足和區(qū)域新興技術競爭情報識別框架的缺乏,本文綜合利用基于LDA的文本挖掘方法、文獻計量法和CRITIC客觀賦權法,構建基于專利文本主題挖掘的區(qū)域新興技術競爭情報識別體系,實現對新興技術的模塊化、定量化識別;并引入區(qū)域創(chuàng)新系統(tǒng)理論和競爭情報理論方法,構建“三維四級”結構的面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別分層框架。綜合來看,本文創(chuàng)新地整合了面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架,將區(qū)域創(chuàng)新系統(tǒng)理論與競爭情報理論融于一體,為情報學、科學學、技術管理學等交叉研究做出了有益探索,具有一定的理論創(chuàng)新價值;同時創(chuàng)新了區(qū)域創(chuàng)新視角下新興技術識別指標體系,為區(qū)域科技創(chuàng)新提供新興技術識別的競爭情報支持和方法參考,對深入實施創(chuàng)新驅動發(fā)展戰(zhàn)略和區(qū)域協調發(fā)展戰(zhàn)略、加快提升區(qū)域科技創(chuàng)新能力、支撐引領經濟社會高質量發(fā)展具有重要的現實意義。
本文意在構建面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別體系,并整合其識別流程框架。該環(huán)節(jié)的創(chuàng)新性在于通過專利文獻元數據著錄項表征區(qū)域科技創(chuàng)新中新興技術的特點,并與文本主題挖掘方法相結合,實現對新興技術較細粒度的識別,有效提高了識別精確度。
數據的采集與萃取是識別技術主題、獲取技術競爭情報的基礎與前提。專利文獻是傳遞技術創(chuàng)新信息的重要載體,專利申請與授權情況通常被視作是區(qū)域科技創(chuàng)新活動的晴雨表,以專利文獻為載體預測區(qū)域科技創(chuàng)新活動中的新興技術具有一定的科學性和可行性。本文選擇中國知識產權局專利數據庫(SIPO)的專利文獻作為文本挖掘數據源。
本文將采集的專利文獻進行清洗、去噪并提取專利標題與摘要作為語料庫內容,數據預處理環(huán)節(jié)包括分詞、去停用詞、詞性標注與篩選等步驟。其中,選擇ICTCLAS漢語分詞系統(tǒng)作為分詞和詞性標注工具,并添加相關專業(yè)領域的Sougou細胞詞庫作為領域詞典的補充,之后篩除無實際意義的干擾詞性的詞及停用詞。停用詞的選取參考了俞琰等[13]的基于輔助集的領域停用詞典構建方法并進行了改進,即選取同一時期除識別對象專利所在分類號部類之外的其余各部類的1 000條隨機專利的標題和摘要作為輔助文本集,通過LDA模型和計算詞的類別信息熵的方法遴選出熵值較高的領域停用詞,并與哈工大停用詞表等通用詞表合并組成本文的領域停用詞表。
LDA(Latent Dirichlet Allocation)主題模型作為一種無監(jiān)督概率模型,能夠實現海量數據源的高通量處理,減少了人工處理成本,可用于大規(guī)模專利文本集或語料庫的潛在主題的挖掘,符合本文構建面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架的需求。因此,本文利用LDA主題模型實現對專利技術主題的識別,模型運算通過R語言集成開發(fā)環(huán)境Rstudio進行。LDA主題模型通過將語料庫的文檔轉化為詞頻向量的方法來實現文本信息到易于建模的數字信息的轉化[14],初始參數設置是LDA建模過程中的重要環(huán)節(jié)。其中,超參數α和β的設置參考了Asuncion A U等學者的研究結論[15],設定α=50/K,β=0.01。最優(yōu)主題數K的取值則通過度量困惑度(Perplexity)來確定。在一定閾值內,困惑度與主題數目成反比關系并且困惑度越小說明模型的推廣性也就越強,當困惑度逐漸收斂并趨于穩(wěn)定值時即代表模型擬合效果最優(yōu)[14]。
在新興技術競爭情報識別體系中嵌入新興技術識別指標能夠更好地將識別流程模式化。文獻調研發(fā)現,大多數識別指標對于新興技術特征的表征力不夠充分,而不同指標在不同領域新興技術的識別效果中表現出顯著差異[16]。因此,本文結合新興技術的內涵和特征,融入區(qū)域科技創(chuàng)新環(huán)境要素來構建面向區(qū)域科技創(chuàng)新的新興技術識別指標。
1)技術創(chuàng)新性。專利IPC號一般由一個主分類號和其余副分類號組成,相較于副分類號,IPC主分類號更能表明一項專利的技術源頭和知識重組情況,是專利技術發(fā)明信息的重要體現[17]。如果某一專利技術主題下含有的IPC主分類號小類的類別數量越多,則說明該技術主題內部涵蓋內容較廣,知識重組情況較好,而不同類別的知識與知識之間重組的情況越好,則越是能碰撞出新的火花,更容易產生出新穎的創(chuàng)新技術發(fā)現,因此IPC主分類號小類的類別數量在一定程度上能反映出該技術主題所代表的新興技術創(chuàng)新性。
2)增長性。相對增長性是新興技術的重要本質特征之一,即新興技術發(fā)展速度要遠高于同領域的其他技術,一般通過技術主題下的專利年增長情況來衡量其技術的相對增長性[18]。
3)新穎性。新興技術可以被形象地解讀為同時具備“新”“興”特點的技術,“新”不僅表現為技術維上的創(chuàng)新性,也表現為時間維上的新穎性,即在時間層面上,新興技術應是在發(fā)展初期不斷興起和涌現的技術。新穎性映射在專利文獻中則表現為專利授權年的大小,平均專利授權時間越晚則表明該技術的新穎性越好,成為新興技術的可能性也就越高。
4)規(guī)模。新興技術的規(guī)模性也是較常見的表征潛在新興技術的指標之一,如蘭德公司在其一份關于專利技術涌現的研究報告中,將專利數量作為一項識別新興技術涌現的指標[19]。
5)市場潛力。在區(qū)域科技創(chuàng)新環(huán)境下,專利技術創(chuàng)新主體能在實現創(chuàng)新功能后,通過與區(qū)域環(huán)境等因素的作用維持創(chuàng)新的運行和實現創(chuàng)新的持續(xù)發(fā)展,使其專利技術在一定的區(qū)域空間范圍內具有一定的市場占有性和排他性。例如華宏鳴等曾就新興技術的商業(yè)屬性做出定義,并且強調一項尚未商業(yè)化的新興技術應當具有在后續(xù)3~5年內可被商業(yè)化的市場潛力[20]。現有研究方案鮮有采用IPC副分類號類別數來間接測量新興技術市場潛力,不過鑒于IPC副分類號是專利技術應用終端的重要表征[17],一定程度上IPC副分類號越多,則代表專利技術的應用終端涉及范圍越廣泛。而技術應用范圍越廣,則代表通過商業(yè)手段來控制市場的能力也越強,所以根據IPC副分類號類別數來體現專利技術的市場占有性和排他性[21]具有一定可行性。
6)研發(fā)系數。在專利的技術研發(fā)階段,專利的發(fā)明人數量和專利申請人數量在一定程度上代表了專利的技術質量情況[22]。在區(qū)域科技創(chuàng)新環(huán)境中,一項專利的技術研發(fā)通常涉及生產企業(yè)、研究與開發(fā)機構、高等院校、地方政府機構和服務機構等多個創(chuàng)新主體。同時一項新興技術的順利研發(fā)也離不開區(qū)域科技創(chuàng)新環(huán)境內各機構和人員在資金、資源、知識和人力等創(chuàng)新要素方面的投入和支持。這也意味著發(fā)明人數量在一定程度上決定了專利從知識轉化為技術過程中的知識基礎和技術質量,而專利申請人的多寡則表明了新興技術的技術和經濟支撐。因此,本文設置研發(fā)系數這一指標,通過分別計算發(fā)明人系數和專利權人系數并賦權加總后得到。其中,發(fā)明人系數為專利數與發(fā)明人數的比值,專利權人系數為專利申請數與專利申請人的比值,兩者權重通過熵值法確定。
7)協同性。相關學者研究表明,不同創(chuàng)新主體間的協作研發(fā)相較于獨立創(chuàng)新更能提升專利技術質量,促進新興技術發(fā)展[23-25]。由于新興技術的高度不確定性和復雜性,區(qū)域科技創(chuàng)新環(huán)境中的單類創(chuàng)新主體很難同時擁有資金、資源、知識、政策支持等,這就要求不同創(chuàng)新主體之間共同協作,降低研發(fā)風險。創(chuàng)新主體之間相互關聯,構成創(chuàng)新系統(tǒng)的組織結構和空間結構,通過協同合作并與所處環(huán)境相互作用進而實現新興技術的順利研發(fā)。因而可以認為,在區(qū)域創(chuàng)新技術領域內創(chuàng)新主體的協同性越強,越有利于該技術內部創(chuàng)新主體間的創(chuàng)新協作和資源要素的整合,該技術就越有可能成為新興技術?;趨^(qū)域創(chuàng)新系統(tǒng)理論,本文引入三螺旋模型(Triple Helix,TH)中的協合度(Synergy)這一概念來計算區(qū)域科技創(chuàng)新主體協同性。TH理論認為,區(qū)域創(chuàng)新系統(tǒng)中的各類創(chuàng)新主體之間存在著猶如螺旋線般的協同創(chuàng)新、相互作用的互動關系[26],其創(chuàng)新模式可用物理學中的“場”表示,如圖2所示。通過引入互信息(Mutual Information)和轉接量(Transmission)可實現對三維創(chuàng)新主體協合度T的測量,計算公式為[27]:
圖2 區(qū)域科技創(chuàng)新三螺旋創(chuàng)新能力場模型
TXYZ=HX+HY+HZ-HXY-HXZ-HYZ+HXYZ
(1)
式中,HX為一維變量X的信息熵,HXY為二維變量X、Y的互信息。
限于篇幅,本文僅給出協合度T的計算公式,具體計算過程與步驟則通過Leydesdorff L等開發(fā)的TH4.exe程序實現[28]。
綜上,本文構建的面向區(qū)域科技創(chuàng)新的新興技術主題識別指標如表1所示。
表1 面向區(qū)域科技創(chuàng)新的新興技術主題識別指標
利用新興技術識別指標體系識別新興技術,本質上可被視作是一個基于多屬性決策的綜合評價問題。CRITIC法不依賴于專家意見,而是依據指標間數據的波動性和相關關系對系統(tǒng)整體的影響,通過計算指標信息量來確定各指標權重,是一種適用于多元準則的客觀綜合評價方法。
(2)
據此,經過歸一化處理后的第j個指標的客觀權重Wj為:
(3)
由于各個指標的量綱和數量級不盡相同,因此賦權之前需對數據進行無化量綱和正向化處理。鑒于本文構建的識別指標皆為極大型指標,因此無化量綱采用如下公式:
(4)
式中,xij為第i個技術的第j項指標的數值,mjmin=min(xij),mjmax=max(xij)。
本文基于已歸納出的7個面向區(qū)域科技創(chuàng)新的新興技術主題識別指標構建“三維四級”結構的面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架,以期為新興技術競爭情報識別研究和實踐提供理論框架支持和方法參考。此框架主要由4個部分組成,分別為數據層、算法層、框架層和目標層。數據層是新興技術競爭情報識別框架的基礎,負責為各個競爭情報識別模塊提供情報源;算法層是本框架的核心所在,負責嵌入框架層,通過與框架層的交互與反饋實現新興技術的抽取和識別,在新興技術競爭情報識別框架中充當底層架構角色;框架層是新興技術競爭情報識別框架的主體,承擔了識別框架中的主要功能和識別模塊;目標層則是本框架的主題與目標所在,承擔技術落地與應用實現,通過以框架層輸出的新興技術識別信息為原料,實現對新興技術競爭情報的識別與分析。此外,4個層級又與區(qū)域競爭情報識別的3個階段高度契合,由數據層實現競爭情報采集,數據驅動的算法層和框架層則共同服務于情報加工階段,并通過技術驅動實現目標層的情報識別功能的應用。識別框架如圖3所示。
圖3 面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架
整體而言,數據層、算法層、框架層、目標層4個層面從下到上相互支撐有機融合,共同以區(qū)域新興技術競爭情報的實際需求為根本點和出發(fā)點,在算法層和框架層構成的情報加工階段將面向區(qū)域科技創(chuàng)新的新興技術主題識別指標體系融入新興技術識別模型庫中,借助文本挖掘和定量分析方法,實現規(guī)?;?、模塊化的新興技術競爭情報識別,從而推動區(qū)域科技創(chuàng)新的新興技術識別體系的完善和競爭情報服務模式的優(yōu)化。
數據層以數據中樞模塊為中心,連接區(qū)域競爭情報需求主體和技術情報供給方兩端,形成了“需求—數據—供給”的三層聯動供給服務模式[30]?,F有研究往往忽略了新興技術競爭情報識別作為區(qū)域創(chuàng)新系統(tǒng)的一環(huán)與其他創(chuàng)新要素的重要聯系,而在區(qū)域科技創(chuàng)新環(huán)境中,新興技術競爭情報源很大程度上也受到區(qū)域競爭情報需求主體和技術情報供給方雙方的共同影響和定義。一方面,競爭情報的識別始于用戶及其需求的定義,底層數據(即競爭情報數據庫)的建設離不開用戶(即區(qū)域創(chuàng)新主體)需求的指導,將用戶的需求作為出發(fā)點和落腳點,以用戶需求為源動力驅動新興技術競爭情報源的開展;另一方面,競爭情報供給方的角色不盡相同,不同供給方之間因驅動程序、訪問流程、數據格式等因素形成的異構數據問題值得關注,因此技術情報供給方對于情報角色和內容的定義也顯得尤為重要。
因此,數據中心作為情報源傳輸鏈條的中樞,首要工作是通過對區(qū)域創(chuàng)新主體的用戶及其需求定義,確定競爭情報用戶關于功能、服務、技術、數據等方面的需求,技術情報供給方則通過對情報進行角色和內容的定義并將情報反饋至數據中心,數據中心對兩股信息流進行情報需求和情報定義比對后輸出并存入新興技術競爭情報數據庫,至此完成高效、有序的底層數據建設。數據層運作原理如圖4所示。
圖4 需求驅動的區(qū)域科技創(chuàng)新新興技術競爭情報采集——數據層
算法層是整個識別框架的靈魂,也是優(yōu)化新興技術主題識別效果、提升競爭情報識別框架效能的技術基點。同時,算法層也扮演著連接框架層與數據層的技術橋梁角色,不僅能夠彌補數據層在底層數據建設方面的缺陷,并且對于框架層而言,數據挖掘算法可有效進行知識提取,通過客觀知識表示發(fā)現有用的知識和模式。
算法層集成了區(qū)域新興技術競爭情報識別過程中需要運用的文本挖掘算法以及與新興技術相關的專利指標邏輯算法等。算法層分為多個子模塊,每個子模塊針對識別框架的子功能予以實現,便于提升識別框架各模塊功能的重用性。架構上,算法層集成了數據預處理、新興技術識別和綜合評價3個算法集,在信息技術識別算法集中的專利新興技術指標部分,加入了由創(chuàng)新性、增長性、新穎性、規(guī)模、市場潛力、研發(fā)系數、協同性7個指標構成的新興技術識別指標體系,并通過在評價算法集中對模型庫中新興技術識別指標體系7個指標的靈活更新,大大增強了該框架的靈活性和適用性。圖5為算法層各算法集流程圖。
圖5 數據驅動的區(qū)域科技創(chuàng)新新興技術競爭情報加工——算法層
框架層封裝了新興技術競爭情報加工的相關算法集和模型庫,是識別框架的主體部分,隸屬于數據驅動的新興技術競爭情報加工環(huán)節(jié),負責數據預處理、新興技術主題抽取、新興技術主題識別等重要環(huán)節(jié)。同時框架層集成了包括新興技術識別指標體系在內的模型庫,除了以創(chuàng)新性、增長性、新穎性、規(guī)模作為常規(guī)專利指標以外,加入研發(fā)系數、協同性、市場潛力作為區(qū)域創(chuàng)新指標,共同參與新興技術識別過程。綜合信息分析、文本挖掘、綜合評價、數據集成等技術,可實現對數據層提供的競爭情報源的定量化、模塊化、規(guī)模化的信息處理與集成功能。
結構上,框架層由數據預處理模塊、新興技術主題識別模塊和模型庫構成。數據預處理模塊對競爭情報數據庫提供的數據進行預處理,并將處理結果存儲在語料庫中。新興技術主題識別模塊以LDA主題模型為底層實現原理,實現新興技術主題聚類,并調用模型庫中的新興技術識別指標體系計算新興技術綜合得分,將競爭情報識別結果存入新興技術競爭情報知識庫。模型庫則提供一系列計算模型,為新興技術識別模塊提供細粒度識別方法。圖6為框架層各模塊示意圖。
圖6 數據驅動的區(qū)域科技創(chuàng)新新興技術競爭情報加工——框架層
目標層是識別框架的最高層級,面向競爭情報識別流程的最終環(huán)節(jié)——情報識別,通過對競爭情報知識庫提供的情報產品進行分析,形成新興技術競爭情報分析報告。該層以競爭情報知識庫為起點,以新興技術競爭情報分析報告為目標,依托于區(qū)域科技創(chuàng)新主體各級信息分析部門,服務于區(qū)域新興技術競爭情報需求。
區(qū)域科技創(chuàng)新競爭情報服務對于技術競爭情報的需求比例較高[30],而傳統(tǒng)的競爭情報供給服務模式已無法滿足日新月異的區(qū)域科技創(chuàng)新活動對于技術競爭情報服務的需求。龔花萍等[30]學者的研究結果表明,區(qū)域科技創(chuàng)新活動對于情報分析的需求最為突出,而包括專利、標準等在內的商業(yè)數據庫情報源仍然是區(qū)域科技創(chuàng)新主體最為依賴的基礎信息獲取渠道,這意味著在區(qū)域新興技術競爭情報識別鏈條的最后一環(huán),信息分析部門依然需要參與其中并發(fā)揮重要的“情報中轉站”作用。此外,由區(qū)域創(chuàng)新主體協作共享競爭情報的服務模式是滿足各類創(chuàng)新主體多元化、融合的競爭情報需求的最優(yōu)選擇[30],因此在目標層的框架設計中,各級信息分析部門在對競爭情報知識庫的情報加工、分析、整合的基礎上,還應建立起新興技術競爭情報知識庫與區(qū)域新興技術競爭情報需求的關聯映射關系,以及新興技術競爭情報產品與競爭情報需求之間的匹配、反饋機制,從而為區(qū)域創(chuàng)新活動提供更好的新興技術競爭情報支持。目標層如圖7所示。
圖7 技術驅動的區(qū)域科技創(chuàng)新新興技術競爭情報識別——目標層
圖像檢索技術是國家新一代信息技術產業(yè)中軟件開發(fā)產業(yè)的關鍵技術領域,是人工智能行業(yè)重點支持和發(fā)展的對象[31]。在多媒體技術不斷深入發(fā)展的互聯網時代,圖像檢索技術作為重要關鍵技術不斷融入區(qū)域科技創(chuàng)新環(huán)境下戰(zhàn)略新興產業(yè)的升級改造,應用前景十分廣闊。因此,本文選取圖像檢索領域作為實證研究對象來驗證新興技術競爭情報識別框架的可行性。
1)數據獲取
本文在SIPO數據庫進行專利檢索,檢索時間為2021年2月27日,檢索主題詞為圖像檢索或視覺檢索,專利申請時間限制為2011—2020年。本文通過自定義Python爬蟲腳本批量采集專利文獻信息,將檢索結果中的所需專利字段保存在本地數據庫,對數據庫中的專利條目進行數據去噪和清洗后得到有效專利記錄7 416條。
2)數據預處理
摘取專利集中的標題和摘要字段作為待分析文本集,利用ICTCLAS分詞工具對文本集進行分詞與詞性標注并做去停用詞處理。其中,專業(yè)領域詞典補充了圖像檢索、圖像識別、計算機處理等相關領域的Sougou細胞詞庫,領域停用詞表則在分析輔助集的基礎上構建。統(tǒng)計分析發(fā)現,采集到的有效專利集的分類號主要集中在G、H兩大部類,按照前文設計的方法將輔助集定位于A~F部的專利文獻,選取輔助集中類別信息熵值較高的前100個詞確定為領域停用詞。經過數據預處理后得到包含7 416個文檔共233 268個關鍵詞的語料庫,再將其經過TF-IDF文本向量化處理,轉化成LDA主題模型可分析的向量數據格式。
1)技術主題抽取
LDA初始參數α、β、K按照前文提供的方法設置??紤]到圖像檢索領域為較細領域,技術主題不宜過多,因此事先設置主題數范圍為10~50,以步長為2進行迭代計算,最后根據困惑度計算得出48為最優(yōu)主題數,即圖像檢索領域包含48個子技術主題。將數據導入Rstudio中,生成DTM矩陣,利用LDA主題模型進行文本主題挖掘,抽樣方法選擇Gibbs抽樣,迭代后生成文檔—主題概率矩陣和主題—詞概率矩陣,在此基礎上可計算技術主題綜合得分和標注技術主題名稱。限于篇幅,本文僅列出部分技術主題詞分布情況,如表2所示。
表2 圖像檢索領域技術主題詞分布表
2)新興技術綜合得分計算
通過Navicat軟件對本地數據庫中48個技術主題所含專利的專利數、授權年份、IPC分類號、申請人、發(fā)明人等字段進行分類、篩選、導出,再利用Excel軟件統(tǒng)計相應指標所需數值,詳細數據如表3所示。
表3 圖像檢索領域部分技術主題計量值
其中,分別計算專利權人系數和發(fā)明人系數,并通過熵權法確定二者權重后相加得到研發(fā)系數,詳細權重如表4所示。
表4 圖像檢索領域研發(fā)系數指標賦權結果
綜合表3與表4,可得到技術主題各個指標值,如表5所示。
表5 圖像檢索領域部分技術主題指標值
根據前文給出的改進CRITIC法權重計算方法,本文先將各技術主題指標值進行無化量綱處理,再對各項指標進行賦權,賦權結果如表6所示。
依據表6給出的新興技術識別指標權重系數,可計算各項潛在新興技術主題的綜合得分,部分新興技術綜合得分如表7所示。根據前文得到的主題—詞概率分布矩陣,可選取每個新興技術主題前10個高頻詞作為該項新興技術人工標注的依據。
表6 圖像檢索領域新興技術識別指標權重系數
表7 圖像檢索領域新興技術主題識別結果
經上述實證分析計算得出圖像檢索領域48項備選新興技術的綜合得分,這里選取綜合得分排序靠前且較有區(qū)分度的前3項技術進行新興技術主題分析。圖8為各技術主題的高頻詞概率分布情況。
圖8 圖像檢索領域新興技術高頻關鍵詞分布矩形樹狀圖
從圖8(a)給出的新興技術Topic6的前10個高頻關鍵詞可以判斷該項新興技術為基于深度學習的圖像檢索相關技術;從圖8(b)給出的新興技術Topic1的前10個高頻關鍵詞可以判斷該項新興技術是與圖像檢索有關的大規(guī)模分布式數據處理系統(tǒng);從圖8(c)給出的新興技術Topic30的前10個高頻關鍵詞可以判斷該項新興技術是與醫(yī)療影像相關的圖像處理與檢索技術。
①以深度學習為代表的機器學習技術在計算機視覺領域的應用最為成功,被廣泛應用于圖像檢索、人臉識別、行為分析和目標跟蹤等諸多領域。計算機視覺受到學界和業(yè)界的重點關注,在政策方面也是國家重點扶持和發(fā)展的對象[31]。艾媒咨詢相關調查報告分析指出,深度學習、高層語義分割等將是未來計算機視覺產業(yè)鏈橫向推進過程中重點研究的領域[32];②大規(guī)模分布式圖像數據處理系統(tǒng)是大數據時代的產物。受當前互聯網時代和人工智能高速發(fā)展的影響,關于圖像、視頻等多媒體視覺信息的數據存儲與處理已成為推進人工智能戰(zhàn)略布局的重要議題,受到國家政策的大力支持[33],具有廣闊的發(fā)展前景;③醫(yī)療影像圖像處理與檢索技術是數字醫(yī)療技術的重要分支,目前在醫(yī)療診斷、健康管理、遠程醫(yī)療等領域大放異彩,是一項蓬勃發(fā)展、擁有巨大潛力的數字醫(yī)療新興技術[34],國家四部委曾聯合發(fā)文要重點培育包括醫(yī)療影像輔助診斷系統(tǒng)在內的新一代人工智能產品[53],可見該項技術是未來圖像檢索與處理領域發(fā)展布局的重要對象。
綜上,本文分析了所識別出的3項新興技術的相關技術信息及應用現狀,可見本文新興技術識別結果與業(yè)界和學界的分析基本保持一致,驗證了面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架的準確性和可行性。
本文在現有新興技術識別研究基礎上,嵌入區(qū)域創(chuàng)新系統(tǒng)理論和競爭情報理論,設計了市場潛力、研發(fā)系數、協同性3項區(qū)域創(chuàng)新型新興技術識別指標并構建了基于區(qū)域科技創(chuàng)新的新興技術識別指標體系,據此從理論層面設計了一種面向區(qū)域科技創(chuàng)新的新興技術競爭情報識別框架,并利用專利文獻數據開展了新興技術主題識別研究,驗證其識別框架的可實踐性。
本文在研究方法和實證數據方面還存在一定局限,需要進一步完善。首先是LDA主題模型在主題層次聚類方面的不足,無法揭示潛在主題之間的層次概念關系和多層語義關聯,后續(xù)研究將采用知識挖掘方法從語義層面對新興技術主題抽取方法進行改進;其次,本文實證選取的數據樣本尚未考慮到多源異構數據對識別結果的影響,所構建的新興技術識別方法在面對多源信息時的適用性還有待進一步實證分析和驗證。