霍朝光 盧小賓 楊冠燦 霍帆帆
(中國(guó)人民大學(xué)信息資源管理學(xué)院,北京,100872)
產(chǎn)業(yè)技術(shù)情報(bào)分析旨在圍繞某個(gè)特定產(chǎn)業(yè)領(lǐng)域,利用情報(bào)學(xué)分析方法,對(duì)產(chǎn)業(yè)的相關(guān)技術(shù)進(jìn)行類別識(shí)別和發(fā)展預(yù)見(jiàn),揭示產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢(shì)與競(jìng)爭(zhēng)格局、產(chǎn)業(yè)技術(shù)熱點(diǎn)與發(fā)展階段、關(guān)鍵技術(shù)布局及演化情況等[1-2]。產(chǎn)業(yè)技術(shù)情報(bào)分析是推動(dòng)產(chǎn)業(yè)技術(shù)創(chuàng)新發(fā)展的重要支撐,在產(chǎn)業(yè)技術(shù)研發(fā)需求明確、產(chǎn)業(yè)技術(shù)重點(diǎn)攻關(guān)、產(chǎn)業(yè)資源分配、產(chǎn)業(yè)政策制定等方面發(fā)揮著重要的作用,是預(yù)警專利威脅、規(guī)避企業(yè)陷阱、反技術(shù)制裁的重要情報(bào)手段[3-4]。
數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析,是數(shù)據(jù)戰(zhàn)略浪潮下的科技尖兵。2020年4月《中共中央國(guó)務(wù)院關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)》提出土地、勞動(dòng)力、資本、技術(shù)、數(shù)據(jù)市場(chǎng)配置五要素,首次明確數(shù)據(jù)成為五大生產(chǎn)要素之一。2020年10月8日,美國(guó)國(guó)防部發(fā)布《國(guó)防部數(shù)據(jù)戰(zhàn)略》(DoD Data Strategy),宣布將國(guó)防部建設(shè)成為“以數(shù)據(jù)為中心的機(jī)構(gòu)”[5]。數(shù)據(jù)可以是“石油”,也可以是“彈藥”,數(shù)據(jù)是國(guó)家、機(jī)構(gòu)和企業(yè)等單位的戰(zhàn)略資產(chǎn),是數(shù)字經(jīng)濟(jì)的關(guān)鍵資源[6]。在全球數(shù)據(jù)戰(zhàn)略下,如何布局?jǐn)?shù)據(jù)戰(zhàn)略,釋放結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等產(chǎn)業(yè)技術(shù)數(shù)據(jù)紅利,構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析體系,是全面、實(shí)時(shí)、自動(dòng)、智能產(chǎn)業(yè)技術(shù)預(yù)見(jiàn)的重中之重[7]。
數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析,關(guān)鍵在于融合新興算法,完善現(xiàn)有情報(bào)分析方法體系。美國(guó)國(guó)際戰(zhàn)略研究中心(Center for Strategic and International Studies,CSIS)報(bào)告《保持情報(bào)優(yōu)勢(shì):通過(guò)創(chuàng)新重塑情報(bào)》(Maintaining the Intelligence Edge: Reimagining and Reinventing Intelligence through Innovation)指出,新興技術(shù)不僅會(huì)改變情報(bào)系統(tǒng)評(píng)估全球威脅的相關(guān)性質(zhì),還會(huì)改變情報(bào)系統(tǒng)準(zhǔn)確檢測(cè)和評(píng)估這些威脅的能力[8],并且該報(bào)告提出將科學(xué)技術(shù)情報(bào)分析提升為核心分析學(xué)科,意在監(jiān)測(cè)他國(guó)新興和顛覆性技術(shù)領(lǐng)域的動(dòng)態(tài)。
鑒于此,本文梳理了目前產(chǎn)業(yè)技術(shù)情報(bào)分析中采用的方法,比較各種分析方法的研究機(jī)理和特點(diǎn),提出塑造數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析模式,在大數(shù)據(jù)環(huán)境下轉(zhuǎn)變傳統(tǒng)情報(bào)分析模式,面向各類型情報(bào)分析目標(biāo),構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系框架,強(qiáng)調(diào)塑造文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)驅(qū)動(dòng)的文本挖掘、圖挖掘、圖像挖掘等產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系。
產(chǎn)業(yè)技術(shù)情報(bào)分析方法是產(chǎn)業(yè)技術(shù)情報(bào)分析與服務(wù)研究的科學(xué)方法論,是科技情報(bào)分析工作不可或缺的利器,也是智慧產(chǎn)業(yè)情報(bào)服務(wù)的核心[9]。歸納總結(jié)現(xiàn)有的產(chǎn)業(yè)技術(shù)情報(bào)分析方法,包括德爾菲法、技術(shù)路線圖、情境分析法等定性視角的情報(bào)分析方法,指標(biāo)預(yù)測(cè)法、技術(shù)屬性預(yù)測(cè)法、專利分析法、科學(xué)文獻(xiàn)分析法以及融合專家知識(shí)、基金信息、新聞報(bào)道等多種信息的定量視角的情報(bào)分析方法,各情報(bào)分析方法的研究機(jī)理、優(yōu)缺點(diǎn)以及應(yīng)用案例,如表1所示。
在定性的研究方法中,主要收集和利用專家對(duì)某一技術(shù)的態(tài)度、看法和知識(shí)。例如,通過(guò)問(wèn)卷調(diào)查直接收集專家的意見(jiàn),以多輪投票的形式讓專家進(jìn)行民主投票,在全面利用專家知識(shí)的同時(shí),規(guī)避個(gè)別專家局限或極端的看法;通過(guò)構(gòu)建技術(shù)路線圖,邀請(qǐng)領(lǐng)域?qū)<以诖私Y(jié)構(gòu)化、圖形化分析基礎(chǔ)上,進(jìn)行研判和推理;通過(guò)未來(lái)場(chǎng)景構(gòu)建,根據(jù)需求設(shè)想、牽引未來(lái)的技術(shù)發(fā)展。在以往定性研究方法中,往往缺乏大規(guī)模的客觀數(shù)據(jù)支持,更多是一種非數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法。
在定量的研究方法中,主要收集和利用專利、科學(xué)文獻(xiàn)、新聞報(bào)道、基金項(xiàng)目以及專家知識(shí)等,探測(cè)某一項(xiàng)產(chǎn)業(yè)技術(shù)的萌發(fā)勢(shì)頭,評(píng)估其發(fā)展階段,預(yù)判其發(fā)展?jié)摿Γ瑥?qiáng)調(diào)利用客觀數(shù)據(jù),采用更加量化的科學(xué)方法,同時(shí)假以專家知識(shí)進(jìn)行佐證。例如指標(biāo)預(yù)測(cè)法、引文網(wǎng)絡(luò)分析法、共詞網(wǎng)絡(luò)分析法、文本主題模型法等一系列方法。目前,定量研究方法雖然具有一定的數(shù)據(jù)支持,在數(shù)據(jù)利用和方法應(yīng)用方面進(jìn)行了大量的探索,并引入以及改進(jìn)一系列較新的算法,但仍然缺乏數(shù)據(jù)驅(qū)動(dòng)意識(shí)和系統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)思維,在應(yīng)用層面仍然集中在某一領(lǐng)域的數(shù)據(jù)集,方法應(yīng)用零散片段、缺乏體系,數(shù)據(jù)驅(qū)動(dòng)的意識(shí)不夠鮮明,面向產(chǎn)業(yè)技術(shù)的情報(bào)分析方法體系有待進(jìn)一步整合。
數(shù)據(jù)驅(qū)動(dòng)是第四范式思想—數(shù)據(jù)密集型研究范式時(shí)代的典型代表,即數(shù)據(jù)是現(xiàn)實(shí)世界事物、現(xiàn)象和行為在數(shù)字空間的映射,數(shù)據(jù)蘊(yùn)含著現(xiàn)實(shí)世界的運(yùn)行規(guī)律,陳國(guó)青等學(xué)者將其稱作數(shù)據(jù)驅(qū)動(dòng)范式,強(qiáng)調(diào)利用數(shù)據(jù)進(jìn)行關(guān)系模式發(fā)現(xiàn)[43]。如圖1所示,數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系強(qiáng)調(diào)融合第四范式思想,強(qiáng)調(diào)從方法論視角以數(shù)據(jù)驅(qū)動(dòng)的方式,革新產(chǎn)業(yè)技術(shù)情報(bào)方法體系,從第三研究范式到第四研究范式,產(chǎn)業(yè)技術(shù)情報(bào)分析的模式已經(jīng)完全不同,已經(jīng)由原先的問(wèn)題發(fā)現(xiàn)、假設(shè)提出、采集數(shù)據(jù)、分析檢驗(yàn)等思路變?yōu)閿?shù)據(jù)采集、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、知識(shí)驗(yàn)證的模式,即數(shù)據(jù)驅(qū)動(dòng)的知識(shí)全面創(chuàng)新,由此迫切需要融合新的產(chǎn)業(yè)技術(shù)情報(bào)分析方法[44]。
此外,數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析模式尤其強(qiáng)調(diào)主觀、客觀數(shù)據(jù)的融合。數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系,不僅強(qiáng)調(diào)囊括客觀的大數(shù)據(jù),讓數(shù)據(jù)說(shuō)話,還注重融合專家知識(shí)、領(lǐng)域觀點(diǎn)等主觀數(shù)據(jù),促進(jìn)知識(shí)融合[45],例如基于專家知識(shí)等主觀數(shù)據(jù),構(gòu)建知識(shí)圖譜、知識(shí)庫(kù)等,將專家的主觀知識(shí)同客觀數(shù)據(jù)融合,以知識(shí)賦能情報(bào)分析,防止單純基于客觀數(shù)據(jù)的機(jī)器智能脫離產(chǎn)業(yè)技術(shù)的本質(zhì)規(guī)律,綜合圍繞數(shù)據(jù)中心、知識(shí)中心,構(gòu)建多維異構(gòu)數(shù)據(jù)融合的產(chǎn)業(yè)技術(shù)情報(bào)分析智慧體。
表1 ?產(chǎn)業(yè)技術(shù)情報(bào)分析方法Table 1 Information Analysis Methods of Industrial Technology
圖1 數(shù)據(jù)密集型研究范式下產(chǎn)業(yè)技術(shù)情報(bào)分析模式轉(zhuǎn)變Fig.1 Transformation of Industrial Technology Information Analysis Mode in the Data-intensive Paradigm
根據(jù)技術(shù)創(chuàng)新程度和影響差異,產(chǎn)業(yè)技術(shù)有類型之分,不同類型的產(chǎn)業(yè)技術(shù)形成不同的情報(bào)分析目標(biāo)。目前,產(chǎn)業(yè)技術(shù)情報(bào)分析工作主要圍繞持續(xù)性技術(shù)、突破性技術(shù)、顛覆性技術(shù)、新興技術(shù)、共性技術(shù)、卡脖子技術(shù)等目標(biāo)展開[23,46],根據(jù)這些情報(bào)分析目標(biāo)的要求,需要圍繞各個(gè)產(chǎn)業(yè)或領(lǐng)域,對(duì)當(dāng)前產(chǎn)業(yè)技術(shù)發(fā)展態(tài)勢(shì)進(jìn)行評(píng)估,對(duì)初露頭角但具有潛在發(fā)展前景的產(chǎn)業(yè)技術(shù)進(jìn)行識(shí)別,對(duì)未來(lái)可能產(chǎn)生重大影響的產(chǎn)業(yè)技術(shù)進(jìn)行預(yù)測(cè)等。不同產(chǎn)業(yè)技術(shù)情報(bào)分析目標(biāo),關(guān)乎不同形式的創(chuàng)新,其關(guān)系如表2所示。
其中,Ahsan和Musteen最早基于經(jīng)典的創(chuàng)新理論,從創(chuàng)新強(qiáng)度視角將技術(shù)創(chuàng)新劃分成突破性技術(shù)創(chuàng)新和持續(xù)性技術(shù)創(chuàng)新,持續(xù)性技術(shù)強(qiáng)調(diào)對(duì)現(xiàn)有技術(shù)漸進(jìn)式、增量式的性能或功能改進(jìn),是漸進(jìn)式創(chuàng)新(incremental innovation)的集中體現(xiàn)[47];突破性技術(shù)(radical technology)強(qiáng)調(diào)該技術(shù)對(duì)已有技術(shù)性能和功能有跳躍式突破,是一種非連續(xù)性、間接性技術(shù)創(chuàng)新,是突破式創(chuàng)新(radical innovation)的集中體現(xiàn)[48]。
表2 產(chǎn)業(yè)技術(shù)類型TTable2 Categories of Industrial Technology
顛覆性技術(shù)(disruptive technology)是Christensen于1995年在Disruptive Technologies: Catching the Wave中首次提及的一個(gè)概念,其強(qiáng)調(diào)顛覆性技術(shù)具有變革市場(chǎng)的潛力,例如原本一家經(jīng)營(yíng)良好、管理完善的大公司,可能因?yàn)楹雎赃@方面的技術(shù)而在競(jìng)爭(zhēng)中失利進(jìn)而被淘汰[45]。顛覆性技術(shù)是顛覆式創(chuàng)新(disruptive innovation)的集中體現(xiàn),其將完全顛覆現(xiàn)有技術(shù)、主流市場(chǎng)和在位的企業(yè)[49-50]。
新興技術(shù)(emerging technology)是由沃頓商學(xué)院新興技術(shù)管理研究小組提出,指一類基于科學(xué)的、可能創(chuàng)立一個(gè)新行業(yè)或改變一個(gè)現(xiàn)有行業(yè)的創(chuàng)新[51]。新興技術(shù)是區(qū)別于已有技術(shù)的、對(duì)新出現(xiàn)技術(shù)的統(tǒng)稱,強(qiáng)調(diào)技術(shù)的創(chuàng)新性、相對(duì)增值性、連續(xù)性、不確定性以及社會(huì)經(jīng)濟(jì)影響力等維度的特征[52],多從計(jì)量或演化視角進(jìn)行識(shí)別和預(yù)測(cè)[53]。相對(duì)于新興技術(shù),共性技術(shù)則是在很多領(lǐng)域已經(jīng)或未來(lái)可能被普遍應(yīng)用,對(duì)整個(gè)產(chǎn)業(yè)或多個(gè)產(chǎn)業(yè)產(chǎn)生深度影響的一類技術(shù),其往往具有較廣的應(yīng)用范圍,并取得顯著效益,其技術(shù)往往是互相關(guān)聯(lián)的,因此從技術(shù)關(guān)聯(lián)角度來(lái)看其是制約眾多技術(shù)突破的關(guān)鍵[23]。
卡脖子技術(shù)則是由我國(guó)提出的本土概念,指短時(shí)期內(nèi)不易自主研發(fā)、又暫時(shí)性無(wú)替代產(chǎn)品,且絕對(duì)性地依賴于一兩個(gè)供應(yīng)商或供應(yīng)國(guó)的技術(shù),該類技術(shù)尤其強(qiáng)調(diào)技術(shù)的壟斷性等特征[54]?!爸信d事件”“華為事件”“Matlab被禁事件”等一系列事件均說(shuō)明了卡脖子技術(shù)對(duì)于企業(yè)生死存亡與國(guó)家經(jīng)濟(jì)命脈的重要性。2019年我國(guó)建立國(guó)家技術(shù)安全管理清單制度,致力解決卡脖子技術(shù)問(wèn)題,從此帶有極強(qiáng)政治因素的卡脖子技術(shù)成為情報(bào)分析的焦點(diǎn)。
在眾多產(chǎn)業(yè)技術(shù)情報(bào)分析目標(biāo)中,根據(jù)優(yōu)先級(jí)劃分,卡脖子技術(shù)最為迫切,顛覆性技術(shù)次之,然后是突破性技術(shù)??ú弊蛹夹g(shù)可能是顛覆性技術(shù),也可能不屬顛覆性技術(shù),顛覆性技術(shù)中也可能有卡脖子的,但是卡脖子技術(shù)、顛覆性技術(shù)均隸屬于突破性技術(shù),突破性技術(shù)必然也是新興技術(shù)。不同產(chǎn)業(yè)技術(shù)情報(bào)分析目標(biāo)不是并列的關(guān)系,而是你中有我、交叉嵌套的關(guān)系,隨著優(yōu)先級(jí)遞增,情報(bào)分析深度越大,機(jī)密程度也越高。
本文在數(shù)據(jù)密集型研究范式轉(zhuǎn)變大環(huán)境下,基于數(shù)據(jù)驅(qū)動(dòng)思維,強(qiáng)調(diào)革新產(chǎn)業(yè)技術(shù)情報(bào)分析方法論。根據(jù)數(shù)據(jù)表現(xiàn)形式的不同,目前產(chǎn)業(yè)技術(shù)數(shù)據(jù)主要有文本、音頻、圖像、視頻、網(wǎng)絡(luò)等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),分析數(shù)據(jù)特征及其處理模式,可以發(fā)現(xiàn)音頻數(shù)據(jù)雖然具有獨(dú)特的聲紋特質(zhì),但對(duì)于產(chǎn)業(yè)技術(shù)情報(bào)分析而言這種聲紋特質(zhì)并無(wú)太大價(jià)值,通常將其轉(zhuǎn)換為相應(yīng)的文本,然后對(duì)文本內(nèi)容進(jìn)行挖掘,即其處理模式可借助文本挖掘?qū)崿F(xiàn);對(duì)于視頻數(shù)據(jù),視頻的本質(zhì)是動(dòng)態(tài)的圖像,雖然處理難度大于普通靜態(tài)的圖像,但其處理模式仍歸屬圖像挖掘范疇。從數(shù)據(jù)來(lái)源來(lái)看,網(wǎng)絡(luò)數(shù)據(jù)(network data)雖然可以從文本、圖像等數(shù)據(jù)中析出,但是從計(jì)算方式來(lái)看,對(duì)網(wǎng)絡(luò)數(shù)據(jù)的預(yù)處理、檢索、挖掘以及存儲(chǔ)操作與文本、圖像等完全不同。因此,根據(jù)產(chǎn)業(yè)技術(shù)數(shù)據(jù)類型和數(shù)據(jù)計(jì)算方式,可以將產(chǎn)業(yè)技術(shù)目前所涉及到的數(shù)據(jù)處理模式歸納為文本、網(wǎng)絡(luò)和圖像三種核心數(shù)據(jù)處理模式。
鑒于此,本文構(gòu)建融合文本挖掘、圖挖掘和圖像挖掘的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系,其方法框架如圖2所示:
數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系框架,主要針對(duì)持續(xù)性技術(shù)、突破性技術(shù)、顛覆性技術(shù)、新興技術(shù)、共性技術(shù)和卡脖子技術(shù)六大產(chǎn)業(yè)技術(shù)情報(bào)分析目標(biāo),強(qiáng)調(diào)通過(guò)文本挖掘、圖挖掘、圖像挖掘等三大方法體系,實(shí)現(xiàn)識(shí)別、預(yù)測(cè)、評(píng)估和預(yù)警四大情報(bào)分析任務(wù)。在四大情報(bào)分析任務(wù)中,識(shí)別主要包括對(duì)產(chǎn)業(yè)技術(shù)類型、產(chǎn)業(yè)技術(shù)狀態(tài)、產(chǎn)業(yè)技術(shù)脈絡(luò)以及異常產(chǎn)業(yè)技術(shù)等進(jìn)行一系列識(shí)別;預(yù)測(cè)主要包括對(duì)產(chǎn)業(yè)技術(shù)的發(fā)展趨勢(shì)、創(chuàng)新擴(kuò)散、影響力、關(guān)系等預(yù)測(cè);評(píng)估主要包括對(duì)產(chǎn)業(yè)技術(shù)狀態(tài)、影響、結(jié)構(gòu)組成以及未來(lái)進(jìn)行評(píng)估;預(yù)警主要包括對(duì)產(chǎn)業(yè)技術(shù)的異常狀態(tài)、異常產(chǎn)業(yè)技術(shù)、技術(shù)差異、異常趨勢(shì)等預(yù)警。
圖2 ?數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析核心方法體系框架Fig. 2 The Core Method Framework of Data-driven Information Analysis of Industrial Technology
六大產(chǎn)業(yè)技術(shù)情報(bào)分析目標(biāo),可分別圍繞四大情報(bào)分析任務(wù)展開,任何一類產(chǎn)業(yè)技術(shù)可能都需要涉及識(shí)別、預(yù)測(cè)、評(píng)估、預(yù)警等任務(wù),每一種情報(bào)分析任務(wù)對(duì)六大產(chǎn)業(yè)技術(shù)同樣也都適用。四大情報(bào)分析任務(wù)與三大方法體系之間是可以直接完全對(duì)接融合在一起的,不存在任何割裂關(guān)系,任何一種情報(bào)分析任務(wù)的開展可能都需要三大方法體系的支持。三大方法體系同時(shí)也可以用于任何一種情報(bào)分析任務(wù)和任何一類產(chǎn)業(yè)技術(shù)的情報(bào)分析。六大產(chǎn)業(yè)技術(shù)在應(yīng)用三大方法體系時(shí),主要體現(xiàn)在形形色色的數(shù)據(jù)中,一類數(shù)據(jù)對(duì)應(yīng)一類方法,多源異構(gòu)數(shù)據(jù)則對(duì)應(yīng)多種方法??偠灾瑪?shù)據(jù)驅(qū)動(dòng)范式下的產(chǎn)業(yè)技術(shù)情報(bào)分析中,文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)三類核心數(shù)據(jù)是力量之源,文本挖掘、圖挖掘、圖像挖掘三大核心方法體系是方法之劍,識(shí)別、預(yù)測(cè)、評(píng)估、預(yù)警是情報(bào)分析的四大任務(wù),而實(shí)現(xiàn)對(duì)六大產(chǎn)業(yè)技術(shù)的情報(bào)分析是終極目標(biāo)。
文本數(shù)據(jù)(text data)是產(chǎn)業(yè)技術(shù)最廣泛的載體,如科學(xué)文獻(xiàn)、專利文本、政策文本、新聞報(bào)道以及專家與學(xué)者對(duì)技術(shù)的評(píng)價(jià)與觀點(diǎn)信息等,如何從文本大數(shù)據(jù)中識(shí)別出相關(guān)產(chǎn)業(yè)技術(shù),并根據(jù)文本特征對(duì)產(chǎn)業(yè)技術(shù)進(jìn)行分類和預(yù)測(cè),是文本數(shù)據(jù)驅(qū)動(dòng)產(chǎn)業(yè)技術(shù)情報(bào)分析模式研究的關(guān)鍵[55]。如圖3所示,將產(chǎn)業(yè)技術(shù)文本數(shù)據(jù)轉(zhuǎn)化為情報(bào),其核心在于文本挖掘(text mining)等情報(bào)分析方法的融合。
文本挖掘是一種從文本數(shù)據(jù)中抽取隱含的、未知的、潛在有用的模式、關(guān)聯(lián)、規(guī)律和知識(shí)發(fā)現(xiàn)的過(guò)程[56],需要依據(jù)自然語(yǔ)言處理(Natural Language Processing,NLP)等模式進(jìn)行文本預(yù)處理,進(jìn)而進(jìn)行文本解碼(text encoding)、文本相似度計(jì)算(text similarity)、文本分類(text categorization)、文本聚類(text clustering)、文本自動(dòng)摘要(text summarization)、文本自動(dòng)管理(automatic text management)等處理。面向產(chǎn)業(yè)技術(shù)的文本挖掘情報(bào)分析方法,強(qiáng)調(diào)在廣泛收集產(chǎn)業(yè)技術(shù)文本數(shù)據(jù)的基礎(chǔ)上,有效清洗、處理文本數(shù)據(jù),結(jié)合具體的產(chǎn)業(yè)技術(shù)識(shí)別、預(yù)測(cè)任務(wù),從海量文本數(shù)據(jù)中識(shí)別、提取文本特征,即在文本表示學(xué)習(xí)的基礎(chǔ)上輔以機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等方法,以實(shí)現(xiàn)產(chǎn)業(yè)技術(shù)情報(bào)分析目標(biāo)。其關(guān)鍵在于,針對(duì)海量的文本數(shù)據(jù),如何提取文本中相關(guān)產(chǎn)業(yè)技術(shù)的特征,相比Bert動(dòng)則上億個(gè)參數(shù),如何借鑒Sentence-BERT、SBERT-WK等輕量級(jí)算法[57],改進(jìn)并融合到產(chǎn)業(yè)技術(shù)文本挖掘方法體系中,是文本數(shù)據(jù)驅(qū)動(dòng)情報(bào)分析研究的重點(diǎn)。
網(wǎng)絡(luò)數(shù)據(jù)是產(chǎn)業(yè)技術(shù)實(shí)體和關(guān)系最有力的表達(dá)方式之一,其以節(jié)點(diǎn)(node)代表相關(guān)產(chǎn)業(yè)技術(shù)及屬性,以邊(relation)代表產(chǎn)業(yè)技術(shù)之間的復(fù)雜關(guān)系,如產(chǎn)業(yè)技術(shù)相關(guān)知識(shí)網(wǎng)絡(luò)、合作網(wǎng)絡(luò)、引證網(wǎng)絡(luò)、價(jià)值鏈、集群網(wǎng)絡(luò)以及相關(guān)產(chǎn)業(yè)技術(shù)知識(shí)圖譜等,網(wǎng)絡(luò)數(shù)據(jù)又統(tǒng)稱為圖數(shù)據(jù)(graph data),因此如圖4所示,將產(chǎn)業(yè)技術(shù)網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化為情報(bào)的核心在于圖挖掘(graph mining)等情報(bào)分析方法的融合。
圖3 ?文本數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法Fig.3 Industrial Technology Information Analysis Driven by Text Data
圖挖掘是一種對(duì)圖(graph)或網(wǎng)絡(luò)數(shù)據(jù)中潛在的、未知的結(jié)構(gòu)、模式、規(guī)律等識(shí)別和預(yù)測(cè)的過(guò)程,其復(fù)雜程度超遠(yuǎn)單一的圖計(jì)算(graph computation)[58]。面向產(chǎn)業(yè)技術(shù)的圖挖掘情報(bào)分析方法,強(qiáng)調(diào)在合理識(shí)別和抽取節(jié)點(diǎn)與關(guān)系的基礎(chǔ)上,完成同構(gòu)、異構(gòu)等不同類型圖構(gòu)建,運(yùn)用圖聚類、路徑計(jì)算、子圖識(shí)別、影響力計(jì)算等方法對(duì)圖中的節(jié)點(diǎn)和關(guān)系進(jìn)行計(jì)算[59],根據(jù)節(jié)點(diǎn)影響力識(shí)別不同類型的產(chǎn)業(yè)技術(shù),計(jì)算和揭示產(chǎn)業(yè)技術(shù)之間的直接與間接關(guān)系,根據(jù)子圖特征對(duì)產(chǎn)業(yè)技術(shù)集群進(jìn)行識(shí)別,并對(duì)相關(guān)產(chǎn)業(yè)技術(shù)之間未來(lái)的關(guān)系進(jìn)行預(yù)測(cè)。例如Common Neighbors、Admic Adar、Jaccard Coefficient等節(jié)點(diǎn)相似度計(jì)算模型,Shortest Path、Katz、FriendLink、Random Walk等關(guān)系相似度計(jì)算模型,Deepwalk、Node2vec、Edge2vec、SDNE等同構(gòu)網(wǎng)絡(luò)無(wú)監(jiān)督特征自學(xué)習(xí)模型,以及Metapath2vec、W-Metapath2vec[60]、TransPath[61]等異構(gòu)網(wǎng)絡(luò)特征自學(xué)習(xí)模型。
目前在圖挖掘方面比較受關(guān)注的當(dāng)屬?gòu)V度學(xué)習(xí)(broading learning)和 圖 神 經(jīng) 網(wǎng) 絡(luò)(Graph Neural Network,GNN)等算法模型。其中,廣度學(xué)習(xí)主要針對(duì)異構(gòu)網(wǎng)絡(luò),強(qiáng)調(diào)如何在異構(gòu)網(wǎng)絡(luò)中進(jìn)行圖挖掘,比較適用于產(chǎn)業(yè)技術(shù)多源異構(gòu)網(wǎng)絡(luò)數(shù)據(jù),可進(jìn)行識(shí)別、預(yù)測(cè)、預(yù)警等多種情報(bào)分析任務(wù),例如CCMF(Crossnetwork Collaborative Matrix Factorization)、HUMOR (HeterogeneoUs Multi-sOurce ClusteRing)、ILSTM(Improved Long Short-Term Memory)等算法模型[62]。圖神經(jīng)網(wǎng)絡(luò)則適用于任何一種網(wǎng)絡(luò)數(shù)據(jù),例如LGNN(Layered Graph Neural Network)、GGS-NN(Gated Graph Sequence Neural Network)、GPNN(Graph Parsing Neural Network)等算法模型[63]。隨著GNN的創(chuàng)新應(yīng)用和企業(yè)級(jí)應(yīng)用開放,上千億級(jí)關(guān)系的大型圖可在14小時(shí)內(nèi)完成訓(xùn)練,在1.2個(gè)小時(shí)內(nèi)完成后續(xù)推理預(yù)測(cè)工作[64]。隨著圖機(jī)器學(xué)習(xí)(Graph Machine Learning,GML)的發(fā)展和逐漸成熟,基于圖挖掘的產(chǎn)業(yè)技術(shù)情報(bào)分析,將成為科技尖兵開展情報(bào)工作必不可少的利器。
圖4 ?網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法Fig.4 Industrial Technology Information Analysis Driven by Network Data
圖像數(shù)據(jù)也是產(chǎn)業(yè)技術(shù)重要的載體,如產(chǎn)業(yè)技術(shù)相關(guān)專利圖紙、設(shè)計(jì)圖紙、實(shí)驗(yàn)圖像以及競(jìng)爭(zhēng)產(chǎn)品圖像等,無(wú)論是動(dòng)態(tài)的視頻,亦或?qū)崟r(shí)監(jiān)控的錄像與拍照,都是情報(bào)分析重要的圖像數(shù)據(jù)。如圖5所示,將產(chǎn)業(yè)技術(shù)圖像數(shù)據(jù)轉(zhuǎn)化為產(chǎn)業(yè)技術(shù)情報(bào),需要根據(jù)情報(bào)分析需求,對(duì)相關(guān)圖像進(jìn)行切割、模式識(shí)別、特征提取等,根據(jù)圖像所包含的內(nèi)容進(jìn)行產(chǎn)業(yè)技術(shù)識(shí)別和預(yù)測(cè),圖像挖掘(image mining)等情報(bào)分析方法是實(shí)施的關(guān)鍵。
圖像挖掘是一種利用計(jì)算機(jī)視覺(jué)(computer version)技術(shù)從圖像、視頻等數(shù)據(jù)中抽取信息和進(jìn)行知識(shí)發(fā)現(xiàn)的過(guò)程[65-66]。面向產(chǎn)業(yè)技術(shù)的圖像挖掘情報(bào)分析方法,強(qiáng)調(diào)融合計(jì)算機(jī)視覺(jué)、圖像處理、圖像檢索、統(tǒng)計(jì)學(xué)等多種技術(shù)為一體,在對(duì)圖像處理的基礎(chǔ)上,根據(jù)情報(bào)任務(wù)對(duì)圖像進(jìn)行分類、聚類以及匹配等,并結(jié)合專家主觀數(shù)據(jù)對(duì)從圖像中識(shí)別和預(yù)見(jiàn)的產(chǎn)業(yè)技術(shù)進(jìn)行修正,完成情報(bào)任務(wù)。例如,在進(jìn)行產(chǎn)業(yè)技術(shù)情報(bào)分析時(shí),往往會(huì)遇到大量PDF格式的數(shù)據(jù)無(wú)法直接被機(jī)器閱讀,此時(shí)解析PDF就勢(shì)必需要借助圖像挖掘技術(shù)[67]。
面向產(chǎn)業(yè)技術(shù)情報(bào)分析的圖像挖掘,其關(guān)鍵在于提高機(jī)器對(duì)產(chǎn)業(yè)技術(shù)相關(guān)圖像的理解以及提高圖像數(shù)據(jù)中產(chǎn)業(yè)技術(shù)類別識(shí)別的準(zhǔn)確率,例如移植和改進(jìn)R-CNN(Regions with CNN features)、Fast R-CNN、Faster RCNN、YOLOv1(You Only Look Once)、SSD、RetinaNet等圖像挖掘算法,從人臉支付、自動(dòng)駕駛、廣告檢測(cè)等領(lǐng)域,遷移到產(chǎn)業(yè)技術(shù)圖像情報(bào)分析中來(lái)。相對(duì)于其他領(lǐng)域比較廣泛和容易獲取的圖像數(shù)據(jù)而言,產(chǎn)業(yè)技術(shù)相關(guān)圖像數(shù)據(jù)卻常常難以獲取,獲取的完整度也大打折扣,而具有成熟標(biāo)注的產(chǎn)業(yè)技術(shù)圖像數(shù)據(jù)庫(kù)則更為稀少。產(chǎn)業(yè)技術(shù)情報(bào)分析作為科技尖兵,不應(yīng)對(duì)海量而豐富的圖像數(shù)據(jù)“熟視無(wú)睹”,不能成為“睜眼瞎”,科技情報(bào)領(lǐng)域的學(xué)者應(yīng)當(dāng)積極推進(jìn)圖像挖掘算法在產(chǎn)業(yè)技術(shù)情報(bào)分析方面的創(chuàng)新應(yīng)用,進(jìn)而形成面向科技情報(bào)分析的圖像挖掘方法研究體系。
新時(shí)期我國(guó)產(chǎn)業(yè)技術(shù)的發(fā)展面臨著更多的挑戰(zhàn)和阻礙,為了更好地服務(wù)產(chǎn)業(yè)技術(shù)發(fā)展、賦能產(chǎn)業(yè)技術(shù)決策,我國(guó)更應(yīng)該創(chuàng)新情報(bào)分析理念,摒除落后的情報(bào)分析手段以及固有的情報(bào)文化障礙,積極融合新興技術(shù),創(chuàng)新我國(guó)產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系,重塑數(shù)據(jù)戰(zhàn)略浪潮下的科技“尖兵”,服務(wù)國(guó)家創(chuàng)新發(fā)展戰(zhàn)略。
本文梳理了目前產(chǎn)業(yè)技術(shù)情報(bào)分析中采用的方法,簡(jiǎn)述了各種分析方法的研究機(jī)理和特點(diǎn),論證了大數(shù)據(jù)環(huán)境下的情報(bào)分析模式及對(duì)應(yīng)的情報(bào)分析目標(biāo),整合并構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系框架,著力塑造與文本數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、圖像數(shù)據(jù)等相對(duì)應(yīng)的文本挖掘、圖挖掘、圖像挖掘方法體系,針對(duì)產(chǎn)業(yè)技術(shù)不同的情報(bào)分析目標(biāo),打造與之相匹配的情報(bào)分析模式。
圖5 圖像數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法Fig. 5 Industrial Technology Information Analysis Driven by Image Data
數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系,絕不僅僅是單一維度方面的數(shù)據(jù),文本挖掘、圖挖掘、圖像挖掘等產(chǎn)業(yè)技術(shù)分析模式,雖然自成一體,各有其適用的場(chǎng)景和獨(dú)特要求,但也互補(bǔ)互成,無(wú)論是方法層面的核心思想,還是應(yīng)用層面的靈活改進(jìn),均可相互借鑒,例如借鑒文本表示學(xué)習(xí)思想形成的網(wǎng)絡(luò)表示學(xué)習(xí),借鑒文本預(yù)訓(xùn)練模型Bert形成的圖網(wǎng)絡(luò)的預(yù)訓(xùn)練Graph-Bert[68],以及將圖像數(shù)據(jù)當(dāng)作一種特殊的圖數(shù)據(jù),利用圖神經(jīng)網(wǎng)絡(luò)(GNN)進(jìn)行圖像挖掘創(chuàng)新應(yīng)用等。數(shù)據(jù)驅(qū)動(dòng)強(qiáng)調(diào)多維數(shù)據(jù)整合、多源異構(gòu)數(shù)據(jù)融合,從特征層面、模型層面、決策層面形成一體的融合機(jī)制,面向產(chǎn)業(yè)技術(shù)情報(bào)分析中的識(shí)別、預(yù)測(cè)、決策、預(yù)警等任務(wù),全面搜集數(shù)據(jù)、充分利用數(shù)據(jù),凝練形成新的產(chǎn)業(yè)技術(shù)情報(bào)分析方法體系。
作者貢獻(xiàn)說(shuō)明
霍朝光:研究設(shè)計(jì),論文撰寫;
盧小賓:研究設(shè)計(jì),論文撰寫;
楊冠燦:論文修改;
霍帆帆:資料收集,參與修訂;