周 健 張 杰 屈 冉 閆 石
(1. 安徽財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院 蚌埠 233000;2.北京郵電大學(xué) 計算機(jī)學(xué)院 北京 100876)
自中本聰于2008年提出區(qū)塊鏈技術(shù)后[1],其作為一種去中心化、節(jié)點(diǎn)之間共同維護(hù)的分布式數(shù)據(jù)系統(tǒng)[2],由于安全性、數(shù)據(jù)可追溯性、數(shù)據(jù)防篡改等特點(diǎn)和優(yōu)勢[3],備受人們的青睞。2016年年初,聯(lián)合國社會發(fā)展部(UNRISD)發(fā)布了題為《加密貨幣以及區(qū)塊鏈技術(shù)在建立穩(wěn)定金融體系中的作用》的報告,提出擬利用區(qū)塊鏈技術(shù)構(gòu)建更加穩(wěn)固的金融體系,同年,我國發(fā)布《中國區(qū)塊鏈技術(shù)和應(yīng)用發(fā)展白皮書》,并在國務(wù)院發(fā)布的《國務(wù)院關(guān)于印發(fā)“十三五”國家信息化規(guī)劃的通知》首次將區(qū)塊鏈技術(shù)作為戰(zhàn)略性前沿技術(shù)和顛覆性技術(shù)。2019年10月,習(xí)近平總書記在中央政治局第十八次集體學(xué)習(xí)時強(qiáng)調(diào),要把區(qū)塊鏈作為核心技術(shù)自主創(chuàng)新的重要突破口,加快推動區(qū)塊鏈技術(shù)和產(chǎn)業(yè)創(chuàng)新發(fā)展。隨著區(qū)塊鏈技術(shù)在各行各業(yè)的深入應(yīng)用及一系列政策的支持,其已成為國內(nèi)外研究人員共同關(guān)注的焦點(diǎn)。自黨中央提出“創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略”以來,科研機(jī)構(gòu)和研究人員通過探究行業(yè)的前沿?zé)狳c(diǎn)主題及動態(tài)演化過程,以作為科研方向與項(xiàng)目決策的支撐,實(shí)現(xiàn)學(xué)術(shù)資源的合理配置,推動行業(yè)進(jìn)步[4]。期刊文獻(xiàn)作為重要的科研成果,對于行業(yè)發(fā)展和技術(shù)進(jìn)步具有一定的指導(dǎo)和推動作用,然而隨著期刊數(shù)量迸發(fā),如何從大量的期刊文獻(xiàn)中科學(xué)地挖掘出研究主題及其演化路徑,全面揭示區(qū)塊鏈的研究現(xiàn)狀,是推動行業(yè)發(fā)展進(jìn)步的重要舉措。
近些年,眾多學(xué)者在熱點(diǎn)主題挖掘與識別、演化分析等進(jìn)行了諸多研究,如Kleinberg在早期時提出可利用詞頻分布特征挖掘熱點(diǎn)主題[5];郝曉玲等人利用文本頻數(shù)、文本聚合度及粘聯(lián)度提取高頻詞匯,并采用詞共現(xiàn)分析方法對微博主題詞進(jìn)行聚類,挖掘熱點(diǎn)話題[6];王麗培等人通過詞頻統(tǒng)計等方法對中美兩國圖書自律規(guī)范進(jìn)行比較分析[7]。然而詞共現(xiàn)分析等傳統(tǒng)的主題分析方法在面對現(xiàn)如今數(shù)量激增、內(nèi)容豐富的文本信息時顯得心余力絀,隨著研究發(fā)展,主題分析方法逐漸形成了基于社會網(wǎng)絡(luò)分析[8]和基于主題模型分析[9]。社會網(wǎng)絡(luò)分析法由圖論發(fā)展而來,用于揭示個體之間以及個體同網(wǎng)絡(luò)整體之間的關(guān)系特征,Aggarwal等人通過社會網(wǎng)絡(luò)分析印度企業(yè)董事會的演變,有效地探究政府干預(yù)政策對精英群體集中度的影響[10];Chouchani等人利用社會網(wǎng)絡(luò)分析高效地對線上興趣社區(qū)進(jìn)行識別和分類[11],楊勇等國內(nèi)學(xué)者構(gòu)建了國內(nèi)發(fā)明專利合作網(wǎng)絡(luò),通過對網(wǎng)絡(luò)中心度、結(jié)構(gòu)洞等特征指標(biāo)進(jìn)行測度,分析國內(nèi)發(fā)明專利合作網(wǎng)絡(luò)的演化趨勢[12]?;诰W(wǎng)絡(luò)關(guān)系挖掘出的主題雖然可信度高,但對主題的無權(quán)重區(qū)分導(dǎo)致無法科學(xué)地表現(xiàn)主題強(qiáng)度?;谥黝}模型的分析方法用于對文本中潛在的語義關(guān)系和主題信息進(jìn)行挖掘,潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是當(dāng)下主流的主題模型之一,最初由Blei于2003年提出[13],其作為一種非監(jiān)督機(jī)器學(xué)習(xí)方法,被廣泛應(yīng)用于文本挖掘方向,能夠挖掘出初始文檔中的潛在主題,但由于LDA 模型忽略了主題詞之間的潛在語義聯(lián)系,因而在短文本中的挖掘效果較為有限[14],故許多學(xué)者將其進(jìn)行優(yōu)化,如Shuo Xu等人將時間維度當(dāng)作LDA模型的內(nèi)生變量并結(jié)合著者屬性生成動態(tài)主題模型[15];Tajbakhsh等人結(jié)合了詞語共現(xiàn)提出優(yōu)化的LDA 模型用于對Twitter短文本進(jìn)行聚類[16]。國內(nèi)外也有許多學(xué)者利用該方法對學(xué)科進(jìn)行主題挖掘,如Suominen 等學(xué)者利用LDA 模型通過專利數(shù)據(jù)對企業(yè)研發(fā)方向進(jìn)行分析和預(yù)測[17];張子振等人基于期刊論文、碩博士論文、專利文獻(xiàn)等多源文獻(xiàn),利用LDA模型對機(jī)器學(xué)習(xí)進(jìn)行主題挖掘并進(jìn)行差異性分析[18];譚春輝等基于LDA模型對國內(nèi)外數(shù)據(jù)挖掘進(jìn)行熱點(diǎn)主題挖掘和演化對比分析[19]。
鑒于目前區(qū)塊鏈的飛速發(fā)展,國內(nèi)外學(xué)者亦針對區(qū)塊鏈文獻(xiàn)計量及前沿主題進(jìn)行了相關(guān)研究。如王發(fā)明等以CNKI期刊庫中2015-2017年5月的區(qū)塊鏈論文作為檢索對象, 使用知識圖譜展現(xiàn)國內(nèi)區(qū)塊鏈研究的時空分布特征、研究熱點(diǎn)及前沿問題[20];Firdaus等以Scopus數(shù)據(jù)庫中2013-2018年間發(fā)表的文章為研究對象,利用文獻(xiàn)計量展示區(qū)塊鏈文獻(xiàn)中的國家合作網(wǎng)絡(luò)和關(guān)鍵字共現(xiàn)網(wǎng)絡(luò),以探討該間的時空聯(lián)系和前沿主題[21];花敏等以近五年國內(nèi)外區(qū)塊鏈的相關(guān)文獻(xiàn)為對象,利用文獻(xiàn)計量和科學(xué)知識圖譜對揭示了區(qū)塊鏈的研究熱點(diǎn)和趨勢等方面[22]。
綜上所述,當(dāng)前已有研究主要從區(qū)塊鏈合作網(wǎng)絡(luò)、主題詞共現(xiàn)網(wǎng)絡(luò)、研究熱點(diǎn)及趨勢等方面進(jìn)行梳理與分析,且大部分對于熱點(diǎn)主題的研究仍以詞共現(xiàn)方法為主,少部分利用主題模型的方法也僅為區(qū)塊鏈主題識別研究,缺乏對主題強(qiáng)度和內(nèi)容演化的分析。針對上述問題,本文以國內(nèi)外區(qū)塊鏈相關(guān)文獻(xiàn)為基礎(chǔ),將文獻(xiàn)按時序劃分為不同的時間窗口,對不同時間窗口下的文獻(xiàn)數(shù)據(jù)進(jìn)行 LDA 主題挖掘和識別,通過計算余弦距離值的方法測度不同主題間的相似度,以確定不同主題間的演化關(guān)系,并以可視化的方法對其主題強(qiáng)度變化和演化路徑進(jìn)行展示,進(jìn)一步,引入新穎度指標(biāo)和熱度指標(biāo)來界定熱點(diǎn)主題,以更為客觀全面地揭示國內(nèi)外區(qū)塊鏈研究主題及其異同,并展望未來國內(nèi)外區(qū)塊鏈的發(fā)展趨勢,為推動國內(nèi)區(qū)塊鏈的創(chuàng)新與發(fā)展形成有效的參考。
1.1研究思路為有效地分析國內(nèi)外區(qū)塊鏈研究主題和演化關(guān)系,本文從中國知網(wǎng)(CNKI)和Web of Science上收集文獻(xiàn)數(shù)據(jù),并將文獻(xiàn)標(biāo)題及文獻(xiàn)摘要作為數(shù)據(jù)來源,同時基于時間線對時序進(jìn)行時間窗口分割,挖掘不同窗口下的研究主題,并以可視化的形式展現(xiàn)國內(nèi)外區(qū)塊鏈主題熱度變化及演化路徑,引入新穎度和熱度指標(biāo)識別熱點(diǎn)主題,以更為全面地比較分析國內(nèi)外對該研究的異同,研究思路如圖1所示。
圖1 研究思路圖
1.2關(guān)鍵技術(shù)
1.2.1 主題抽取技術(shù) 目前,已有不少方法應(yīng)用于主題提取方面,諸如基于詞頻與逆文檔頻的TF-IDF方法、基于網(wǎng)頁推薦系統(tǒng)的Textrank算法以及非監(jiān)督主題抽取算法PageRank等常見的方法,但這些方法更適合噪聲較多或輸出單一的場景,也無法科學(xué)地揭示主題之間、主題與文本之間的潛在聯(lián)系。本文采用LDA主題模型對文本進(jìn)行主題提取,這是一種文檔主題生成模型,共包含詞、主題、文檔三層結(jié)構(gòu)[23]。作為一種非監(jiān)督機(jī)器學(xué)習(xí)方法,與傳統(tǒng)的主題挖掘方法相比,LDA 主題模型在分析文本語義等方面具有良好的效果,可以有效地分析大規(guī)模非結(jié)構(gòu)化文檔集[24]。同時,在不需要預(yù)先對初始文檔進(jìn)行人工標(biāo)注的條件下,通過LDA主題模型即可挖掘出潛在主題。因此,將LDA模型運(yùn)用于文檔內(nèi)容分析中在一定程度上可以更好地保留文檔內(nèi)部關(guān)系,更為科學(xué)地揭示主題間的演化路徑,具體模型如圖2所示。
圖2 LDA主題模型結(jié)構(gòu)圖
其中,α和β分別是主題分布θ和主題詞分布φ的先驗(yàn)分布參數(shù),z和w分別表示模型生成的主題及最終的主題詞,D表示文檔數(shù)量,S表示文檔的詞語數(shù)量。主題模型的生成過程主要如下:首先,從全局中選取長度為N的文檔,接著,分別從參數(shù)為α的先驗(yàn)分布和參數(shù)為β的先驗(yàn)分布中取樣生成文檔在主題上的分布θ和主題在主題詞上的分布φ;最后,分別從參數(shù)為θ和參數(shù)為φ的多項(xiàng)式分布中采樣主題z和主題詞w,模型的聯(lián)合分布如公式(1)所示。
(1)
通常,LDA模型的超參數(shù)α、β選取默認(rèn)值[25],主題z和主題詞w可通過變分推斷算法[13]或Gibbs采樣算法[26]得到,因?yàn)镚ibbs采樣算法實(shí)現(xiàn)簡單,故本文采用Gibbs采樣算法求得全局的主題z分布和主題詞w分布。在LDA模型中,主題數(shù)需要預(yù)先設(shè)定,為了得到最為合適的主題數(shù),本文采用困惑度評價法求得最優(yōu)主題數(shù)k,其計算公式如公式(2)所示:
(2)
困惑度表示文檔所屬的主題的不確定性(信息熵),故而當(dāng)困惑度最小時,主題數(shù)最優(yōu),一般情況下,當(dāng)困惑度下降趨勢不再明顯或處于拐點(diǎn)處時,此時的k值為最優(yōu)主題數(shù)。
1.2.2 主題演化分析技術(shù) 通過LDA模型對不同時間窗口的文檔進(jìn)行挖掘所得到的主題間可能存在聯(lián)系和差異,為描述相鄰時間窗口下文檔主題的相似度和演化關(guān)系,本文采用計算余弦距離值的方法來確定主題間的演化關(guān)系。余弦距離值以向量空間中兩個向量夾角的余弦值作為衡量標(biāo)準(zhǔn),其計算公式如下:
(3)
余弦距離值范圍在0~1中,當(dāng)距離值越接近1,則表明兩個向量越相似,距離值越小,則表明兩個向量差異越大。通過LDA模型輸出的主題詞集,構(gòu)建主題空間向量,通過計算可以得到兩個主題間的相似程度,以確定主題的演化程度。
1.2.3 熱點(diǎn)主題識別技術(shù) 熱點(diǎn)主題的識別是識別在特定時間內(nèi)具有較高關(guān)注度的主題。本文根據(jù)模型輸出的結(jié)果,借鑒已有的熱點(diǎn)主題識別方法[19],結(jié)合主題的時序特征,通過主題新穎度和主題熱度判別指標(biāo),以生命周期理論為理論基礎(chǔ),定量和定性地識別處于熱點(diǎn)階段的主題。
a.主題熱度指標(biāo)。主題熱度指標(biāo)主要用于揭示主題的受關(guān)注程度,其表現(xiàn)形式為同一時間窗口下該主題下文檔的數(shù)量多少。以LDA模型輸出結(jié)果為基礎(chǔ),定義主題熱度指標(biāo)計算公式如下所示:
(4)
式中,HT(t)為時間窗口t下的主題T的主題熱度,ST(t)為時間窗口t下該主題的文檔數(shù)量,SW(t)為時間窗口t下所有主題的文檔數(shù)量。當(dāng)主題熱度越大,則表明該主題所受到的關(guān)注程度越高。
b.主題新穎度指標(biāo)。主題新穎度指標(biāo)用于揭示某個主題下的新穎程度,即該主題所出現(xiàn)的年份越近,則新穎程度越高,本文參考范云滿等人采用的新穎度計算公式[27],如下所示:
(5)
式中,NIT(t)為時間窗口t下主題T的新穎度,t為當(dāng)前時間窗口,Tbegin表示該主題首次出現(xiàn)的時間,故隨時間的推移,主題的新穎程度下降。在該新穎度計算模型中,斜率逐漸減小,即新興主題老化速度快,得以保留的有價值的主題老化速度慢,符合文獻(xiàn)老化規(guī)律。
c.主題二維尺度分析。本文通過不同時間窗口對主題進(jìn)行挖掘,以LDA模型輸出結(jié)果為基礎(chǔ),主題的熱度和新穎度得以確定。為更好地識別熱點(diǎn)主題,本文借鑒已有的主題二維尺度分析方法[28],基于主題熱度指標(biāo)和新穎度指標(biāo)計算結(jié)果,構(gòu)建主題生命周期,分別為潛在主題階段、新興主題階段、熱點(diǎn)主題階段和衰退主題階段,并通過新穎程度與熱度程度定量地識別主題所屬的階段。其中,設(shè)定新穎程度與熱度程度的判定閾值;若主題為潛在主題,該類主題通常新穎度高但相關(guān)文檔較少,主題處于潛在期或發(fā)展遇到瓶頸;若主題為新興主題,此類主題文檔增加較快,主題新穎度較高且熱度也較高,主題進(jìn)入快速發(fā)展時期;若主題為熱點(diǎn)主題,通常此類主題新穎度較低但熱度最高,主題進(jìn)入成熟期,此時主題經(jīng)過一段時間發(fā)展并得以保留,具有較高的研究價值;若主題進(jìn)入衰退階段,則主題新穎度低且研究熱度也很低,主題文檔數(shù)減少,主題衰落老化并逐漸進(jìn)入消亡階段。
2.1數(shù)據(jù)來源及預(yù)處理本文的實(shí)證研究對象為國內(nèi)外區(qū)塊鏈,國內(nèi)文獻(xiàn)源為中國知網(wǎng)(CNKI),使用高級檢索,設(shè)定檢索條件為“主題=區(qū)塊鏈”,為保證文獻(xiàn)來源的科學(xué)性,限定文獻(xiàn)為期刊,文獻(xiàn)來源為SCI期刊、EI源期刊、核心期刊、CSCD期刊、CSSCI期刊,時間跨度為2014-2020年,檢索日期為2020年10月31日(2020年未記錄完整)。導(dǎo)出全記錄文獻(xiàn)信息,篩去重復(fù)和信息不全的文獻(xiàn),最后得到2 380篇文獻(xiàn)。國外文獻(xiàn)源為Web of Science(WOS),同樣采用高級檢索,檢索式為“SU=blockchain”, “SU”表示研究主題,文獻(xiàn)類型設(shè)定為“Article”,語言設(shè)定為“English”,索引條件為SCI和SSCI,時間跨度為2015-2020年,檢索日期同樣為2020年10月31日(2020年未記錄完整)。導(dǎo)出全文獻(xiàn)信息,經(jīng)過篩選,去除重復(fù)和不完整的文獻(xiàn)信息,最終得到2 826篇文獻(xiàn)。
為更好地分析區(qū)塊鏈研究主題和演化路徑,本文在檢索結(jié)果的基礎(chǔ)上,結(jié)合文獻(xiàn)增長的趨勢,按照時間線對文獻(xiàn)進(jìn)行時間窗口劃分??紤]到區(qū)塊鏈相關(guān)文獻(xiàn)出現(xiàn)年份較遲,且前期發(fā)文量低,近期文獻(xiàn)量增長迅速,為平衡每個時間窗口的發(fā)文量,故將國內(nèi)區(qū)塊鏈劃分為2014-2017年、2018年、2019年以及2020年四個時間窗口,將國外區(qū)塊鏈劃分為2015-2018年、2019年、2020年三個時間窗口。
從導(dǎo)出的文獻(xiàn)信息中選取標(biāo)題與摘要作為模型的語料來源,對于中文語料,調(diào)用中文分詞工具Jieba庫對中文語料進(jìn)行分詞,分詞前添加區(qū)塊鏈的專業(yè)詞匯作為自定義詞典,以提高分詞效果,分詞過程中,結(jié)合中文停用詞表,去除虛詞或無實(shí)際意義的符號等。對于英文語料,調(diào)用NLTK自然語言處理工具包,對句子進(jìn)行標(biāo)記、詞形還原、詞干提取等。為提高模型的準(zhǔn)確度,對語料進(jìn)行同義詞合并,比如“BTC”與“bitcoin”同義,統(tǒng)一為“bitcoin”;“共識協(xié)議”與“共識機(jī)制”同義,統(tǒng)一為“共識機(jī)制”等。對分詞后的文本進(jìn)行特征提取,作為LDA模型的輸入來源。
2.2主題挖掘在進(jìn)行主題挖掘之前,通過計算困惑度獲得不同時間窗口下的最優(yōu)主題數(shù),計算結(jié)果如圖3所示。一般情況下,當(dāng)困惑度最小時或處于拐點(diǎn)處時,挖掘出的主題數(shù)最佳,此時的k值為最優(yōu)主題數(shù)。根據(jù)計算結(jié)果,確定2014-2017年國內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為7個,2018年國內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為11個,2019年國內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為20個,2020年國內(nèi)文獻(xiàn)最優(yōu)主題數(shù)為30個。同理,確定2015-2018年國外文獻(xiàn)最優(yōu)主題數(shù)為11個,2019年國外最優(yōu)主題數(shù)為21個,2020年國外最優(yōu)主題數(shù)為21個。
圖3 不同時間窗口下國內(nèi)外主題困惑度
LDA主題模型作為一種無監(jiān)督機(jī)器學(xué)習(xí)方法,可以挖掘初始文檔中的潛在主題,挖掘效果與迭代次數(shù)相關(guān)。迭代次數(shù)越高,模型收斂效果越好,考慮算力與收斂效果,本文將收斂次數(shù)定在500次。隨后,對國內(nèi)外每個時間窗口下輸出的主題進(jìn)行篩選,如去除由虛詞組成的主題聚類、去除與區(qū)塊鏈研究無關(guān)或相關(guān)度較小的主題聚類,去除文獻(xiàn)數(shù)量為 0 的主題等[29],對篩選后的結(jié)果進(jìn)行主題命名,為精確保留主題語義,中文主題標(biāo)簽參考中圖分類法,英文主題標(biāo)簽則參考 Web of Science的研究方向,對每個主題進(jìn)行人工命名,結(jié)果如表1和表2所示。
表1 國內(nèi)區(qū)塊鏈不同時間窗口下的主題分布
表2 國外區(qū)塊鏈不同時間窗口下的主題分布
對比表1和表2,可以將國內(nèi)外區(qū)塊鏈研究主要劃分為5個:包括共識機(jī)制、智能合約等在內(nèi)的區(qū)塊鏈架構(gòu)研究;包括金融科技、供應(yīng)鏈、能源交易、資源共享、版權(quán)保護(hù)等行業(yè)應(yīng)用研究;包括隱私安全、數(shù)據(jù)溯源、交易攻擊等區(qū)塊鏈安全研究;包括物聯(lián)網(wǎng)、人工智能、云計算、神經(jīng)網(wǎng)絡(luò)等高新技術(shù)研究;社會治理、數(shù)字城市等公共管理研究等。
2.3主題強(qiáng)度分析基于LDA模型輸出結(jié)果,計算各時間窗口下的國內(nèi)外區(qū)塊鏈研究主題強(qiáng)度,繪制主題熱度圖。熱度圖中,顏色深的是熱度較大的主題,顏色淺的為熱度較小的主題,主題編號與國內(nèi)外區(qū)塊鏈主題分布表中的主題排序一致,結(jié)果如圖4和圖5所示。
圖4 國內(nèi)主題熱度圖
圖5 國外主題熱度圖
從內(nèi)容上看,國內(nèi)區(qū)塊鏈研究主要集中于金融科技、能源交易、數(shù)據(jù)安全、資源共享、共識機(jī)制、數(shù)字貨幣、供應(yīng)鏈和社會治理等研究,國外區(qū)塊鏈研究主要集中于數(shù)字貨幣、數(shù)據(jù)系統(tǒng)、共識機(jī)制、金融科技、隱私安全等研究。國內(nèi)區(qū)塊鏈研究相較于國外更偏向與區(qū)塊鏈和行業(yè)技術(shù)的結(jié)合應(yīng)用,國外研究更偏向于區(qū)塊鏈架構(gòu)和區(qū)塊鏈安全等理論的研究。
從時間上看,國內(nèi)區(qū)塊鏈研究早期多是對數(shù)字貨幣、金融服務(wù)、供應(yīng)鏈等傳統(tǒng)應(yīng)用和智能合約、數(shù)據(jù)安全、共識機(jī)制等理論等展開研究,隨著學(xué)者的不斷深入研究和政策的支持,區(qū)塊鏈技術(shù)被應(yīng)用的更多,衍生出包括智能制造、版權(quán)保護(hù)、電子檔案、產(chǎn)品追溯等在內(nèi)的細(xì)分以及與人工智能、云計算等高新技術(shù)結(jié)合的相關(guān)。2019年10月,習(xí)近平總書記提出要加強(qiáng)和創(chuàng)新社會治理,將最新科技成果應(yīng)用于社會治理[30],區(qū)塊鏈用于社會治理開始備受學(xué)者關(guān)注,可以料想,未來區(qū)塊鏈結(jié)合社會治理的研究熱度會繼續(xù)提升。同樣,國外區(qū)塊鏈研究多是從對數(shù)字貨幣、供應(yīng)鏈、智能合約、隱私安全等理論和應(yīng)用衍生出車輛互聯(lián)網(wǎng)、數(shù)字城市、知識發(fā)現(xiàn)、醫(yī)療健康等細(xì)分,近段時間,國外區(qū)塊鏈研究由理論研究逐步向應(yīng)用研究發(fā)展,且與智能工業(yè)、人工智能等高新技術(shù)聯(lián)系緊密。
2.4主題演化分析本文通過對相鄰時間窗口下挖掘出的主題及主題詞間進(jìn)行余弦距離值的計算,得到主題間的演化關(guān)系。余弦距離值越高,主題間出現(xiàn)存在演化關(guān)系的概率越大。為了使演化路徑更為客觀,根據(jù)相關(guān)研究,確定0.3為相似度閾值[31]。認(rèn)定相鄰時間窗口間余弦距離值高于0.3的主題具有演化關(guān)系,利用開源ECharts開源圖表庫將主題演化關(guān)系繪制成?;鶊D,結(jié)果如圖 6和圖7所示。其中,每個元素塊都具有對應(yīng)主題,主題間的連線表示主題間的流動方向以及聯(lián)系,連線的粗細(xì)表示相似度的高低,連線越粗,則表明主題間的演化關(guān)系越緊密。
圖6 國內(nèi)區(qū)塊鏈主題演化圖
圖7 國外區(qū)塊鏈主題演化圖
國內(nèi)外區(qū)塊鏈研究中,共識機(jī)制等區(qū)塊鏈架構(gòu)一直是區(qū)塊鏈研究主題的重點(diǎn)和熱點(diǎn),且不同時間窗口的主題相似度較高,主題相關(guān)文獻(xiàn)較多,主題研究延續(xù)性較強(qiáng)?;谖谋局黝}詞分布,區(qū)塊鏈架構(gòu)研究隨著研究的深入和技術(shù)應(yīng)用的發(fā)展,研究重點(diǎn)從網(wǎng)絡(luò)節(jié)點(diǎn)共識的安全性演化為與行業(yè)應(yīng)用的結(jié)合,提高行業(yè)應(yīng)用的安全性和效率。
不同于區(qū)塊鏈架構(gòu)的研究,區(qū)塊鏈行業(yè)應(yīng)用的研究呈現(xiàn)出熱度高、演化路徑多。行業(yè)應(yīng)用研究不僅存在行業(yè)內(nèi)部的演化,如金融科技的演化,從主題詞來看,金融科技研究從金融交易和風(fēng)險控制等應(yīng)用向如何構(gòu)建穩(wěn)定的金融科技市場演化。行業(yè)間也存在演化關(guān)系,如供應(yīng)鏈與能源交易間的演化、版權(quán)保護(hù)和圖書館與檔案管理間的演化等等。同時,行業(yè)應(yīng)用研究也呈現(xiàn)出跨間的演化,比較顯著的演化如金融科技與社會治理間的演化,隨著區(qū)塊鏈技術(shù)在金融科技中的普及,如何規(guī)范金融市場、設(shè)立相關(guān)法律法規(guī)是社會治理的一大難題。
區(qū)塊鏈安全與區(qū)塊鏈架構(gòu)、行業(yè)應(yīng)用、高新技術(shù)、公共管理的主題關(guān)聯(lián)性與相似性都較高。 原因在于區(qū)塊鏈技術(shù)具有數(shù)據(jù)防篡改、安全性高的特點(diǎn),針對不同的區(qū)塊鏈問題,安全性都是不可忽視的研究方向,許多學(xué)者基于共識機(jī)制、交易攻擊、行業(yè)應(yīng)用、合約漏洞、隱私安全等去研究區(qū)塊鏈安全問題。
相較于國外,國內(nèi)區(qū)塊鏈應(yīng)用研究與理論研究間的主題聯(lián)系更為緊密,主題間的演化和衍生性更強(qiáng),而國外主題研究的延續(xù)性更強(qiáng)。
2.5熱點(diǎn)主題識別基于LDA主題模型得到的信息,通過計算主題的熱度和新穎度,基于已有的主題二維尺度分析方法,將主題新穎度較低但熱度最高的主題定義為熱點(diǎn)主題。根據(jù)公式(3)計算得出每個主題的熱度值,取國內(nèi)外所有主題的熱度平均值作為熱度指標(biāo)的閾值,根據(jù)計算得出,國內(nèi)主題熱度閾值為0.0357,國外主題熱度閾值為0.0370。同時,根據(jù)“二八定律”,通過公式(4)確定新穎度閾值為0.2。界定主題熱度和新穎度同時大于閾值的主題為熱點(diǎn)主題,得出國內(nèi)區(qū)塊鏈熱點(diǎn)主題為9個,國外區(qū)塊鏈熱點(diǎn)主題為7個,主題及對應(yīng)主題詞的結(jié)果如表3和表4所示。
表3 國內(nèi)區(qū)塊鏈的熱點(diǎn)主題分布
表4 國外區(qū)塊鏈的熱點(diǎn)主題分布
根據(jù)界定的熱點(diǎn)主題,不難發(fā)現(xiàn)國內(nèi)外區(qū)塊鏈的研究方向大體相似,結(jié)合研究的劃分和演化過程,從各個主題的主題詞和具體內(nèi)容探究,以更客觀地揭示國內(nèi)外區(qū)塊鏈研究熱點(diǎn)的異同。
2.5.1 區(qū)塊鏈架構(gòu) 關(guān)于區(qū)塊鏈架構(gòu)研究,國內(nèi)外主要都聚焦于共識機(jī)制的研究。共識機(jī)制作為區(qū)塊鏈技術(shù)中的底層機(jī)制,是節(jié)點(diǎn)對接受到的交易進(jìn)行排序、模擬執(zhí)行、保證節(jié)點(diǎn)在分布式網(wǎng)絡(luò)中達(dá)成共識的關(guān)鍵[32]。在國內(nèi)外,該主題的熱度都呈上升趨勢,且文獻(xiàn)數(shù)量較多,主要涉及共識機(jī)制的安全性、效率性的優(yōu)化等,隨著研究的深入,共識機(jī)制的研究逐漸演化為與行業(yè)應(yīng)用的結(jié)合,隨著應(yīng)用的不斷落地,可以預(yù)見,共識機(jī)制的研究仍將持續(xù)且不斷由理論研究向應(yīng)用研究演化。不同于國內(nèi),智能合約是國外區(qū)塊鏈架構(gòu)的研究熱點(diǎn),智能合約實(shí)質(zhì)上是部署在區(qū)塊鏈系統(tǒng)上的去中心化、可信任的共享代碼[33]。相較于國內(nèi)大部分智能合約的研究都存在于行業(yè)應(yīng)用,國外對于智能合約的研究包括了安全漏洞[34]、代碼克隆[35]等理論研究。
2.5.2 行業(yè)應(yīng)用 在行業(yè)應(yīng)用,金融科技和供應(yīng)鏈都是國內(nèi)外的研究熱點(diǎn)。金融科技將新興科技應(yīng)用于金融行業(yè),技術(shù)驅(qū)動金融創(chuàng)新,創(chuàng)造新的商業(yè)模式、業(yè)務(wù)流程來提高傳統(tǒng)金融效率[36],供應(yīng)鏈管理是通過對供應(yīng)鏈運(yùn)作使其達(dá)到最優(yōu)化,以最優(yōu)的方案滿足企業(yè)需求。在金融科技和供應(yīng)鏈管理中,數(shù)據(jù)量十分龐大,且數(shù)據(jù)對該的重要性不言而喻,由于區(qū)塊鏈技術(shù)具有數(shù)據(jù)防篡改等優(yōu)點(diǎn),金融科技與供應(yīng)鏈等結(jié)合區(qū)塊鏈技術(shù),可以在海量數(shù)據(jù)的基礎(chǔ)上發(fā)揮區(qū)塊鏈的優(yōu)勢,確保數(shù)據(jù)的安全性,提高運(yùn)行效率。觀察演化路徑,金融科技的演化和衍生路徑多,行業(yè)間的聯(lián)系緊密,隨著研究的發(fā)展,金融科技更強(qiáng)調(diào)金融監(jiān)管、市場治理等,供應(yīng)鏈金融也成為了行業(yè)內(nèi)研究的熱點(diǎn)。不同于國外區(qū)塊鏈研究,國內(nèi)更偏向于區(qū)塊鏈技術(shù)與應(yīng)用的結(jié)合,國內(nèi)區(qū)塊鏈研究熱點(diǎn)主題中,還包括例如與高校數(shù)字教學(xué)資源共建共享結(jié)合的資源共享行業(yè)研究[37]、以比特幣為代表的數(shù)字貨幣研究、能源交易尤其是電力交易模型研究、版權(quán)保護(hù)應(yīng)用研究等。
2.5.3 區(qū)塊鏈安全 區(qū)塊鏈安全一直是區(qū)塊鏈安全研究的熱點(diǎn),隨著大數(shù)據(jù)時代的來臨,海量數(shù)據(jù)存在泄露、篡改等一系列安全問題,國內(nèi)區(qū)塊鏈安全以數(shù)據(jù)安全研究為主,研究包括審計、金融監(jiān)管等信息平臺的安全等等。相較于國內(nèi),國外區(qū)塊鏈安全研究不僅聚焦于數(shù)據(jù)系統(tǒng)的安全,還包括隱私安全。盡管區(qū)塊鏈技術(shù)被認(rèn)為是具有匿名性的技術(shù),不足但想要做到完全的匿名是十分困難的,多數(shù)區(qū)塊鏈系統(tǒng)都存在著匿名性的安全問題[38],主要包括身份隱私安全和交易隱私安全等。
2.5.4 高新技術(shù) 區(qū)塊鏈技術(shù)與物聯(lián)網(wǎng)、人工智能、云計算等高新技術(shù)的結(jié)合也成為國內(nèi)外區(qū)塊鏈研究的趨勢方向。同時,物聯(lián)網(wǎng)也是國外區(qū)塊鏈領(lǐng)域研究的熱點(diǎn)之一,物聯(lián)網(wǎng)是在互聯(lián)網(wǎng)基礎(chǔ)上擴(kuò)展的網(wǎng)絡(luò),通過將信息傳感設(shè)備與互聯(lián)網(wǎng)結(jié)合起來形成的網(wǎng)絡(luò),實(shí)現(xiàn)跨越時空的人與設(shè)備間的互聯(lián)互通。區(qū)塊鏈技術(shù)與物聯(lián)網(wǎng)技術(shù)的結(jié)合,尤其是車輛互聯(lián)網(wǎng)、能源物聯(lián)網(wǎng)等,涉及物聯(lián)網(wǎng)系統(tǒng)[39]、物聯(lián)網(wǎng)隱私[40]等都是區(qū)塊鏈技術(shù)結(jié)合物聯(lián)網(wǎng)領(lǐng)域的研究熱點(diǎn)。從主題強(qiáng)度來看,國內(nèi)外關(guān)于區(qū)塊鏈技術(shù)和人工智能、云計算等的結(jié)合研究呈上升趨勢,但目前國內(nèi)大部分研究多與應(yīng)用和監(jiān)管等有關(guān),涉及理論算法研究相對較少。可以預(yù)見,區(qū)塊鏈技術(shù)與高新技術(shù)的研究將仍會持續(xù)。
2.5.5 公共管理 自中央政治局第十八次集體學(xué)習(xí)召開以來,有關(guān)將區(qū)塊鏈技術(shù)應(yīng)用到公共管理中成為眾多學(xué)者研究方向,將區(qū)塊鏈技術(shù)應(yīng)用到社會治理等方面也是國內(nèi)的研究熱點(diǎn)之一。包括市場監(jiān)管[41]、法律法規(guī)[42]、政府治理[43]等。如何將區(qū)塊鏈技術(shù)合理地運(yùn)用到社會治理中,推動各行各業(yè)的發(fā)展,提高政府的運(yùn)行效率,完善監(jiān)管體系,以實(shí)現(xiàn)高質(zhì)量發(fā)展是區(qū)塊鏈技術(shù)在公共管理的研究趨勢。
本文基于LDA主題挖掘模型,對國內(nèi)外區(qū)塊鏈核心期刊進(jìn)行主題挖掘,并通過主題強(qiáng)度分析、演化分析及熱點(diǎn)主題識別對區(qū)塊鏈研究進(jìn)行分析,得到以下結(jié)論:
a.國內(nèi)外區(qū)塊鏈研究主要涉及包括共識機(jī)制、智能合約等在內(nèi)的區(qū)塊鏈架構(gòu)機(jī)制;包括金融科技、供應(yīng)鏈、能源交易、資源共享、版權(quán)保護(hù)等行業(yè)應(yīng)用;包括數(shù)據(jù)系統(tǒng)安全、隱私安全、交易攻擊等區(qū)塊鏈安全;包括物聯(lián)網(wǎng)、人工智能、云計算、等高新技術(shù);社會治理、數(shù)字城市等公共管理等。
b.從主題強(qiáng)度來看,國內(nèi)區(qū)塊鏈研究更偏向于行業(yè)應(yīng)用、公共管理等應(yīng)用的研究,國外區(qū)塊鏈研究更偏向于區(qū)塊鏈架構(gòu)、區(qū)塊鏈安全及高新技術(shù)等理論的研究。國內(nèi)外區(qū)塊鏈研究早期多是對數(shù)字貨幣、金融服務(wù)、供應(yīng)鏈等傳統(tǒng)應(yīng)用和智能合約、數(shù)據(jù)安全、共識機(jī)制等理論等展開研究,隨著研究的深入,衍生出包括智能制造、版權(quán)保護(hù)、電子檔案、產(chǎn)品追溯等在內(nèi)的細(xì)分以及與人工智能、云計算等高新技術(shù)結(jié)合的相關(guān)。從內(nèi)容演化來看,共識機(jī)制等區(qū)塊鏈架構(gòu)主題研究延續(xù)性較強(qiáng),區(qū)塊鏈行業(yè)應(yīng)用研究呈現(xiàn)出熱度高、演化和衍生路徑多的特點(diǎn),區(qū)塊鏈安全與區(qū)塊鏈架構(gòu)、行業(yè)應(yīng)用、高新技術(shù)、公共管理的主題關(guān)聯(lián)性與相似性都較高,跨結(jié)合研究更為緊密。國內(nèi)相較于國外,區(qū)塊鏈應(yīng)用研究與理論研究間的主題聯(lián)系更為密切,主題間的演化和衍生性更強(qiáng),而國外主題研究的延續(xù)性更強(qiáng)。
c.從熱點(diǎn)主題來看,共識機(jī)制、金融科技、數(shù)據(jù)安全、供應(yīng)鏈等研究主題是國內(nèi)外區(qū)塊鏈研究共同的熱點(diǎn)主題。不同于國外,國內(nèi)區(qū)塊鏈研究更偏向于應(yīng)用的研究,包括資源共享、數(shù)字貨幣、能源交易、版權(quán)保護(hù)等行業(yè)應(yīng)用以及社會治理等公共管理。國外的研究熱點(diǎn)更偏向于理論的研究,包括物聯(lián)網(wǎng)、智能合約、隱私保護(hù)等。
本文通過LDA主題模型,對區(qū)塊鏈的國內(nèi)外核心期刊論文進(jìn)行主題抽取,同時利用可視化的方法展現(xiàn)主題強(qiáng)度及主題演化路徑,并通過新穎度指標(biāo)和熱度指標(biāo)識別國內(nèi)外區(qū)塊鏈研究的熱點(diǎn)主題,對比分析國內(nèi)外區(qū)塊鏈研究的異同,以更為客觀地揭示區(qū)塊鏈的研究現(xiàn)狀。通過研究發(fā)現(xiàn)國內(nèi)外區(qū)塊鏈的研究主題在內(nèi)容和結(jié)構(gòu)上具有一定的差異。國外更偏向于區(qū)塊鏈理論的研究,且主題研究的延續(xù)性較強(qiáng),與物聯(lián)網(wǎng)等高新技術(shù)的研究更為密切,國內(nèi)則更注重區(qū)塊鏈技術(shù)與應(yīng)用的結(jié)合,且研究主題更為豐富,差異更為明顯,更注重區(qū)塊鏈技術(shù)在公共管理中發(fā)揮的作用。根據(jù)研究結(jié)果,學(xué)者在國內(nèi)外區(qū)塊鏈的核心期刊文獻(xiàn)的基礎(chǔ)上,可以了解感興趣的研究的發(fā)展史及最新發(fā)展動態(tài),為研究制定科學(xué)合理的方向。
本文的研究還存在以下不足:一是在于數(shù)據(jù)只提取了文獻(xiàn)的標(biāo)題與摘要部分,未對關(guān)鍵詞和全文分析進(jìn)行比較;二是在于主題抽取中缺乏一定的專家指導(dǎo),可能會影響到主題挖掘結(jié)果的準(zhǔn)確性,導(dǎo)致本文的結(jié)論與實(shí)際情況可能存在一定的偏差。下一步研究工作將綜合專利文獻(xiàn)探索區(qū)塊鏈研究的實(shí)際應(yīng)用情況。