聶恒輝 陳大春
摘要:本文運(yùn)用Excel和CiteSpace軟件繪制了作者、機(jī)構(gòu)、關(guān)鍵詞等相關(guān)知識圖譜,對我國自2010年起在知網(wǎng)(CNKI)刊載的大數(shù)據(jù)應(yīng)用研究性文獻(xiàn)進(jìn)行分析并得出結(jié)論。研究發(fā)現(xiàn):各研究機(jī)構(gòu)及作者之間的聯(lián)系較少,缺乏溝通合作;研究熱點(diǎn)主題有云計算、人工智能、大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘等等,其中人工智能為我國大數(shù)據(jù)應(yīng)用研究的主要研究趨勢。
關(guān)鍵詞:大數(shù)據(jù)應(yīng)用;可視化分析;關(guān)鍵詞聚類分析
隨著科技和社會經(jīng)濟(jì)的發(fā)展,“大數(shù)據(jù)”的概念應(yīng)運(yùn)而生,它的出現(xiàn)開啟了大規(guī)模應(yīng)用、分享、儲存數(shù)據(jù)的時代。大數(shù)據(jù)的特點(diǎn)是體量大、種類多、速度快、價值高,能讓我們通過對大量數(shù)據(jù)的處理統(tǒng)計去分析事物的其他方面,它代表了一種新的數(shù)據(jù)管理與統(tǒng)計分析的技術(shù),同時也打開了另一種全新的思維方式和角度。
大數(shù)據(jù)的發(fā)展經(jīng)歷了三個階段:一是萌芽時期(20世紀(jì)90年代到21世紀(jì)初),1997年美國國家航空航天局在研究數(shù)據(jù)可視化中首次提出了“大數(shù)據(jù)”的概念,1998年《science》雜志上發(fā)表了一篇名為《大數(shù)據(jù)科學(xué)的可視化》的文章,“大數(shù)據(jù)”作為一個正式的公共名詞出現(xiàn)在大眾的視野里。二是發(fā)展時期(21世紀(jì)初期至2010年),隨著信息技術(shù)和互聯(lián)網(wǎng)行業(yè)的興起,大數(shù)據(jù)也進(jìn)入了快速發(fā)展時期,其特點(diǎn)和概念得到進(jìn)一步豐富。三是繁榮時期(2010年至今),專家們根據(jù)大數(shù)據(jù)分析預(yù)測未來、指導(dǎo)實踐的深層次應(yīng)用將成為發(fā)展重點(diǎn)[1]。
近年來,隨著人們對大數(shù)據(jù)的深入研究,越來越多的研究者將大數(shù)據(jù)技術(shù)應(yīng)用于不同的專業(yè)方向,該領(lǐng)域的論文數(shù)量也大大增加。為了更全面的把握大數(shù)據(jù)在目前各行業(yè)中的應(yīng)用進(jìn)展,本文采用可視化工具分析了大數(shù)據(jù)技術(shù)應(yīng)用方向的研究熱點(diǎn)和前沿。
1 研究方法
本研究采用CiteSpace作為主要研究工具,同時使用Excel表格作為輔助研究工具。在CNKI的高級檢索中選擇“文獻(xiàn)”的主題檢索,檢索條件為文章主題、文章關(guān)鍵詞、文章篇名均為“大數(shù)據(jù)應(yīng)用”“大數(shù)據(jù)研究”的文章,檢索文獻(xiàn)發(fā)表時間為“2010年一2020年”,共獲得文獻(xiàn)1975篇(2020年9月10日檢索)。將目標(biāo)文獻(xiàn)全部選中,按CiteSpace所需參考文獻(xiàn)格式Refworks進(jìn)行導(dǎo)出并轉(zhuǎn)碼儲存,并進(jìn)行Excel的可視化處理,得到本文所需要的研究數(shù)據(jù)。
2 數(shù)據(jù)研究分析
2.1 基本概況分析
圖1顯示了我國大數(shù)據(jù)的相關(guān)研究性文獻(xiàn)在知網(wǎng)( CNKI)發(fā)文量隨年代變化的情況。由表可看出,2010-2014年期間,文章整體的發(fā)文量較少,均在200篇以下;自2015年起,相關(guān)文獻(xiàn)的發(fā)文量呈現(xiàn)出可觀的趨勢,2020年發(fā)文量達(dá)到頂峰。由此可知大數(shù)據(jù)的研究在我國的關(guān)注度持續(xù)上升,并且可以預(yù)計在未來幾年內(nèi)其熱度仍然不會減少。
2.2 關(guān)鍵詞聚類分析
關(guān)鍵詞聚類分析是將關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)關(guān)系通過聚類統(tǒng)計學(xué)的方法簡化成數(shù)目相對較少聚類的過程[2]。通過對關(guān)鍵詞進(jìn)行聚類分析,來得到我國大數(shù)據(jù)的研究方向趨勢。
運(yùn)行CiteSpace,設(shè)置節(jié)點(diǎn)類型為關(guān)鍵詞,選取cluster選項,設(shè)定呈最大的現(xiàn)12個聚類集合,得到如圖2所示關(guān)鍵詞聚類網(wǎng)絡(luò)圖譜。圖中呈現(xiàn)了“大數(shù)據(jù)”“大數(shù)據(jù)研究”“云平臺”“大數(shù)據(jù)技術(shù)”“醫(yī)療健康”“存儲系統(tǒng)”等12個聚類,反應(yīng)了我國大數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)。通過分析不難看出,大數(shù)據(jù)幾乎存在于所有的社會領(lǐng)域,背后隱藏著復(fù)雜的新理念和應(yīng)用價值[3]。
2.3 關(guān)鍵詞突現(xiàn)分析
關(guān)鍵詞突現(xiàn)是指在一個特定的時間內(nèi)被引用的頻率爆炸式增長的情況,運(yùn)行CiteSpace,參數(shù)設(shè)置“Burstterms”,選取最具有代表性的七個關(guān)鍵詞突現(xiàn),得到關(guān)鍵詞突現(xiàn)圖(見圖3)。
由圖中可看出,最早出現(xiàn)的突現(xiàn)詞為“物聯(lián)網(wǎng)”,說明物聯(lián)網(wǎng)行業(yè)是近十年來最早的大數(shù)據(jù)應(yīng)用案例,但是13年以后突現(xiàn)率消失,說明迅速被大數(shù)據(jù)的其他應(yīng)用領(lǐng)域所取代;2012-2014年間的突現(xiàn)詞為“云計算”、“大數(shù)據(jù)時代”“數(shù)據(jù)挖掘”;2017-2018年間突現(xiàn)詞為“應(yīng)用”“城市規(guī)劃”;2018-2020年間突現(xiàn)詞為“人工智能”。目前“人工智能”的突現(xiàn)率一直延續(xù)至今,可說明該突現(xiàn)詞是目前我國大數(shù)據(jù)研究的主要方向。
2.4 關(guān)鍵詞時序分析
關(guān)鍵詞時序圖能夠在一定程度上反映某一時間段內(nèi)的研究趨勢,因此運(yùn)行CiteSpace,在關(guān)鍵詞共現(xiàn)分析基礎(chǔ)上,按時間片段生成關(guān)鍵詞時序圖譜(見圖4)。
該圖連接節(jié)點(diǎn)為516個,連線數(shù)為1385條,說明雖然大數(shù)據(jù)的研究機(jī)構(gòu)、研究作者之間聯(lián)系較少,缺乏溝通。但是大數(shù)據(jù)的研究方向之間聯(lián)系非常密切,各項技術(shù)的應(yīng)用和變革都是依次展開,緊密相關(guān)的。從圖中可看出在不同時期的關(guān)注點(diǎn)不同,自2010年以來,大數(shù)據(jù)首先用在“物聯(lián)網(wǎng)”和“電力”上,隨著時間推移漸漸地向“云計算”、“Hadoop"數(shù)據(jù)挖掘”“電信”“農(nóng)業(yè)”等不同方向發(fā)展,說明了大數(shù)據(jù)技術(shù)正在逐步滲透到各個行業(yè)領(lǐng)域。
3 結(jié)論與展望
文章基于知網(wǎng)( CNKI)數(shù)據(jù)庫,運(yùn)用相關(guān)的可視化分析軟件,對2010-2020這十年間大數(shù)據(jù)的應(yīng)用研究情況進(jìn)行了較完整的分析。從發(fā)文量來看,在該領(lǐng)域發(fā)表的文章總體上升,并且在2014年以后出現(xiàn)程度較大的增長,這表明大數(shù)據(jù)的相關(guān)研究關(guān)注度會越來越高;從高產(chǎn)機(jī)構(gòu)和核心作者來看,各機(jī)構(gòu)和各作者之間的研究缺乏合作交流,關(guān)聯(lián)性較小;從文獻(xiàn)突現(xiàn)來看,雖然近十年來最先走入人們視線的大數(shù)據(jù)研究方向是物聯(lián)網(wǎng),但研究熱點(diǎn)正逐漸轉(zhuǎn)到人工智能上,并還可能會持續(xù)一段時間;從關(guān)鍵詞聚類和時序分析來看,前期的研究,尤其是2012-2014年這段時間,大多集中在大數(shù)據(jù)分析、物聯(lián)網(wǎng)、云計算上。后期出現(xiàn)了關(guān)鍵詞人工智能、云平臺和其他大數(shù)據(jù)產(chǎn)業(yè),表明了研究者的關(guān)注點(diǎn)也隨著生產(chǎn)生活方式的變化正在逐步轉(zhuǎn)移??傊?,大數(shù)據(jù)技術(shù)是一種新型技術(shù),其應(yīng)用情景廣闊,大數(shù)據(jù)技術(shù)在應(yīng)用過程中,不斷完善,不斷革新技術(shù),以適應(yīng)現(xiàn)代社會發(fā)展需要[4]。
大數(shù)據(jù)是將大量的原始數(shù)據(jù)匯集在一起以預(yù)測以后事物的發(fā)展趨勢,有助于人們做出正確的決策,取得更大的收益[5]。目前大數(shù)據(jù)的相關(guān)研究正處于井噴式增長期,具體的應(yīng)用已經(jīng)在各個領(lǐng)域取得了許多突破性的進(jìn)展,毫無疑問,大數(shù)據(jù)的應(yīng)用研究將在很大程度上改變?nèi)藗兊墓ぷ魃罘绞?。大?shù)據(jù)時代,倘若能夠更加有效地組織和使用數(shù)據(jù),人們將得到更多的機(jī)會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用[6]。我們期待在未來幾年能夠出現(xiàn)更多重大突破。
參考文獻(xiàn)
[1]梅宏.大數(shù)據(jù)發(fā)展現(xiàn)狀與未來趨勢[J].交通運(yùn)輸研究,2019,5 (05):1-11.
[2]林德明,陳超美,劉則淵,共被引網(wǎng)絡(luò)中介中心性的Zipf-Pareto分布研究[J].情報學(xué)報,2011 (1):76-82.鐘偉金,李佳,楊興菊,共詞分析法研究(三)一共詞聚類分析法的原理與特點(diǎn)[J].情報雜志,2008 (7):118-120.
[3]曾雷.大數(shù)據(jù)研究綜述[J].軟件導(dǎo)刊,201 5,14 (08):1-2.
[4]唐國宇,陸文成,大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J],電子技術(shù)與軟件工程,2017 (19):156-157.
[5]劉智慧,張泉靈,大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,48 (06):957-972.
[6]楊京,王效岳,白如江,祝娜,大數(shù)據(jù)背景下數(shù)據(jù)科學(xué)分析工具現(xiàn)狀及發(fā)展趨勢[J].情報理論與實踐,2015,38 (03):134-137+144.
作者簡介
聶恒輝(1993-),男,山東省濟(jì)南市人。碩士研究生。研究方向為訓(xùn)練評估。
陳大春(1971-)(通訊作者),男,浙江省東陽市人。副教授。研究方向為軍事教育。