趙曉明,張學(xué)強,曹嵐
(國網(wǎng)浙江省電力公司電力科學(xué)研究院,杭州310014)
基于關(guān)鍵詞的電力系統(tǒng)“大數(shù)據(jù)”與“云計算”專題文獻分析
趙曉明,張學(xué)強,曹嵐
(國網(wǎng)浙江省電力公司電力科學(xué)研究院,杭州310014)
簡要介紹了世界主要發(fā)達國家在“大數(shù)據(jù)”和“云計算”領(lǐng)域的研究進展。通過構(gòu)建檢索策略,從CNKI全文數(shù)據(jù)庫中檢索出電力系統(tǒng)“大數(shù)據(jù)”與“云計算”相關(guān)文獻3 000余篇,采用基于詞頻分析的方法,使用文獻題錄信息統(tǒng)計分析工具SATI從中抽取了百余個高頻關(guān)鍵詞,生成了詞頻共現(xiàn)矩陣,并通過Ucinet軟件繪制了高頻詞可視化圖譜。利用高頻詞表、詞頻共現(xiàn)矩陣和可視化圖譜可以分析和比較有關(guān)“大數(shù)據(jù)”與“云計算”的研究熱點和技術(shù)發(fā)展趨勢。
大數(shù)據(jù);云計算;詞頻分析;CNKI;SATI;Ucinet;詞頻共現(xiàn)矩陣;可視化圖譜
近年來,世界各國均將“大數(shù)據(jù)”和“云計算”技術(shù)視為增強國家競爭力的關(guān)鍵因素之一,并將大數(shù)據(jù)研究和生產(chǎn)計劃提升到國家戰(zhàn)略層面[1-2]。2012年9月美國白宮發(fā)布《大數(shù)據(jù)研究和發(fā)展計劃》,成立了大數(shù)據(jù)高級指導(dǎo)小組;2013年11月,美國信息技術(shù)與創(chuàng)新基金會發(fā)布了《支持數(shù)據(jù)驅(qū)動型創(chuàng)新的技術(shù)與政策》的報告;2014年5月美國發(fā)布《大數(shù)據(jù):把握機遇,守護價值》白皮書,對美國大數(shù)據(jù)應(yīng)用與管理的現(xiàn)狀、政策框架和改進建議進行了集中闡述。英國從2011年開始,持續(xù)對大數(shù)據(jù)領(lǐng)域進行專項資金投入,推動數(shù)據(jù)公開,積極促進大數(shù)據(jù)技術(shù)從科研向應(yīng)用領(lǐng)域轉(zhuǎn)化;2012年5月,支持建立了世界上首個開放式數(shù)據(jù)研究所ODI(The Open Data Institute),該機構(gòu)將人們感興趣的所有數(shù)據(jù)融會貫通在一起,每個行業(yè)的各個領(lǐng)域在產(chǎn)生各種數(shù)據(jù)的同時又可利用這些數(shù)據(jù)。法國通過發(fā)展創(chuàng)新性解決方案并將其用于實踐,來促進該國在大數(shù)據(jù)領(lǐng)域的發(fā)展;2011年7月,啟動“挖掘公共數(shù)據(jù)價值”項目;2013年2月,法國政府發(fā)布《數(shù)字化路線圖》,明確了大數(shù)據(jù)是未來要大力支持的戰(zhàn)略性高新技術(shù)。日本以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心,以務(wù)實的應(yīng)用開發(fā)為主;2012年6月,日本IT戰(zhàn)略本部發(fā)布電子政務(wù)開放數(shù)據(jù)戰(zhàn)略草案,邁出了政府?dāng)?shù)據(jù)公開的關(guān)鍵性一步,提出2013—2020年期間以發(fā)展開放公共數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略,要把日本建設(shè)成為一個具有“世界最高水準的廣泛運用信息產(chǎn)業(yè)技術(shù)的社會”。
中國也異常重視大數(shù)據(jù)領(lǐng)域研究,緊跟世界先進技術(shù)潮流和發(fā)展趨勢。以電力行業(yè)為例,2013年3月,中國電機工程學(xué)會針對目前電力企業(yè)和電力行業(yè)數(shù)據(jù)狀況,發(fā)布了《中國電力大數(shù)據(jù)發(fā)展白皮書》,電力行業(yè)的信息時代處在了關(guān)鍵的轉(zhuǎn)折點[3-4]。電力大數(shù)據(jù)與電力能量流動相生相伴,為電力資源優(yōu)化配置、能源效率水平提升、優(yōu)質(zhì)服務(wù)和輔助社會管理提供堅實的數(shù)據(jù)基礎(chǔ)和提升空間,電力工業(yè)生態(tài)由此將開啟嶄新的模式。
為助推浙江省電力行業(yè)中“大數(shù)據(jù)”和“云計算”工作的開展,開展了基于CNKI關(guān)鍵詞的電力系統(tǒng)“大數(shù)據(jù)”與“云計算”專題文獻分析,繪制了高頻詞可視化圖譜,利用高頻詞表、詞頻共現(xiàn)矩陣和可視化圖譜,分析了有關(guān)“大數(shù)據(jù)”與“云計算”的研究熱點與技術(shù)發(fā)展趨勢。
對文獻的關(guān)鍵詞進行分析,可以揭示其研究成果的總體特征、研究內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向等[5-8]。詞頻分析法在情報學(xué)與科學(xué)研究中用于描述和預(yù)測產(chǎn)業(yè)或?qū)W科熱點及發(fā)展趨勢[9]。詞頻的波動預(yù)示著學(xué)術(shù)研究熱點的切換和變化,而高頻詞頻則表征近期學(xué)術(shù)的研究熱點。
基于上述理論,首先構(gòu)建檢索策略并從CNKI全文數(shù)據(jù)庫中提取檢索到的文獻題錄。文獻題錄采用Endnote(*.txt)格式,這是全世界大多數(shù)期刊的題錄格式,它能按期刊的要求自動生成參考文獻。研究樣本選取CNKI中國知網(wǎng)全文數(shù)據(jù)庫2013年1月1日—2015年6月17日涉及大數(shù)據(jù)與云計算的相關(guān)文獻。具體檢索式為:主題=(電力+能源)AND主題=(大數(shù)據(jù)+云計算+云端+互聯(lián)網(wǎng)+APP+移動),檢索出相關(guān)文獻3 446篇,去重后2 986篇。之后使用文獻題錄信息統(tǒng)計分析工具SATI從檢索結(jié)果中抽取百余個高頻關(guān)鍵詞并進行詞頻統(tǒng)計,生成100*100和20*20詞頻共現(xiàn)矩陣和高頻詞頻次表。最后將生成的詞頻共現(xiàn)矩陣導(dǎo)入Ucinet軟件并繪制出高頻詞可視化圖譜。
3.1 高被引論文與高下載頻次論文
統(tǒng)計在電力系統(tǒng)“大數(shù)據(jù)”與“云計算”領(lǐng)域的高被引論文與高下載頻次論文,匯總于表1。從被引次數(shù)看,華北電力大學(xué)的宋亞奇因其開創(chuàng)性的研究成為該領(lǐng)域內(nèi)被引次數(shù)最多的論文作者,同時也是下載頻次最高的論文作者。在高被引論文TOP9中,華北電力大學(xué)有4篇,表明其在該研究領(lǐng)域處于領(lǐng)先地位。
3.2 高頻關(guān)鍵詞統(tǒng)計結(jié)果
通過SATI軟件統(tǒng)計分析出百余個高頻關(guān)鍵詞,其中詞頻達10以上的關(guān)鍵詞有36個(見表2)。去除研究對象“云計算”和“大數(shù)據(jù)”外,“智能電網(wǎng)”以122的詞頻排在第1位,說明在智能電網(wǎng)領(lǐng)域大數(shù)據(jù)與云計算技術(shù)應(yīng)用較多?!皣译娋W(wǎng)公司”詞頻排在第3位,說明國家電網(wǎng)公司在電力行業(yè)大數(shù)據(jù)應(yīng)用領(lǐng)域的研究較為積極。表2中涉及可再生能源的關(guān)鍵詞有“可再生能源”“新能源”“分布式能源”“分布式發(fā)電”“微網(wǎng)”等共計117個,是除智能電網(wǎng)領(lǐng)域外的第2大電力大數(shù)據(jù)應(yīng)用領(lǐng)域。高頻詞中“中國電科院”出現(xiàn)26次,是出現(xiàn)次數(shù)最多的科研機構(gòu)。
此外,在環(huán)境保護(環(huán)境壓力、節(jié)能減排)、電動汽車、能源互聯(lián)網(wǎng)、電力營銷、負荷預(yù)測等領(lǐng)域大數(shù)據(jù)研究也較為集中。表2中的關(guān)鍵詞,互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)涉及較多,說明當(dāng)今互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)成為大數(shù)據(jù)和云計算的主要載體,而大數(shù)據(jù)和云計算則是“互聯(lián)網(wǎng)+”的重要表現(xiàn)形式。
在研究方法中,Hadoop應(yīng)用得較多,Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),是典型的大數(shù)據(jù)批量處理架構(gòu)。Hadoop框架的核心是HDFS和MapReduce,由HDFS負責(zé)靜態(tài)數(shù)據(jù)的存儲,并通過MapReduce將計算邏輯分配到各數(shù)據(jù)節(jié)點進行數(shù)據(jù)計算和價值發(fā)現(xiàn),MapReduce編程模型具有在Web環(huán)境下批量處理大規(guī)模海量數(shù)據(jù)的優(yōu)異性能。
高頻關(guān)鍵詞中出現(xiàn)了“數(shù)據(jù)挖掘”和“數(shù)據(jù)中心”,可見數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)息息相關(guān),是大數(shù)據(jù)技術(shù)的主要內(nèi)容之一,其前提是具備海量的數(shù)據(jù)、先進的計算技術(shù)、海量的存儲能力、高速運算能力以及交叉學(xué)科的發(fā)展。數(shù)據(jù)挖掘的主要方法有分類、估計、預(yù)測、相關(guān)性(共現(xiàn))分析、聚類等。而數(shù)據(jù)中心則是一套包括計算機系統(tǒng)和配套設(shè)備(通信系統(tǒng)、存儲系統(tǒng)、供電系統(tǒng)、冷卻系統(tǒng)等)的大型網(wǎng)絡(luò)基礎(chǔ)設(shè)施,是大數(shù)據(jù)的載體、云計算的依托。國外已有采用直流供電形式的數(shù)據(jù)中心,如西蘇黎世數(shù)據(jù)中心,其直流供電在降低能耗方面效果顯著,值得國內(nèi)學(xué)者關(guān)注。
表1 高被引論文與高下載頻次論文TOP9
表2 高頻關(guān)鍵詞統(tǒng)計
3.3 關(guān)鍵詞共現(xiàn)矩陣
表2直觀地展現(xiàn)了近3年電力行業(yè)大數(shù)據(jù)及云計算的重點研究對象及其熱度,但是單一關(guān)鍵詞的出現(xiàn)頻度并不足以完全呈現(xiàn)研究對象的走向和趨勢,如果要進一步挖掘關(guān)鍵詞之間的關(guān)系,則需要進行“關(guān)鍵詞共現(xiàn)分析”。共現(xiàn),是指兩個關(guān)鍵詞同時出現(xiàn)在同一篇文獻中,若2個關(guān)鍵詞共現(xiàn)則說明它們之間存在著密切的關(guān)系,共現(xiàn)次數(shù)越多,關(guān)系越密切。利用CNKI數(shù)據(jù)庫檢索結(jié)果,以共現(xiàn)頻率為對象,采用文獻題錄信息統(tǒng)計分析工具SATI分析關(guān)鍵詞之間錯綜復(fù)雜的關(guān)系,生成不同顆粒度的共現(xiàn)矩陣,使所研究的問題和對象的動態(tài)趨勢可視化。
表3為高頻關(guān)鍵詞共現(xiàn)矩陣(7*7)表(節(jié)選),可以看出智能電網(wǎng)與大數(shù)據(jù)和云計算共現(xiàn)最多。
3.4 共現(xiàn)矩陣的可視化
將高頻關(guān)鍵詞共現(xiàn)矩陣導(dǎo)入Ucinet軟件并繪制出高頻詞可視化圖譜如圖1所示。圖中連線越密集表明關(guān)鍵詞之間的關(guān)系越密切,可以非常直觀地看出目前電力行業(yè)大數(shù)據(jù)和云計算的研究熱點領(lǐng)域。
表3 高頻關(guān)鍵詞共現(xiàn)矩陣(7*7)(節(jié)選)
圖1 高頻詞可視化圖譜
采用詞頻分析方法,結(jié)合軟件自動分析功能和手動去重、合并等技巧生成高頻詞表、詞頻共現(xiàn)矩陣和可視化圖譜,進而分析得到專題研究熱點和技術(shù)趨勢。研究方法中涉及的幾個關(guān)鍵問題總結(jié)如下:
(1)使用文獻題錄信息統(tǒng)計分析工具SATI,自動完成重復(fù)文獻去重工作。
(2)對軟件計算出的關(guān)鍵詞進行同義詞合并。
(3)對無實質(zhì)意義的詞進行去除處理。
在研究結(jié)果方面,電力系統(tǒng)“大數(shù)據(jù)”與“云計算”專題文獻情報分析表明:智能電網(wǎng)和可再生能源是電力大數(shù)據(jù)應(yīng)用的熱點研究領(lǐng)域,在環(huán)境保護、節(jié)能減排、電動汽車、能源互聯(lián)網(wǎng)、電力營銷、負荷預(yù)測等領(lǐng)域大數(shù)據(jù)研究也較為集中;在大數(shù)據(jù)與云計算研究方法中,Hadoop架構(gòu)體系涉及較多,值得研究人員關(guān)注。
[1]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014(09)∶1889-1908.
[2]張建華,吳恒,張文博,等.云計算核心技術(shù)研究綜述[J].小型微型計算機系統(tǒng),2013(11)∶2417-2424.
[3]彭小圣,鄧迪元,程時杰,等.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J].中國電機工程學(xué)報,2015(03)∶503-511.
[4]王繼業(yè),程志華,彭林,等.云計算綜述及電力應(yīng)用展望[J].中國電力,2014(07)∶108-112.
[5]魏瑞斌.基于關(guān)鍵詞的情報學(xué)研究主題分析[J].情報科學(xué),2006(9)∶1401-1406.
[6]錢軍,楊欣,楊娟.情報研究方法的聚類分析[J].情報科學(xué),2006(10)∶1561-1567.
[7]曹玲,楊靜,夏嚴.國內(nèi)競爭情報領(lǐng)域研究論文的共詞聚類分析[J].情報科學(xué),2010(06)∶923-925.
[8]崔雷.專題文獻高被引論文的時間分布與同被引聚類分析[J].情報學(xué)報,1995(01)∶54-61.
[9]紀盈如.移動互聯(lián)網(wǎng)時代中國媒體走向——基于CNKI文獻關(guān)鍵詞的詞頻分析[J].重慶工商大學(xué)學(xué)報(社會科學(xué)版),2013(05)∶93-99.
(本文編輯:方明霞)
Thematic Analysis of"Big Data"and"Cloud Computing"in Power System Based on Key Words
ZHAO Xiaoming,ZHANG Xueqiang,CAO Lan
(State Gird Zhejiang Electric Power Research Institute,Hangzhou 310014,China)
The paper briefly introduces big data and cloud computing research in major developed countries in the world.A retrieval strategy is established and more than 3,000 papers concerning big data and cloud computing in power system are retrieved from CNKI database.The method based on analysis of word frequency is adopted to extract more than 100 high frequency words from the papers using SATI(statistical analysis toolkit for informetrics)to generate co-occurrence matrix of word frequency and draw visualization map of high frequency words using Ucinet.By table of high frequency words,co-occurrence matrix of word frequency and visualization map,research hotspot and technical development trend in respect of"big data"and"cloud computing"can be analyzed and compared.
big data;cloud computing;word frequency analysis;CNKI;SATI;Ucinet;word frequency cooccurrence matrix;visualization map
TP317.2
:A
:1007-1881(2016)02-0027-04
2015-10-08
趙曉明(1976),男,高級工程師,從事電力科技信息服務(wù)工作。