●劉曉娟,謝素萍
(1.北京師范大學(xué)政府管理學(xué)院,北京100875;2.清華大學(xué)計(jì)算機(jī)與信息管理中心,北京100084)
基于共現(xiàn)分析的大數(shù)據(jù)熱點(diǎn)領(lǐng)域研究
●劉曉娟1,謝素萍2
(1.北京師范大學(xué)政府管理學(xué)院,北京100875;2.清華大學(xué)計(jì)算機(jī)與信息管理中心,北京100084)
大數(shù)據(jù);共現(xiàn)分析;社會(huì)網(wǎng)絡(luò)分析
以Scopus數(shù)據(jù)庫中1970~2013年間的“Big Data”相關(guān)數(shù)據(jù)作為分析對(duì)象,利用文獻(xiàn)計(jì)量分析工具Sci2,運(yùn)用基本的統(tǒng)計(jì)和共現(xiàn)分析方法,進(jìn)行論文發(fā)表時(shí)間、國(guó)別、文獻(xiàn)類型分布分析,以及合著分析、關(guān)鍵詞共現(xiàn)分析、共引分析,探討大數(shù)據(jù)研究的現(xiàn)狀、存在問題和發(fā)展趨勢(shì)。
2012年3月29日,美國(guó)政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議(Big Data Research and DevelopmentⅠnitiative)”,來推進(jìn)從大量的、復(fù)雜的數(shù)據(jù)集合中獲取知識(shí)的能力。該倡議涉及聯(lián)邦政府的6個(gè)部門,這些部門承諾投資將超過兩億美元,來大力推動(dòng)和改善與大數(shù)據(jù)相關(guān)的收集、組織和分析工具及技術(shù)。[1]2012年底,Gartner公司(美國(guó)的信息技術(shù)研究與咨詢公司)公布了一份關(guān)于2012~2013年技術(shù)曲線成熟度(Hype Cycles)的報(bào)告,其中大數(shù)據(jù)成為這一曲線的關(guān)注對(duì)象,并指出大數(shù)據(jù)的發(fā)展正處于期望膨脹期,在未來2-5年將迎來其發(fā)展高峰期。[2]據(jù)谷歌趨勢(shì)[3]的統(tǒng)計(jì),“Big Data”的搜索熱度從2010年底開始不斷上升,尤其是在2013年4月搜索熱度達(dá)到100,該數(shù)據(jù)的計(jì)算基礎(chǔ)是全球用戶將“Big Data”作為關(guān)鍵詞在Google中進(jìn)行網(wǎng)頁搜索的頻次,在一定程度上可以代表大眾對(duì)“Big Data”的關(guān)注度。2008年9月,《Nature》雜志出版了一期??癇ig Data”,2011年2月,《Science》期刊聯(lián)合其姊妹刊推出了一期關(guān)于數(shù)據(jù)處理的??癉ealing with data”。2012年9月,Elsevier的《Research Trends》雜志出版有關(guān)“Big Data”的專刊。種種跡象表明,無論是在企業(yè)界,還是在學(xué)術(shù)界,大數(shù)據(jù)均受到了熱切關(guān)注,成為熱點(diǎn)問題。
學(xué)術(shù)論文中的共現(xiàn)現(xiàn)象,包括共同出現(xiàn)的主題(關(guān)鍵詞)、共同出現(xiàn)的被引作者、共同出現(xiàn)的被引文獻(xiàn)、共同出現(xiàn)的合作機(jī)構(gòu)以及論文與關(guān)鍵詞、機(jī)構(gòu)與作者共同出現(xiàn)等在不同論文間構(gòu)建的關(guān)聯(lián)關(guān)系是分析領(lǐng)域基本狀態(tài)的重要方面。本文將科研熱點(diǎn)領(lǐng)域定位在“Big Data”領(lǐng)域,利用共現(xiàn)分析方法,對(duì)該科研熱點(diǎn)進(jìn)行關(guān)鍵詞共現(xiàn)、作者合著、論文同被引等多角度分析。
為了構(gòu)建“Big Data”研究領(lǐng)域的數(shù)據(jù)集,盡管其他短語如“l(fā)arge datasets”或“big size data”可能與“big data”所指的概念相同,但本文所限定的研究領(lǐng)域是當(dāng)前作為研究熱點(diǎn)的“big data”本身,所以檢索詞僅限于“big data”。筆者于2013年3月23日分別對(duì)Scopus和WoS兩個(gè)數(shù)據(jù)源進(jìn)行檢索,檢索字段分別為“標(biāo)題+摘要+關(guān)鍵詞”,“主題+標(biāo)題”,獲得檢索結(jié)果分別為769條和237條記錄。盡管WoS的數(shù)據(jù)更加規(guī)范,易于處理,但文獻(xiàn)數(shù)量遠(yuǎn)少于Scopus,不利于全面分析,因此本文選擇Scopus數(shù)據(jù)集作為分析對(duì)象。對(duì)檢索結(jié)果進(jìn)一步人工檢查,刪除1970年以前的2條數(shù)據(jù)以及4條重復(fù)數(shù)據(jù)(題名與作者均相同),共得到763條有效數(shù)據(jù)。
目前,國(guó)內(nèi)對(duì)共現(xiàn)分析的相關(guān)研究主要采用的工具包括文獻(xiàn)計(jì)量軟件Bibexcel、社會(huì)科學(xué)統(tǒng)計(jì)軟件包SPSS、引文網(wǎng)絡(luò)可視化軟件CiteSpace、社會(huì)網(wǎng)絡(luò)分析軟件Ucinet、Netminer和Pajek等,這些軟件各有優(yōu)劣。美國(guó)Ⅰndiana大學(xué)所開發(fā)的NWB(NetworkWorkbench)[4]與Sci2(Science of Science Tool)[5]軟件在國(guó)內(nèi)的文獻(xiàn)中有一定的介紹,[6]但在公開發(fā)表的文獻(xiàn)中鮮有利用這兩個(gè)工具進(jìn)行共現(xiàn)分析研究。NWB很好地集成了許多常用的網(wǎng)絡(luò)分析和科學(xué)計(jì)量的分析算法,用戶可以根據(jù)自己的需求進(jìn)行分析對(duì)象和分析方法的任意組配,分析過程非常靈活。Sci2是對(duì)NWB在科學(xué)計(jì)量、文獻(xiàn)計(jì)量分析領(lǐng)域的定制和擴(kuò)展,支持基于時(shí)間序列、地理位置、網(wǎng)絡(luò)分析等多層面的文獻(xiàn)分析,提供科學(xué)文獻(xiàn)的宏觀、中觀和微觀的可視化分析。經(jīng)過多個(gè)工具的調(diào)研和比對(duì),出于綜合性、靈活性的考慮,本文最終采用Sci2進(jìn)行關(guān)鍵詞共現(xiàn)、合著分析和共引分析,而在可視化分析中,利用Sci2所集成的Gephi軟件,其功能豐富,使用靈活,是當(dāng)前非常流行的網(wǎng)絡(luò)分析工具。
科學(xué)準(zhǔn)確的數(shù)據(jù)是共現(xiàn)分析的基礎(chǔ),從Scopus中獲取的文獻(xiàn)集合存在諸多不規(guī)范的因素,盡管Sci2提供了對(duì)作者等數(shù)據(jù)進(jìn)行合并清理的功能,但自動(dòng)清理達(dá)不到共現(xiàn)分析的要求。因此,本文采用手工處理的方式進(jìn)行數(shù)據(jù)預(yù)處理,包括:(1)統(tǒng)一人名表達(dá)規(guī)范,對(duì)作者的姓名,尤其是亞洲人的姓名進(jìn)行補(bǔ)齊并加以區(qū)分。如數(shù)據(jù)集中姓名為“Li,X.”的作者頻次為9,但實(shí)際上“Li,X.”代表了多個(gè)本不重名的作者;(2)統(tǒng)一參考文獻(xiàn)的著錄格式,使引文分析結(jié)果更加準(zhǔn)確;(3)提取及規(guī)范國(guó)家名稱,增加一個(gè)字段,其值為該文獻(xiàn)的第一作者的國(guó)家名稱;(4)將關(guān)鍵詞進(jìn)行清洗、合并,統(tǒng)一關(guān)鍵詞的單復(fù)數(shù),將同義詞進(jìn)行合并。
圖1是有關(guān)大數(shù)據(jù)的研究論文的逐年分布圖,2008年至今,論文數(shù)量一直處于上升勢(shì)頭,尤其是2012年的論文數(shù)量急劇增長(zhǎng)。由于檢索時(shí)間為2013年3月23日,所以2013年的數(shù)據(jù)還不完整,但可以預(yù)計(jì),隨著企業(yè)界和科研領(lǐng)域?qū)Υ髷?shù)據(jù)研究的關(guān)注,未來的論文數(shù)量還將繼續(xù)增長(zhǎng)。圖2是論文數(shù)量的國(guó)家分布圖,其中排在前5名的國(guó)家為美國(guó)、中國(guó)、日本、德國(guó)和韓國(guó),其中美國(guó)的論文數(shù)量幾乎達(dá)到總數(shù)的一半。從圖1和圖2中可以看出大數(shù)據(jù)相關(guān)研究的熱度,而這與以美國(guó)為代表的多個(gè)國(guó)家自2012年以來對(duì)大數(shù)據(jù)研究的經(jīng)濟(jì)投入、政策導(dǎo)向密不可分。從類型分布來看,Conference Paper(402篇)、Article(222篇)、Conference Review(34篇)、Review(29篇)、Article in Press(22篇)、Short Survey(18篇)、Note(17篇)、Editorial(11篇)、Letter(8篇),會(huì)議論文幾乎達(dá)到期刊論文的2倍,而從Scopus本身提供的分析工具可以看出,有關(guān)大數(shù)據(jù)研究的論文主題分布中,排名top5的為計(jì)算機(jī)科學(xué)、工程、數(shù)學(xué)、經(jīng)管和社會(huì)科學(xué),其中計(jì)算機(jī)科學(xué)類幾乎達(dá)到工程類的3.5倍,由于計(jì)算機(jī)領(lǐng)域的研究人員更偏好及重視會(huì)議論文的發(fā)表,因此,這是造成會(huì)議論文數(shù)量較多的原因之一。
合著分析方法是指分析在學(xué)術(shù)研究中作者合著的情況,從中可以看出在某一學(xué)科領(lǐng)域中的研究人員分布、結(jié)構(gòu)關(guān)系和學(xué)科發(fā)展現(xiàn)狀。合著的作者被認(rèn)為是在地域上或?qū)W科研究上比較熟悉的人員。[7]Sci2可以非常靈活地基于不同的角度對(duì)合著網(wǎng)絡(luò)進(jìn)行分析。數(shù)據(jù)剔除46篇缺少作者信息的文獻(xiàn)后,共析出2125位作者,其中論文數(shù)量只有一篇的作者為1954位,占92%;論文數(shù)量在3篇以上的作者僅有8位,如表1所示。僅從作者產(chǎn)出數(shù)量來看,由于大數(shù)據(jù)研究尚在新興發(fā)展階段,因此,尚無論文數(shù)量非常多的高產(chǎn)作者。表1中前四位和第六位作者同屬中國(guó)人民大學(xué)的數(shù)據(jù)工程與知識(shí)工程實(shí)驗(yàn)室,可以看出該實(shí)驗(yàn)室對(duì)于大數(shù)據(jù)研究的重視。
圖1 論文數(shù)量的年代分布
圖2 論文數(shù)量的國(guó)家分布
圖3 合著網(wǎng)絡(luò)
表1 論文數(shù)量大于3的作者
利用Sci2構(gòu)建合著網(wǎng)絡(luò),網(wǎng)絡(luò)密度(反映節(jié)點(diǎn)間聯(lián)系的緊密程度)為0.0021,表示該合著網(wǎng)絡(luò)比較稀疏,研究人員之間的科研合作并不廣泛。為了重點(diǎn)關(guān)注合作比較緊密的作者群,對(duì)網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)化,只關(guān)注合著2次以上的合著網(wǎng)絡(luò)(116個(gè)節(jié)點(diǎn)和166條邊),利用Sci2所集成的Gephi工具進(jìn)行可視化展現(xiàn)。經(jīng)過Gephi所提供的社區(qū)檢測(cè)算法,將合著網(wǎng)絡(luò)中所有的節(jié)點(diǎn)分成了35個(gè)子群,圖3為子群規(guī)模top10的合著網(wǎng)絡(luò),節(jié)點(diǎn)大小表示該節(jié)點(diǎn)本身的權(quán)威性,在網(wǎng)絡(luò)中起到的重要作用。從圖3可以看出,最大的子群包括了11個(gè)節(jié)點(diǎn),除Zhang Y.-s.外,其余作者單位都是中國(guó)人民大學(xué)數(shù)據(jù)工程與知識(shí)工程實(shí)驗(yàn)室,而且其中有六位作者論文數(shù)量大于3。由此可見,該實(shí)驗(yàn)室中有一支團(tuán)隊(duì)的研究工作重點(diǎn)在大數(shù)據(jù)領(lǐng)域,但其與其他機(jī)構(gòu)的合作并不明顯,其中Wang S.和Zhou Xuan是屬于在這個(gè)合著網(wǎng)絡(luò)中權(quán)威性較高的節(jié)點(diǎn)。Campbell R.h.在所在的網(wǎng)絡(luò)中權(quán)威性最高,而他也是兩個(gè)子網(wǎng)絡(luò)的紐帶,將伊利諾伊大學(xué)香檳分校和美國(guó)惠普公司實(shí)驗(yàn)室、雅虎公司等企業(yè)聯(lián)系起來,顯示了大學(xué)與企業(yè)之間的科研合作關(guān)系。在Poess M.、Rabl T.等人構(gòu)成的合著網(wǎng)絡(luò)中,五名作者分別來自O(shè)racel公司、Cisco公司、圣地亞哥超級(jí)計(jì)算機(jī)中心、EMC公司、多倫多大學(xué),由此可見多個(gè)企業(yè)及大學(xué)在大數(shù)據(jù)領(lǐng)域的緊密合作。其余合著網(wǎng)絡(luò)比較單一,合作者皆來自同一機(jī)構(gòu)。
共詞分析法利用文獻(xiàn)中詞匯對(duì)或名詞短語共同出現(xiàn)的情況,來確定該文獻(xiàn)集所代表學(xué)科中各主題之間的關(guān)系。如果詞匯在同一篇文章中出現(xiàn)的次數(shù)越多,則代表這兩個(gè)主題的關(guān)系越緊密。Scopus提供的數(shù)據(jù)中包括Author Keywords和Ⅰndex Keywords兩個(gè)關(guān)鍵詞字段,前者是筆者添加的關(guān)鍵詞,后者是由Scopus在收錄時(shí)標(biāo)引的關(guān)鍵詞,在一定程度上屬于受控關(guān)鍵詞。本文將對(duì)這兩個(gè)關(guān)鍵詞字段分別構(gòu)建共詞網(wǎng)絡(luò)進(jìn)行比較分析。表2為兩組Top10高頻詞,可以看出,其中有四個(gè)關(guān)鍵詞完全重復(fù),但詞頻有明顯差別,說明Scopus對(duì)文章內(nèi)容進(jìn)行了更為詳細(xì)的標(biāo)引。不重合的另外六個(gè)關(guān)鍵詞可以分為兩類,一類是在Author Keywords中匹配不到的,如“ⅠnformationManagement”,但其下位類“EnterpriseⅠnformation Management”、“Cross-channelⅠnformation Management”包含在Author Keywords中;另一類是在AuthorKeywords中也有相同的關(guān)鍵詞,但詞頻較小,如“DigitalStorage”,詞頻僅為1。這進(jìn)一步說明Scopus對(duì)文獻(xiàn)的標(biāo)引要比作者本身更詳盡,這一點(diǎn)在表3中也可以充分體現(xiàn)。然而,經(jīng)過初步分析及人工查證后,發(fā)現(xiàn)Ⅰndex Keywords也存在一定問題。首先,Ⅰndex Keywords中存在很多重復(fù)標(biāo)引;其次,存在priority journal、letter、note、article等與文章內(nèi)容無關(guān)的關(guān)鍵詞;最后,雖然可能作者提供的關(guān)鍵詞不是非常規(guī)范,但最熟悉文章主題的仍然是作者本人,所以其他人所標(biāo)引的關(guān)鍵詞在準(zhǔn)確性方面略差??傊?,兩類關(guān)鍵詞各有利弊,本文分別利用Author Keywords和Ⅰndex Keywords進(jìn)行共詞分析,為了簡(jiǎn)化網(wǎng)絡(luò),見表3,說明所示兩個(gè)網(wǎng)絡(luò)的屬性不同,并分別采取不同的方法。圖4為抽取Top 100 Edges的Ⅰndex Keywords共詞網(wǎng)絡(luò),圖5為抽取Top 100 Nodes的Author Keywords共詞網(wǎng)絡(luò),并都進(jìn)行了社區(qū)檢測(cè)計(jì)算,節(jié)點(diǎn)大小與詞頻相關(guān)。
表2 Top10高頻詞(Author Keywords/Ⅰndex Keywords)
表3 共詞網(wǎng)絡(luò)基本屬性
圖4重點(diǎn)觀察共現(xiàn)次數(shù)較多,即聯(lián)系緊密的關(guān)鍵詞,該網(wǎng)絡(luò)共分為5個(gè)子群,最大的子群是以“Big Data”為中心,與其顯著關(guān)聯(lián)的有“Mapreduce”、“Ⅰnformation Management”、“Data Mining”、“Digital Storage”、“Data Processing”、“Data Sets”、“Algorithms”、“Database Systems”、“Cloud Computing”等,幾乎與表2中所列的“關(guān)鍵詞2”重合,由此可見,目前對(duì)于大數(shù)據(jù)的研究,集中在大數(shù)據(jù)的存儲(chǔ)、處理等方面。除“Biology”及“Computational Biology”組成的子群外,其他子群均與“Big Data”存在關(guān)聯(lián)?!阿駈ternet”所在的子群體現(xiàn)有關(guān)因特網(wǎng)上的大數(shù)據(jù)及其分析計(jì)算的研究?!癏uman”所在的子群表明很多研究關(guān)注人類醫(yī)療、健康信息的分析和利用,尤其是在美國(guó)?!阿鮥sualization”所在的子群說明可視化技術(shù)在大數(shù)據(jù)研究中的重要性,大數(shù)據(jù)時(shí)代為可視化發(fā)展提供了新的契機(jī)。而“Biology”所在的子群則是代表計(jì)算生物學(xué)等研究在大數(shù)據(jù)環(huán)境下有了新的發(fā)展??傊髷?shù)據(jù)領(lǐng)域的很多研究熱點(diǎn)其實(shí)在“Big Data”這個(gè)概念出現(xiàn)之前就已發(fā)展到了一定階段,但隨著數(shù)據(jù)量的增大、存儲(chǔ)和計(jì)算能力的增強(qiáng),各個(gè)學(xué)科的發(fā)展有了新的變化。
圖4 Ⅰndex Keywords Top100 edges共詞網(wǎng)絡(luò)
圖5 Author Keywords Top100 nodes共詞網(wǎng)絡(luò)
圖5 重點(diǎn)觀察高頻詞,該網(wǎng)絡(luò)分為6個(gè)子群,與“Big Data”有顯著關(guān)系的是“Mapreduce”、“Cloud Computing”、“Data Mining”、“Hadoop”等關(guān)鍵詞,但這些詞并不屬于同一個(gè)子群,“Mapreduce”和“Hadoop”所在的子群還包括“Performance”、“Hbase”、“Key-value Stores”、“Fpga”、“OLAP”、“Database”等關(guān)鍵詞。Apache Hadoop是一個(gè)開源項(xiàng)目,已成為大數(shù)據(jù)行業(yè)發(fā)展背后的驅(qū)動(dòng)力,帶來了廉價(jià)的處理大數(shù)據(jù)的能力。Google MapReduce是Hadoop架構(gòu)的一個(gè)主要組件,是針對(duì)大數(shù)據(jù)的靈活的并行數(shù)據(jù)處理框架,這一點(diǎn)從“Mapreduce”和“Hadoop”兩個(gè)關(guān)鍵詞之間的連線可以看出。Hbase也是Hadoop的主要組件,是Key-value數(shù)據(jù)庫。這個(gè)子群說明有部分研究者非常關(guān)注大數(shù)據(jù)相關(guān)分析工具的研究與利用。而在以“Big Data”為中心的最大子群中,大數(shù)據(jù)與云計(jì)算的關(guān)系一目了然。云計(jì)算與大數(shù)據(jù)是相輔相成的,云計(jì)算為大數(shù)據(jù)提供了有力的工具和途徑,大數(shù)據(jù)為云計(jì)算提供了很有價(jià)值的用武之地。在這個(gè)最大子群中,包括大數(shù)據(jù)研究的多方面,如“Data Mining”、“Data Storage”、“Data Analysis”、“DataⅠntegration”、“Data Management”等數(shù)據(jù)分析處理流程研究;“Social Media”、“Social Network”、“Twitter”等基于社會(huì)媒體中的大數(shù)據(jù)研究;“Sampling”“Modeling”、“Clustering”、“Ⅴisualization”等具體的大數(shù)據(jù)處理方法??傊捎诖髷?shù)據(jù)所涉及的領(lǐng)域非常廣泛,而各方面研究融合也非常緊密,然而未發(fā)展到學(xué)科體系非常清晰的階段,所以這個(gè)子群中包含了網(wǎng)絡(luò)中一半以上節(jié)點(diǎn)。Web2.0網(wǎng)站的興起使非關(guān)系型的數(shù)據(jù)庫成為研究熱點(diǎn),而Nosql就是典型代表,因此有一部分研究圍繞著“Nosql”來展開,體現(xiàn)在包含“Nosql”、“Web 2.0”、“Cloud Database”、“Sentiment Analysis”等關(guān)鍵詞的子群中。網(wǎng)絡(luò)中右側(cè)“Text Mining”、“Term Normalization”等關(guān)鍵詞構(gòu)成的子群說明大數(shù)據(jù)研究中,文本的處理和挖掘也是非常重要的方面。在網(wǎng)絡(luò)中,還有一個(gè)比較突出及相對(duì)獨(dú)立的是右上方的子群,包含了“Telecommunication”、“EconomicⅠssues”、“Ⅰnformation Society”、“Education”等關(guān)鍵詞,這部分研究主要體現(xiàn)了大數(shù)據(jù)在當(dāng)今社會(huì)多行業(yè)的熱度。
“共(被)引”就是兩篇文獻(xiàn)被同一篇文章引用的情況,說明這兩篇文獻(xiàn)之間存在一定的關(guān)聯(lián)性。在共引的概念下兩篇文獻(xiàn)的相似性取決于同時(shí)引用它們的文獻(xiàn)數(shù)量。利用Sci2的Data Preparation→Extract Directed Network功能得到文獻(xiàn)與被引文獻(xiàn)的有向網(wǎng),再利用Extract Document Co-Citation Network得到一個(gè)文獻(xiàn)與文獻(xiàn)相互連接的復(fù)雜帶權(quán)重的知識(shí)域網(wǎng)絡(luò)??紤]論文篇幅關(guān)系,表4只列出了被引頻次Top5的文獻(xiàn)列表,而從這些高被引文獻(xiàn)來看,多側(cè)重大數(shù)據(jù)分析工具,如Mapreduce、Hadoop、Pig等,文獻(xiàn)的作者多屬于Google、Yahoo等公司,可見企業(yè)界在大數(shù)據(jù)的相關(guān)研究中起到了非常重要的引領(lǐng)作用。
表4 Top5高被引文獻(xiàn)
由于網(wǎng)絡(luò)過于龐大,本文抽取了被引頻次Top 50的節(jié)點(diǎn)進(jìn)行觀察,并利用Fast Pathfinder Network Scaling功能對(duì)網(wǎng)絡(luò)的邊進(jìn)行修剪,對(duì)簡(jiǎn)化后的網(wǎng)絡(luò)進(jìn)行Gephi可視化處理,社區(qū)檢測(cè)計(jì)算后得到6個(gè)子群,節(jié)點(diǎn)的大小與HⅠTS算法得到的Hub值相關(guān),最后得到圖6所示的網(wǎng)絡(luò)。從圖6可以看出,表4中的文獻(xiàn)1與其余4篇文獻(xiàn)之間分別都有高權(quán)重的邊,但4篇文獻(xiàn)之間并無顯著關(guān)聯(lián)。節(jié)點(diǎn)的大小代表了節(jié)點(diǎn)在網(wǎng)絡(luò)中的中心度,節(jié)點(diǎn)越大,其作為樞紐的作用便越大,文獻(xiàn)1、5、4、2以及Pavlo A.所著的“A Comparison Of Approaches To Large-scale Data Analysis”、Jiang D.等所著的“The Performance Of Mapreduce:AnⅠn-depth Study”等文獻(xiàn)均處于比較重要的地位,這也是后續(xù)研究的重要參考文獻(xiàn)。文獻(xiàn)2作為樞紐文獻(xiàn),連接了文獻(xiàn)1和Apache Hive、Apache Pig,這也與Mapreduce、Hive和Pig同屬Hadoop的核心技術(shù)這一相互關(guān)系是一致的。在Top50的文獻(xiàn)中,出版時(shí)間最早的是1992年P(guān)age L.等人對(duì)于Pagerank算法的論述,年代較新的文獻(xiàn)是2011年的兩篇文獻(xiàn),文獻(xiàn)主要集中在2009年和2010年。較新的文獻(xiàn)還未被其他文獻(xiàn)所發(fā)現(xiàn)和關(guān)注,同時(shí)這些文獻(xiàn)也是此后大數(shù)據(jù)研究飛速發(fā)展的重要基礎(chǔ)。網(wǎng)絡(luò)中最大的子群是以文獻(xiàn)1為中心,其他子群也與之緊密關(guān)聯(lián),但規(guī)模較小,并經(jīng)過文獻(xiàn)查證,這些高被引文獻(xiàn)大多都是對(duì)于大數(shù)據(jù)分析處理工具的論述,這是大數(shù)據(jù)研究的重點(diǎn),它們之間的聯(lián)系也體現(xiàn)了大數(shù)據(jù)分析需要多種技術(shù)共同配合完成。
盡管大數(shù)據(jù)正處于飛速發(fā)展之中,但分析結(jié)果可以在一定程度上揭示大數(shù)據(jù)相關(guān)研究的進(jìn)展和趨勢(shì)??偟膩砜矗贸鲆韵陆Y(jié)論。
圖6 Top50 Nodes共引網(wǎng)絡(luò)
(1)論文里所構(gòu)建的共現(xiàn)網(wǎng)絡(luò)有一個(gè)共同的特點(diǎn),即網(wǎng)絡(luò)密度都不大,這說明各個(gè)節(jié)點(diǎn)之間的聯(lián)系并不緊密,這主要是由于大數(shù)據(jù)研究的發(fā)展尚在初期階段,發(fā)展時(shí)間較短,也與大數(shù)據(jù)研究具有跨學(xué)科的性質(zhì)有關(guān),使得各個(gè)網(wǎng)絡(luò)都比較分散。
(2)不論是從關(guān)鍵詞共現(xiàn)還是共引分析,結(jié)論都體現(xiàn)出大數(shù)據(jù)分析處理技術(shù)是研究重點(diǎn),這是由于在當(dāng)前作為研究熱點(diǎn)的大數(shù)據(jù),主要是由于互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)和物聯(lián)網(wǎng)的迅猛發(fā)展。
(3)從兩類關(guān)鍵詞的分析結(jié)果可以看出,云計(jì)算與大數(shù)據(jù)的緊密聯(lián)系,可以說“云”和“大數(shù)據(jù)”有著唇亡齒寒的關(guān)系,它們?cè)谀撤N程度上可以起到互相支撐的作用。因此,一方面可以從云計(jì)算發(fā)展的良好勢(shì)頭推斷出大數(shù)據(jù)未來發(fā)展的熱度,另一方面也要在進(jìn)行大數(shù)據(jù)研究時(shí)對(duì)云計(jì)算加以重視。
(4)從發(fā)文量的國(guó)家分布、合著分析及共引分析中可以看出中美兩國(guó)的對(duì)比。美國(guó)的總發(fā)文量是中國(guó)的三倍之多;從論文數(shù)量大于3的作者群來看,中國(guó)作者的數(shù)量居多;高被引文獻(xiàn)中,幾乎都是來自美國(guó)。這些結(jié)論的得出,有以下原因:第一,美國(guó)毫無置疑的是大數(shù)據(jù)研究的先行者,無論是從企業(yè)界、學(xué)術(shù)界還是政府,都對(duì)大數(shù)據(jù)投入巨大;第二,中國(guó)已經(jīng)意識(shí)到大數(shù)據(jù)的重要性,研究人員要把握契機(jī);第三,表1中中國(guó)作者的論文發(fā)表時(shí)間多為2011年和2012年,來源為會(huì)議集和國(guó)內(nèi)的期刊,這在一定程度上局限了論文的影響力,在后續(xù)研究中,中國(guó)不僅應(yīng)在論文數(shù)量上不斷進(jìn)步,更應(yīng)該提高論文質(zhì)量。
(5)從合著分析和共引分析可以看出,企業(yè)界對(duì)于大數(shù)據(jù)研究的重視、投入和貢獻(xiàn)。大數(shù)據(jù)的研究起源于企業(yè)界的實(shí)際需求,尤其是Google和Yahoo,發(fā)展過程中企業(yè)界和學(xué)術(shù)界共同合作,使得研究方向緊密切合需求,而不是空中樓閣。這種科研模式是國(guó)內(nèi)科研發(fā)展需要借鑒的思路。
(6)通過對(duì)關(guān)鍵詞共現(xiàn)和共引分析發(fā)現(xiàn),盡管相關(guān)技術(shù)的研究占了不小的比重,但大數(shù)據(jù)在各種應(yīng)用領(lǐng)域的研究也逐步增多,很多論文是來自計(jì)算機(jī)科學(xué)之外的方向,包括經(jīng)濟(jì)、社會(huì)科學(xué)、醫(yī)學(xué)、生物、環(huán)境等,可以說各行各業(yè)都會(huì)遇到大數(shù)據(jù),對(duì)其利用和處理的需求越來越強(qiáng)烈,這將是未來研究的熱點(diǎn)。
[1]Obama Administration Unveils"Big Data"Ⅰnitiative:Announces$200Million in New R&DⅠnvestments[EB/ OL].[2013-06-10].http://www.whitehouse.gov/blog/ 2012/03/29/big-data-big-deal.
[2]Jackie Fenn,Hung Le Hong.Emerging Technologies Hype Cycle:Whats Hot for 2012 to 2013[EB/OL].[2013-06-10].http://public.brighttalk.com/resource/ core/3297/september_19_hype_cycle_2012-fen_-lehon g_6009.pdf.
[3]Google趨勢(shì)[EB/OL].[2013-06-20].http://www. google.com/trends/.
[4]Network Workbench[EB/OL].[2013-06-06]. http://nwb.cns.iu.edu/.
[5]Sci2Tool[EB/OL].[2013-06-06].https://sci2. cns.iu.edu/user/index.php.
[6]楊思洛,韓瑞珍.國(guó)外知識(shí)圖譜繪制的方法與工具分析[J].圖書情報(bào)知識(shí),2012(6):101-109.
[7]馮博,劉佳.大學(xué)科研團(tuán)隊(duì)知識(shí)共享的社會(huì)網(wǎng)絡(luò)分析[J].科學(xué)學(xué)研究,2007(6):1156-1163.
G250.252;G252.8
A
1005-8214(2014)09-0040-06
劉曉娟(1980-),女,博士,北京師范大學(xué)政府管理學(xué)院副教授;謝素萍(1979-),女,碩士,清華大學(xué)計(jì)算機(jī)與信息管理中心工程師。
2013-10-08[責(zé)任編輯]邵晉蓉
本文系國(guó)家社科基金“基于網(wǎng)絡(luò)計(jì)量方法的熱點(diǎn)WEB空間研究(項(xiàng)目編號(hào):09CTQ028)”的項(xiàng)目成果之一;中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2011北京師范大學(xué)自主科研項(xiàng)目“基于共現(xiàn)的研究熱點(diǎn)監(jiān)測(cè)與分析”)資助項(xiàng)目。