●趙建保,黃曉斌(.廣東農工商職業(yè)技術學院計算機系,廣州50507;.中山大學資訊管理學院,廣州50006)
基于Citespace的大數(shù)據(jù)研究可視化分析
●趙建保1,黃曉斌2
(1.廣東農工商職業(yè)技術學院計算機系,廣州510507;2.中山大學資訊管理學院,廣州510006)
大數(shù)據(jù);CiteSpace;可視分析;知識圖譜
以ISI Web of Knowledge數(shù)據(jù)庫中2008~2014年間大數(shù)據(jù)為主題的1547條引文為研究對象,并以CiteSpace作為信息可視化工具,繪制了國家、機構和研究熱點知識圖譜,揭示了大數(shù)據(jù)的學科屬性、研究力量、研究演進和研究熱點.
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡等技術和應用的興起,信息化與工業(yè)化的深度融合,數(shù)據(jù)產生已經(jīng)從被動轉向了自動階段,數(shù)據(jù)源越來越多,數(shù)據(jù)精度越來越高,數(shù)據(jù)呈現(xiàn)了規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)、真實性(Veracity)、價值性(value)、匯聚性(Aggregate)的特征,大數(shù)據(jù)必將廣泛應用于金融、商業(yè)、科學研究、消費行業(yè)等領域.已有的數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)分析模式已難以滿足大數(shù)據(jù)的需求,理清學界業(yè)界近幾年大數(shù)據(jù)研究力量、研究路徑和研究熱點,對科研管理、決策和開發(fā)尤其必要.
2014年8月27日使用檢索式為"TOPIC:(big+data)Timespan:2008-2014.Indexes:SCI-EXPANDED, CPCI-S,CPCI-SSH."對Web of Science進行主題檢索,2008~2014年共發(fā)表1547篇文獻;其中2008~2011年72篇,2012~2014年1475篇;2012年233篇,2013年859篇,2014年383篇,從2012年以來大數(shù)據(jù)研究力量驟增,研究成果較2011年增長了9倍多.
從WoS提供的研究領域劃分看,計算機科學881篇,工程536篇,電信125篇,說明大數(shù)據(jù)學科性質是計算機科學技術.從文獻類型方面會議論文(PROCEEDINGS PAPER)807篇,期刊論文(ARTICLE)472篇,其他類型文獻279篇.
設置CiteSpace參數(shù)生成2008~2014年間國家合作圖譜,顯示了大數(shù)據(jù)研究主要有美國(572篇)、中國(248篇)、德國(72篇)、英國、韓國、澳大利亞、日本等,美國和中國大數(shù)據(jù)研究起步較早,發(fā)文量較大.從國家合作看,國家間合作普遍開始于2013年之后,國家間合作呈現(xiàn)非網(wǎng)絡結構,說明國家間合作以單邊合作為主,多邊合作較少.
設置Citespace參數(shù)生成機構合作圖譜,顯示國內外主要大數(shù)據(jù)研究機構有中國科學院、麻省理工學院、南加利福尼亞大學和加州大學洛杉磯分校等,研究機構發(fā)文量統(tǒng)計如表1所示.
表1 研究機構發(fā)文量排名
可劃分為以中國科學院、麻省理工學院和南加利福尼亞大學三大學術合作群體.其中,中國科學院與北京大學、北京理工大學等研究機構開展了合作,麻省理工學院與加州理工學院(CALTECH)、卡內基梅隆大學(Carnegie Mellon University)等研究機構開展了合作,南加利福尼亞大學跟加州大學洛杉磯分校(Univ Calif Los Angeles)等研究機構開展了合作.
從大數(shù)據(jù)研究的代表人物看,排前3位的分別是Jeffrey Dean、Tom White和Angela Hung Byers.Jeffrey Dean是Google公司Knowledge Group研究員, 2009年當選美國工程院院士,研究方向為大規(guī)模分布式系統(tǒng)、信息檢索、機器學習等.1999年加入Google后參與了Google廣告服務系統(tǒng)、Google爬蟲、索引和查詢服務系統(tǒng)、MapReduce、BigTable等眾多Google的核心產品設計和實現(xiàn).主要學術研究成果有和等.其中的谷歌學術顯示的被引數(shù)高達11505次,影響力極高.Tom White是暢銷書的作者,從2007年2月?lián)蜛pache Hadoop項目負責人,是A-pache軟件基金會的成員之一.Angela Hung Byers是2011年麥肯錫全球研究院調研報告《大數(shù)據(jù):創(chuàng)新、競爭和生產力的下一個新領域》的項目負責人.
演進路徑是研究領域的知識基礎和前沿隨時間演進的動態(tài)過程.知識基礎以經(jīng)典文獻和關鍵文獻為骨架構成,為研究領域演進提供動力和基礎.2008~ 2013年經(jīng)典文獻如表2所示.
表2 大數(shù)據(jù)研究領域經(jīng)典文獻
結合WoS 大數(shù)據(jù)文獻分布規(guī)律,參照新興技術研究的特點和發(fā)展范式,可把2014 年之前的大數(shù)據(jù)研究劃分為萌生期(1980 ~2008) 和快速發(fā)展期(2009~2013) 二個階段。
萌生期(1980~2008 年)。1980 年3 月, Alvin Toffler 在《第三次浪潮》一書中預言大數(shù)據(jù)將是“第三次浪潮的華彩樂章”。2008 年1 月,Google 公司Jeffrey Dean 和Sanjay Ghemawat 在發(fā)表了
以谷歌大數(shù)據(jù)處理為例介紹了MapReduce 編程模型在處理各種大數(shù)據(jù)任務的可用性及數(shù)據(jù)處理模式,即程序員通過指定Map 函數(shù)和Reduce 函數(shù),底層系統(tǒng)會自動實現(xiàn)大規(guī)模集群的并行計算,并自動處理機器故障和調度機間的通信,有效地利用網(wǎng)絡和磁盤資源。[1]9 月Nature 推出了大數(shù)據(jù)??教岢隽舜髷?shù)據(jù)概念,[2]Doug Howe等在??邪l(fā)表文章,提出應對生物學大數(shù)據(jù)的3項行動倡議,即出版物和數(shù)據(jù)庫之間的數(shù)據(jù)交換、建立權威的數(shù)據(jù)標準和設置數(shù)據(jù)策劃崗位.Clifford Lynch專刊中發(fā)表評論,闡述了實現(xiàn)數(shù)據(jù)重用的前提是保存數(shù)據(jù),討論了數(shù)據(jù)管理的體制與機制.[3]12月,Bryant、Katz和Lazowska三位信息領域資深科學家聯(lián)合"計算社區(qū)聯(lián)盟(Computing Community Consortium)"發(fā)表了《大數(shù)據(jù)計算:商務、科學和社會領域的革命性突破》白皮書,闡述了在數(shù)據(jù)驅動的研究背景下,解決大數(shù)據(jù)問題所需的技術以及面臨的一些挑戰(zhàn).由此可見,在大數(shù)據(jù)萌生期主要研究重點是大數(shù)據(jù)的應用前景及面臨的技術問題.
快速發(fā)展期(2009~2013年).2009年6月, Schatz在中介紹了基于MapReduce的CloudBurst并行算法用于分析人體基因組數(shù)據(jù)的良好性能;10月,Hadoop開源項目負責人Tom White著《Hadoop權威指南》,全面介紹了MapReduce編程技術及部署要求,為MapReduce的后續(xù)研究和應用提供了權威指導;同月,微軟研究院副總裁Tony Hey博士在一書中通過分析眾多數(shù)據(jù)密集型科學研究實例提出了科學研究的第四范式,即科學研究將從以計算為中心轉變到以數(shù)據(jù)處理為中心;2010年1月,Jeffrey Dean在中闡述了MapReduce在大數(shù)據(jù)處理中具有良好的容錯性、異構存儲系統(tǒng)加載和處理數(shù)據(jù)的便捷性以及為執(zhí)行復雜函數(shù)提供了良好的架構;6月,Ekanayake在中提出了支持跌代計算的MapReduce編程模型Twister及體系結構,并比較了Twister、Hadoop與DryadLING在海量數(shù)據(jù)并行處理的性能.9月Schadt等發(fā)表文章,以生命科學中基因組大數(shù)據(jù)為例提出了云計算和異構計算來處理海量和高維數(shù)據(jù)集的方案.2011年2月Science雜志出版??饕懻摿丝茖W研究中大數(shù)據(jù)的問題及其重要性.[4]3月Trelles等發(fā)表文章指出計算節(jié)點間的數(shù)據(jù)通信將成為生物信息學研究中瓶頸,提出了通過云計算和異構框架克服硬件瓶頸(如開發(fā)高速并行I/O來縮短存儲與計算間的路徑,整合光電通信技術提高高維數(shù)據(jù)傳輸速度),而通過多處理器來克服軟件瓶頸.[5]5月麥肯錫全球研究院Byers等發(fā)布調研報告《大數(shù)據(jù):創(chuàng)新、競爭和生產力的下一個新領域》,分析了大數(shù)據(jù)的影響、關鍵技術和應用領域,明確提出了政府和企業(yè)決策者應對大數(shù)據(jù)發(fā)展的策略.同年5月EMC公司董事長兼首席執(zhí)行官喬圖斯在EMC World 2011拉斯維加斯大會主題為"云計算適逢大數(shù)據(jù)",闡述了云計算與大數(shù)據(jù)的理念和技術趨勢.6月由EMC贊助的IDC數(shù)字宇宙研究《從混沌中提取價值》提到三點重要論斷:全球數(shù)據(jù)量大約每兩年翻一番;2010年全球數(shù)據(jù)量跨入ZB時代,預計2011年全球數(shù)據(jù)量將達到1.8ZB;未來全球數(shù)據(jù)增速將會維持,預計到2020年全球數(shù)據(jù)量將達到令人恐怖的35ZB.[6]10月Gartner將大數(shù)據(jù)列入2012年十大戰(zhàn)略新興技術.2012年1月,瑞士達沃斯世界經(jīng)濟論壇發(fā)布報告《大數(shù)據(jù),大影響》指出數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產類別.2012年3月美國奧巴馬政府推出了大數(shù)據(jù)研究和發(fā)展計劃投資兩億多美元推動大數(shù)據(jù)相關的采集、組織、分析、決策工具及技術研究,計劃將大數(shù)據(jù)技術用于高科技領域.5月,Tom White在書中介紹了構建可靠、可擴展的Apache Hadoop分布式系統(tǒng),為程序員分析數(shù)據(jù)和管理員配置和運行Hadoop集群提供了權威指導.在第三版中也增加了MapReduce API、MapReduce2和YARN的部分.5月微軟研究院的SurajitChaudhuri在中描述了基于大數(shù)據(jù)和云計算的數(shù)據(jù)管理研究面臨隱私保護(Data Privacy)、近似查詢結果(Approximate Results)、數(shù)據(jù)探索與分析(Data Exploration To Enable Deep Analytics)、企業(yè)數(shù)據(jù)集成(Enterprise Data Enrichment)、面向租戶進行性能隔離(Performance Isolation For Multi-Tenancy)的6個挑戰(zhàn).12月,Chen等在發(fā)表文章,采用文獻計量學研究了商務智能分析領域的演進、應用、前沿及研究框架.2013年3月,Cukier在一書中,前瞻性地指出大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,分三個部分講述了大數(shù)據(jù)時代的思維變革、商業(yè)變革和管理變革.明確指出放棄對因果關系的渴求而關注相關關系,大數(shù)據(jù)的核心就是預測.書中展示了谷歌、微軟、亞馬遜、IBM等大數(shù)據(jù)先鋒們最具價值的應用案例.4月,Murdoch在中討論大數(shù)據(jù)在衛(wèi)生保健中的應用,借助經(jīng)濟模型強調了應用中將面臨的機遇和挑戰(zhàn),建議通過加強病人和醫(yī)生數(shù)據(jù)的收集來提高衛(wèi)生保健的服務質量和效率.6月,Marx在中介紹了生命科學大數(shù)據(jù)的增長態(tài)勢,指出了存儲和分析異構復雜數(shù)據(jù)面臨的挑戰(zhàn)以及云計算在生命科學大數(shù)據(jù)的應用.由此可見,在大數(shù)據(jù)快速發(fā)展期主要研究重點是大數(shù)據(jù)處理的生態(tài)系統(tǒng)構建及業(yè)界學界的行業(yè)產業(yè)應用實踐.
歷經(jīng)Toffler的大數(shù)據(jù)預言,Dean、White、Byers、Murdoch等一大批研究者的研究探索,大數(shù)據(jù)研究主題以大數(shù)據(jù)的應用前景、大數(shù)據(jù)概念、大數(shù)據(jù)生態(tài)系統(tǒng)構建和業(yè)界學界應用落地為主線,呈現(xiàn)了大數(shù)據(jù)研究與大數(shù)據(jù)應用交織演進的態(tài)勢.可以預見,2014年后,大數(shù)據(jù)研究開始轉向行業(yè)領域應用系統(tǒng)集成、大數(shù)據(jù)分析、管理及生態(tài)系統(tǒng)優(yōu)化方向.
研究熱點可通過引文的主題詞出現(xiàn)頻率來探測.設置CiteSpace參數(shù)生成2012~2014大數(shù)據(jù)研究熱點圖譜(見下圖).
圖2012 ~2014大數(shù)據(jù)研究熱點圖譜
圖譜中的方形結點表示主題詞,文字是主題詞標簽,節(jié)點的大小代表出現(xiàn)的頻次.從研究熱點的年度分布看,2012年大數(shù)據(jù)研究的熱點是hadoop生態(tài)系統(tǒng),2013年度熱點是異構數(shù)據(jù)的管理和可視化技術, 2014年研究熱點是大數(shù)據(jù)分析及生態(tài)系統(tǒng)的完善和體系化.將熱點主題詞進行同義詞合并,得出大數(shù)據(jù)研究主要主題詞排序,依次是大數(shù)據(jù)(big data)、大數(shù)據(jù)分析(big data analytics)、云計算(cloud computing)、mapreduce、數(shù)據(jù)挖掘(data mining)、hadoop、大數(shù)據(jù)應用(big data application)、模型(model)、機器學習(machine learning)、大數(shù)據(jù)時代(big data era)、系統(tǒng)(systems)和社交媒體(social media),big data(大數(shù)據(jù))的節(jié)點最大,這跟本身是檢索主題詞有關.(見表3).
表32012 ~2014大數(shù)據(jù)研究熱點
熱點詞big data analytics(大數(shù)據(jù)分析)指根據(jù)分析主題需求,基于云計算技術,采用數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等數(shù)據(jù)分析方法,發(fā)現(xiàn)大數(shù)據(jù)價值的過程.從大數(shù)據(jù)分析支撐技術來看,大數(shù)據(jù)中絕大部分都是半結構化和非結構化的數(shù)據(jù),傳統(tǒng)的關系型數(shù)據(jù)庫缺乏可擴展性已經(jīng)無法進行分析處理,而以mapreduce實現(xiàn)分析處理和以GFS、HDFS為代表的分布式文件系統(tǒng)具有良好的橫向擴展能力,現(xiàn)已成為大數(shù)據(jù)分析的主流技術.大數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程的核心,通過分析過程發(fā)掘大數(shù)據(jù)價值并將其應用到推薦系統(tǒng)、商業(yè)智能、決策支持等諸多領域.熱點詞cloud computing(云計算)為大數(shù)據(jù)存儲、管理以及數(shù)據(jù)分析等提供支撐和基礎平臺.云計算是一種大規(guī)模的分布式模型,通過網(wǎng)絡將抽象的、可伸縮的、便于管理的數(shù)據(jù)能源、服務、存儲方式等傳遞給終端用戶,[7]最典型的就是以分布式文件系統(tǒng)GFS、批處理技術mapreduce、分布式數(shù)據(jù)庫BigTable為代表的大數(shù)據(jù)處理技術以及在此基礎上產生的開源數(shù)據(jù)處理平臺Hadoop.云計算從技術層面強調單個節(jié)點的計算能力最大化,大數(shù)據(jù)從效用層面強調數(shù)據(jù)價值最大化.熱點詞mapreduce是Google公司和Hadoop開源軟件框架共有的核心計算模型.大數(shù)據(jù)處理模式主要有流處理和批處理兩種,流處理是直接處理,而批處理則是先存儲后處理.流處理應用場景主要有網(wǎng)頁點擊數(shù)的實時統(tǒng)計、傳感器網(wǎng)絡、金融中的高頻交易等,比較代表性的開源系統(tǒng)如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等.批處理模式應用場景主要有離線和近線處理,mapreduce是最具代表性的批處理模式,其核心思想在于"分而治之",把計算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計算,有效地避免數(shù)據(jù)傳輸過程中產生的大量通信開銷.mapreduce將運行大規(guī)模集群上的復雜的并行計算過程高度地抽象為Map和Reduce兩個函數(shù),mapreduce模型首先將用戶的原始數(shù)據(jù)源進行分塊,然后分別交給不同的Map任務區(qū)處理. Map任務從輸入中解析出鏈/值(Key/Value)對集合,然后對這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結果,并將該結果寫入本地硬盤.Reduce任務從硬盤上讀取數(shù)據(jù)之后會根據(jù)key值進行排序,將具有相同Key值的組織在一起,最后用戶自定義的Reduce函數(shù)會作用于這些排好序的結果并輸出最終結果.[8]data mining(數(shù)據(jù)挖掘)是數(shù)據(jù)分析師針對業(yè)務分析需求,利用各種分析工具從海量數(shù)據(jù)中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程.數(shù)據(jù)挖掘的任務有分類與回歸、聚類、關聯(lián)規(guī)則、時序模式、偏差檢測五個方面.數(shù)據(jù)挖掘過程包括定義挖掘目標、數(shù)據(jù)取樣、數(shù)據(jù)探索、預處理、模式發(fā)現(xiàn)、模型構建、模型評價七個步驟,常用的數(shù)據(jù)挖掘工具有SAS Enterprise Miner、SPSSClementine、IBMMiner、MATLAB、WEKA.[9]熱點詞Hadoop是目前最為流行的大數(shù)據(jù)處理平臺,已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase)、數(shù)據(jù)處理(MapReduce)等功能模塊在內的完整生態(tài)系統(tǒng)(Ecosystem),Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標準.
從大數(shù)據(jù)處理流程來看,大數(shù)據(jù)處理流程可劃分為數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋四個階段,[10]研究熱點中大數(shù)據(jù)分析、云計算、mapreduce和數(shù)據(jù)挖掘都屬于大數(shù)據(jù)分析環(huán)節(jié).從大數(shù)據(jù)生態(tài)系統(tǒng)來看,大數(shù)據(jù)分析和數(shù)據(jù)挖掘都屬于大數(shù)據(jù)分析的范疇,是實現(xiàn)大數(shù)據(jù)價值的前提,云計算和mapreduce都屬于云計算的范疇,為大數(shù)據(jù)提供了存儲和分布式計算,由此說明,支撐大數(shù)據(jù)系統(tǒng)的基礎平臺和大數(shù)據(jù)分析是大數(shù)據(jù)研究的最熱門主題.
[1]Dean J,Ghemawat S.Mapreduce:Simplified data processing on large clusters[J].Communications of TheACM,2008,51(1):107-113.
[2]Nature.Big data:Science in the petabyte Era[EB/OL]. [2014-10-13].http://www.nature.com/nature/journal/ v455/n7209/edsumm/e080904-01.html.
[3]Lynch C.Big data:How do your data grow?[J]. nature,2008(455):28-29.
[4]Science.Special online collection:dealing with big data [EB/OL].[2014-10-13].http://www.sciencemag. org/site/special/data/.
[5]Trelles O,et al.Big data,but are we ready?[J]. NatureReviews Genetics,2011(12):224.
[6]IDC.Extracting Value from Chaos[EB/OL].[2014-09-18].http://www.emc.com/collateral/analyst-reports/ idc-extracting-value-from-chaos-ar.pdf.
[7]Foster I,et al.Cloud computing and grid computing 360-degree compared[C]//Proceedings of the Grid Computing Environments Workshop 2008(GCE'08). Austin:IEEE,2008:1-10.
[8]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[9]張良均,等.數(shù)據(jù)挖掘:實用案例分析[M].北京:機械工業(yè)出版社,2013,6.
[10]劉智慧,張泉靈.大數(shù)據(jù)技術研究綜述[J].浙江大學學報(工學版),2014,40(6):957-972.
G250.252;G255.76
B
1005-8214(2015)10-0054-04
本文系2010年國家社會科學基金項目"網(wǎng)頁內容分析與挖掘的企業(yè)競爭情報方法研究"(項目編號: 10BTQ034),廣東省教育科學"十二五"規(guī)劃教育信息技術研究專項課題"構建適應項目化教學的網(wǎng)絡課程系統(tǒng)研究"(項目編號:12JXN020)的成果之一.
趙建保(1978-),男,廣東農工商職業(yè)技術學院計算機系講師,研究方向:可視化、可視分析和Web工程;黃曉斌(1961-),男,中山大學資訊管理學院教授,博士生導師,研究方向:競爭情報、網(wǎng)絡信息開發(fā)利用.
2014-11-17[責任編輯]劉丹