鄧仲華 宋秀芬
(武漢大學信息管理學院,武漢,430072)
基于知識圖譜的國內(nèi)外大數(shù)據(jù)研究對比分析
鄧仲華宋秀芬
(武漢大學信息管理學院,武漢,430072)
[摘要]本文以CNKI和WOS為數(shù)據(jù)源,從文獻計量角度,對2008~2013年國內(nèi)外大數(shù)據(jù)領域的文獻進行統(tǒng)計分析。利用可視化分析工具生成國內(nèi)外大數(shù)據(jù)研究成果的年限分布表、關鍵詞共現(xiàn)矩陣、關鍵詞共現(xiàn)圖譜和關鍵詞共現(xiàn)聚類圖譜,對比分析了國內(nèi)外大數(shù)據(jù)領域研究的異同。
[關鍵詞]大數(shù)據(jù)知識圖譜共現(xiàn)網(wǎng)絡Ucinet 從出現(xiàn)頻次不能看出各個關鍵詞之間的關系,為此需要對關鍵詞進行共詞分析[16]。共詞分析對文獻中詞對的共現(xiàn)頻率進行量化分析,兩兩統(tǒng)計他們在同一篇文獻中出現(xiàn)的次數(shù),如果兩個主題詞在眾多的文獻中出現(xiàn)的頻率高,說明他們之間的關系密切[17]。
1引言
社會媒體、云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、智慧城市等新興技術的發(fā)展推動了人類社會數(shù)據(jù)量呈指數(shù)級增長,人們正被數(shù)據(jù)洪流所包圍,大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)已滲透到各個行業(yè)和業(yè)務職能領域,成為與物質資產(chǎn)和人力資本相提并論的重要生產(chǎn)要素,美國稱大數(shù)據(jù)為“21世紀的新石油”。大數(shù)據(jù)已在政府公共服務、醫(yī)療服務、零售業(yè)、制造業(yè)、以及個人位置服務等領域得到了廣泛應用,并產(chǎn)生巨大的社會價值和產(chǎn)業(yè)空間。麥肯錫公司認為大數(shù)據(jù)將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及創(chuàng)造消費者盈余的下一個前沿領域[1]。有效管理和利用大數(shù)據(jù)已成為學術界、工業(yè)界和政府機構的關注熱點。
大數(shù)據(jù)的潛在價值迫切需要深入地研究大數(shù)據(jù)的關鍵技術、安全、穩(wěn)私等問題,國外大數(shù)據(jù)研究時間比國內(nèi)早,對比分析國內(nèi)外大數(shù)據(jù)研究的異同,為國內(nèi)學者研究大數(shù)據(jù)提供參考與借鑒。因此,本文在現(xiàn)有國內(nèi)外大數(shù)據(jù)研究文獻的基礎上,利用關鍵詞共現(xiàn)與多維尺度分析法對比了國內(nèi)外大數(shù)據(jù)研究熱點、研究前沿和行業(yè)應用研究等的異同。
2文獻綜述
大數(shù)據(jù)不是一個新詞,大數(shù)據(jù)還被稱為“海量數(shù)據(jù)”、“巨量數(shù)據(jù)”,早在1980年,著名未來學家阿爾文·托夫勒在《第三次浪潮》中將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂章”。具有4V(Volume、Variety、Value、Velocity)特征的大數(shù)據(jù)最早出現(xiàn)在2008年《Nature》雜志的Big Data???,該專刊的多篇文章分別從互聯(lián)網(wǎng)經(jīng)濟、超級計算、生物醫(yī)藥等多角度介紹“大數(shù)據(jù)”帶來的技術挑戰(zhàn)、技術現(xiàn)狀以及未來的發(fā)展趨勢[2]。2008年10月,卡耐基·梅隆大學Randal E.Bryant、加利福尼亞大學伯克利分校Randy H.Katz和華盛頓大學Edward D.Lazowska聯(lián)合發(fā)表了一份有影響力的白皮書《Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society(大數(shù)據(jù)計算:在商務、科學和社會領域創(chuàng)建革命性突破)》,該白皮書闡述了數(shù)據(jù)影響科學、商業(yè)、社會、國家安全的背景下,解決大數(shù)據(jù)問題所需的技術(識別、收集、存儲、分析)以及面臨的技術與應用挑戰(zhàn)[3]。2011年5月,麥肯錫公司發(fā)布了關于大數(shù)據(jù)的調(diào)研報告《Big data: The next frontier for innovation, competition, and productivity(大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿)》,詳細列舉了大數(shù)據(jù)的核心技術,深入分析了大數(shù)據(jù)行業(yè)應用,明確提出了大數(shù)據(jù)的發(fā)展策略,指出了大數(shù)據(jù)研究地位以及未來社會價值,說明企業(yè)家已開始關注大數(shù)據(jù)的社會價值[4]。2012年1月,達沃斯世界經(jīng)濟論壇發(fā)表了一份報告《Big data, big impact: New possibilities for international development(大數(shù)據(jù)大作用:國際發(fā)展新的可能性)》,該報告宣稱移動設備生成的數(shù)據(jù)成為經(jīng)濟發(fā)展的工具,數(shù)據(jù)已成為一種像貨幣或黃金一樣的新經(jīng)濟資產(chǎn)類別,號召政府、高校、研究院和企業(yè)的專家共同迎接挑戰(zhàn)[5]。2012年2月,Steve Lohr在《The New York Times》發(fā)表文章《The age of big data》,該文章指出大數(shù)據(jù)正在對各個領域產(chǎn)生影響,數(shù)據(jù)驅動型決策的預見能力已經(jīng)在公共衛(wèi)生、經(jīng)濟發(fā)展和經(jīng)濟預測、社交網(wǎng)絡等領域中發(fā)揮作用[6]。美國20余位知名專家于2012年3月聯(lián)合發(fā)布白皮書《Challenges and opportunities with big data(大數(shù)據(jù)的挑戰(zhàn)和機遇)》,闡述了大數(shù)據(jù)處理流水線的各個階段,針對其中的諸多技術挑戰(zhàn)提供了重要的解決思路。2012年3月,美國奧巴馬政府發(fā)布了《Big data research and development initiative(大數(shù)據(jù)研究和發(fā)展倡議)》,并宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”[7]。2012年7月,Scott Adams利用漫畫通俗易懂地解釋了大數(shù)據(jù)含義“它無所不在,無所不知”。2012年,維克托·邁爾-舍恩伯格和肯尼思·庫克耶的著作《Big data: A revolution that will transform how we live, work, and think(大數(shù)據(jù)時代:生活、工作與思維的大變革)》舉例說明大數(shù)據(jù)正在對各個領域發(fā)展發(fā)揮舉足輕重的作用[8]。自2008年以來,學術界、產(chǎn)業(yè)界、新聞媒體界等密切關注大數(shù)據(jù)問題[9]。
從國內(nèi)現(xiàn)有文獻資料來看,從文獻計量角度研究大數(shù)據(jù)的文獻有三篇,楊繹于2012年在《基于文獻計量的“大數(shù)據(jù)”研究》文中以CNKI為數(shù)據(jù)源,基于社會網(wǎng)絡分析方法建立高頻關鍵詞共現(xiàn)網(wǎng)絡,得出國內(nèi)大數(shù)據(jù)研究熱點[10]。王新才、丁家友2013年發(fā)表《大數(shù)據(jù)知識圖譜:概念、特征、應用與影響》,文章以國內(nèi)文獻為研究基礎,利用可視化工具Gephi生成知識圖譜來闡明大數(shù)據(jù)的發(fā)展脈絡、應用范圍、特征、應用與影響[11]。錢心緣在《國內(nèi)外大數(shù)據(jù)研究進展——從文獻計量學角度分析》文中以柱狀圖和表格形式展現(xiàn)了大數(shù)據(jù)文獻年代分布、引文量年代分布、學科分布等[12]。以上文獻研究了國內(nèi)大數(shù)據(jù)的研究熱點、文獻分布情況、發(fā)展脈絡、應用與影響等,缺乏對國內(nèi)外大數(shù)據(jù)研究現(xiàn)狀的對比分析。因此,本文在以上研究基礎上,利用知識圖譜直觀地展示了國內(nèi)外大數(shù)據(jù)的研究結構與趨勢。
3數(shù)據(jù)來源與研究方法
本研究國外數(shù)據(jù)來源選取Web of Science,主題=“big data”,時間跨度=2008-2013,文獻類型=ARTICLE,索引=SCI-EXPANDED,檢索時間為2014年1月12日,共檢索到2784條,將檢索的全部文獻題錄信息以Txt格式保存。國內(nèi)數(shù)據(jù)源則選取CNKI《中國學術文獻網(wǎng)絡出版總庫》,檢索條件為:主題=“大數(shù)據(jù)”,時間跨度=2008-2013,期刊來源=核心期刊,精確匹配,檢索時間同上,共檢索到2229篇文獻,用自編程序刪除重復文獻后得到2190篇,獲得全部文獻的題錄信息包括篇名、作者、機構、關鍵詞、摘要、基金、刊名、年、期、分類號等以Endnote格式保存。本文后續(xù)研究圍繞以上兩種數(shù)據(jù)來展開。
本文的研究方法采用關鍵詞共現(xiàn)與多維尺度分析法,主要研究工具包括:文獻題錄信息統(tǒng)計分析工具SATI、Ucinet軟件、SPSS軟件[13]。
本文將CNKI中Endnote格式和WOS中Txt格式的文獻題錄信息分別導入到文獻題錄信息統(tǒng)計分析工具SATI,該軟件對文獻題錄信息依次進行抽取字段、統(tǒng)計頻次與生成共現(xiàn)矩陣,將共現(xiàn)矩陣直接導入Ucinet和SPSS軟件中進行處理分析,采用關鍵詞共現(xiàn)與多維尺度分析方法對表征文獻外部特征的時間、作者、機構、研究主題等數(shù)據(jù)進行統(tǒng)計分析,利用知識圖譜直觀地反映國內(nèi)外大數(shù)據(jù)的研究現(xiàn)狀[14]。
4數(shù)據(jù)分析
從表1數(shù)據(jù)可以看出,國內(nèi)與國外發(fā)文量都呈現(xiàn)逐年增長趨勢,特別是2013年的文獻量增長速度較快,反映了大數(shù)據(jù)研究正處于快速發(fā)展階段。從文獻數(shù)量年度分布來看,2012年以前,國內(nèi)的文獻數(shù)量遠小于國外,2013年國內(nèi)文獻數(shù)量增長速度約為128%,發(fā)文量超過國外。2013年被稱為中國的“大數(shù)據(jù)元年”,政府與企業(yè)對大數(shù)據(jù)領域投資力度與關注度進一步加強,科技部于2013年2月1日公布了國家重點基礎研究發(fā)展計劃(973計劃),2014年度重點支持方向之一即為大數(shù)據(jù)計算的基礎研究,因此,大數(shù)據(jù)引起了不同領域的高度關注,不同領域的學者競相涌入大數(shù)據(jù)領域,可見,未來國內(nèi)外大數(shù)據(jù)領域的發(fā)文量將呈持續(xù)增長趨勢[15]。
表1 國內(nèi)外文獻年度分布統(tǒng)計表
本文對文獻中的關鍵詞進行提取,匯總各篇文獻的關鍵詞,加以統(tǒng)計分析。在國內(nèi)2190篇文獻中提取7046個關鍵詞,表2是國內(nèi)大數(shù)據(jù)研究文獻中排名前20的高頻關鍵詞,其中大數(shù)據(jù)、海量數(shù)據(jù)、數(shù)據(jù)挖掘、云計算出現(xiàn)的頻次較高;國外2784篇文獻中提取7925個關鍵詞,表3是國外大數(shù)據(jù)研究文獻中排名前20的高頻關鍵詞,文獻中出現(xiàn)頻次較高關鍵詞有:Data mining(數(shù)據(jù)挖掘)、Classification(分類)、Big data(大數(shù)據(jù))、Clustering(聚類)。從國內(nèi)外高頻關鍵字來看,國內(nèi)外對大數(shù)據(jù)研究的重點內(nèi)容基本相似。
表2 國內(nèi)大數(shù)據(jù)研究排名前20關鍵詞列表
表3 國外大數(shù)據(jù)研究排名前20關鍵詞列表
在共詞分析中,為了便于對共現(xiàn)頻率的運算,利用SATI軟件生成共詞矩陣,由于受到網(wǎng)絡結點的限制,本文只對排名前100的關鍵詞進行共詞分析,形成一個100×100的共詞矩陣。如表4、5所示,該矩陣是對稱矩陣,表中對角線上的數(shù)值為該關鍵詞在文獻中出現(xiàn)總的頻次,表中非主對角線單元格上的數(shù)值為兩個關鍵詞共現(xiàn)的次數(shù)[18]。僅從表中的高頻詞不能體現(xiàn)論文研究的主題,通過同時出現(xiàn)在一篇文獻中的兩個關鍵詞就比較容易判斷文章的主題脈絡,同時根據(jù)兩兩關鍵詞出現(xiàn)頻次的高低可以發(fā)現(xiàn)論文的研究熱點。在表4中,大數(shù)據(jù)出現(xiàn)了196次,通過組配與其它高頻詞在同一篇文獻中出現(xiàn)的次數(shù),發(fā)現(xiàn)大數(shù)據(jù)與云計算共現(xiàn)的頻次是28,與數(shù)據(jù)挖掘共現(xiàn)的頻次是17,表明共有28篇文獻的關鍵詞同時標引了大數(shù)據(jù)和云計算,17篇文獻的關鍵詞同時標引了大數(shù)據(jù)和數(shù)據(jù)挖掘。研究大數(shù)據(jù)與云計算的文獻較多,這是因為大數(shù)據(jù)與云計算的關系相當于硬幣的正反面,相輔相成,形影不離,未來還需深入探索云計算與大數(shù)據(jù)的關系。
表4 國內(nèi)大數(shù)據(jù)研究關鍵詞100×100共詞矩陣(部分)
表5 國外大數(shù)據(jù)研究關鍵詞100×100共詞矩陣(部分)
除去對角線上的高頻詞是自身出現(xiàn)的頻次以外,像大數(shù)據(jù)與云計算、大數(shù)據(jù)與數(shù)據(jù)挖掘、數(shù)據(jù)挖掘與云計算、海量數(shù)據(jù)與數(shù)據(jù)挖掘、MapReduce與云計算等同時出現(xiàn)的頻次較高,說明這些組合研究是大數(shù)據(jù)研究主題中的熱點。
從表5國外大數(shù)據(jù)研究的關鍵詞100×100共詞矩陣來看,關鍵詞共現(xiàn)的頻次較低,Data mining(數(shù)據(jù)挖掘)與Classification(分類)、Clustering(聚類)、Big data(大數(shù)據(jù))分別共現(xiàn)的頻次是5、5、4,可見國外學者對大數(shù)據(jù)研究比較成熟,不再局限于概念、技術等介紹,而是將大數(shù)據(jù)的技術、方法、工具應用到醫(yī)療衛(wèi)生服務、零售業(yè)、公共管理服務、制造業(yè)及個人位置服務等領域來進行研究,國外對大數(shù)據(jù)的研究具有可行性與可操作性。
從國內(nèi)外大數(shù)據(jù)文獻的關鍵詞共現(xiàn)分析來看,雖然國內(nèi)外大數(shù)據(jù)研究均處于初級階段,但國外對大數(shù)據(jù)研究時間較國內(nèi)長,研究角度具體而實用,而國內(nèi)學者在借鑒國外文獻的基礎上,對大數(shù)據(jù)概念、特征、技術(數(shù)據(jù)挖掘、分類法、聚類法、神經(jīng)網(wǎng)絡、可視化等)、影響、挑戰(zhàn)(集成、分析、安全、隱私等問題)、行業(yè)應用(新聞媒體、圖書館、銀行、電子商務、保險業(yè)等)等方面開展較廣范圍的研究,在未來的研究中,國內(nèi)研究者需深入地挖掘大數(shù)據(jù)關鍵技術、支撐技術、處理工具等方面。
共現(xiàn)網(wǎng)絡分析是文獻集中的詞匯對或名詞短語共同出現(xiàn)形成一個共詞網(wǎng)絡,顯示這些詞對的關系及規(guī)律,實現(xiàn)對學科結構、研究熱點、學科發(fā)展動態(tài)的分析[19]。
采用SATI建立關鍵詞共現(xiàn)矩陣,導入Ucinet中形成共現(xiàn)網(wǎng)絡圖譜。具體步驟如下:第一步,將CNKI下載Endnote格式和WOS下載Txt格式的題錄信息導入SATI中并轉化為xml格式數(shù)據(jù);第二步,對xml格式數(shù)據(jù)進行關鍵詞提取、頻次統(tǒng)計;第三步,選擇Matrix中Co-Occurrence Matrix(Valued)分析功能建立100×100關鍵詞共現(xiàn)多值矩陣;第四步,將關鍵詞矩陣導入Ucinet中,建立高頻關鍵詞共現(xiàn)網(wǎng)絡圖譜;第四步,利用Ucinet進行中心性分析,分析關鍵詞之間的橫向關系,確定大數(shù)據(jù)領域研究的熱點。圖中每個節(jié)點代表一個關鍵詞,點的大小表示關鍵詞在社會網(wǎng)絡中的中心度大小,節(jié)點之間的距離反映兩者之間的親疏關系,通過K-cores的分析,圖中間聚集的節(jié)點代表K值最大的關鍵詞處于研究中核心位置,也是大數(shù)據(jù)領域的研究熱點與核心[20]。處于共現(xiàn)網(wǎng)絡邊緣的節(jié)點代表主題關注度較低,從一定程度上體現(xiàn)了大數(shù)據(jù)研究的一些前沿問題。
從圖1、2可以看出,國內(nèi)外對大數(shù)據(jù)領域研究熱點具有相同點:①國內(nèi)外共詞網(wǎng)絡都是以大數(shù)據(jù)、數(shù)據(jù)挖掘為中心向四周輻射,研究文獻圍繞大數(shù)據(jù)、數(shù)據(jù)挖掘來展開;②國內(nèi)外在大數(shù)據(jù)領域共同研究熱點主要有:大數(shù)據(jù)(數(shù)據(jù)、數(shù)據(jù)化、海量數(shù)據(jù)、非結構化數(shù)據(jù))、數(shù)據(jù)挖掘、數(shù)據(jù)處理、數(shù)據(jù)分析、MapReduce、聚類、云計算、支持向量機、可視化、社會網(wǎng)絡、機器學習等。
通過對比國內(nèi)外共詞網(wǎng)絡發(fā)現(xiàn),國內(nèi)外在大數(shù)據(jù)領域的研究熱點略有差別,主要體現(xiàn)在以下方面:①國外側重關注大數(shù)據(jù)分析關鍵技術:Algorithms(算法)、Optimization(優(yōu)化)、Text mining(文本挖掘)、Classification(分類)等;國內(nèi)側重關注大數(shù)據(jù)處理的關鍵技術:分布式系統(tǒng)、分布式計算、并行計算、數(shù)據(jù)壓縮、Hadoop、數(shù)據(jù)倉庫、元數(shù)據(jù)、商業(yè)智能、非結構化數(shù)據(jù)、數(shù)據(jù)庫等[23]。②國外關注大數(shù)據(jù)行業(yè)應用角度主要有:生物信息學(Bioinformatics)、圖像(Mage segmentation、Imaging、Design)、癌癥(Cancer)等;國內(nèi)關注大數(shù)據(jù)應用的角度主要有:媒體(新聞報道、新媒體、傳統(tǒng)媒體)、圖書館(數(shù)字圖書館)、商業(yè)應用(企業(yè)、數(shù)據(jù)中心、電力系統(tǒng)、商業(yè)銀行、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、信息服務、物聯(lián)網(wǎng))等,這說明根據(jù)不同國家背景及發(fā)展狀況,國內(nèi)外學者關注大數(shù)據(jù)的行業(yè)應用角度有所差異[24-26]。③國外關注大數(shù)據(jù)前沿問題有:Taxonomy(分類學)、Remote sensing(遙感)、High-performance Computing(高性能計算法)、Bayesian(貝葉斯統(tǒng)計法)、Statistical analysis(統(tǒng)計分析法)、LIDAR(激光雷達)、Meta analysis(綜合分析法)、Monitoring(監(jiān)測)、Proteomics(蛋白質組學)、Identification(識別)、Principal component analysis(主成份分析法)、Global existence(整體存在性)、Stability(穩(wěn)定性)[27];國內(nèi)關注大數(shù)據(jù)前沿問題有:空間數(shù)據(jù)庫、DSP、無損壓縮、數(shù)據(jù)流、數(shù)據(jù)新聞、無線傳感器網(wǎng)絡、服務質量、任務調(diào)度、高光譜圖像等??梢姡瑖怅P注大數(shù)據(jù)研究前沿涉及到關鍵技術的基礎理論探索,國內(nèi)大數(shù)據(jù)研究前沿涉及到數(shù)據(jù)處理技術問題,國外大數(shù)據(jù)的研究前沿將是國內(nèi)學者未來研究熱點,也就是說,未來我國需重點研究大數(shù)據(jù)的基礎理論[28]。
通過對高頻關鍵詞相異矩陣進行多維尺度分析,得到大數(shù)據(jù)研究群組的可視化結果[29]。具體步驟如下:第一步,將XML格式數(shù)據(jù)采用SATI軟件中(Co-Occurrence Matrix(Dissimilarity)) 分析功能建立100×100關鍵詞相異矩陣,第二步,將關鍵詞相異矩陣導入SPSS分析軟件,利用SPSS中的Scale菜單中的多維尺度分析功能(ALSCAL)進行分析,將距離數(shù)據(jù)的形狀設為正對稱,度量標準的區(qū)間設為Euclidean距離,度量水平選擇序數(shù)。如圖3、4所示,高頻關鍵詞之間的距離,反映其所代表的相關程度,距離越小,反映詞頻之間相似度越大,研究內(nèi)容越集中;距離越大反映研究主題越獨立,主題之間的關聯(lián)性越小,多維尺度分析結果體現(xiàn)了關鍵詞的分布既有交叉相互滲透,又具有群組分布的獨立性。
由于國內(nèi)外大數(shù)據(jù)研究處于初步階段,研究主題范圍較廣,筆者根據(jù)研究主題的相關程度將國內(nèi)外大數(shù)據(jù)研究團隊大致分為三大研究群組:理論研究、技術研究、行業(yè)應用研究,群組之間有交叉,體現(xiàn)了學術界對大數(shù)據(jù)領域研究不斷拓寬,且研究主題之間相互滲透。國內(nèi)外研究群組的側重點有所不同,國外學者側重研究大數(shù)據(jù)關鍵技術與理論,而國內(nèi)學者則側重研究大數(shù)據(jù)的行業(yè)應用與處理技術,可見,國內(nèi)學術界對大數(shù)據(jù)的研究還處于探索與借鑒階段,未來需要深入研究大數(shù)據(jù)的關鍵技術,特別是大數(shù)據(jù)分析技術的研究。
圖1 國內(nèi)大數(shù)據(jù)領域關鍵詞共現(xiàn)圖譜
圖2 國外大數(shù)據(jù)領域關鍵詞共現(xiàn)圖譜
國內(nèi)三大研究群組為:①大數(shù)據(jù)的理論研究,涉及到大數(shù)據(jù)的概念、數(shù)據(jù)政策、數(shù)據(jù)共享、數(shù)據(jù)安全、發(fā)展趨勢、關鍵技術介紹等方面,體現(xiàn)大數(shù)據(jù)理論的關鍵詞有:數(shù)據(jù)、大數(shù)據(jù)、海量數(shù)據(jù)、大數(shù)據(jù)量、發(fā)展趨勢、本體、服務質量、無損壓縮、海量數(shù)據(jù)處理、信息化等[30];②大數(shù)據(jù)的技術研究,涉及到關鍵詞:分類法,聚類法、數(shù)據(jù)分析、數(shù)據(jù)處理、并行計算、數(shù)據(jù)倉庫、數(shù)據(jù)采集等,國內(nèi)相關技術研究主要集中于數(shù)據(jù)挖掘技術;③大數(shù)據(jù)的行業(yè)應用研究,大數(shù)據(jù)應用行業(yè)有金融業(yè)、電信業(yè)、互聯(lián)網(wǎng)行業(yè)、零售業(yè)、制造業(yè)、醫(yī)療保健、制藥業(yè)、媒體業(yè)及科學領域等,而行業(yè)應用研究的重點是媒體、圖書館、互聯(lián)網(wǎng)等領域,體現(xiàn)行業(yè)應用的關鍵詞有:新媒體、媒體、新聞報道、傳統(tǒng)媒體、數(shù)據(jù)應用、商業(yè)銀行、互聯(lián)網(wǎng)企業(yè)、移動互聯(lián)網(wǎng)、數(shù)字圖書館、圖書館、信息服務、知識服務等[31]。可見,國內(nèi)大數(shù)據(jù)研究團隊重點關注大數(shù)據(jù)行業(yè)應用與技術研究,大數(shù)據(jù)理論研究的文獻較少。而行業(yè)應用研究則是概述媒體、圖書館、互聯(lián)網(wǎng)等領域的應用現(xiàn)狀、發(fā)展趨勢、經(jīng)濟效益等,目前較少文獻研究行業(yè)的具體方面,如;基于大數(shù)據(jù)的圖書館推薦系統(tǒng)與基于大數(shù)據(jù)的用戶購買行為的相關主題的文獻較少,也就是說,國內(nèi)大數(shù)據(jù)行業(yè)應用研究主題比較抽象,需朝著實用性方向努力;技術研究則重點關注處理技術(云計算、數(shù)據(jù)倉庫、商業(yè)智能等),少量文獻關注分析技術(預測模型、情緒分析、分類、聚類、神經(jīng)分析等)。
圖3 國內(nèi)大數(shù)據(jù)研究的多維尺度分析
圖4 國外大數(shù)據(jù)研究的多維尺度分析
國外三大研究群組為:①國外大數(shù)據(jù)理論研究,國際學者應用不同學科領域理論來研究大數(shù)據(jù),關鍵詞表現(xiàn)為:Multivariate(多變量)、Galaxies(星系)、Gaussian process(高斯過程)、Modelling(模擬)、Kernel methods(核方法)、Variable selection(變化選擇)、Taxonomy(分類學)、Entropy(熵)、Reliability(可靠性)、Navier-Stokes equation (Navier-Stokes方程)、Bayesian(貝葉斯定理)、Ontology(實體論)、Proteomic(蛋白質組學)、Identification(識別)、Mass-spectrometry(質譜法)、Neural network(神經(jīng)網(wǎng)絡)、Water quality(水質)、Evolution(演變)、Correlation(關聯(lián))、Emote sensing(遙感)、GIS(地理信息系統(tǒng))等[32];②大數(shù)據(jù)關鍵技術研究,大數(shù)據(jù)關鍵技術有分析技術和處理技術,其中大數(shù)據(jù)分析關鍵技術主要包括:A/B測試、關聯(lián)規(guī)則挖掘、分類、數(shù)據(jù)聚類、眾包、數(shù)據(jù)融合和集成、數(shù)據(jù)挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經(jīng)網(wǎng)絡、神經(jīng)分析、優(yōu)化、模式識別、預測模型、回歸、情緒分析、信號處理、空間分析、統(tǒng)計、監(jiān)督式學習、無監(jiān)督式學習、模擬、時間序列分析、時間序列預測模型、可視化技術等;大數(shù)據(jù)處理的關鍵技術主要包括:Big table、商業(yè)智能、云計算、數(shù)據(jù)倉庫、數(shù)據(jù)集市、分布式系統(tǒng)、Dynamo、GFS、Hadoop、HBase、Mashup、元數(shù)據(jù)、非關系型數(shù)據(jù)庫、關系型數(shù)據(jù)庫、R語言、結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù)、SQL、流處理、可視化技術等;③國外大數(shù)據(jù)行業(yè)應用研究,主要集中在圖像處理、癌癥治療和社會網(wǎng)絡等方面,體現(xiàn)行業(yè)應用的關鍵詞有:GPU(圖形處理器)、Surveys(調(diào)查)、Time series(時間序列)、Chemometrics(化學計量學)、Image segmentation(圖象分割法)、Image processing(圖象處理)、Dimensionality reduction(降維)、Social networks(社會網(wǎng)絡)、Imaging(成像)、Pattern recognition regression(模式識別回歸)、LIDAR(激光雷達)等??梢?,國外大數(shù)據(jù)研究團隊重點關注理論與技術,而行業(yè)應用的文獻較少。技術研究范圍包括采集、處理、存儲、分析、結果呈現(xiàn)技術,大數(shù)據(jù)研究文獻重點體現(xiàn)了處理與分析技術;理論研究深入地剖析了大數(shù)據(jù)所涉及到的基礎知識(實體論、分類學、核方法、質譜法等),國外大數(shù)據(jù)理論研究的時間較早,研究成果較成熟,理論研究是大數(shù)據(jù)研究的基石,理論研究為技術與行業(yè)應用研究服務。
5結語
結合近幾年來大數(shù)據(jù)的發(fā)展現(xiàn)狀,利用知識圖譜工具對比分析了國內(nèi)外大數(shù)據(jù)研究成果的異同,得出以下結論:
(1)國內(nèi)外大數(shù)據(jù)研究的相同點
第一,大數(shù)據(jù)研究熱度不斷攀升。自2008年大數(shù)據(jù)的概念被提出后,大數(shù)據(jù)引起了政府界、產(chǎn)業(yè)界和學術界的高度關注,2008—2013年大數(shù)據(jù)領域發(fā)文量變化趨勢說明大數(shù)據(jù)研究熱度逐年上升且2013年增長速度較快,未來國內(nèi)外大數(shù)據(jù)研究成果將會大幅度提升。
第二,大數(shù)據(jù)的應用范圍越來越廣。大數(shù)據(jù)已在醫(yī)療業(yè)、公共服務業(yè)、零售業(yè)、制造業(yè)和通訊業(yè)等創(chuàng)造價值,大數(shù)據(jù)具有能源價值的特征推動著更廣范圍的應用,未來研究將在更多領域中挖掘大數(shù)據(jù)的潛在價值。
第三,大數(shù)據(jù)研究熱點基本相同。從共詞網(wǎng)絡的分析來看,共詞網(wǎng)絡都是以大數(shù)據(jù)、數(shù)據(jù)挖掘為中心,向四周輻射,共同的研究熱點有:大數(shù)據(jù)、數(shù)據(jù)挖掘、數(shù)據(jù)處理、聚類、云計算、數(shù)據(jù)分析等。
(2)國內(nèi)外大數(shù)據(jù)研究的差異
第一,由理論研究轉向實踐應用的效果不同。國外大數(shù)據(jù)在實踐應用中取得較好效果,而國內(nèi)需向國外學習經(jīng)驗,挖掘大數(shù)據(jù)的行業(yè)應用價值。比如:國外在疾病的治療與預測、圖像處理和個人位置服務等領域已取得了顯著成效,而國內(nèi)剛剛著手研究圖像識別與分割的相關技術。
第二,大數(shù)據(jù)研究的側重點不同。國外學者側重研究大數(shù)據(jù)關鍵技術和基礎理論,而國內(nèi)學者主要針對大數(shù)據(jù)現(xiàn)狀、數(shù)據(jù)挖掘技術、行業(yè)應用來探討,未來需深入研究大數(shù)據(jù)關鍵技術,比如:A/B測試、關聯(lián)規(guī)則挖掘、分類、眾包、集成學習、自然語言處理、神經(jīng)分析、回歸分析、模式識別、機器學習、空間分析、數(shù)據(jù)融合與集成、神經(jīng)網(wǎng)絡等。
第三,大數(shù)據(jù)應用的研究角度不同。國外學者則偏重研究圖像處理、癌癥治療、商業(yè)價值等方面,國內(nèi)學者則注重研究媒體(新聞報道、新媒體、傳統(tǒng)媒體、媒體)、圖書館(數(shù)字圖書館、圖書館)和商業(yè)應用(企業(yè)、數(shù)據(jù)中心、電力系統(tǒng)、商業(yè)銀行、互聯(lián)網(wǎng)、信息服務、物聯(lián)網(wǎng))等方面。
第四,大數(shù)據(jù)研究的層次不同。國外大數(shù)據(jù)研究成果較國內(nèi)成熟,國內(nèi)學者在借鑒國外大數(shù)據(jù)研究的基礎上,部分文獻介紹了大數(shù)據(jù)概念、技術、工具等,而大數(shù)據(jù)核心內(nèi)容(基礎理論、分析技術)研究力度不夠。
未來國內(nèi)學者對大數(shù)據(jù)研究需進一步拓展廣度與深度,注重研究大數(shù)據(jù)的關鍵技術,同時加大現(xiàn)有研究成果向實踐應用轉化的力度,大數(shù)據(jù)研究成果將對各個領域產(chǎn)生深遠影響。
參考文獻
[1]馬建光,姜巍. 大數(shù)據(jù)的概念、特征及其應用[J]. 國防科技,2013(2): 10-17
[2]Nature.Big Data[EB/OL].[2014-01-20].http://www.nature.com/news/specials/bigdata/index.html,2012
[3]Bryant R E,Katz R H,Lazowska E D.Big-Data computing: Creating revolutionary breakthroughs in commerce,science,and society[R/OL]. [2014-01-20].http://www.era.org/ccc/docs/init/Big_Data.pdf,2012
[4]Manyika J,Chui M,Brown B.Big data:The next frontier for innovation, competition, and productivity[EB/OL]. [2014-01-20].http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next frontier for innovation,2012
[5]World Economic Forum.Big data, big impact:New possibilities for international development[EB/OL]. [2014-01-20].http://www3.weforum.org/docs/WEF_ TC_ MFS_BigDataBigImpact_Briefing_2012.pdf,2012
[6]Lohr S.The age of big data[EB/OL].[2014-01-20]. [2014-01-20].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted =all,2012
[7]World Economic Forum.Big data, big impact:New possibilities for international development[EB/OL].[2014-01-20]. http://www3.weforum.org/docs/WEF_ TC_ MFS_BigDataBigImpact_Briefing_2012.pdf,2012
[8]IBM.What is big data[EB/OL].[2014-01-20].http://www-01.ibm.com/software/data/bigdata/,2012
[9]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J]. 計算機研究與發(fā)展,2013(1): 146-169
[10] 楊繹.基于文獻計量的“大數(shù)據(jù)”研究[J]. 圖書館雜志. 2012(09): 29-32
[11] 王新才,丁家友.大數(shù)據(jù)知識圖譜:概念、特征、應用與影響[J]. 情報科學,2013(9): 10-14
[12] 錢心緣.國內(nèi)外大數(shù)據(jù)研究進展——從文獻計量學角度分析[J]. 中國科技信息,2013(19): 85-87
[13] 劉啟元,葉鷹.文獻題錄信息挖掘技術方法及其軟件SATI的實現(xiàn)——以中外圖書情報學為例[J]. 信息資源管理學報,2012(1): 50-58
[14] 劉璇,張朋柱,胡海波. 國內(nèi)知識管理領域科研合作網(wǎng)絡研究[J]. 科技進步與對策,2013(15): 138-145
[15] 陳蘭蘭.基于社會網(wǎng)絡分析和共詞分析的國內(nèi)關聯(lián)數(shù)據(jù)研究[J]. 圖書與情報,2013(5): 129-132
[16] 邰峻,李博,梁麗華.國內(nèi)元數(shù)據(jù)研究共詞圖譜分析[J]. 情報雜志,2013(10):106-110
[17] 葉平浩. 基于社會網(wǎng)絡分析的知識組織研究圖譜[J]. 科技管理研究,2013(8): 148-152
[18] 埃絲特·戴森.大數(shù)據(jù)利弊之辯[J]. 中國經(jīng)濟報告,2013(6):23-24
[19] Science. Special online collection: Dealing with data[EB/OL].[2014-01-20].http://www.sciencemag.org/site/special/data/,2012
[20] 王珊,王會舉,覃雄派.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 計算機學報,2011(10): 1741-1752
[21] 李洪洋. 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全研究[J]. 電子技術與軟件工程,2013(20): 250
[22] Agrawal D,Bernstein P,Bertino E.Challenges and opportunities with big data-A community white paper developed by leading researchers across the United States[EB/OL].[2014-01-20].http://cra.org/ccc/docs/init/bigdata whitepaper.pdf,2012
[23] 嚴霄鳳,張德馨.大數(shù)據(jù)研究[J]. 計算機技術與發(fā)展,2013(4): 168-172
[24] UN Global Pulse.Big Data for Development:Challenges & Opportunities[EB/OL].[2014-01-20].http://www.unglobalpulse.org/project s/BigDataforDevelopment,2012
[25] Barwick H.The "four Vs" of Big Data. Implementing Information Infrastructure Symposium[EB/OL]. [2014-01-20].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_dat a/,2012
[26] 鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應對[J]. 現(xiàn)代傳播(中國傳媒大學學報),2013(7):104-109
[27] 韓翠峰.大數(shù)據(jù)時代圖書館的服務創(chuàng)新與發(fā)展[J]. 圖書館,2013(1): 121-122
[28] IBM.What is big data[EB/OL].[2014-01-20].http://www-01.ibm.com/software/data/bigdata/,2012
[29] 方方.“大數(shù)據(jù)”趨勢下商業(yè)銀行應對策略研究[J]. 新金融,2012(12): 25-28
[30] 黃哲學,曹付元,李俊杰. 面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)關鍵技術研究[J]. 網(wǎng)絡新媒體技術,2012(6): 20-26
[31] 王天泥.大數(shù)據(jù)視角下圖書館的發(fā)展對策[J]. 圖書館學刊,2013(3): 42-44
[32] 楊海燕.大數(shù)據(jù)時代的圖書館服務淺析[J]. 圖書與情報,2012(4): 120-122
Comparative Analyses on Domestic and Overseas Big Data Based on Mapping Knowledge
Deng ZhonghuaSong Xiufen
(School of Information Management, Wuhan University, Wuhan 430072, China)
[Abstract]Using CNKI and WOS as the searching tools, this paper makes an analysis from bibliometrics perspective on papers of big data at home and abroad, published during the period 2008-2013. With visualization tools forming a distribution table of keywords co-occurrence matrix, keywords co-occurrence network and keywords co-occurrence clustering map, the paper compares and analyses similarity and difference on big data from international aspect.
[Key words]Big dataKnowledge MapCo-occurrence networksUcinet
(收稿日期:2014-06-29)
DOI:10.13365/j.jirm.2015.04.089
[中圖分類號]G311
[文獻標識碼]A
[文章編號]2095-2171(2015)04-0089-09
[作者簡介]鄧仲華,男,教授,博士生導師,研究方向為知識組織與信息系統(tǒng);宋秀芬,女,博士生,研究方向為知識組織與信息系統(tǒng),Email:songxiufenlook@126.com。
[基金項目]本文系國家自然科學基金資助項目“大數(shù)據(jù)環(huán)境下面向科學研究第四范式的信息資源云研究”(71373191)的研究成果。