徐焱
摘 要:網絡大數(shù)據(jù)是對真實社會的網絡映射,蘊含著豐富的信息、知識和智慧。深度挖掘網絡大數(shù)據(jù)的潛在價值給人們帶來了前所未有的機遇,但是同時也給現(xiàn)有存儲能力、計算能力等帶來了巨大挑戰(zhàn)。分析了網絡大數(shù)據(jù)的特點,總結了網絡大數(shù)據(jù)研究的重要意義,通過實例展示了網絡大數(shù)據(jù)在現(xiàn)實中的成功應用,并指出了網絡大數(shù)據(jù)在感知與表示、存儲與管理、數(shù)據(jù)挖掘和社會計算等方面所面臨的挑戰(zhàn)。
關鍵詞:大數(shù)據(jù);網絡大數(shù)據(jù);大數(shù)據(jù)感知;存儲管理;大數(shù)據(jù)挖掘
DOIDOI:10.11907/rjdk.162277
中圖分類號:TP3-0
文獻標識碼:A 文章編號文章編號:16727800(2016)011020802
0 引言
近年來,互聯(lián)網技術、物聯(lián)網技術、云計算的迅猛發(fā)展,加上人、機、物在網絡空間的高度融合,引發(fā)了數(shù)據(jù)的爆炸式增長,給許多行業(yè)帶來了新的挑戰(zhàn)和機遇,人類已經進入大數(shù)據(jù)時代。大數(shù)據(jù)正在改變著人們的生活工作方式,改變著企業(yè)的運行模式,并正在引起科學研究方式的變革。
大數(shù)據(jù)指無法在可容忍的時間內使用常規(guī)工具和軟硬件環(huán)境對其進行感知、獲取、管理、處理和服務的數(shù)據(jù)集合[1]。網絡大數(shù)據(jù)指人、機、物三元世界在網絡空間中相互交互融合產生的可以通過互聯(lián)網獲取的大數(shù)據(jù)[2]。與傳統(tǒng)的數(shù)據(jù)規(guī)模相比,大數(shù)據(jù)特別是網絡大數(shù)據(jù)具有3V特征:①大量化(Volume):網絡空間中數(shù)據(jù)的規(guī)模不斷擴大,計數(shù)單位從GB、TB到PB,甚至已經增長到EB和ZB,具有空前的規(guī)模性。IDC的研究報告稱,未來十年,大數(shù)據(jù)數(shù)量還將增加50倍,而管理數(shù)據(jù)存儲的服務器數(shù)量將增加10倍以便滿足大數(shù)據(jù)50倍的增長;②多樣化(Variety):網絡大數(shù)據(jù)類型繁多,包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)。非結構化數(shù)據(jù)在互聯(lián)網世界中呈現(xiàn)大幅增長的趨勢,目前,非結構化數(shù)據(jù)占互聯(lián)網數(shù)據(jù)總量的比例已達75%以上;③快速化(Velocity):數(shù)據(jù)產生速度快,要求極高的處理能力。Facebook每天有超過1 000萬張照片上傳,YouTube平均1秒就有一個時間長度1小時以上的視頻在上傳。數(shù)據(jù)是快速動態(tài)演化的,具有很強的時效性,因此處理效率就是企業(yè)的生命,只有在有效時間內對數(shù)據(jù)流進行處理,才能很好地利用這些數(shù)據(jù)。
1 網絡大數(shù)據(jù)研究意義
當前全球已經全面進入信息時代,互聯(lián)網、物聯(lián)網、云計算以及網絡空間中層出不窮的各種應用,使網絡數(shù)據(jù)以前所未有的速度激增,數(shù)據(jù)類型越來越復雜,對網絡數(shù)據(jù)的深度挖掘和利用可以幫人們很好地感知現(xiàn)在、預測未來。對網絡大數(shù)據(jù)研究的意義主要體現(xiàn)在以下3個方面:
(1)大數(shù)據(jù)資源是一個國家繼海、陸、空、天之后另一個博弈的空間,是數(shù)字主權的象征。一個國家在數(shù)據(jù)資源方面的落后,意味著其在產業(yè)戰(zhàn)略制高點的失守,意味著國家安全在網絡空間可能會出現(xiàn)漏洞,大數(shù)據(jù)直接影響著國家安全、社會穩(wěn)定。2012年3月,美國政府制定了《大數(shù)據(jù)研究和發(fā)展計劃》,投資2億美元用于改進和提高從海量數(shù)據(jù)中獲取知識的能力,這是美國繼1993年制定“信息高速公路”計劃后又一重大科技戰(zhàn)略部署。同年5月,英國建立了世界上第一個大數(shù)據(jù)研究所。西方國家正在通過國家頂層推動對大數(shù)據(jù)的研究,加強對大數(shù)據(jù)的研究及應用對提高國家競爭力具有戰(zhàn)略意義。
(2)網絡大數(shù)據(jù)的研究利用已經成為產業(yè)升級和新產業(yè)產生的重要推動力。通過挖掘網絡大數(shù)據(jù),從中發(fā)現(xiàn)其蘊含的信息、知識甚至智慧。網絡大數(shù)據(jù)已不僅僅是產業(yè)所產生的副產品,而是聯(lián)系產業(yè)生產各環(huán)節(jié)的關鍵。2011年“雙十一”,淘寶網站當天的銷售總額達到191億元人民幣,淘寶之所以能夠創(chuàng)造如此巨大交易量的商業(yè)神話,得益于其對用戶消費習慣、瀏覽習慣和搜索習慣等大數(shù)據(jù)的分析挖掘。網絡大數(shù)據(jù)正在成為信息產業(yè)持續(xù)高速增長的新引擎,成為提高企業(yè)競爭力的新動力。
(3)大數(shù)據(jù)引起科學界重新審視科學研究方法論,引發(fā)了一種新的科學研究模式??茖W研究最初是實驗科學,后來出現(xiàn)理論科學,研究各種定理定律。但是在許多問題上,理論研究方法太復雜而難以解決問題。而大數(shù)據(jù)的出現(xiàn)使科研人員可以直接從數(shù)據(jù)中挖掘所需的信息、知識和智慧,而無需直接接觸需要研究的對象。2007年,已故圖靈獎得主吉姆格雷將數(shù)據(jù)密集型科學從計算科學中分離出來,描繪了數(shù)據(jù)密集型科學研究的“第四范式”[3],他認為要解決某些全球最棘手的挑戰(zhàn),第四范式可能是具有系統(tǒng)性的唯一方法。PB級數(shù)據(jù)使人們沒有假設和模型,就可以通過分析挖掘發(fā)現(xiàn)過去科學方法發(fā)現(xiàn)不了的新知識和新規(guī)律。
2 網絡大數(shù)據(jù)應用
網絡大數(shù)據(jù)特別是來自社交網絡的數(shù)據(jù)蘊含著豐富的信息,是對真實社會的網絡映射。分析挖掘網絡大數(shù)據(jù)發(fā)現(xiàn)其蘊含的線索和規(guī)律,可以幫助人們更好地感知現(xiàn)在,并預測未來事物發(fā)展趨勢。一個很好的例子是2009年H1N1流感病毒傳播的預測。美國衛(wèi)生部官員使用傳統(tǒng)跟蹤方式跟不上流感的傳播,但是谷歌工程師們使用網絡搜索主題成功預測了流感傳播區(qū)域,這為衛(wèi)生系統(tǒng)提供了相當有價值的實時數(shù)據(jù)。
通過分析海量網絡大數(shù)據(jù)可以幫助人們作出更好的決策。奧巴馬的競選團隊通過對網絡大數(shù)據(jù)的挖掘成功幫助奧巴馬在競選總統(tǒng)中獲得連任。奧巴馬團隊在競選前兩年,通過收集、存儲海量數(shù)據(jù),利用數(shù)字化策略尋找和鎖定傾向自己的選民,并拉攏中立派選民,這幫助奧巴馬在某些地區(qū)獲得更多的選票,數(shù)據(jù)分析團隊在奧巴馬競選中發(fā)揮了至關重要的作用。華爾街一家證券公司通過分析3.4億微博用戶的留言,判斷民眾的情緒,根據(jù)人們高興時買股票,焦慮時拋售股票的規(guī)律,決定買賣股票的時機,從而為公司取得了巨大利潤。
3 網絡大數(shù)據(jù)面臨的挑戰(zhàn)
3.1 網絡大數(shù)據(jù)感知與表示
一方面,根據(jù)網絡空間中數(shù)據(jù)隱藏的深度,可以將數(shù)據(jù)分為表層數(shù)據(jù)和深層數(shù)據(jù)[4]。表層數(shù)據(jù)是指可以通過傳統(tǒng)網頁爬蟲直接爬取的數(shù)據(jù),而深層數(shù)據(jù)由網頁在線訪問的數(shù)據(jù)庫組成,只有通過提交頁面的查詢接口才能獲取。與表層數(shù)據(jù)相比,深層數(shù)據(jù)蘊含的信息更豐富,同時更具規(guī)?;崟r動態(tài)化和異構化等特點,傳統(tǒng)方法無法對深層數(shù)據(jù)進行采樣。為了有效利用網絡數(shù)據(jù),針對異構、實時動態(tài)數(shù)據(jù),需要研究有效的方法通過數(shù)據(jù)獲取、數(shù)據(jù)抽取、數(shù)據(jù)整合3個環(huán)節(jié)將數(shù)據(jù)轉化為結構統(tǒng)一的高質量數(shù)據(jù)。
另一方面,網絡大數(shù)據(jù)的建模和表達還面臨著許多新挑戰(zhàn),傳統(tǒng)方法不一定能直接表達大數(shù)據(jù)本身的意義。在大數(shù)據(jù)表示方面,需要解決數(shù)據(jù)稀疏性所帶來的問題,對快速動態(tài)演化的大數(shù)據(jù)進行建模,需要對圖片和多媒體數(shù)據(jù)進行建模和表示等。研究簡單有效的數(shù)據(jù)表示方法是處理網絡大數(shù)據(jù)的首要難題。
3.2 網絡大數(shù)據(jù)存儲與管理
網絡大數(shù)據(jù)的規(guī)模已經從TB級增長到PB級、EB級,網絡大數(shù)據(jù)的存儲管理不僅影響其分析處理效率,也影響其存儲成本。因此,如何提高存儲效率降低存儲成本成為有效利用網絡大數(shù)據(jù)面臨的又一個難題。針對網絡大數(shù)據(jù)的存儲,谷歌公司提出了分布式數(shù)據(jù)處理技術,但是其仍然存在局限性,面臨著數(shù)據(jù)總量規(guī)模超大、處理速度要求高、數(shù)據(jù)類型繁多等多個難題。需要研究優(yōu)化分布式數(shù)據(jù)存儲結構,以提高網絡大數(shù)據(jù)的存儲效率、節(jié)約成本,從而實現(xiàn)高效、高可用的數(shù)據(jù)存儲系統(tǒng)。
3.3 網絡大數(shù)據(jù)挖掘和社會計算
利用計算技術分析挖掘網絡大數(shù)據(jù),發(fā)現(xiàn)其蘊含的知識,是實現(xiàn)網絡大數(shù)據(jù)深層價值和實現(xiàn)行為可計算的主要途徑。隨著社會媒體的涌現(xiàn),用戶規(guī)模和數(shù)據(jù)復雜性都呈現(xiàn)出指數(shù)式增長,傳統(tǒng)的數(shù)據(jù)挖掘方法在性能和效率上已經無法滿足需求。目前,網絡大數(shù)據(jù)挖掘的主要研究熱點是基于內容信息的數(shù)據(jù)挖掘和基于結構信息的社會計算方法。
4 結語
互聯(lián)網、物聯(lián)網、云計算的快速發(fā)展以及層出不窮的網絡應用,引發(fā)了網絡數(shù)據(jù)規(guī)模的爆炸式增長,從而產生了網絡大數(shù)據(jù)。網絡大數(shù)據(jù)的研究主要是通過分析挖掘歷史數(shù)據(jù),發(fā)現(xiàn)新的模式,再結合源源不斷的流數(shù)據(jù),感知現(xiàn)在,并預測未來。網絡大數(shù)據(jù)的研究是經濟發(fā)展和國家安全的戰(zhàn)略需要,網絡大數(shù)據(jù)的涌現(xiàn)為人們提供了前所未有的機遇,但也對人們提出了重大挑戰(zhàn)。網絡大數(shù)據(jù)的研究尚處于初級階段,還有很多問題亟待解決。
參考文獻:
[1] 李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經濟社會發(fā)展的重要戰(zhàn)略領域[J].中國科學院院刊,2012,27(6):647657.
[2] 王元卓,靳小龍,程學旗.網絡大數(shù)據(jù):現(xiàn)狀與挑戰(zhàn)[J].計算機學報,2013,36(6):115.
[3] ANTHONY J G HEY.The fourth paradigm:data-intensive scientific discovery[J].Proceedings of the IEEE,2011,99(9):13441377.
[4] BERGMAN M K.White paper:the deep web: surfacing hidden value[J].Journal of Electronic Publishing,2000,50(1):476481.
(責任編輯:孫 娟)