金 麗
(遼寧建筑職業(yè)學院,遼寧 遼陽 111000)
大數(shù)據(jù)及其面臨的技術(shù)挑戰(zhàn)分析
金 麗
(遼寧建筑職業(yè)學院,遼寧 遼陽 111000)
大數(shù)據(jù)正在改變?nèi)藗兩畹母鱾€方面。從大數(shù)據(jù)中挖掘價值需要經(jīng)歷數(shù)據(jù)獲取、信息提取和清理、數(shù)據(jù)集成、建模和分析、解釋和部署等多個步驟。目前,許多關(guān)于大數(shù)據(jù)的討論只關(guān)注一兩個步驟,而忽略了其余部分。大數(shù)據(jù)研究面臨的挑戰(zhàn)很多,從數(shù)據(jù)的異構(gòu)性、不一致性和不完備性、及時性、隱私性、可視化和協(xié)作性,到圍繞大數(shù)據(jù)的工具生態(tài)系統(tǒng)。文章對大數(shù)據(jù)及其面臨的技術(shù)挑戰(zhàn)進行分析,以期能更好地挖掘大數(shù)據(jù)中蘊含的潛在價值。
大數(shù)據(jù);數(shù)據(jù)分析;技術(shù)挑戰(zhàn)
在廣泛的應(yīng)用領(lǐng)域,數(shù)據(jù)正以前所未有的規(guī)模被收集。前數(shù)據(jù)時代決策生成往往是基于猜測,或精心制作的現(xiàn)實模型;而在大數(shù)據(jù)時代,決策者可以利用數(shù)據(jù)驅(qū)動的數(shù)學模型。大數(shù)據(jù)分析幾乎推動了社會的各個方面,包括移動服務(wù)、零售、制造業(yè)、金融服務(wù)、生命科學和物理科學[1]。大數(shù)據(jù)分析是一個迭代過程,每個過程都有各自的挑戰(zhàn),本研究考慮端到端的大數(shù)據(jù)生命周期,首先分析大數(shù)據(jù)發(fā)展的基本現(xiàn)狀,再著重分析大數(shù)據(jù)分析的5個階段,以及存在于每個階段中的具體挑戰(zhàn)。
科學研究領(lǐng)域已經(jīng)被大數(shù)據(jù)徹底改變了。以前,天文學家的重要工作是從天空取得圖像數(shù)據(jù),“斯隆數(shù)字天空調(diào)查”收集并存儲了大量的太空數(shù)據(jù),而天文學家的任務(wù)是在數(shù)據(jù)庫中找到有趣的事物或現(xiàn)象。在生物科學中的一項共識是將科學數(shù)據(jù)存入公共存儲庫,并建立公共數(shù)據(jù)庫供其他科學家使用。此外,隨著技術(shù)的進步,特別是隨著下一代測序(Next Generation Sequencing,NGS),可用實驗數(shù)據(jù)集的大小與數(shù)量將呈指數(shù)級增加,而這種增加的速度將遠遠大于摩爾定律提供的計算機性能的提高。甚至要想存儲它們在現(xiàn)在看來都已經(jīng)變得不切實際,而只能將生成的數(shù)據(jù)形成序列后實時處理成有效的結(jié)論數(shù)據(jù)再保存。
在科學研究之外,大數(shù)據(jù)也具有革命性的潛力。Google公司在Google文件系統(tǒng)、地圖規(guī)約以及隨后的開源系統(tǒng)Hadoop上所做的工作,極大地推動大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,并集中體現(xiàn)在互聯(lián)網(wǎng)公司中,如Facebook,LinkedIn,Microsoft,Quantcast,Twitter和Yahoo,它們已經(jīng)成為從Web搜索到內(nèi)容推薦和計算廣告等應(yīng)用的基礎(chǔ)。其他有說服力的應(yīng)用還有醫(yī)療大數(shù)據(jù)、城市規(guī)劃、智能交通、環(huán)境建模、節(jié)能、智能材料、機器翻譯自然語言之間、教育、計算社會科學、金融風險分析、國土安全和計算機安全等[2]。
截至2016年,企業(yè)和用戶存儲的新數(shù)據(jù)超過100 EB(1 EB=103 PB=106 TB=109 GB)字節(jié)。據(jù)麥肯錫最近的一份報告,全球個人定位數(shù)據(jù)的潛在價值估計為7 000億美元,這可能導致產(chǎn)品開發(fā)和組裝成本下降50%。麥肯錫預測,大數(shù)據(jù)在就業(yè)方面同樣會產(chǎn)生巨大影響,美國需要140 000~190 000名具有深度分析經(jīng)驗的員工,而這一數(shù)字在中國超過100萬。
雖然大數(shù)據(jù)的潛在好處是真實顯著的,并且已經(jīng)取得了一些初步的成功,但要充分發(fā)揮這一潛力,仍有許多技術(shù)上的挑戰(zhàn)必須突破。當然,巨大的數(shù)據(jù)量是一個重大的挑戰(zhàn),也是最容易識別的。行業(yè)分析公司指出,不僅在數(shù)量上,在數(shù)據(jù)多樣性和傳輸速度上都存在挑戰(zhàn)。多樣性指的是數(shù)據(jù)類型、表示和語義解釋的異質(zhì)性。速度包括數(shù)據(jù)傳輸速率和反應(yīng)時間窗兩個方面。另外,數(shù)據(jù)的準確性和可用性等問題也同時存在。
大數(shù)據(jù)的處理和分析是一個迭代的過程,我們稱之為數(shù)據(jù)分析通道,總體可以分成5個階段,每個處理階段都存在一些特殊的和共性的挑戰(zhàn)。許多研究人員只關(guān)注分析/建模這一步驟,期望能抽象出一個數(shù)學表達形式來獲取并描述數(shù)據(jù)中蘊含的所有價值,但隨著數(shù)據(jù)量的增大和數(shù)據(jù)耦合度的增加,模型的參數(shù)和維度將迅速增加,而且有材料證明數(shù)據(jù)分析通道的其他階段發(fā)揮越來越重要的作用。對信息的獲取來源于數(shù)據(jù)本身,因此,我們必須從數(shù)據(jù)是有價值的、并且可能以我們無法完全預料到的方式的角度來記錄數(shù)據(jù),以及如何從非完全、碎片式的數(shù)據(jù)中最大限度地獲取價值。這對跟蹤出處、處理不確定性和錯誤的要求就提高了[3]。當同種信息以重復和重疊的方式出現(xiàn)時,我們必須開發(fā)相應(yīng)的統(tǒng)計技術(shù)來應(yīng)對諸如數(shù)據(jù)集成和實體/關(guān)系抽取等挑戰(zhàn),這可能是有效利用多源數(shù)據(jù)的關(guān)鍵。隨著大數(shù)據(jù)處理領(lǐng)域不斷細分,諸如此類的問題逐漸呈現(xiàn)。
大數(shù)據(jù)不是憑空產(chǎn)生的,而是對某些潛在活動的記錄??紤]我們對周圍世界的感知,從老年人的心率到空氣質(zhì)量元素,以及網(wǎng)站上用戶的活動記錄或事件日志。傳感器、仿真和科學實驗都可以產(chǎn)生大量的數(shù)據(jù)。例如,一平方公里成建制的望遠鏡陣列每天產(chǎn)生高達數(shù)萬TB字節(jié)的原始數(shù)據(jù)。
其中大部分原始數(shù)據(jù)是冗余的,即可以通過過濾壓縮掉好幾個數(shù)量級,而不影響我們提取出其中的價值。另外原始數(shù)據(jù)往往過于龐大,甚至不能先存儲[4]。這便帶來了一個挑戰(zhàn),如何定義和設(shè)計有效的“在線”濾波器?另外,由于傳感器的測量誤差,當一個傳感器讀數(shù)與其余的讀數(shù)相差很大時,可能是傳感器出現(xiàn)了故障,但也有可能是發(fā)現(xiàn)了新的現(xiàn)象,我們該如何取舍?
此外,大體量數(shù)據(jù)集的加載往往是一個挑戰(zhàn),特別是當與在線過濾和數(shù)據(jù)規(guī)約相結(jié)合時。此時,相對于載入全部數(shù)據(jù),有效的增量攝取技術(shù)可能更合適。對于有些應(yīng)用來說,這些可能還不夠,必須設(shè)計有效的實時處理方法。
數(shù)據(jù)收集時采用的格式一般不能直接用于數(shù)據(jù)分析。相反,我們需要一個信息提取過程,從底層數(shù)據(jù)中提取所需的信息,并以結(jié)構(gòu)化的形式表達出來,再進行有效的分析。正確而全面地完成信息的提取是一項持續(xù)的技術(shù)挑戰(zhàn)。通常,這類提取方法不是通用的,而是高度依賴于應(yīng)用。比如,用醫(yī)療圖像提取方法來提取太空圖片中的信息,結(jié)果與預期會有很大的偏差。在做信息提取時,需要聲明并精確地指定信息提取任務(wù),也就是對算法的提取結(jié)果有正向的反饋來訓練算法,然后再用以處理新數(shù)據(jù)。
多數(shù)數(shù)據(jù)源都是不可靠的,其中原因包括傳感器可能有故障、可能經(jīng)過人類有偏見的處理過程、通過遠程網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)可能會被污染等。深入理解誤差源并對其進行建模是實施數(shù)據(jù)清理面臨的第一層挑戰(zhàn)。而現(xiàn)狀是,這些誤差大部分來自數(shù)據(jù)源和所依賴的應(yīng)用程序[5]。
有效的大規(guī)模分析常常需要從多個源收集異構(gòu)數(shù)據(jù)。例如,要全方位獲得一個(?。┤说慕】禂?shù)據(jù),需要綜合分析醫(yī)療健康記錄、居住環(huán)境數(shù)據(jù)以及其他一些生活數(shù)據(jù),如血糖儀、心率、加速度計等。不同來源的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)和語義上具有異質(zhì)性,而它們又同時具有滿足分析需求的潛在價值,因此,設(shè)計數(shù)據(jù)轉(zhuǎn)換和集成工具讓這些異質(zhì)性數(shù)據(jù)在某種意義上獲得統(tǒng)一性就成了一項重要的挑戰(zhàn)。
即使僅僅對于一個數(shù)據(jù)集的簡單分析,通常也有許多不同的方法來存儲同質(zhì)信息,每個方案都包含某些權(quán)衡。例如,盡管生物信息學數(shù)據(jù)庫結(jié)構(gòu)如此巨大多樣,其中數(shù)據(jù)信息背后的實體基本相似,如基因。數(shù)據(jù)庫設(shè)計是一門藝術(shù),由高薪專業(yè)人員在企業(yè)環(huán)境中精心執(zhí)行。但我們必須保證相關(guān)專業(yè)人士,如該領(lǐng)域的科學家參與創(chuàng)造有效的數(shù)據(jù)存儲,畢竟最終使用數(shù)據(jù)庫的是這些專業(yè)人士,建造華麗而不實用的數(shù)據(jù)庫是不可取的。
大數(shù)據(jù)的查詢和挖掘方法與傳統(tǒng)的小樣本統(tǒng)計分析方法有本質(zhì)的區(qū)別。大數(shù)據(jù)往往是嘈雜的、動態(tài)的、異構(gòu)的、相互關(guān)聯(lián)的、可信的。然而,即使是嘈雜的大數(shù)據(jù)可能比小樣本更重要,統(tǒng)計結(jié)果已經(jīng)顯示,大數(shù)據(jù)頻繁模式和關(guān)聯(lián)分析的結(jié)果通常會取代直觀結(jié)論,挖掘出隱藏的、更可靠的模式和知識。由此帶來的直接挑戰(zhàn)就是,如何通過適當?shù)慕y(tǒng)計處理方法,從海量數(shù)據(jù)中分析出較好的結(jié)果。
決策者最終必須要對分析的結(jié)果提供一種解釋,通常包括檢查所有的假設(shè)和回溯分析。此外,還有許多可能的錯誤來源:計算機系統(tǒng)可能有缺陷、建立的模型不可避免地有假設(shè)、結(jié)果可能基于錯誤的數(shù)據(jù)。由于所有這些原因,負責任的用戶盲目相信計算機系統(tǒng),相反,用戶會試圖理解和驗證計算機所產(chǎn)生的結(jié)果,而計算機系統(tǒng)必須為驗證提供便利。由于大數(shù)據(jù)的復雜性,這尤其成了一種挑戰(zhàn)。數(shù)據(jù)記錄背后常常有重要的假設(shè),分析驗證必須要涉及多個步驟以及其背后的假設(shè)。簡言之,僅僅提供結(jié)果是不夠的,還必須向用戶提供解釋分析結(jié)果的能力,并使用不同的假設(shè)、參數(shù)或數(shù)據(jù)集重復分析,以更好地支撐決策過程和社會環(huán)境變化[6]。
我們已經(jīng)進入了一個大數(shù)據(jù)時代,許多行業(yè)的決策越來越依賴一個數(shù)據(jù)驅(qū)動的決策模型,核心業(yè)務(wù)依賴于不斷完善的大量數(shù)據(jù)分析。然而大數(shù)據(jù)的分析在其各個階段都存在著一些挑戰(zhàn)待解決,本文詳述了數(shù)據(jù)分析的步驟以及在這些步驟中面臨的關(guān)鍵技術(shù)挑戰(zhàn),積極地發(fā)展技術(shù),應(yīng)對這些挑戰(zhàn)能更好地挖掘大數(shù)據(jù)中蘊含的潛在價值。
[1] 趙國棟,易歡歡,糜萬軍,等.大數(shù)據(jù)時代的歷史機遇:產(chǎn)業(yè)變革與數(shù)據(jù)科學[M].北京:清華大學出版社,2013.
[2] 程學旗,靳小龍,楊婧,等.大數(shù)據(jù)技術(shù)進展與發(fā)展趨勢[J].科技導報,2016(14):49-59.
[3] 施惠俊.基于云計算的海量語義信息并行推理方法研究[D].上海:上海交通大學,2012.
[4] 黃宜華.大數(shù)據(jù)機器學習系統(tǒng)研究進展機[J].大數(shù)據(jù),2015(1):35-54.
[5] 徐宗本.數(shù)據(jù)分析與處理的共性基礎(chǔ)與核心技術(shù)[C].蘭州:第四屆中國計算機學會(CCF)大數(shù)據(jù)學術(shù)會議,2016.
[6] 麥肯錫環(huán)球研究院.大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿[EB/OL].(2014-08-27)[2017-10-25].http://intl.ce.cn/specials/zxgjzh/201408/27/t20140827_3436534.shtml.
Analysis on the big data and the technical challenges faced
Jin Li
(Liaoning Jianzhu Vocational College, Liaoyang 111000, China)
The big data is changing all aspects of people’s lives. Mining valuable data from big data involves many steps, such as data acquisition, information extraction and cleaning, data integration, modeling and analysis, interpretation and deployment and so on. At present, many discussions about big data only focus on one or two steps, while ignoring the rest. There are many challenges in big data research, from data heterogeneity, inconsistency and incompleteness, timeliness, privacy, visualization and collaboration, to the tools ecosystem around big data. This paper analyzes the big data and the technical challenges faced, in order to better mining the potential value of big data.
big data; data analysis; technical challenges
金麗(1981— ),女,遼寧遼陽人,講師,碩士;研究方向:計算機軟件應(yīng)用。