摘 要:隨著信息技術(shù)的快速發(fā)展,大數(shù)據(jù)已成為當(dāng)前社會(huì)的熱門話題之一,社會(huì)各界對(duì)于大數(shù)據(jù)的討論眾說(shuō)紛紜、持續(xù)升溫。然而,到底什么才是真正的大數(shù)據(jù)?這需要我們進(jìn)行更深入的探究。本文從大數(shù)據(jù)的定義、特征,以及發(fā)展歷史等方面詳細(xì)闡述了大數(shù)據(jù)的基礎(chǔ)理論,同時(shí)分析并提出了大數(shù)據(jù)的本質(zhì)與關(guān)鍵技術(shù),對(duì)于重新認(rèn)識(shí)、了解,以及未來(lái)更好地應(yīng)用大數(shù)據(jù),具有十分重要的意義。
關(guān)鍵詞:大數(shù)據(jù);理論,技術(shù)
中圖分類號(hào):TP311.13
1 大數(shù)據(jù)的定義
大數(shù)據(jù)本身是個(gè)比較抽象的概念。顧名思義,其表示數(shù)據(jù)規(guī)模的龐大與數(shù)據(jù)類型的繁多。近年來(lái),隨著數(shù)據(jù)量的爆炸式增長(zhǎng),數(shù)據(jù)的計(jì)量已不能采用人們熟知的GB或TB為單位進(jìn)行描述,而是以PB(1PB=1024TB)、EB(1EB=1024PB),甚至ZB(1ZB=1024EB)為計(jì)量單位。以利用電子顯微鏡構(gòu)建大腦中的突觸網(wǎng)絡(luò)為例。據(jù)估算,大約1mm3大腦的圖像,數(shù)據(jù)量超過(guò)1PB,如此大的數(shù)據(jù)量無(wú)法采用傳統(tǒng)數(shù)據(jù)庫(kù)工具進(jìn)行內(nèi)容抓取、管理和處理。
目前,有關(guān)大數(shù)據(jù)的定義尚未統(tǒng)一,主要有以下3種。
《互聯(lián)網(wǎng)周刊》的定義為:大數(shù)據(jù)涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以實(shí)現(xiàn)而在小規(guī)模數(shù)據(jù)的基礎(chǔ)上無(wú)法實(shí)現(xiàn)的事情。也就是說(shuō),大數(shù)據(jù)讓我們以1種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析來(lái)獲取蘊(yùn)含巨大價(jià)值的產(chǎn)品、服務(wù)或深刻的洞見,最終形成變革之力。
相關(guān)研究機(jī)構(gòu)認(rèn)為:大數(shù)據(jù)是需要采用新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從數(shù)據(jù)類別上看,大數(shù)據(jù)是指無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。其定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)方法處理的數(shù)據(jù)集。
IBM通過(guò)分析大數(shù)據(jù)的特征對(duì)大數(shù)據(jù)進(jìn)行了定義,認(rèn)為:類型(variety)、數(shù)量(volume)和速度(velocity)是構(gòu)成大數(shù)據(jù)的3個(gè)主要內(nèi)容。其中,類型指數(shù)據(jù)中包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)形式;數(shù)量指收集和分析的數(shù)據(jù)量非常大;速度指數(shù)據(jù)處理速度要足夠快。
2 大數(shù)據(jù)的產(chǎn)生
現(xiàn)如今,全球數(shù)據(jù)量正以前所未有的速度增長(zhǎng)著,且隨著全球無(wú)線網(wǎng)絡(luò)覆蓋區(qū)域的不斷擴(kuò)大,以及移動(dòng)設(shè)備的出現(xiàn)與發(fā)展,數(shù)據(jù)的增長(zhǎng)已不再受時(shí)間、地點(diǎn)的限制。從目前來(lái)看,大數(shù)據(jù)量的積累與增長(zhǎng)主要經(jīng)歷了3個(gè)階段。
信息化管理被動(dòng)產(chǎn)生數(shù)據(jù)階段。企業(yè)為實(shí)現(xiàn)信息化管理,需存儲(chǔ)、處理企業(yè)辦公文件、財(cái)務(wù)報(bào)表、員工信息等數(shù)據(jù)。這一過(guò)程催生了數(shù)據(jù)庫(kù)的出現(xiàn),如超市庫(kù)存系統(tǒng)、銀行交易記錄系統(tǒng)、企業(yè)員工醫(yī)療信息系統(tǒng)等。因此,辦公信息化促成了人類社會(huì)數(shù)據(jù)量的首次大飛躍。這個(gè)階段產(chǎn)生的數(shù)據(jù)的主要特點(diǎn)是:數(shù)據(jù)伴隨著一定的運(yùn)營(yíng)活動(dòng)而產(chǎn)生,并記錄到數(shù)據(jù)庫(kù)中。例如,企業(yè)人力資源部門錄入員工的基本信息,員工的信息就出現(xiàn)在企業(yè)數(shù)據(jù)庫(kù)中,這種數(shù)據(jù)產(chǎn)生方式是被動(dòng)的。
社交網(wǎng)絡(luò)與便攜設(shè)備主動(dòng)產(chǎn)生數(shù)據(jù)階段。在這一階段,數(shù)據(jù)量的增長(zhǎng)來(lái)自2個(gè)方面:一是開放社交網(wǎng)絡(luò)的出現(xiàn),如微博、人人網(wǎng),使用戶主動(dòng)在社交網(wǎng)絡(luò)上發(fā)表自己的看法,分享自己關(guān)注的內(nèi)容,這些過(guò)程產(chǎn)生了大量的數(shù)據(jù);二是以智能手機(jī)、平板電腦為代表的新一代移動(dòng)設(shè)備的出現(xiàn),這些易攜帶、全天候接入互聯(lián)網(wǎng)的設(shè)備使人們能夠更方便地發(fā)表自己的想法等。這些都促成了人類社會(huì)數(shù)據(jù)量的第2次大飛躍,這一階段產(chǎn)生的數(shù)據(jù)是主動(dòng)的。
人、機(jī)、物三者深度融合自動(dòng)產(chǎn)生數(shù)據(jù)階段。隨著物聯(lián)網(wǎng)的發(fā)展,傳感器的使用越來(lái)越廣泛,人類制造的極小的、具有處理功能的傳感器等設(shè)備部署到世界的各個(gè)角落,或?qū)ι鐣?huì)的各種活動(dòng)進(jìn)行監(jiān)控,或?qū)θ祟惿眢w健康狀況進(jìn)行隨時(shí)隨地的監(jiān)測(cè),這些過(guò)程都產(chǎn)生了大量數(shù)據(jù),形成了人類社會(huì)數(shù)據(jù)量的第3次大飛躍,這種數(shù)據(jù)的產(chǎn)生是自動(dòng)的。
綜上所述,數(shù)據(jù)的產(chǎn)生經(jīng)歷了從被動(dòng)到主動(dòng),再到自動(dòng)的過(guò)程,其中,自動(dòng)產(chǎn)生數(shù)據(jù)的過(guò)程是形成大數(shù)據(jù)的根本原因。
3 大數(shù)據(jù)的關(guān)鍵技術(shù)
3.1 文件系統(tǒng)。針對(duì)數(shù)據(jù)存儲(chǔ),文件系統(tǒng)需要考慮3個(gè)問(wèn)題:高性能共享性、文件的管理和保護(hù)、重復(fù)數(shù)據(jù)的處理。尤其是在面對(duì)海量文件時(shí),上述問(wèn)題更加凸顯。例如:美國(guó)谷歌公司設(shè)計(jì)開發(fā)了谷歌文件系統(tǒng)GFS——(Googlefilesystem)。
GFS是構(gòu)建在大量廉價(jià)服務(wù)器之上的可擴(kuò)展的分布式文件系統(tǒng),主要針對(duì)文件較大、且讀遠(yuǎn)大于寫的應(yīng)用場(chǎng)景,采用主從(Master-Slave)結(jié)構(gòu),通過(guò)數(shù)據(jù)分塊、追加更新(append-only)等方式實(shí)現(xiàn)了海量數(shù)據(jù)的高效存儲(chǔ)。同時(shí),谷歌公司選擇電價(jià)較低的地點(diǎn)建立存儲(chǔ)庫(kù),從而降低了運(yùn)行成本。
3.2 數(shù)據(jù)庫(kù)系統(tǒng)。大數(shù)據(jù)的特點(diǎn)決定了數(shù)據(jù)庫(kù)系統(tǒng)需解決的問(wèn)題:第一,數(shù)據(jù)量規(guī)模巨大。大數(shù)據(jù)時(shí)代的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)單機(jī)所能容納的數(shù)據(jù)量,因此,必須采用分布式存儲(chǔ)方式。這就需要系統(tǒng)具有很好的擴(kuò)展性,即適應(yīng)大數(shù)據(jù)的數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)當(dāng)具有良好的橫向擴(kuò)展(scale-out)能力。第二,數(shù)據(jù)異構(gòu)性。結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)均是大數(shù)據(jù)的重要組成部分。高效地處理多種數(shù)據(jù)類型是大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)技術(shù)面臨的重要挑戰(zhàn)之一。第三,設(shè)計(jì)理念要不斷創(chuàng)新。面對(duì)多種類型的數(shù)據(jù),不可能存在統(tǒng)一的數(shù)據(jù)處理方式,這就要求新型的數(shù)據(jù)庫(kù)系統(tǒng)以不斷變化的角度對(duì)待數(shù)據(jù)。
數(shù)據(jù)分析與處理技術(shù)。傳統(tǒng)的針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘的理論已日臻成熟,但是針對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)類型,則需要開發(fā)新的數(shù)據(jù)處理與挖掘技術(shù)。
(1)Hadoop數(shù)據(jù)處理平臺(tái)。目前,數(shù)據(jù)的分析與處理尚沒有絕對(duì)合適的工具。Hadoop是當(dāng)前最為流行的大數(shù)據(jù)處理平臺(tái)。Hadoop最先是模仿GFS和Mapreduce實(shí)現(xiàn)的云計(jì)算開源平臺(tái)。對(duì)Hadoop改進(jìn)并將其應(yīng)用于各種場(chǎng)景的大數(shù)據(jù)處理已經(jīng)成為業(yè)界新的研究熱點(diǎn),主要的研究成果集中在Hadoop平臺(tái)性能改進(jìn)、高效查詢處理、索引構(gòu)建和使用、基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、Hadoop與數(shù)據(jù)庫(kù)系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等方面。
(2)深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)通過(guò)建立類似人腦的分層模型結(jié)構(gòu),對(duì)輸入數(shù)據(jù)逐級(jí)提取從底層到高層的特征,從而建立起底層信號(hào)到高層語(yǔ)義的映射關(guān)系。近年來(lái),谷歌公司、淘寶網(wǎng)、百度公司等掌握大量行業(yè)數(shù)據(jù)的企業(yè)都投入了大量人力物力,開展深度學(xué)習(xí)技術(shù)的研發(fā)工作,并在語(yǔ)音識(shí)別、圖像、在線廣告等領(lǐng)域取得了顯著進(jìn)展。起初,簡(jiǎn)單的機(jī)器學(xué)習(xí)模型比復(fù)雜模型更有效的觀點(diǎn)十分流行。例如,簡(jiǎn)單的線性模型可能比復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型擁有更大的應(yīng)用空間。然而,近幾年深度學(xué)習(xí)的快速發(fā)展促使人們開始重新考慮這個(gè)觀點(diǎn):或許較復(fù)雜的模型或表達(dá)能力更強(qiáng)的模型才能充分發(fā)掘出海量數(shù)據(jù)中蘊(yùn)含的價(jià)值;也許運(yùn)用更復(fù)雜的深度學(xué)習(xí)模型能夠從大數(shù)據(jù)中發(fā)掘出更多有價(jià)值的信息和知識(shí)。
挖掘大數(shù)據(jù)的價(jià)值需要深度模型。如語(yǔ)音識(shí)別作為大數(shù)據(jù)機(jī)器學(xué)習(xí)的重要問(wèn)題之一,在聲學(xué)建模部分,訓(xùn)練樣本達(dá)到了幾億到十幾億,谷歌公司在1項(xiàng)語(yǔ)音識(shí)別實(shí)驗(yàn)中,發(fā)現(xiàn)訓(xùn)練后的模型對(duì)訓(xùn)練樣本和測(cè)試樣本的預(yù)測(cè)誤差基本相當(dāng),然而一般訓(xùn)練樣本的誤差要顯著小于測(cè)試樣本,出現(xiàn)這樣的結(jié)果只有1個(gè)解釋,就是大數(shù)據(jù)中包含豐富的信息維度,即便訓(xùn)練后的高容量復(fù)雜模型,也處于欠擬合的狀態(tài),所以,大數(shù)據(jù)需要深度學(xué)習(xí)。
與采用人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來(lái)深度學(xué)習(xí)和構(gòu)建特征,能夠刻畫出大數(shù)據(jù)內(nèi)更加豐富的信息。在未來(lái)發(fā)展中,深度學(xué)習(xí)在大數(shù)據(jù)中的應(yīng)用將會(huì)越來(lái)越普遍。
相關(guān)硬件設(shè)計(jì)與制造技術(shù)。硬件架構(gòu)不同會(huì)極大地影響系統(tǒng)的處理效率。數(shù)據(jù)處理速度在很大程度上取決于處理過(guò)程中處理時(shí)間最長(zhǎng)的節(jié)點(diǎn)。如果集群中硬件的性能差異過(guò)大,會(huì)導(dǎo)致大量的計(jì)算時(shí)間浪費(fèi)在性能較好的服務(wù)器等待性能較差的服務(wù)器的過(guò)程中。在這種情況下,服務(wù)器的線性增長(zhǎng)并不一定會(huì)帶來(lái)計(jì)算能力的線性增長(zhǎng)。
針對(duì)這些問(wèn)題,有2個(gè)技術(shù)問(wèn)題需要關(guān)注:一是不同結(jié)構(gòu)的硬件之間的匹配,以發(fā)揮最大使用率的技術(shù)問(wèn)題;二是硬件設(shè)計(jì)技術(shù)的提升。
為提升數(shù)據(jù)的處理能力,需要使用高性能硬件。例如,近年出現(xiàn)的基于閃存的固態(tài)硬盤(SSD)采用新型尋址方式和硬件結(jié)構(gòu),從硬件層為存儲(chǔ)系統(tǒng)結(jié)構(gòu)的革新提供了支持,為計(jì)算機(jī)存儲(chǔ)技術(shù)的發(fā)展和存儲(chǔ)能效的提高帶來(lái)了新的契機(jī)。
參考文獻(xiàn):
[1]席曄文,楊金民.基于雙布魯姆過(guò)濾器的數(shù)據(jù)排重技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用.
作者簡(jiǎn)介:謝冬,男,福鼎人,工程師,碩士,研究方向:信息管理。
作者單位:福鼎市醫(yī)院信息科,福建福鼎 355200