袁桓濤 深圳外國(guó)語學(xué)校高三(9)班
數(shù)據(jù)是能夠客觀反映事實(shí)的數(shù)字和資料,而大數(shù)據(jù)則強(qiáng)調(diào)了數(shù)據(jù)的廣泛與全面。學(xué)者認(rèn)為:大數(shù)據(jù)因自身蘊(yùn)含的大量信息而可以表征事物更多更全面的屬性。權(quán)威學(xué)者維克ViktorMayer-Schonberger認(rèn)為,大數(shù)據(jù)時(shí)代是沒有樣本的時(shí)代,所有的樣本即是全部數(shù)據(jù)。[ ]然而,從目前的硬件、軟件條件來分析,這種“全數(shù)據(jù)樣本”的數(shù)據(jù)分析方式將會(huì)占用大量的存儲(chǔ)空間和存儲(chǔ)能量,是現(xiàn)階段不能實(shí)現(xiàn)的。因此,獲取的數(shù)據(jù)不一定足以揭示完整的分析對(duì)象,我們目前的大數(shù)據(jù)并不是理想中的大數(shù)據(jù)。
從數(shù)據(jù)的體量來看,大數(shù)據(jù)的“大”是相對(duì)的。在目前常見的定義中,大數(shù)據(jù)通常用來指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合?!靶履柖伞痹?jīng)提出,全球信息總量每18個(gè)月即會(huì)翻一番。全球數(shù)據(jù)量 在2012年約為2.7 ZB,按照“新摩爾定律”,在2020年將超過86 ZB。
即使是相同的對(duì)象,隨著技術(shù)的進(jìn)步,獲取到數(shù)據(jù)的體量、類型也會(huì)不斷增長(zhǎng),人類永遠(yuǎn)只能逼近“全數(shù)據(jù)”這個(gè)概念卻不可能精確達(dá)成。在這種情況下,人類的數(shù)據(jù)處理能力能適應(yīng)“新摩爾定律”所揭示的數(shù)據(jù)高速增長(zhǎng)嗎?
據(jù)統(tǒng)計(jì),2012年產(chǎn)生的有效數(shù)據(jù)中有97%沒有得到分析利用就遭到刪除,目前來看,丟失的數(shù)據(jù)將無法找回,將永久性的成為“數(shù)字陰影”。此外,由于“數(shù)字陰影”的存在,人類社會(huì)并不會(huì)同步進(jìn)入大數(shù)據(jù)時(shí)代,大數(shù)據(jù)、小數(shù)據(jù)和無數(shù)據(jù)分布于社會(huì)的不同區(qū)域。來自大數(shù)據(jù)的分析結(jié)論在小數(shù)據(jù)世界不一定有普遍適用性而有些無數(shù)據(jù)的研究領(lǐng)域也并非依靠數(shù)據(jù)就可以獲得突破性研究。例如,2008年汶川、2013年雅安地震的社交網(wǎng)絡(luò)數(shù)據(jù)大部分集中在成都等大型城市,而相對(duì)偏僻的地區(qū),由于電力、通信系統(tǒng)癱瘓幾乎統(tǒng)計(jì)不到相關(guān)數(shù)據(jù)。如果利用當(dāng)時(shí)的大數(shù)據(jù)平臺(tái)——社交網(wǎng)絡(luò)數(shù)據(jù)對(duì)災(zāi)情進(jìn)行分析,是無法覆蓋受災(zāi)最嚴(yán)重地區(qū)的情況,在這種狀況下,實(shí)際的工作開展依靠的是軍隊(duì)開路的低數(shù)據(jù)搜索,而這也被證實(shí)為最為有效的應(yīng)急方法之一。
在大數(shù)據(jù)時(shí)代之前,人們利用不同的采樣方法縮小數(shù)據(jù)規(guī)模,力求用少量的數(shù)據(jù)來代表性地描述事物的特征。而這類數(shù)據(jù)包含大量有用的信息,因?yàn)槿藗円罁?jù)專門的用途對(duì)事物進(jìn)行了抽象。而在大數(shù)據(jù)時(shí)代,樣本數(shù)目不斷增加,逐漸逼近原始的總體數(shù)據(jù),人們?yōu)榱四軌蚍治鏊屑?xì)節(jié)信息,直接處理全體數(shù)據(jù)而非樣本數(shù)據(jù)。這一做法跳過了許多數(shù)據(jù)精簡(jiǎn)、分類、區(qū)分的步驟,無形中引入了大量無用或虛假的數(shù)據(jù)。據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心預(yù)測(cè),全人類即使到2020年也僅有33%的數(shù)據(jù)算得上有效數(shù)據(jù)。因此,為了保證足夠的有效信息,一般不對(duì)數(shù)據(jù)進(jìn)行刪除。這就造成了數(shù)據(jù)絕對(duì)量的持續(xù)猛增與有效信息量的相對(duì)穩(wěn)定之間的矛盾——數(shù)據(jù)低價(jià)值密度。大數(shù)據(jù)價(jià)值的低密度造成了技術(shù)與成本上的巨大挑戰(zhàn)。這種數(shù)據(jù)規(guī)模使得數(shù)據(jù)學(xué)家進(jìn)行數(shù)學(xué)分析的難度不亞于大海撈針。例如,一個(gè)生態(tài)學(xué)家想分析過去10年美國(guó)蒸散發(fā)量的變化,下載的圖像數(shù)據(jù)就達(dá)3TB,需要4000CPU小時(shí)來處理,最后只生成小于100M的分析結(jié)果,如果轉(zhuǎn)化成純文本語言的話可能更少。這充分地說明,大數(shù)據(jù)時(shí)代的數(shù)據(jù)量巨大、然而卻難以高效地產(chǎn)出。本文將大數(shù)據(jù)低密度價(jià)值產(chǎn)生的原因歸納為以下幾點(diǎn):
3.1 數(shù)據(jù)量龐大,有效數(shù)據(jù)難以進(jìn)行分析處理。
3.2 大數(shù)據(jù)的價(jià)值或者最能體現(xiàn)它優(yōu)勢(shì)的在于它對(duì)市場(chǎng)的快速反應(yīng),然而市場(chǎng)快速變化使得數(shù)據(jù)與人腦思維存在“數(shù)字鴻溝”,人類難以及時(shí)做出及時(shí)相應(yīng)變化的數(shù)據(jù)或數(shù)據(jù)分析。
3.3 數(shù)據(jù)的采集往往不及時(shí),數(shù)據(jù)樣本不全面,會(huì)導(dǎo)致數(shù)據(jù)的真實(shí)度降低。
目前大數(shù)據(jù)的算法是基于電腦計(jì)算機(jī)的學(xué)習(xí),開發(fā)、學(xué)習(xí)難度較大,而且對(duì)硬件軟件要求都十分苛刻,成本與產(chǎn)出也并不成正比。目前的數(shù)據(jù)使用情況在今后的較長(zhǎng)時(shí)間內(nèi)恐怕都難以得到進(jìn)一步的提升,這使得大數(shù)據(jù)為用戶或企業(yè)帶來的利益不是直接有效的。大數(shù)據(jù)當(dāng)前的問題在于數(shù)據(jù)流量已經(jīng)超過了計(jì)算機(jī)的計(jì)算負(fù)荷、同時(shí)大量的隱含信息因?yàn)槿祟惖乃季S意識(shí)無法突破“數(shù)字鴻溝”導(dǎo)致并不能為人類所使用。在這種情況下,本文認(rèn)為應(yīng)當(dāng)暫緩對(duì)于數(shù)據(jù)的進(jìn)一步擴(kuò)充,轉(zhuǎn)而對(duì)已有的精確數(shù)據(jù)進(jìn)行深度學(xué)習(xí),對(duì)現(xiàn)有的計(jì)算機(jī)硬件進(jìn)行升級(jí),采取計(jì)算機(jī)深度學(xué)習(xí)的方法不斷地現(xiàn)有的數(shù)據(jù)進(jìn)行重復(fù)挖掘、從而改變大數(shù)據(jù)目前被貼上的“低價(jià)值密度”的標(biāo)簽,使得大數(shù)據(jù)的數(shù)據(jù)能夠擁有更高的價(jià)值。
[1]陳喜樂,朱本用,劉偉榕.大數(shù)據(jù)分析的理論與實(shí)踐挑戰(zhàn)[J].自然辯證法研究,2016,32(07):90-95.
[2]維克托.邁爾-舍恩伯格,等.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[3]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國(guó)防科技,2013(2):10-17