陳亮
北京中電普華信息技術(shù)有限公司 北京 100085
二十紀(jì)九十年代,各行各業(yè)的數(shù)據(jù)呈指數(shù)型增長(zhǎng),進(jìn)入二十一世紀(jì)世界各國(guó)對(duì)數(shù)據(jù)的發(fā)展和應(yīng)用給予了高度的重視,近年來(lái),大數(shù)據(jù)系統(tǒng)的應(yīng)用同時(shí)引起了我國(guó)自然科學(xué)界、人文科學(xué)界的關(guān)注;隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們對(duì)復(fù)雜性數(shù)據(jù)處理的能力也越來(lái)越強(qiáng),從海量數(shù)據(jù)中搜索、收集相關(guān)信息的能力日益完善,毫無(wú)疑問(wèn),大數(shù)據(jù)不僅能為自然科學(xué)和人文科學(xué)帶來(lái)相應(yīng)的技術(shù)支持,更能為人們現(xiàn)實(shí)中的生活生產(chǎn)方式帶去嶄新的變化。
20世紀(jì)80年代,“大數(shù)據(jù)”的概念由一位美國(guó)學(xué)者首次提出。大數(shù)據(jù)是指隨著經(jīng)濟(jì)社會(huì)的發(fā)展,對(duì)大容量的數(shù)據(jù)需求日益增多,一定時(shí)間內(nèi)無(wú)法用常規(guī)的軟件工具對(duì)數(shù)據(jù)內(nèi)容進(jìn)行管理、分析處理,從而產(chǎn)生的一種有效處理信息數(shù)據(jù)的技術(shù)。
當(dāng)前,大數(shù)據(jù)技術(shù)已經(jīng)得到了各行各業(yè)的廣泛應(yīng)用,大到醫(yī)療、能源等行業(yè),小到零售行業(yè),體現(xiàn)在人類生活的方方面面。眾所周知,大數(shù)據(jù)已經(jīng)不是簡(jiǎn)簡(jiǎn)單的掌握數(shù)據(jù)大的事實(shí)了,而更重要的是要對(duì)大數(shù)據(jù)進(jìn)行分析,獲取更多智能的、深入的、更有價(jià)值的信息,從而運(yùn)用于國(guó)民經(jīng)濟(jì)的各行各業(yè),促進(jìn)國(guó)民經(jīng)濟(jì)的健康快速發(fā)展[1]。
大數(shù)據(jù)具有四個(gè)基本課程:
(1)數(shù)據(jù)體量龐大,且呈現(xiàn)逐年增長(zhǎng)的趨勢(shì);
(2)數(shù)據(jù)類型多種多樣,且個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù);
(3)價(jià)值密度低,有用的數(shù)據(jù)僅僅只有一兩秒;
(4)處理速度快。
了解大數(shù)據(jù)及其時(shí)代屬性,對(duì)于大數(shù)據(jù),其特征表現(xiàn)在四個(gè)方面。一是大量性。大數(shù)據(jù)時(shí)代下的數(shù)據(jù),其數(shù)量規(guī)模是巨大的,尤其是在當(dāng)下高速發(fā)展的網(wǎng)絡(luò)平臺(tái),各類承載數(shù)據(jù)資料的網(wǎng)絡(luò)化工具、終端設(shè)備等的普及,數(shù)據(jù)資料來(lái)源的廣泛性,使得各類數(shù)據(jù)資料呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。二是多樣性。單就大數(shù)據(jù)的數(shù)據(jù)類型,其種類繁多。如文本類數(shù)據(jù),表現(xiàn)為結(jié)構(gòu)化特征;網(wǎng)絡(luò)化日志、音視頻、地理位置等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)類型等。由于數(shù)據(jù)資料來(lái)源的廣泛性,數(shù)據(jù)的多樣性就必然存在。越來(lái)越多非結(jié)構(gòu)化數(shù)據(jù)資料的增長(zhǎng),需要我們優(yōu)化數(shù)據(jù)統(tǒng)計(jì)分析方法和技術(shù),從中提取有價(jià)值的數(shù)據(jù)知識(shí)。三是價(jià)值性。大數(shù)據(jù)時(shí)代下的數(shù)據(jù)統(tǒng)計(jì)分析,其價(jià)值也是巨大的。大數(shù)據(jù)不僅反映了社會(huì)、商業(yè)、生產(chǎn)、生活等方面信息,同樣這些有價(jià)值的信息可能會(huì)轉(zhuǎn)瞬即逝。通常,價(jià)值密度與數(shù)據(jù)規(guī)模成反比。以視頻數(shù)據(jù)為例,一小時(shí)的連續(xù)不間斷視頻,其有價(jià)值信息可能僅有一秒。由此,對(duì)于數(shù)據(jù)的接收、處理思想和方法,都需要轉(zhuǎn)變,從而更好地從大數(shù)據(jù)中提純有價(jià)值的數(shù)據(jù)信息。四是高速性。面對(duì)大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)方法或工具,顯然是無(wú)法快速、高效處理大數(shù)據(jù)的,藉于大數(shù)據(jù)統(tǒng)計(jì)分析的時(shí)效性,需要我們能夠轉(zhuǎn)變統(tǒng)計(jì)分析理念,從海量數(shù)據(jù)統(tǒng)計(jì)分析中獲得高效統(tǒng)計(jì)目標(biāo)[2]。
守舊的抽樣分析實(shí)現(xiàn)不了大數(shù)據(jù)處理和知識(shí)發(fā)現(xiàn)。于是,非常有必要引進(jìn)統(tǒng)計(jì)思維,脫離對(duì)小量數(shù)據(jù)樣本的依附。運(yùn)用統(tǒng)計(jì)工具對(duì)全部數(shù)據(jù)信息實(shí)行統(tǒng)計(jì)分析,有效地處理數(shù)據(jù)所展現(xiàn)有價(jià)值信息,簡(jiǎn)單數(shù)據(jù)的精準(zhǔn)性與網(wǎng)絡(luò)之間的準(zhǔn)確因果關(guān)系不應(yīng)該過(guò)度重申。我們?cè)谶\(yùn)用統(tǒng)計(jì)工具來(lái)分析數(shù)據(jù)變化的趨向,可為決策提供參考數(shù)據(jù),數(shù)據(jù)處理對(duì)數(shù)據(jù)精準(zhǔn)度要求并不高。
大數(shù)據(jù)有著廣大的滲透范圍。不一樣的時(shí)代、不一樣的地區(qū)和不一樣的行業(yè)都可能互相交叉。傳統(tǒng)的線性數(shù)據(jù)收集和處置方法已經(jīng)滿足不了大數(shù)據(jù)的處理需要。它們已經(jīng)產(chǎn)生了一種非傳統(tǒng)和顛覆性的有計(jì)劃形式。數(shù)據(jù)是由不一樣基礎(chǔ)信息里所產(chǎn)生的,這些信息被集成或分散,造成所需要的數(shù)據(jù)信息開(kāi)始進(jìn)行深入處理,所得到的信息直接使用于實(shí)質(zhì)決策中。
傳統(tǒng)數(shù)據(jù)的樣本量較小,目的主要著眼于解決問(wèn)題,數(shù)據(jù)的時(shí)效性較強(qiáng),數(shù)據(jù)的使用價(jià)值會(huì)隨時(shí)間流逝而降低。而大數(shù)據(jù)的流動(dòng)性很強(qiáng),隨著時(shí)間的推移會(huì)越來(lái)越壯大,而且具有推陳出新、價(jià)值重塑的可能,因此,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)是會(huì)不斷增值的,開(kāi)發(fā)大數(shù)據(jù),是一項(xiàng)有重要意義的工作。
大數(shù)據(jù)時(shí)代下的數(shù)據(jù)分析是對(duì)大量數(shù)據(jù)進(jìn)行歸類、統(tǒng)計(jì)和歸納、總結(jié)的過(guò)程,它可以將具有價(jià)值的信息提煉出來(lái),數(shù)據(jù)分析提供了將處理后的數(shù)據(jù)和未經(jīng)處理的數(shù)據(jù)進(jìn)行比較的機(jī)會(huì)。大數(shù)據(jù)是運(yùn)用統(tǒng)計(jì)學(xué)思維進(jìn)行統(tǒng)計(jì)分析,這和傳統(tǒng)抽樣分析挖掘出的信息和價(jià)值有著本質(zhì)的區(qū)別。所以大數(shù)據(jù)在繼承統(tǒng)計(jì)學(xué)思維的基礎(chǔ)上摒棄了傳統(tǒng)統(tǒng)計(jì)分析的逼單,其數(shù)據(jù)收集和處理的方式可以通過(guò)更為廣泛的渠道開(kāi)展。對(duì)于大部分大數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)分析是其蘊(yùn)含的有效價(jià)值得以體現(xiàn)的重要環(huán)節(jié)。所以數(shù)據(jù)的積累和數(shù)據(jù)處理過(guò)程的細(xì)化是至關(guān)重要的。大數(shù)據(jù)下的數(shù)據(jù)具有較高的流動(dòng)性,在時(shí)間的推移下積累的數(shù)據(jù)將會(huì)越來(lái)越多,數(shù)據(jù)的精簡(jiǎn)和再生也具有重要的意義,這樣有價(jià)值的數(shù)據(jù)能夠得到增值,具有高度關(guān)聯(lián)的數(shù)據(jù)結(jié)合在一起,便于發(fā)現(xiàn)問(wèn)題和解決問(wèn)題[3]。
大數(shù)據(jù)的發(fā)展帶動(dòng)了多個(gè)領(lǐng)域的發(fā)展,在現(xiàn)代社會(huì)大數(shù)據(jù)系統(tǒng)的應(yīng)用程度已經(jīng)成為影響到企業(yè)能否更好適應(yīng)時(shí)代發(fā)展的重要因素之一,因此我國(guó)應(yīng)該不斷提升對(duì)數(shù)據(jù)的分析提取能力,更好的促進(jìn)社會(huì)整體經(jīng)濟(jì)的發(fā)展。