承德石油高等??茖W(xué)校計算機(jī)與信息工程系 張清濤
大數(shù)據(jù)這個概念的推廣,始于2008 年白皮書《大數(shù)據(jù)計算:商務(wù)、科學(xué)和社會領(lǐng)域的革命性突破》的發(fā)表,自此研究人員及業(yè)界高管開始認(rèn)識并正視這一概念,隨后《Big Data:Science in the Petabyte Era》的發(fā)表,讓這一概念傳播開來[1]。在計算機(jī)網(wǎng)絡(luò)信息管理領(lǐng)域,大數(shù)據(jù)技術(shù)得到了廣泛的應(yīng)用,使得網(wǎng)絡(luò)安全系數(shù)有效提升,為信息產(chǎn)業(yè)的長效穩(wěn)定發(fā)展提供了技術(shù)支持。
在大數(shù)據(jù)時代背景下,數(shù)據(jù)更新速度提升,數(shù)據(jù)信息呈現(xiàn)出多元化、海量化特征,數(shù)據(jù)信息獲取渠道增加的同時成本降低,掌握海量數(shù)據(jù)信息,分析市場發(fā)展規(guī)律,能夠?yàn)樾袠I(yè)發(fā)展提供決策支持,基于這一戰(zhàn)略意義,當(dāng)前大數(shù)據(jù)技術(shù)被廣泛應(yīng)用于企業(yè)管理、教育培訓(xùn)、物流運(yùn)輸?shù)阮I(lǐng)域。
從技術(shù)層面上分析,大數(shù)據(jù)中包含以下核心技術(shù):(1)數(shù)據(jù)收集技術(shù)。借助管理系統(tǒng)、WEB 信息系統(tǒng)、物理信息系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng),可采集海量信息,為數(shù)據(jù)分析提供基礎(chǔ)。(2)數(shù)據(jù)存取技術(shù)。采集到海量數(shù)據(jù)信息后,需進(jìn)行儲存,常采用的技術(shù)路線有大規(guī)模大結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化與非結(jié)構(gòu)化混合數(shù)據(jù)這三類。(3)基礎(chǔ)架構(gòu)。基礎(chǔ)架構(gòu)可分為云存儲、分布式文件存儲兩類。(4)數(shù)據(jù)處理技術(shù)。這項(xiàng)技術(shù)能夠?qū)⒉煌Y(jié)構(gòu)形式的數(shù)據(jù)幾何,集成、整合成一個新的數(shù)據(jù)集,為后續(xù)的數(shù)據(jù)分析、檢索打下良好的基礎(chǔ)。(5)統(tǒng)計分析技術(shù)。這項(xiàng)技術(shù)中包含特征檢驗(yàn)、假設(shè)檢驗(yàn)、關(guān)聯(lián)分析、卡方分析、曲線分析、對照分析、逐級回歸等多種數(shù)據(jù)分析方式。(6)數(shù)據(jù)挖掘技術(shù)。大數(shù)據(jù)中有著海量信息,并不是所有的信息都是你需要的,所以需要應(yīng)用數(shù)據(jù)挖掘技術(shù),尋求目標(biāo)數(shù)據(jù)信息。(7)模型預(yù)測技術(shù)。基于數(shù)據(jù)分析、挖掘結(jié)果,構(gòu)建預(yù)測模型及仿真模擬。(8)結(jié)果呈現(xiàn)。以標(biāo)簽云圖、關(guān)系圖的形式,可視化展現(xiàn)數(shù)據(jù)采集、處理、分析結(jié)果。
在計算機(jī)網(wǎng)絡(luò)信息管理中,應(yīng)用云計算技術(shù),需要網(wǎng)絡(luò)計算模式和集中處理技術(shù)協(xié)調(diào)配合,聯(lián)合構(gòu)建數(shù)據(jù)模型,并集中處理數(shù)據(jù)信息,再將其遷移到云端,這樣能夠有效降低計算機(jī)系統(tǒng)的信息處理成本。借助云計算技術(shù),技術(shù)服務(wù)軟件能夠在無線局域網(wǎng)中自動生成移動數(shù)據(jù)網(wǎng)格,形成閉環(huán)式信息反饋處理模型。應(yīng)用這一技術(shù)時,首先應(yīng)繪制標(biāo)準(zhǔn)的數(shù)據(jù)流圖G=(V,E),然后再應(yīng)用公式計算,生成一系列的組合及遠(yuǎn)程傳輸數(shù)據(jù)的隱形通道,設(shè)置出口節(jié)點(diǎn),輸出對應(yīng)數(shù)據(jù),處理數(shù)據(jù)流圖的關(guān)鍵部位時,應(yīng)用向圖模式和配套公式完成運(yùn)算和控制。在應(yīng)用云計算技術(shù)進(jìn)行數(shù)據(jù)信息的動態(tài)配置管理時,則需構(gòu)建無向圖模式,這樣能夠有效整合多元化數(shù)據(jù),提升計算機(jī)系統(tǒng)的數(shù)據(jù)容載量,提升數(shù)據(jù)處理效率,實(shí)現(xiàn)資源共享。
在大數(shù)據(jù)時代,進(jìn)行數(shù)據(jù)備份是確保信息安全的關(guān)鍵性策略,但是不少企業(yè)都忽視了這項(xiàng)工作的重要性,據(jù)調(diào)查統(tǒng)計,應(yīng)用數(shù)據(jù)備份系統(tǒng)的企業(yè)不到20%,而同時應(yīng)用數(shù)據(jù)備份系統(tǒng)、容災(zāi)系統(tǒng)的企業(yè)不到5%。在應(yīng)用數(shù)據(jù)備份技術(shù)時,企業(yè)可以根據(jù)自身需求,從移動硬盤、U 盤、磁帶這三種存儲介質(zhì)中選擇一種,拷貝數(shù)據(jù),分開存放,并且在存放地點(diǎn)配置計算機(jī)及遠(yuǎn)程通訊設(shè)備,如遇突發(fā)狀況,立馬啟動數(shù)據(jù)備份系統(tǒng),以防數(shù)據(jù)丟失。同時,企業(yè)管理系統(tǒng)應(yīng)該和數(shù)據(jù)備份系統(tǒng)連接起來,這樣數(shù)據(jù)損壞或丟失后,工作人員可以從備份數(shù)據(jù)庫中,調(diào)取相應(yīng)數(shù)據(jù),確保企業(yè)管理運(yùn)營活動能夠盡快恢復(fù),從而減小損失。同時,盡量做到異地存放,在存放地點(diǎn)配置完善的計算機(jī)裝置與遠(yuǎn)程通訊裝置,以便在發(fā)生突發(fā)狀況時,快速啟動數(shù)據(jù)備份系統(tǒng),防止數(shù)據(jù)丟失。另外,還應(yīng)將數(shù)據(jù)備份系統(tǒng)與企業(yè)管理系統(tǒng)予以有效連接,提升損壞數(shù)據(jù)的恢復(fù)效率,保證企業(yè)相關(guān)工作的有序進(jìn)行。除此之外,還可以將數(shù)據(jù)信息用遠(yuǎn)程技術(shù)壓縮處理,制作成光盤,單獨(dú)存放管理,進(jìn)一步提升企業(yè)信息的安全性。數(shù)據(jù)備份技術(shù)還有數(shù)據(jù)庫動態(tài)追蹤及監(jiān)管功能,備份機(jī)上能夠自動更新監(jiān)控日志及備份磁盤,有效保護(hù)企業(yè)信息。
所謂大數(shù)據(jù),就是通過常用計算機(jī)軟件實(shí)現(xiàn)高效信息處理、管理的巨量數(shù)據(jù)信息集合。數(shù)據(jù)是一種沒有實(shí)際形態(tài)的東西,看不見也摸不著,但是作為一種信息載體,廣泛分布在人們的日常生活及社會的生產(chǎn)活動中,在計算機(jī)網(wǎng)絡(luò)信息管理中,可以利用大數(shù)據(jù)技術(shù)展開數(shù)據(jù)的收集、儲存、分析、挖掘、應(yīng)用,提高知識層次,充分發(fā)揮信息的利用價值[2]。