陳浩 魏宇鋆 劉旭陽
北京計算機技術(shù)及應(yīng)用研究所 北京 100854
當(dāng)前常用的大數(shù)據(jù)技術(shù),包括Hadoop文件系統(tǒng)架構(gòu)、SOA服務(wù)體系、HDFS分布式存儲等。其中Hadoop分布式數(shù)據(jù)處理架構(gòu),屬于大數(shù)據(jù)云計算系統(tǒng)的平臺即服務(wù)層,包括Collect(匯總)、Map(映射)、Reduce(歸約)等組成部分,主要秉持著先進先出的動態(tài)化任務(wù)調(diào)度理念。針對已搜集的海量化數(shù)據(jù)信息,利用Map映射函數(shù)建立兩組數(shù)據(jù)的映射規(guī)則,并向多個主節(jié)點、從節(jié)點的任務(wù)處理需求,動態(tài)分配虛擬主機,實現(xiàn)某一數(shù)據(jù)類型的映射、歸約操作。之后SOA服務(wù)體系為面向服務(wù)的組件模型,通常包含服務(wù)工作流、服務(wù)接口、服務(wù)注冊、服務(wù)訪問和服務(wù)查找等組件。該服務(wù)架構(gòu)通過TCP/IP網(wǎng)絡(luò)通信協(xié)議、定義的I/O接口,將某一應(yīng)用程序的多個功能服務(wù)單元進行連接,并將多個分布式的服務(wù)組件進行封裝,為用戶提供需要的Web數(shù)據(jù)發(fā)送與接收、業(yè)務(wù)處理等的服務(wù)[1]。最后,HDFS分布式存儲是以分布式形式,對互聯(lián)網(wǎng)中海量化的數(shù)據(jù)信息進行存儲,主要包括數(shù)據(jù)資源管理、存儲等節(jié)點。HDFS的存儲單元為每個數(shù)據(jù)塊(block),而數(shù)據(jù)節(jié)點(Data Node)、元數(shù)據(jù)節(jié)點(Namenode)負責(zé)數(shù)據(jù)信息的寫入和讀出,其中數(shù)據(jù)塊的單個最小存儲單位是64Mbits。在HDFS文件系統(tǒng)HDFS框架的中心服務(wù)器,收到外部客戶端的數(shù)據(jù)訪問請求后,可以通過數(shù)據(jù)節(jié)點、元數(shù)據(jù)節(jié)點對數(shù)據(jù)訪問、目錄創(chuàng)建和數(shù)據(jù)存儲等進行出控制,實現(xiàn)對不同數(shù)據(jù)資源的處理與存儲。
雖然大數(shù)據(jù)時代的到來,為計算機信息處理技術(shù)的發(fā)展提供了條件,但是在此過程中還出現(xiàn)了一些新問題,這對計算機信息處理技術(shù)的有效應(yīng)用產(chǎn)生了嚴重影響。再加上人們對數(shù)據(jù)處理的要求比較高,這就需要加快對信息處理技術(shù)的研發(fā)和創(chuàng)新,為計算機在大數(shù)據(jù)時代下的發(fā)展提供條件[2]。同時,在對大數(shù)據(jù)的特點進行分析時,發(fā)現(xiàn)其在數(shù)據(jù)容量和內(nèi)部結(jié)構(gòu)上等也會出現(xiàn)變化,如果應(yīng)用以前的技術(shù)對信息數(shù)據(jù)進行處理,會影響數(shù)據(jù)整合的準確性。其次,計算機軟件在穩(wěn)定的運行過程中,會遭受到病毒的攻擊病毒入侵主要針對計算機中所儲存的保密信息。如果在對該信息進行存儲和使用的時候,受到病毒的入侵,就非常容易泄露其中的數(shù)據(jù)。雖然應(yīng)用計算機信息處理技術(shù)可以對網(wǎng)絡(luò)中的數(shù)據(jù)進行整合和處理,但是黑客在此背景下也非常容易侵入用戶計算機中,這影響了計算機運行的有效性。因此,在對大數(shù)據(jù)進行處理時,不僅要保證大數(shù)據(jù)的安全性,還需要結(jié)合用戶的不同需求,實現(xiàn)對計算機信息處理技術(shù)的開發(fā)和應(yīng)用。優(yōu)化互聯(lián)網(wǎng)環(huán)境,對其進行綜合性和全方位的監(jiān)控,對其中的信息進行科學(xué)判斷,避免網(wǎng)絡(luò)惡意攻擊對大數(shù)據(jù)的影響,從而為計算機信息處理技術(shù)的有效應(yīng)用提供條件。
大數(shù)據(jù)挖掘技術(shù)是對網(wǎng)絡(luò)海量數(shù)據(jù)資源,進行快速收集、篩選、處理與存取的技術(shù),通常利用關(guān)聯(lián)分析、聚類分析等的數(shù)據(jù)挖掘算法,對存在關(guān)聯(lián)性的、有價值的數(shù)據(jù)內(nèi)容作出挖掘。當(dāng)前網(wǎng)絡(luò)數(shù)據(jù)信息處理中用到的大數(shù)據(jù)挖掘技術(shù),包含數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)評估等內(nèi)容,各功能模塊分別負責(zé)多個數(shù)據(jù)挖掘步驟的執(zhí)行。
最近幾年,比較流行的GFS技術(shù),其原理主要是借助分布式形式,對計算機中的信息進行存儲。在技術(shù)中,比較關(guān)鍵的是BIM技術(shù),這種技術(shù)的存儲形式為行列混合式,能夠在確保增加各類數(shù)據(jù)信息的基礎(chǔ)上,不斷提高數(shù)據(jù)信息的存取效效率[3]。在對此技術(shù)的特點進行分析時,發(fā)現(xiàn)其可以減少數(shù)據(jù)信息處理和查詢的時間進而實現(xiàn)對相關(guān)數(shù)據(jù)信息進行有效存儲和處理。
分布式計算為多種Agent技術(shù)、Web service技術(shù)等融合的計算技術(shù),其可以通過中間件為不同數(shù)據(jù)傳輸與處理、軟件應(yīng)用執(zhí)行提供支持。在利用分布式計算技術(shù)對海量數(shù)據(jù)信息進行處理過程中,會將復(fù)雜的數(shù)據(jù)處理步驟,分解為若干個小的軟件處理任務(wù),再依托于虛擬化計算機硬件資源,多種數(shù)據(jù)處理任務(wù)分配相應(yīng)的元數(shù)據(jù)節(jié)點,不同節(jié)點負責(zé)特定的資源調(diào)度、分布式任務(wù)執(zhí)行,因而使用虛擬機進行數(shù)據(jù)批量處理的效率更高、成本更低。
由于在大數(shù)據(jù)的時代下,會出現(xiàn)大量的數(shù)據(jù)信息,所以用戶想要在此背景下保證相關(guān)技術(shù)的靈活性,需要注意對數(shù)據(jù)檢索技術(shù)的有效應(yīng)用。此技術(shù)一般是依靠Big Table技術(shù)所應(yīng)用的計算機信息處理方式。在此基礎(chǔ)上,用戶們只要依照此類技術(shù)所指定的程序開展操作,就可以獲取自己想要的結(jié)構(gòu),實現(xiàn)對整體數(shù)據(jù)結(jié)構(gòu)的優(yōu)化,保證檢索結(jié)果的準確性。
大數(shù)據(jù)技術(shù)支持下的數(shù)據(jù)信息處理系統(tǒng),包括數(shù)據(jù)采集、數(shù)據(jù)讀取、數(shù)據(jù)預(yù)處理、虛擬化資源調(diào)動、數(shù)據(jù)分析等的執(zhí)行流程。當(dāng)前局域網(wǎng)絡(luò)中的計算機數(shù)據(jù)信息采集,通常涉及經(jīng)營資本、財務(wù)流轉(zhuǎn)、業(yè)務(wù)執(zhí)行和人力資源管理等的數(shù)據(jù),特別在大量臨時文件、數(shù)字文檔或日志信息采集的過程中,需要先驗證信息來源的安全性準確性[4]?;贖adoop分布式文件系統(tǒng)的數(shù)據(jù)信息采集模塊,主要利用Sqoop、Flume等數(shù)據(jù)采集工具,進行網(wǎng)絡(luò)海量化數(shù)據(jù)資源的采集,再使用SQL語句將現(xiàn)有數(shù)據(jù)信息,傳輸至后臺服務(wù)器、數(shù)據(jù)庫的硬件端口。
在當(dāng)前的社會發(fā)展中,數(shù)據(jù)信息爆炸,海量的數(shù)據(jù)一般需要應(yīng)用計算機技術(shù)對其進行儲存。這就需要對計算機自身的儲存性能提出更高的要求,不斷強化數(shù)據(jù)信息儲存能力。在對目前的信息處理技術(shù)發(fā)展情況進行分析時,發(fā)現(xiàn)要想實現(xiàn)對復(fù)雜互聯(lián)網(wǎng)數(shù)據(jù)信息的有效處理,需要加強對各種信息技術(shù)的有效應(yīng)用,實現(xiàn)對相關(guān)數(shù)據(jù)信息的有效儲存,不斷擴大計算機的存儲容量。然而,我國計算機在對數(shù)據(jù)信息進行儲存時,傳統(tǒng)信息儲存技術(shù)等方面還存在一定的局限性。如,一些智能手機中的內(nèi)存,并不能滿足多樣化數(shù)據(jù)存儲的要求,這會導(dǎo)致手機在應(yīng)用一段時間后出現(xiàn)卡頓等現(xiàn)象。因此,相關(guān)的學(xué)者要不斷提高數(shù)據(jù)信息存儲的性能,加強對信息技術(shù)的有效應(yīng)用,優(yōu)化數(shù)據(jù)信息儲存流程,從而在此基礎(chǔ)上進一步提高計算機的信息處理能力。
網(wǎng)絡(luò)數(shù)據(jù)信息安全的保護始終是社會各界高度關(guān)注的話題之一。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)信息泄露問題逐漸凸顯出來,即使是非常簡單的一條個人信息或者手機短信都可能隱藏著大的安全隱患。而一旦出現(xiàn)用戶信息被泄露等情況,人們的財產(chǎn)安全就會受到威脅,甚至?xí)绊懮鐣€(wěn)定。因此,在大數(shù)據(jù)時代背景下,使數(shù)據(jù)信息處于安全狀態(tài),加強數(shù)據(jù)信息安全保護工作是相關(guān)技術(shù)人員工作的重中之重。相關(guān)研究人員不僅需要構(gòu)建完善的計算機信息安全保護機制,而且需要嚴格把關(guān)計算機硬件設(shè)備,做好數(shù)據(jù)的檢測和維護工作。除此之外,相關(guān)企業(yè)需要加強代理服務(wù)器的建設(shè),在帶有風(fēng)險的數(shù)據(jù)信息進入網(wǎng)絡(luò)之前,就對其進行有效攔截,進而更好地防止各種信息安全問題的發(fā)生。大數(shù)據(jù)時代下,人們使用云支付的次數(shù)越來越多,這就需要相關(guān)企業(yè)嚴格把控支付硬件設(shè)備的質(zhì)量,在網(wǎng)絡(luò)上建立計算機信息安全保護機制,充分確保支付安全,確保個人信息的安全。
數(shù)據(jù)預(yù)處理模塊通常采取均值法、平滑法等處理方式,對廣域網(wǎng)或局域網(wǎng)的網(wǎng)絡(luò)空間中,存在的錯誤、冗余度高數(shù)據(jù)信息作出處理,主動過濾掉帶有噪聲的、重復(fù)性的、空值的數(shù)據(jù),對網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理的計算公式為R=Qq+Ww+Ee。在完成企事業(yè)單位的數(shù)據(jù)信息采集后,可以依托大數(shù)據(jù)云服務(wù)平臺的虛擬化資源池,設(shè)置時間系數(shù)Q、負荷系數(shù)W、緩存系數(shù)E,并設(shè)定時間系數(shù)Q的A1、A2和A3預(yù)設(shè)值,以及負荷系數(shù)W的B1、B2和B3預(yù)設(shè)值,緩存系數(shù)E的C1、C2和C3預(yù)設(shè)值。然后根據(jù)虛擬化資源池中不同數(shù)據(jù)處理任務(wù)的不同權(quán)重,分配預(yù)設(shè)值q、w和e(q<w<e)。將多種數(shù)據(jù)信息的處理任務(wù)代入以上公式,得出海量大數(shù)據(jù)的與處理結(jié)果,并將數(shù)據(jù)處理的R值與原始預(yù)設(shè)值r作比較,若R≤r則生成并輸出正常的數(shù)據(jù)處理信號。
在對計算機信息處理的形式進行分析時,發(fā)現(xiàn)云數(shù)據(jù)集中性強、數(shù)據(jù)信息大,對計算機系統(tǒng)的性能要求更高。這就需要相關(guān)學(xué)者要對計算機中的各種硬件進行改進,結(jié)合計算機的實際運行情況,科學(xué)應(yīng)用各種處理技術(shù)。云技術(shù)作為大數(shù)據(jù)時代下的新產(chǎn)物,其不僅能夠滿足計算機技術(shù)應(yīng)用的需求,還能夠?qū)崿F(xiàn)對相關(guān)數(shù)據(jù)的整合。在此過程中,還可以通過對云技術(shù)的應(yīng)用,實現(xiàn)對信息的采集,對信息進行集中處理,及時解決計算機運行中的問題,進而在根源上不斷強化計算機的處理能力。
整個大數(shù)據(jù)信息處理過程中的虛擬化資源調(diào)度,主要針對不同數(shù)據(jù)信息的業(yè)務(wù)處理需求,選擇合適的分布式算法、網(wǎng)格算法等模型,在邏輯或物理操作層,向不同任務(wù)分配特定的虛擬化節(jié)點,進行用戶訪問管理、數(shù)據(jù)映射及處理的功能執(zhí)行。虛擬資源管理、任務(wù)分配,主要對虛擬機負載、故障情況進行監(jiān)測與統(tǒng)計,來保障虛擬資源運行的負載均衡與安全。該任務(wù)調(diào)度的執(zhí)行流程為:將m個任務(wù)(Task),調(diào)度到n個元數(shù)據(jù)節(jié)點進行執(zhí)行,假定設(shè)置單個任務(wù)執(zhí)行時間為TET (Task Execution Time),則第i個任務(wù)在第j個資源中的執(zhí)行時間為:CET(i,j)=start time(j)+TET(i,j)在資源虛擬化硬件中,所有數(shù)據(jù)信息處理任務(wù)執(zhí)行完成的總時間為:T=min{T1,T2,T3,…,Ti}
為了方便操作與理解,虛擬化技術(shù)將各種資源抽象成一種交互性強的形式,隨著信息時代的到來,數(shù)據(jù)的爆炸式增長也造成了資源浪費與冗余。技術(shù)人員要實現(xiàn)虛擬化技術(shù)不僅要優(yōu)化計算機系統(tǒng)的運行流程,還需要加強相關(guān)軟件的創(chuàng)新。同時,還要加強對模擬技術(shù)的有效應(yīng)用,主要是利用物質(zhì)等條件,進行預(yù)判和分析,及時發(fā)現(xiàn)數(shù)據(jù)庫中的問題,加強對各種資料的整合。特別是在計算機技術(shù)不斷完善的背景下,要想降低信息處理和試驗上的誤差,需要實現(xiàn)對虛擬技術(shù)的有效應(yīng)用,創(chuàng)新計算機軟件技術(shù),然后結(jié)合計算機試驗的具體數(shù)據(jù)等,實現(xiàn)對信息資源的充分利用,避免資源浪費情況的發(fā)生。
由于網(wǎng)絡(luò)環(huán)境具有非常強的開放性,其中的數(shù)據(jù)信息也非常多,所以每個人在此平臺上還可以隨時隨地獲得自己想要的信息。雖然這種方式為人們提供了便利,但是也給一些不法人員提供了犯罪機會,部分黑客會對一些數(shù)據(jù)進行加工,進而找出用戶在運用技術(shù)的漏洞。如果不及時處理此類問題,就會導(dǎo)致商業(yè)機密被泄密和盜用。由于以前的計算機處理技術(shù)已經(jīng)不能滿足“大數(shù)據(jù)”時代發(fā)展的要求了,這就需要結(jié)合用戶的實際需求,實現(xiàn)對新技術(shù)的開發(fā),對數(shù)據(jù)進行有效接收和處理,保證信息存儲的安全性,明確計算機信息處理技術(shù)在未來的發(fā)展方向,從而進一步提高我國的計算機信息處理水平。
綜上所述,新時期,計算機技術(shù)已經(jīng)不能滿足時代發(fā)展的要求了,需要對現(xiàn)有的計算機信息處理技術(shù)進行創(chuàng)新,優(yōu)化信息處理的流程。同時,還要加強對信息安全和存儲技術(shù)的有效應(yīng)用,保證信息傳輸?shù)陌踩院陀行裕瑢崿F(xiàn)對相關(guān)信息的有效處理,從而減少網(wǎng)絡(luò)安全事故的發(fā)生。