◆唐和卿
?
基于大數(shù)據(jù)時(shí)代的計(jì)算機(jī)信息處理技術(shù)淺析
◆唐和卿
(甘肅鋼鐵職業(yè)技術(shù)學(xué)院 甘肅735100)
人們大量使用手持終端設(shè)備接入互聯(lián)網(wǎng),產(chǎn)生了龐大的數(shù)據(jù)量,這些數(shù)據(jù)已經(jīng)成為信息社會(huì)的巨大財(cái)富,同時(shí)也帶來(lái)了數(shù)據(jù)篩選和數(shù)據(jù)安全方面的巨大挑戰(zhàn)。數(shù)據(jù)篩選即數(shù)據(jù)可用性問題成為大數(shù)據(jù)的重要挑戰(zhàn)之一。大數(shù)據(jù)的價(jià)值并非數(shù)據(jù)本身,而是由大數(shù)據(jù)所反映的“大決策”,“大知識(shí)”,“大問題”。近年來(lái),大數(shù)據(jù)可用性的研究已經(jīng)取得了一定成果,而計(jì)算機(jī)信息處理技術(shù)的發(fā)展就是要提高數(shù)據(jù)可用性,本文研究了大數(shù)據(jù)時(shí)代信息處理技術(shù),供讀者參考。
大數(shù)據(jù);靜態(tài)數(shù)據(jù);流式數(shù)據(jù);數(shù)據(jù)挖掘
大數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值,可以從中獲取豐富的信息,對(duì)改善和預(yù)測(cè)人們的生產(chǎn)生活,更加深入地認(rèn)識(shí)和控制物理世界具有重要的戰(zhàn)略意義。但隨著各類信息數(shù)據(jù)的爆炸性增長(zhǎng),數(shù)據(jù)質(zhì)量良莠不齊,部分?jǐn)?shù)據(jù)呈現(xiàn)低價(jià)值性而數(shù)據(jù)整體呈現(xiàn)高價(jià)值性,劣質(zhì)數(shù)據(jù)的大量涌現(xiàn),極大地降低了數(shù)據(jù)的可用性,使數(shù)據(jù)之間的關(guān)聯(lián)性更加復(fù)雜。
大數(shù)據(jù)主要有三個(gè)來(lái)源:(1)互聯(lián)網(wǎng)上的數(shù)據(jù)庫(kù)資源;(2)各種科學(xué)實(shí)驗(yàn)與觀測(cè)數(shù)據(jù);(3)物理信息系統(tǒng),如智能電網(wǎng),智慧城市等。
批量處理:主要操作大容量靜態(tài)數(shù)據(jù)集,并在計(jì)算過程完成后返回結(jié)果。常用于對(duì)歷史數(shù)據(jù)進(jìn)行分析,不適合對(duì)實(shí)時(shí)性要求較高的場(chǎng)合。
特征:一、數(shù)據(jù)體量巨大;二、數(shù)據(jù)精度高;三、數(shù)據(jù)價(jià)值密度低,例如監(jiān)控?cái)?shù)據(jù),數(shù)據(jù)始終存儲(chǔ)在某種類型的持久存儲(chǔ)位置中。目前的主要應(yīng)用為Apache Hadoop,專用于批處理的處理框架。Hadoop(集群)——大數(shù)據(jù)框架,用于由通用硬件構(gòu)建的大型集群上運(yùn)行應(yīng)用程序。類似于CPU進(jìn)程被分解為多個(gè)線程的操作,它的計(jì)算任務(wù)會(huì)被分割成小塊運(yùn)行在不同的節(jié)點(diǎn)上,每個(gè)小塊可能被多次運(yùn)行,實(shí)現(xiàn)了Mapreduce(分布式計(jì)算層)的編程范型。它提供了分布式存儲(chǔ)(文件)系統(tǒng)HDFS,數(shù)據(jù)被存儲(chǔ)在計(jì)算節(jié)點(diǎn)上以提供極高的跨數(shù)據(jù)中心聚合帶寬?;静襟E如下:
(1)從HDFS文件系統(tǒng)讀取數(shù)據(jù)集;(2)拆解數(shù)據(jù)集并按需分配至所有可用節(jié)點(diǎn);(3)計(jì)算節(jié)點(diǎn)上的數(shù)據(jù)子集,中間態(tài)重新進(jìn)入HDFS;(4)按鍵分組重新分配中間態(tài)結(jié)果;(5)匯總節(jié)點(diǎn)計(jì)算的結(jié)果并對(duì)每個(gè)鍵的值進(jìn)行還原;(6)計(jì)算的最終結(jié)果重新寫入HDFS。
這種方式對(duì)每個(gè)任務(wù)需要多次執(zhí)行讀取和寫入操作,速度較慢,對(duì)持久存儲(chǔ)依賴嚴(yán)重。MapReduce可以處理來(lái)自服務(wù)器磁盤空間的龐大數(shù)據(jù)集,意味著相比其他技術(shù),MapReduce可以在硬件上直接運(yùn)行,它的運(yùn)行不需要大容量的內(nèi)存支持[1]。MapReduce的縮放能力極高,對(duì)包含數(shù)萬(wàn)個(gè)節(jié)點(diǎn)的應(yīng)用也能輕松應(yīng)對(duì)。如今圍繞Hadoop已經(jīng)形成了遼闊的生態(tài)系統(tǒng),Hadoop集群本身也經(jīng)常被用作其他軟件的組成部件。很多其他處理框架和引擎通過與Hadoop集成也可以使用HDFS和YARN(集群資源管理器)。
典型應(yīng)用實(shí)例:一、社交網(wǎng)絡(luò);二、電子商務(wù);三、搜索引擎;四、物聯(lián)網(wǎng);五、云計(jì)算。
流式數(shù)據(jù)的處理,完成數(shù)據(jù)的動(dòng)態(tài)清洗,格式處理。流式數(shù)據(jù)的特點(diǎn):數(shù)據(jù)連續(xù)不斷,來(lái)源眾多,格式復(fù)雜,物理順序不一,數(shù)據(jù)的價(jià)值密度低,對(duì)應(yīng)的處理工具則需要具備較高性能,以及實(shí)時(shí)、可擴(kuò)展等特性。Hadoop主要是為離線數(shù)據(jù)設(shè)計(jì),并不能夠?qū)υ诰€數(shù)據(jù)流進(jìn)行處理。此外,隨著智能終端的普及,如今互聯(lián)網(wǎng)已經(jīng)漸變?yōu)橐苿?dòng)互聯(lián)網(wǎng),用戶可以隨時(shí)隨地使用手持終端接入互聯(lián)網(wǎng)。流式數(shù)據(jù)的規(guī)模量逐步增長(zhǎng),內(nèi)容和服務(wù)的實(shí)時(shí)性愈加重要。這也就對(duì)實(shí)時(shí)計(jì)算能力提出更高的要求,因此分布式的實(shí)時(shí)計(jì)算平臺(tái)Storm應(yīng)運(yùn)而生。系統(tǒng)基于Hadoop平臺(tái),采用Storm作為實(shí)時(shí)計(jì)算框架,為在線任務(wù)的執(zhí)行提供外部環(huán)境。并且采用KeyValue數(shù)據(jù)庫(kù)HBase作為主要的存儲(chǔ)方式,使得系統(tǒng)在高并發(fā)的情況下仍然能夠穩(wěn)定服務(wù)。此外,用戶可以根據(jù)規(guī)則對(duì)業(yè)務(wù)處理邏輯進(jìn)行自定義,大大提高了用戶使用數(shù)據(jù)的效率[2]。
流處理中的數(shù)據(jù)集是“無(wú)邊界”的,基于事件處理,隨著新數(shù)據(jù)的抵達(dá)持續(xù)更新,如果沒有命令停止則一直不間斷執(zhí)行,處理結(jié)果實(shí)時(shí)可用。同一時(shí)間只能處理很少量的數(shù)據(jù),不同記錄間只維持最少量的狀態(tài)。對(duì)流式數(shù)據(jù)采用批處理方法,采用對(duì)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行緩沖的機(jī)制,這使得該技術(shù)可以處理巨大體量的傳入數(shù)據(jù),提高單位時(shí)間內(nèi)的數(shù)據(jù)吞吐率,但新數(shù)據(jù)進(jìn)入緩沖區(qū)要等待緩沖區(qū)已有數(shù)據(jù)清空,這樣會(huì)導(dǎo)致延遲增高。
特點(diǎn)是靈活,直觀便于控制。以DBMS為主,有兩類應(yīng)用:聯(lián)機(jī)事物處理(OLTP)和聯(lián)機(jī)分析處理(OLAP)如:spark系統(tǒng),Dremel系統(tǒng)。Dremel 是由Google 研究出的“交互式”數(shù)據(jù)分析系統(tǒng)。可以組建成百上千的集群,處理存儲(chǔ)容量為PB(拍字節(jié),1024TB)級(jí)別的數(shù)據(jù)。Dremel處理一個(gè)數(shù)據(jù)為秒級(jí),而MapReduce是分鐘級(jí)。2009年Google的研究人員通過對(duì)每日超過30億次搜索請(qǐng)求和網(wǎng)頁(yè)數(shù)據(jù)的挖掘分析,在H1N1流感爆發(fā)幾周就預(yù)測(cè)出流感傳播;通過對(duì)微博、論壇、聊天記錄等網(wǎng)絡(luò)大數(shù)據(jù)的挖掘分析能夠發(fā)現(xiàn)社會(huì)動(dòng)態(tài),預(yù)警重大和突發(fā)性事件[3]。
圖像數(shù)據(jù)處理技術(shù)基本可以分成兩大類:模擬圖像處理(Analog Image Processing)和數(shù)字圖像處理(Digital Image Processing)。數(shù)字圖像處理是將圖像的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)進(jìn)行處理的過程[4]。其優(yōu)點(diǎn)是處理精度高,重現(xiàn)性能好,靈活性高,效果易于控制,可進(jìn)行復(fù)雜的非線性處理,使用不同的圖像處理軟件能獲得不同的處理效果,但在進(jìn)行復(fù)雜的數(shù)字圖像處理的時(shí)候處理速度會(huì)較慢,數(shù)字圖像的處理對(duì)計(jì)算機(jī)硬件性能的要求較高。數(shù)字圖像處理技術(shù)主要包括:圖像變換、圖像壓縮和編碼、圖像增強(qiáng)和復(fù)原、圖像分割、圖像描述、圖像分類(識(shí)別)。圖像處理技術(shù)的理論和技術(shù)的日趨成熟,對(duì)圖像處理科學(xué)的發(fā)展作用越來(lái)越大,影響深遠(yuǎn),在人工智能,人工模擬,航空航天,軍事,視頻和多媒體系統(tǒng)、生物醫(yī)學(xué)、電子商務(wù)等領(lǐng)域被廣泛應(yīng)用?;趫D數(shù)據(jù)處理系統(tǒng)Apache Hadoop,典型應(yīng)用為中文知識(shí)圖譜,知立方平臺(tái),zh-ishi.me,知件等。
數(shù)據(jù)挖掘(Data Mining)是從巨大體量的數(shù)據(jù)中通過數(shù)學(xué)算法搜索隱藏在其中的有價(jià)值的信息的過程,這些數(shù)據(jù)可能包含不完全、有噪聲、模糊、隨機(jī)等屬性。根據(jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及Internet等[5]。
大數(shù)據(jù)挖掘技術(shù)主要有這幾項(xiàng):一、有效的大數(shù)據(jù)預(yù)處理技術(shù);二、非向量數(shù)據(jù)挖掘技術(shù);三、分布式大數(shù)據(jù)挖掘技術(shù)。
總之,計(jì)算機(jī)信息處理技術(shù)的日益發(fā)展為人們的生產(chǎn)生活帶來(lái)了極大的便利,更快、更高效,精度更高的計(jì)算機(jī)信息處理技術(shù)也在眾多科研人員的努力下快速發(fā)展。有追求就會(huì)有突破,只有不斷滿足社會(huì)大眾生活需求,才能使計(jì)算機(jī)處理技術(shù)高效快速發(fā)展,這是機(jī)遇,亦是挑戰(zhàn)。不斷加強(qiáng)計(jì)算機(jī)信息處理技術(shù)方面的研究,讓互聯(lián)網(wǎng)數(shù)據(jù)為人民大眾的福祉牟利,為推動(dòng)我國(guó)現(xiàn)代化建設(shè)牟利。
[1]郭若男.基于Hadoop平臺(tái)的在線數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué)碩士論文,2015(08):1-70.
[2]李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013(05):1147-1162.
[3]李紅俊,韓冀皖.數(shù)字圖像處理技術(shù)及其應(yīng)用[J].計(jì)算機(jī)測(cè)量與控制,2002(10):620-622.
[4]金育嬋.數(shù)據(jù)挖掘技術(shù)中關(guān)于關(guān)聯(lián)規(guī)則算法的研究[J].科技傳播,2011(06):223-224,226.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2019年5期