孫也
摘 要:本文從大數(shù)據(jù)的定義和技術(shù)特征出發(fā),分析了大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)信息處理技術(shù)的難點(diǎn),進(jìn)而概括了大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息處理技術(shù)的發(fā)展。大數(shù)據(jù)的應(yīng)用為網(wǎng)絡(luò)信息的處理帶來了機(jī)遇,同時(shí)也造成了技術(shù)困境。我們應(yīng)當(dāng)從基礎(chǔ)設(shè)施、存儲管理、分析算法等多個(gè)方面進(jìn)行探索,為大數(shù)據(jù)環(huán)境中的網(wǎng)絡(luò)信息處理提供新的手段和方法。
關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò)信息;處理技術(shù)
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2020)28-0048-03
Analysis of Network Information Processing Technology in Big Data Era
SUN Ye
(Tianjin Vocational and Technical College of Urban Construction Management,Tianjin 300134)
Abstract: Starting from the definition and technical characteristics of big data, this paper analyzed the difficulties of network information processing technology in big data environment, and then generalized the development of network information processing technology in big data era. The application of big data brings the opportunity for the network information processing, but also causes the technical predicament. We should explore from infrastructure, storage management, analysis algorithm and other aspects to provide new means and methods for network information processing in big data environment.
Keywords: big data;network information;processing technology
當(dāng)前,大數(shù)據(jù)作為新生事物在各行各業(yè)得到了廣泛應(yīng)用,引起了學(xué)術(shù)界、業(yè)界及政府部門的高度重視。人們通過對大數(shù)據(jù)進(jìn)行有效管理,提取分析其價(jià)值,能夠?yàn)椴煌袠I(yè)提供具有極高價(jià)值的服務(wù),從而產(chǎn)生經(jīng)濟(jì)效益和社會效益。但是,海量的信息使得傳統(tǒng)的網(wǎng)絡(luò)信息處理技術(shù)難以適用,因而,在大數(shù)據(jù)環(huán)境下,有必要探索更有效的技術(shù)手段來處理網(wǎng)絡(luò)信息,以創(chuàng)造更大的價(jià)值。
1 大數(shù)據(jù)的基本定義及其技術(shù)特點(diǎn)
1.1 大數(shù)據(jù)的定義
關(guān)于大數(shù)據(jù)的概念,學(xué)術(shù)界并未給出一個(gè)量化的界定,當(dāng)前的有關(guān)概念都是從數(shù)據(jù)規(guī)模和支持軟件處理能力的角度所給出的定性說明。比如,有學(xué)者指出,大數(shù)據(jù)是指使用傳統(tǒng)技術(shù)和工具在一定時(shí)間之內(nèi)難以獲取、保存和處理的數(shù)據(jù)集;有的學(xué)者認(rèn)為,大數(shù)據(jù)意味著數(shù)據(jù)集在規(guī)模上已經(jīng)超出了過去的數(shù)據(jù)庫工具的存儲、管理和分析能力。這些概念主要是從規(guī)模的角度對大數(shù)據(jù)進(jìn)行界定的,但我們應(yīng)當(dāng)認(rèn)識到,大數(shù)據(jù)還意味著人們從遠(yuǎn)超以往想象的數(shù)據(jù)中快速獲取有價(jià)值信息的能力,這才是大數(shù)據(jù)對人類社會所具有的深層次價(jià)值。實(shí)際上,當(dāng)前人們在各個(gè)行業(yè)使用“大數(shù)據(jù)”一詞已經(jīng)不僅限于其龐大的數(shù)據(jù)規(guī)模,更代表著信息科技的進(jìn)一步發(fā)展,意味著對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理的新技術(shù)和手段。
1.2 大數(shù)據(jù)的技術(shù)特征
一是數(shù)據(jù)規(guī)模龐大。大數(shù)據(jù)一般指在10 TB(1 TB=1 024 GB)規(guī)模以上的數(shù)據(jù)量[1]。當(dāng)前,跨國互聯(lián)網(wǎng)企業(yè)所儲存的數(shù)據(jù)量已達(dá)到了ZB量級。二是數(shù)據(jù)具有多樣性的特點(diǎn),其包括結(jié)構(gòu)化、半結(jié)構(gòu)化/非結(jié)構(gòu)化等多種格式,能滿足不同應(yīng)用場景的需求。三是數(shù)據(jù)處理的及時(shí)性,即大數(shù)據(jù)利用具有時(shí)效性,其數(shù)據(jù)處理應(yīng)當(dāng)滿足一定的響應(yīng)性能要求。四是數(shù)據(jù)處理結(jié)果的準(zhǔn)確性,也就是說,不能為了確保數(shù)據(jù)處理的及時(shí)性而損失處理結(jié)果的精確性。五是深度價(jià)值,指的是大數(shù)據(jù)具有較大價(jià)值,需要根據(jù)具體需求對數(shù)據(jù)加以分析和挖掘。
2 大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息處理的難點(diǎn)
2.1 技術(shù)綜合性、交叉性強(qiáng)
在大數(shù)據(jù)環(huán)境中,網(wǎng)絡(luò)信息處理一般可以看作是完整的技術(shù)棧,包括集成大規(guī)模硬件資源和基礎(chǔ)設(shè)施管理、分布式存儲管理、并行計(jì)算、分析和挖掘以及應(yīng)用服務(wù)。因而,大數(shù)據(jù)環(huán)境中網(wǎng)絡(luò)信息處理具有較強(qiáng)的技術(shù)整合和學(xué)科交叉的特點(diǎn)。
2.2 傳統(tǒng)計(jì)算方法和系統(tǒng)失效
隨著大數(shù)據(jù)的普遍應(yīng)用,傳統(tǒng)的計(jì)算技術(shù)受到了挑戰(zhàn)。海量的數(shù)據(jù)計(jì)算意味著要消耗大量的時(shí)間,因此,利用傳統(tǒng)的計(jì)算手段很難在短時(shí)間內(nèi)完成對大數(shù)據(jù)的計(jì)算分析工作,而且對設(shè)備的性能提出了較高的要求。
2.3 應(yīng)用需求驅(qū)動(dòng)特性
當(dāng)前,多數(shù)行業(yè)都應(yīng)用了大數(shù)據(jù),因此,在網(wǎng)絡(luò)信息處理過程中,應(yīng)按照各個(gè)行業(yè)應(yīng)用的現(xiàn)實(shí)場景,結(jié)合企業(yè)或個(gè)人的應(yīng)用需求,解決網(wǎng)絡(luò)信息處理遇到的技術(shù)難題,以提升不同行業(yè)的信息處理能力,挖掘特定行業(yè)大數(shù)據(jù)所具有的深層次價(jià)值。
3 大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息處理技術(shù)的探索
3.1 大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息處理技術(shù)框架
第一,大數(shù)據(jù)處理基礎(chǔ)設(shè)施和資源管理。隨著新興信息技術(shù)的快速發(fā)展,數(shù)據(jù)呈現(xiàn)出爆炸性增長態(tài)勢,這使得各行各業(yè)對大規(guī)模計(jì)算和存儲資源的需求上升。因而,對大數(shù)據(jù)的網(wǎng)絡(luò)信息處理就需要配備大規(guī)模的基于集群的設(shè)施和設(shè)備。當(dāng)前,多數(shù)企業(yè)為了在高效處理網(wǎng)絡(luò)信息的同時(shí)降低成本,一般采用通用化的硬件架構(gòu),基本上可以滿足自身大數(shù)據(jù)處理對計(jì)算和存儲資源的要求。普通企業(yè)利用價(jià)格低廉的商用服務(wù)器建立起集群系統(tǒng),避免耗費(fèi)大量資源用于建設(shè)大型并行計(jì)算系統(tǒng)。這已經(jīng)成為大數(shù)據(jù)時(shí)代多數(shù)企業(yè)網(wǎng)絡(luò)信息處理基礎(chǔ)設(shè)施的共同選擇。有的企業(yè)為了滿足自身處理密集型任務(wù)的實(shí)際需要,還在系統(tǒng)中增加了GPU。
第二,大數(shù)據(jù)分布式存儲管理技術(shù)和系統(tǒng)平臺層。在大數(shù)據(jù)處理基礎(chǔ)設(shè)施和資源平臺建立之后,處理網(wǎng)絡(luò)信息首先要解決的是海量信息數(shù)據(jù)的存儲管理問題。在大規(guī)模集群的條件下,為了提升網(wǎng)絡(luò)信息的存儲和并發(fā)訪問能力,很多企業(yè)使用了可擴(kuò)展的分布式存儲技術(shù),這種技術(shù)能用于存儲和管理海量的信息數(shù)據(jù)。
第三,大數(shù)據(jù)并行計(jì)算方法和系統(tǒng)平臺層。在分布式存儲大數(shù)據(jù)管理問題解決之后,企業(yè)往往需要即時(shí)有效地計(jì)算分析已經(jīng)存儲的網(wǎng)絡(luò)信息。而當(dāng)前龐大的數(shù)據(jù)量使得過去所采用的串行計(jì)算方法難以在短時(shí)間內(nèi)及時(shí)完成對網(wǎng)絡(luò)信息的處理。如果不采用新的方法,網(wǎng)絡(luò)信息處理效率就難以保證,因而,很多企業(yè)開始建設(shè)大規(guī)模的數(shù)據(jù)并行計(jì)算技術(shù)和系統(tǒng)平臺。為了提升網(wǎng)絡(luò)信息處理的效率,近年來,一些企業(yè)已經(jīng)開發(fā)出各種類型的大數(shù)據(jù)并行計(jì)算模型和框架,如Apache Spark,其受到工商企業(yè)的大量應(yīng)用,而且已經(jīng)成為新一代主流的大數(shù)據(jù)并行計(jì)算系統(tǒng)。
第四,大數(shù)據(jù)分析方法和算法層。在解決分布式存儲和大數(shù)據(jù)并行計(jì)算問題之后,為了解決網(wǎng)絡(luò)信息的分析與應(yīng)用問題,就需要確定信息分析的基本算法和包括機(jī)器學(xué)習(xí)基本算法在內(nèi)的各種綜合分析模型和分析算法,開發(fā)出基于大數(shù)據(jù)框架的并行計(jì)算與數(shù)據(jù)挖掘并行算法,以及各種綜合復(fù)雜分析并行算法。由于行業(yè)的差異性,除了上述基礎(chǔ)數(shù)據(jù)分析算法之外,實(shí)踐中還需要使用更為貼近上層具體應(yīng)用和領(lǐng)域問題的綜合分析模型和算法,以用于商業(yè)智能分析、社交網(wǎng)絡(luò)分析、自然語言處理等,滿足各個(gè)行業(yè)的需求。
第五,大數(shù)據(jù)分析應(yīng)用層。在實(shí)際工作中,在基于大數(shù)據(jù)的存儲、計(jì)算、分析等主要技術(shù)方面,各種網(wǎng)絡(luò)信息分析應(yīng)用的種類繁多,包括銀行所應(yīng)用的金融信用分析、政府所應(yīng)用的互聯(lián)網(wǎng)輿情分析和智能交通管理等。基于大數(shù)據(jù)的網(wǎng)絡(luò)信息分析應(yīng)用系統(tǒng)能夠被用在不同的行業(yè)中。對于網(wǎng)絡(luò)信息處理來說,由于行業(yè)不同,就需要按照行業(yè)的差異提供不同的操作環(huán)境和工具平臺。而且,由于基于大數(shù)據(jù)的網(wǎng)絡(luò)信息處理具有較強(qiáng)的行業(yè)特性,還需要不同領(lǐng)域的專業(yè)人士歸納本行業(yè)應(yīng)用大數(shù)據(jù)的具體需求,這樣才能建立網(wǎng)絡(luò)信息處理的不同商業(yè)模式。這些模型的構(gòu)建離不開深厚的專業(yè)素養(yǎng)和職業(yè)能力,沒有特定行業(yè)領(lǐng)域?qū)I(yè)人士的參與,一般是難以在短時(shí)間內(nèi)完成的。只有工作人員充分掌握所在領(lǐng)域應(yīng)用大數(shù)據(jù)存在的問題以及業(yè)務(wù)模型,技術(shù)人員才能按照具體的行業(yè)需求有效地設(shè)計(jì)和開發(fā)出有關(guān)的網(wǎng)絡(luò)信息處理系統(tǒng)。
3.2 大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息存儲管理技術(shù)
在大數(shù)據(jù)環(huán)境中處理網(wǎng)絡(luò)信息先要解決信息的安全存儲管理問題。目前,在實(shí)踐中所使用的數(shù)據(jù)格式主要包括非結(jié)構(gòu)化、結(jié)構(gòu)化和半結(jié)構(gòu)化等。按照數(shù)據(jù)存儲格式的差異,我們可以把存儲管理系統(tǒng)分為兩種類型,即分布式文件系統(tǒng)和分布式數(shù)據(jù)庫系統(tǒng)。前者針對的是非結(jié)構(gòu)化數(shù)據(jù),而后者則通常對半結(jié)構(gòu)化/結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲。相較而言,前者在工商業(yè)領(lǐng)域得到了較多的應(yīng)用,促進(jìn)了信息數(shù)據(jù)存儲和共享的安全性。在開發(fā)分布式文件系統(tǒng)時(shí),設(shè)計(jì)者需要顧及多種因素,包括系統(tǒng)的易用性、計(jì)算框架的優(yōu)化等。一般而言,分布式文件系統(tǒng)的設(shè)計(jì)需要重視下列幾方面技術(shù)的應(yīng)用:可擴(kuò)展性、可靠性、性能優(yōu)化、易用性及高效的元數(shù)據(jù)管理。
第一,可擴(kuò)展性,指的是分布式文件系統(tǒng)能較好地適應(yīng)大規(guī)模的數(shù)據(jù)分布環(huán)境。為了在大數(shù)據(jù)環(huán)境下管理和維護(hù)大量的文件數(shù)據(jù),這種文件系統(tǒng)一般要應(yīng)用大量存儲節(jié)點(diǎn)來分散文件數(shù)據(jù),因而出現(xiàn)故障的可能性較低。按照現(xiàn)有的技術(shù)條件,一個(gè)具有良好可擴(kuò)展性的分布式文件系統(tǒng)可以在一個(gè)擁有數(shù)百甚至數(shù)千個(gè)節(jié)點(diǎn)的集群環(huán)境中運(yùn)行。此外,分布式文件系統(tǒng)的可擴(kuò)展性還包括支持動(dòng)態(tài)添加或刪除一個(gè)或多個(gè)存儲節(jié)點(diǎn),以實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展/減少和平衡負(fù)載的目的。
第二,可靠性,指分布式文件系統(tǒng)能提供具有較高可靠性的文件存儲和管理服務(wù),用戶不需要擔(dān)心企業(yè)或個(gè)人的數(shù)據(jù)信息會出現(xiàn)丟失的現(xiàn)象。但需要注意的是,分布式文件系統(tǒng)的規(guī)模愈大,產(chǎn)生問題的可能性就愈高。因而,不同的分布式文件系統(tǒng)都有自己的容錯(cuò)機(jī)制,可以在短時(shí)間內(nèi)恢復(fù)丟失的信息數(shù)據(jù)。
第三,性能優(yōu)化技術(shù)。分布式文件系統(tǒng)的數(shù)據(jù)讀寫訪問除了耗費(fèi)正常的本地磁盤訪問時(shí)間之外,通過網(wǎng)絡(luò)傳輸信息數(shù)據(jù)也需要耗費(fèi)一定時(shí)間。在開發(fā)這種系統(tǒng)時(shí),讀寫訪問性能優(yōu)化也是需要重點(diǎn)關(guān)注的技術(shù)問題之一,這對提升網(wǎng)絡(luò)信息處理的效率具有關(guān)鍵性作用。
第四,使用方便,指分布式文件系統(tǒng)便于各種類型用戶的使用,向用戶提供一個(gè)統(tǒng)一的文件系統(tǒng)名稱空間,隱藏底層的實(shí)現(xiàn)細(xì)節(jié)。與過去的單機(jī)文件系統(tǒng)比較,分布式文件系統(tǒng)應(yīng)用的場景更加廣泛,因而系統(tǒng)一般會為用戶和應(yīng)用提供多樣化的訪問方法及接口,從而實(shí)現(xiàn)在各種場景中的兼容性。
第五,高效的元數(shù)據(jù)管理。在分布式文件系統(tǒng)應(yīng)用中,元數(shù)據(jù)的訪問性能是決定系統(tǒng)整體性能的關(guān)鍵。我們可以將元數(shù)據(jù)管理劃分為不同的架構(gòu),即分布式和集中式。前者是把元數(shù)據(jù)分布存儲放在不同的節(jié)點(diǎn)上,從而化解單元數(shù)據(jù)服務(wù)器可能存在的性能不足的問題。其中,有一種分布式元數(shù)據(jù)管理架構(gòu)可以直接使用線算法或規(guī)則組織數(shù)據(jù)存儲,無須使用專門的元數(shù)據(jù)服務(wù)器。但這種架構(gòu)也存在一定的缺點(diǎn),其實(shí)現(xiàn)較為復(fù)雜,維護(hù)數(shù)據(jù)困難,操作效率相對較低,而且缺少對文件系統(tǒng)的全局監(jiān)控和管理功能。而后者則采用單一的元數(shù)據(jù)服務(wù)器,系統(tǒng)構(gòu)建較為簡單,維護(hù)比較方便,但相對于前者來說,更容易在運(yùn)行過程中出現(xiàn)單點(diǎn)故障。
3.3 大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息分析方法
對于大數(shù)據(jù)而言,其重要特征之一是深度價(jià)值,而分析算法和系統(tǒng)正是挖掘出數(shù)據(jù)深度價(jià)值的重要手段。在現(xiàn)有的分析算法和系統(tǒng)中,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法是廣泛應(yīng)用的基本算法,已經(jīng)在企業(yè)和政府管理中得到了重視。在大數(shù)據(jù)環(huán)境中,過去的串行化機(jī)器學(xué)習(xí)算法難以在較短的時(shí)間內(nèi)實(shí)現(xiàn)對網(wǎng)絡(luò)信息的處理,因而不易在較為復(fù)雜、多樣的應(yīng)用場景中運(yùn)行。在這種情況下,全部串行化機(jī)器學(xué)習(xí)算法都應(yīng)改用并行設(shè)計(jì)。機(jī)器學(xué)習(xí)算法常用的并行化方式可以分為數(shù)據(jù)并行化和模型并行化。前者是網(wǎng)絡(luò)信息分析并行化應(yīng)用較多的類型,對大規(guī)模訓(xùn)練數(shù)據(jù)進(jìn)行劃分,每個(gè)計(jì)算節(jié)點(diǎn)承擔(dān)一個(gè)子數(shù)據(jù)集的訓(xùn)練。在訓(xùn)練過程中,使用一定的同步模型對不同計(jì)算節(jié)點(diǎn)上的模型進(jìn)行同步更新。而大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)則是機(jī)器學(xué)習(xí)算法設(shè)計(jì)和大規(guī)模系統(tǒng)的跨學(xué)科研究課題。為了建立這一系統(tǒng),需要投入資源研究機(jī)器學(xué)習(xí)算法,如改進(jìn)機(jī)器學(xué)習(xí)模型,以提高分析和預(yù)測結(jié)果的準(zhǔn)確性。與此同時(shí),因?yàn)閿?shù)據(jù)具有規(guī)模巨大的特點(diǎn),機(jī)器學(xué)習(xí)系統(tǒng)還應(yīng)當(dāng)應(yīng)用分布式并行大數(shù)據(jù)處理技術(shù),這樣才能高效率地完成整個(gè)計(jì)算過程。因而,大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)具有綜合性的特點(diǎn),兼具機(jī)器學(xué)習(xí)和大規(guī)模并行處理能力。
4 結(jié)語
大數(shù)據(jù)的應(yīng)用給網(wǎng)絡(luò)信息處理帶來了巨大的發(fā)展機(jī)遇和挑戰(zhàn)。一方面,海量的數(shù)據(jù)資源蘊(yùn)含著巨大的商業(yè)價(jià)值和社會價(jià)值。有效地管理和利用這些網(wǎng)絡(luò)信息,挖掘網(wǎng)絡(luò)信息隱含的深層價(jià)值,將對社會治理、企業(yè)管理和個(gè)人生活產(chǎn)生深刻的影響。近年來,隨著工業(yè)界和學(xué)術(shù)界的積極推動(dòng)和研究,基于大數(shù)據(jù)網(wǎng)絡(luò)的信息處理技術(shù)在各個(gè)層面都得到了廣泛應(yīng)用。然而,面對日益快速發(fā)展的大數(shù)據(jù)應(yīng)用需求,網(wǎng)絡(luò)信息處理技術(shù)仍然存在一些技術(shù)瓶頸需要解決。在互聯(lián)網(wǎng)世界中,大數(shù)據(jù)具有格式多樣、形式復(fù)雜、規(guī)模龐大的特點(diǎn),僅僅依靠過去的網(wǎng)絡(luò)信息處理技術(shù)難以實(shí)現(xiàn)對數(shù)據(jù)的高校處理。因而,應(yīng)當(dāng)從信息處理技術(shù)的多個(gè)方面進(jìn)行探索,為大數(shù)據(jù)環(huán)境中的網(wǎng)絡(luò)信息處理提供新的路徑。
參考文獻(xiàn):
[1]耿冬旭.“大數(shù)據(jù)”時(shí)代背景下計(jì)算機(jī)信息處理技術(shù)分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(1):21-23.