王 虎
(蘇州市體育信息中心,江蘇 蘇州 215000)
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展以及無線網(wǎng)絡(luò)技術(shù)的快速普及為大數(shù)據(jù)技術(shù)的發(fā)展帶來了機(jī)遇,我國逐步進(jìn)入信息化時(shí)代,人們工作和生活中產(chǎn)生的數(shù)據(jù)信息也在急速增長。傳統(tǒng)的數(shù)據(jù)管理方式無法承擔(dān)如此巨大的計(jì)算量和負(fù)荷量,如果無法處理與日俱增的數(shù)據(jù),互聯(lián)網(wǎng)及其衍生行業(yè)就將面臨崩潰。大數(shù)據(jù)關(guān)鍵技術(shù)主要包括采集技術(shù)和預(yù)處理技術(shù)等,但是現(xiàn)階段在對各關(guān)鍵技術(shù)的研究和發(fā)展中仍然存在一些問題,這阻礙了大數(shù)據(jù)技術(shù)的進(jìn)一步發(fā)展。該文將針對大數(shù)據(jù)技術(shù)中信息系統(tǒng)的關(guān)鍵技術(shù)問題進(jìn)行分析并探討相關(guān)的解決方案。
大數(shù)據(jù)是指超過使用者本身能夠處理和分析并且通過常規(guī)軟件和工具無法處理的數(shù)據(jù)合集。大數(shù)據(jù)具有量大、快速、多樣、低價(jià)值密度以及真實(shí)性強(qiáng)等特點(diǎn)。通過對大數(shù)據(jù)的含義及特點(diǎn)進(jìn)行分析就可以發(fā)現(xiàn),僅依靠人力和常規(guī)軟件是無法對其進(jìn)行收集和處理的;并且大數(shù)據(jù)的意義不僅在于單純地收集和記錄所有數(shù)據(jù),關(guān)鍵是在收集后對其進(jìn)行專業(yè)處理,以更加直觀的方式呈現(xiàn)在使用者面前。云時(shí)代的到來為大數(shù)據(jù)的發(fā)展提供了更加堅(jiān)實(shí)的技術(shù)基礎(chǔ),大數(shù)據(jù)也逐漸成為國家和社會關(guān)注的重點(diǎn)技術(shù),隨著研究的不斷深入,大數(shù)據(jù)也不斷地進(jìn)入到社會的多個(gè)領(lǐng)域和行業(yè),進(jìn)一步促進(jìn)了人類社會的發(fā)展。在信息化時(shí)代,數(shù)據(jù)已經(jīng)成為信息產(chǎn)業(yè)實(shí)現(xiàn)持續(xù)發(fā)展并帶動經(jīng)濟(jì)增長的新引擎。
現(xiàn)階段,大數(shù)據(jù)的關(guān)鍵技術(shù)主要集中在以下5個(gè)方面:1) 數(shù)據(jù)采集技術(shù)。大數(shù)據(jù)采集技術(shù)主要是通過數(shù)據(jù)庫來接受射頻數(shù)據(jù)以及收集App等用戶端發(fā)出的海量數(shù)據(jù),同時(shí),它也是大數(shù)據(jù)知識服務(wù)模式的根本技術(shù)[1]。2) 大數(shù)據(jù)預(yù)處理技術(shù)。大數(shù)據(jù)預(yù)處理技術(shù)對數(shù)據(jù)庫接受的信息進(jìn)行批量處理,從而實(shí)現(xiàn)對已收集數(shù)據(jù)進(jìn)行篩選和抽取的功能。3) 大數(shù)據(jù)存儲及管理技術(shù)。大數(shù)據(jù)存儲技術(shù)對已收集和已處理的數(shù)據(jù)進(jìn)行批量整理,并建立相應(yīng)的數(shù)據(jù)庫用來存儲數(shù)據(jù);除此之外,大數(shù)據(jù)存儲技術(shù)還能對數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行有效地管理,從而達(dá)到去冗余優(yōu)化存儲的目的。4) 大數(shù)據(jù)分析及挖掘技術(shù)。大數(shù)據(jù)分析以及挖掘技術(shù)能夠憑借先進(jìn)、高效的算法對用戶網(wǎng)絡(luò)行為以及情感語義等進(jìn)行分析;另外,數(shù)據(jù)挖掘能夠在海量的數(shù)據(jù)庫中提取潛在的具有價(jià)值的信息,且數(shù)據(jù)挖掘的方法也是多樣的。5) 大數(shù)據(jù)展現(xiàn)及應(yīng)用技術(shù)。大數(shù)據(jù)展現(xiàn)及應(yīng)用技術(shù)能夠通過各種形式將大數(shù)據(jù)挖掘技術(shù)提取出來的各種有價(jià)值的信息呈現(xiàn)出來,同時(shí)應(yīng)用到社會生產(chǎn)以及經(jīng)濟(jì)活動中,從而進(jìn)行商業(yè)決策以及政治決策等活動。除此之外,大數(shù)據(jù)關(guān)鍵技術(shù)還可以細(xì)分為數(shù)據(jù)傳輸、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)交換以及數(shù)據(jù)交換等,它們分別在不同的技術(shù)領(lǐng)域內(nèi)發(fā)揮具體的作用,見表1。
表1 大數(shù)據(jù)關(guān)鍵技術(shù)
數(shù)據(jù)采集技術(shù)是推動大數(shù)據(jù)技術(shù)不斷發(fā)展的根本性技術(shù),數(shù)據(jù)采集技術(shù)中的數(shù)據(jù)采集也是數(shù)字被測單元自動采集數(shù)據(jù)的一個(gè)過程。根據(jù)數(shù)據(jù)的來源進(jìn)行分類可以分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),例如互聯(lián)網(wǎng)企業(yè)往往會使用企業(yè)數(shù)據(jù)庫的日志數(shù)據(jù),這就是最為常見的內(nèi)部數(shù)據(jù)的來源之一;例如央行的征信系統(tǒng)就是屬于外部數(shù)據(jù)。
現(xiàn)階段我國的大數(shù)據(jù)采集技術(shù)在發(fā)展過程中遇到的最主要的問題在于隨著社會的不斷發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)量呈幾何級的速度在增長,海量數(shù)據(jù)給大數(shù)據(jù)的采集帶來了前所未有的挑戰(zhàn)?,F(xiàn)階段大數(shù)據(jù)采集技術(shù)在研究和使用過程中主要面臨以下3個(gè)問題:1) 大數(shù)據(jù)采集復(fù)雜數(shù)據(jù)的能力有待提升,與傳統(tǒng)的數(shù)據(jù)采集模式不同,信息化時(shí)代下的數(shù)據(jù)不僅包括文本內(nèi)容、圖片、視頻以及音頻,而且非結(jié)構(gòu)化數(shù)據(jù)的大量出現(xiàn)在一定程度上也增加了采集的難度;因此,大數(shù)據(jù)采集技術(shù)需要提升對非結(jié)構(gòu)化數(shù)據(jù)的采集能力[2]。2) 并發(fā)數(shù)據(jù)的數(shù)據(jù)源多種多樣,并且短時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)量也較大,不僅需要保證大數(shù)據(jù)采集的可靠性,而且還需要保證大數(shù)據(jù)采集的高效性,從而滿足對大規(guī)模數(shù)據(jù)的采集需求。3) 大數(shù)據(jù)采集技術(shù)的識別能力還有待提升,提升大數(shù)據(jù)采集技術(shù)的識別能力可以避免在海量數(shù)據(jù)庫中產(chǎn)生重復(fù)數(shù)據(jù)。
在針對數(shù)據(jù)量大以及數(shù)據(jù)產(chǎn)生速度快等問題的研究中,如果要保證數(shù)據(jù)采集的可靠性與高效性,就需要根據(jù)數(shù)據(jù)來源的不同進(jìn)行有針對性的數(shù)據(jù)采集活動。首先是Web數(shù)據(jù)采集,常用的數(shù)據(jù)采集方式主要是通過網(wǎng)絡(luò)爬蟲或者通過網(wǎng)站公開的API進(jìn)行采集。以網(wǎng)絡(luò)爬蟲為例,在數(shù)據(jù)采集的過程中,會從初始網(wǎng)頁開始篩選,在篩選的過程中會不斷地將新的網(wǎng)頁加入到篩選行列中,直到其采集到合適的信息才會停止;例如交通管理部門在軌跡數(shù)據(jù)采集中用到的軌跡數(shù)據(jù)約簡算法,其操作步驟如下:假設(shè)1個(gè)初始軌跡有n個(gè)采樣點(diǎn),就可以將其視為有n-1個(gè)分段,A、B、C是3個(gè)連續(xù)的時(shí)空位置點(diǎn),根據(jù)其前一個(gè)位置點(diǎn)A和后一個(gè)位置點(diǎn)C來計(jì)算B的時(shí)間同步歐式距離。這就是基于大數(shù)據(jù)技術(shù)的交通管理部門數(shù)據(jù)采集與處理技術(shù)的基本原理,如公式(1)所示。
式中:sed為指令;x和y為變量和常量。
通過Web數(shù)據(jù)采集,不僅是文本信息,各種圖文內(nèi)容的非結(jié)構(gòu)化數(shù)據(jù)同樣能夠在短時(shí)間內(nèi)被采集并存儲到數(shù)據(jù)庫中。除此之外,部分互聯(lián)網(wǎng)企業(yè)還有專門的系統(tǒng)日志,通過采集系統(tǒng)日志就能實(shí)現(xiàn)對企業(yè)內(nèi)部業(yè)務(wù)等大數(shù)據(jù)的采集;同時(shí),在離線的情況下也可以完成采集工作,并且該技術(shù)采用的分布式架構(gòu)能夠?qū)崿F(xiàn)每秒近百兆的采集速度,極大地滿足了對內(nèi)部數(shù)據(jù)的采集需求。
大數(shù)據(jù)技術(shù)預(yù)處理的總體框架主要是在采集和交換得到初始數(shù)據(jù)后,通過在線或者離線的方式進(jìn)行傳輸,其中的結(jié)構(gòu)化數(shù)據(jù)可以通過電子表格或者傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進(jìn)行處理,而半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)可以采用華為公司的FusionInsight大數(shù)據(jù)平臺或者易安信公司研發(fā)的Pivotal平臺進(jìn)行預(yù)處理,從而得到統(tǒng)一的數(shù)據(jù)視圖。大數(shù)據(jù)預(yù)處理框架如圖1所示。
并不是所有數(shù)據(jù)在經(jīng)過采集后就可以馬上投入使用,由于數(shù)據(jù)采集的來源不同,并且不同的數(shù)據(jù)在種類以及質(zhì)量方面都存在差異,部分?jǐn)?shù)據(jù)大體上都是不完整的,該數(shù)據(jù)統(tǒng)稱為“臟數(shù)據(jù)”。因此,如果不加處理就對該數(shù)據(jù)進(jìn)行挖掘,那么挖掘的質(zhì)量也會大打折扣[3]。在收據(jù)處理的整個(gè)流程中,首先要對數(shù)據(jù)的準(zhǔn)確性進(jìn)行審核;其次是對數(shù)據(jù)的適用性進(jìn)行審核,目的在于避免出現(xiàn)數(shù)據(jù)有誤差以及與項(xiàng)目不匹配等現(xiàn)象;再次是對數(shù)據(jù)的及時(shí)性和一致性進(jìn)行審核。
一方面,首次采集到的信息一般都是不完整的“臟數(shù)據(jù)”,未加處理就對其進(jìn)行分析往往也只能得到質(zhì)量較低的結(jié)果;另外,不完整的數(shù)據(jù)也沒有進(jìn)一步挖掘的價(jià)值,一般來說,該數(shù)據(jù)缺乏一定的屬性值或者僅包括聚集數(shù)據(jù)。另一方面,某些含噪聲的數(shù)據(jù)不經(jīng)過處理就會給使用者帶來錯(cuò)誤的信息,該數(shù)據(jù)往往包括與實(shí)際期望不符的離群值,從而導(dǎo)致對決策的誤判等。
想要得到高質(zhì)量的數(shù)據(jù)就需要對數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)的預(yù)處理主要包括數(shù)據(jù)的清洗、集成、交換以及規(guī)約。數(shù)據(jù)清洗是處理“臟數(shù)據(jù)”最為有效的方法,也是保證數(shù)據(jù)質(zhì)量的重要保證。數(shù)據(jù)清洗包括遺漏值的處理、噪聲數(shù)據(jù)的處理以及不一致數(shù)據(jù)的處理[4]。在處理遺漏值的過程中,可以使用全局常量的方式對這類缺乏一定屬性的數(shù)據(jù)進(jìn)行處理,如果該方式不能處理,就只能選擇略過該數(shù)據(jù)?,F(xiàn)階段,在噪聲數(shù)據(jù)的處理中,使用較多的方式是分箱,即對采集的原始數(shù)據(jù)進(jìn)行分組,再通過特殊的算法對組內(nèi)的數(shù)據(jù)進(jìn)行平滑處理,從而達(dá)到清洗數(shù)據(jù)的目的;例如以分布式為設(shè)計(jì)方向的數(shù)據(jù)處理系統(tǒng)Hadoop,它是Apache基金會下的1個(gè)開源項(xiàng)目(可以免費(fèi)獲?。?,基于強(qiáng)大的資金和技術(shù)的支持,Hadoop不僅擁有高效的大數(shù)據(jù)預(yù)處理能力,而且還擁有海量的存儲能力?,F(xiàn)階段,Hadoop發(fā)展迅速,其下各個(gè)項(xiàng)目(例如Hive、Pig等)具有不同的數(shù)據(jù)處理能力,使其能夠?qū)崿F(xiàn)對“臟數(shù)據(jù)”的處理,深入挖掘數(shù)據(jù)的屬性值。Hadoop的各種項(xiàng)目及其功能描述見表2。
表2 Hadoop項(xiàng)目的功能描述
數(shù)據(jù)的存儲及對數(shù)據(jù)進(jìn)行有效地管理也是大數(shù)據(jù)的核心技術(shù),一般來說,計(jì)算機(jī)的數(shù)據(jù)存儲模式與人腦有一定的聯(lián)系,計(jì)算機(jī)與人腦都能通過不同部位對短期數(shù)據(jù)以及長期數(shù)據(jù)進(jìn)行存儲和管理。在短期數(shù)據(jù)的存儲中,計(jì)算機(jī)依靠RAM進(jìn)行處理。在傳統(tǒng)的數(shù)據(jù)處理模式中,計(jì)算機(jī)的數(shù)據(jù)存儲容量、存儲速度往往會受到計(jì)算機(jī)性能的制約[5];而且在現(xiàn)階段數(shù)據(jù)產(chǎn)生速度快且產(chǎn)生量如此大的情況下,大數(shù)據(jù)的存儲以及管理對提升數(shù)據(jù)的處理效率起到了至關(guān)重要的作用。
大數(shù)據(jù)的1個(gè)顯著特征就是數(shù)據(jù)的產(chǎn)生量大、產(chǎn)生速度也較快,因此大數(shù)據(jù)存儲及管理技術(shù)面臨的第一個(gè)問題就在于數(shù)據(jù)量過大,如何對規(guī)模如此大的數(shù)據(jù)進(jìn)行集中管理是技術(shù)層面面臨的主要問題。在對大數(shù)據(jù)進(jìn)行處理的過程中,數(shù)據(jù)量單位基本上都是從PB起步,并且根據(jù)研究項(xiàng)目的不同,數(shù)據(jù)量單位甚至能夠達(dá)到ZB。另外一個(gè)問題在于數(shù)據(jù)采集的來源較多且數(shù)據(jù)的種類較為復(fù)雜,存儲和管理工作需要依靠先進(jìn)的算法且存在巨大的運(yùn)算量。
圖1 大數(shù)據(jù)預(yù)處理總體框架
近年來,隨著相關(guān)方面的扶持力度不斷加大,大數(shù)據(jù)存儲及管理技術(shù)的水平也在逐步提升?,F(xiàn)階段,在解決數(shù)據(jù)存儲和管理的問題時(shí),一般會采用不斷加密、倉庫存儲以及云端備份的方式。一方面為了保證數(shù)據(jù)存儲的安全性,越來越多的企事業(yè)單位會選擇采用不斷加密的方式對數(shù)據(jù)進(jìn)行管理。對于企業(yè)來說,企業(yè)數(shù)據(jù)是其重要的資產(chǎn),不斷加密已經(jīng)成為了打擊數(shù)據(jù)威脅的重要手段。另一方面,云存儲服務(wù)逐漸向數(shù)字化轉(zhuǎn)型,這也就意味著在云端能夠?qū)崿F(xiàn)對數(shù)據(jù)的快速遷移,數(shù)據(jù)安全面臨的風(fēng)險(xiǎn)就會大大降低,同時(shí),云端數(shù)據(jù)庫能夠在短時(shí)間內(nèi)接收并管理數(shù)量龐大的各類數(shù)據(jù),在一定程度上有利于減輕服務(wù)器的負(fù)荷量。
大數(shù)據(jù)的挖掘就是在數(shù)量龐大、缺乏完整性且有噪聲的數(shù)據(jù)中,對有潛在價(jià)值的數(shù)據(jù)進(jìn)行提取。大數(shù)據(jù)分析及挖據(jù)技術(shù)被廣泛應(yīng)用于商業(yè)及政治等領(lǐng)域,能夠?qū)Q策起到重要的輔助作用。
大數(shù)據(jù)的飛速發(fā)展以及其自身極高的應(yīng)用價(jià)值使它不斷發(fā)展成為技術(shù)領(lǐng)域的主流,在社會生產(chǎn)和發(fā)展過程中往往會產(chǎn)生海量的數(shù)據(jù),在該基礎(chǔ)上需要找到1種高效的算法去解決數(shù)據(jù)挖掘所面臨的復(fù)雜的問題。同時(shí),由于不同數(shù)據(jù)的來源以及命名方式存在差異,因此想要在該基礎(chǔ)上深入數(shù)據(jù)的內(nèi)部,同樣也是當(dāng)前待解決的問題。
要對大數(shù)據(jù)進(jìn)行挖掘和分析,就需要在雜亂無章的龐大數(shù)據(jù)庫中提取有效的數(shù)據(jù)信息,從而找到研究對象的內(nèi)在規(guī)律。在數(shù)據(jù)挖掘和分析的過程中,可以采取分類、回歸分析以及聚類等方式從不同角度對數(shù)據(jù)進(jìn)行挖掘。分類就是對采集到的數(shù)據(jù)進(jìn)行分組,在不同的數(shù)據(jù)組中尋找數(shù)據(jù)的共同特點(diǎn)。而聚類同樣是采用分組的方式,但是與常規(guī)分組有區(qū)別的是,聚類會以數(shù)據(jù)的相似性以及差異性特征對數(shù)據(jù)進(jìn)行分類,從而使同一類別中數(shù)據(jù)的相似性盡可能大,而不同類別中數(shù)據(jù)的差異性盡可能大。
隨著社會的不斷發(fā)展,大數(shù)據(jù)技術(shù)的應(yīng)用層面會更加廣闊,但是隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)的來源也將更加復(fù)雜;對數(shù)據(jù)的采集、處理以及分析也會面臨巨大的考驗(yàn)。大數(shù)據(jù)技術(shù)研究過程中的關(guān)鍵技術(shù)主要包括數(shù)據(jù)的采集、預(yù)處理、存儲和管理、挖掘和分析以及展示和應(yīng)用這5個(gè)方面?,F(xiàn)階段,最主要的技術(shù)問題在于數(shù)據(jù)的量大且時(shí)效性強(qiáng),需要在保證高效安全的情況下,實(shí)現(xiàn)對于數(shù)據(jù)的快速采集和處理,同時(shí)保證對大批數(shù)據(jù)的存儲。目前,我國針對大數(shù)據(jù)的研究已經(jīng)初見成效并處于世界領(lǐng)先的水平,相信在不遠(yuǎn)的將來我國的大數(shù)據(jù)技術(shù)將為世界網(wǎng)絡(luò)上信息技術(shù)的發(fā)展帶來全面的革新。