朱懋強(qiáng)
(金航數(shù)碼科技有限責(zé)任公司 北京市 100028)
近些年來,各種各樣的數(shù)字設(shè)備得到了廣泛的應(yīng)用,源源不斷的產(chǎn)生著各種各樣的數(shù)據(jù),全國(guó)乃至全球的數(shù)據(jù)量都在瘋長(zhǎng),逐漸形成了我們所謂的大數(shù)據(jù)時(shí)代。大數(shù)據(jù)實(shí)際上就是數(shù)據(jù)量增長(zhǎng)太快,傳統(tǒng)中的數(shù)據(jù)庫面對(duì)如此之多的數(shù)據(jù),以及無法滿足其存儲(chǔ)、分析以及處理的需求。當(dāng)前各個(gè)行業(yè)進(jìn)行競(jìng)爭(zhēng)的重要依據(jù)就是以數(shù)據(jù)的形式對(duì)大數(shù)據(jù)進(jìn)行管理。大數(shù)據(jù)的管理是科技信息技術(shù)目前最大的挑戰(zhàn),各個(gè)行業(yè)都在尋求數(shù)據(jù)為核心的管理結(jié)構(gòu)和運(yùn)用方式。
在過去進(jìn)行數(shù)據(jù)儲(chǔ)存、分析和處理的時(shí)候,其產(chǎn)生都是來自有限的源或者比較簡(jiǎn)單的數(shù)據(jù),一般計(jì)算結(jié)果都比較準(zhǔn)確。但是大數(shù)據(jù)產(chǎn)生為數(shù)據(jù)管理帶來很大的難題,因?yàn)閭鹘y(tǒng)的程序和工具在設(shè)計(jì)時(shí)并沒有考慮到數(shù)據(jù)會(huì)發(fā)展到如此龐大的數(shù)量。并且,當(dāng)前的基礎(chǔ)計(jì)算工具也無法進(jìn)行大數(shù)據(jù)管理中各類數(shù)據(jù)的計(jì)算。其原因不只是因?yàn)閿?shù)據(jù)量的擴(kuò)大,還有數(shù)據(jù)變得復(fù)雜化和動(dòng)態(tài)化的原因,這導(dǎo)致分析和處理工作幾乎不可能使用傳統(tǒng)的管理技術(shù)進(jìn)行。顯而易見,大數(shù)據(jù)的管理對(duì)基礎(chǔ)設(shè)施來說挑戰(zhàn)性很高。
當(dāng)前對(duì)大數(shù)據(jù)進(jìn)行處理的技術(shù)將重點(diǎn)放在了數(shù)據(jù)的特征上來進(jìn)行,比如類別、體積或者速度等等。另外,大數(shù)據(jù)中有很多關(guān)于管理和生產(chǎn)的數(shù)據(jù),這類數(shù)據(jù)一般具有較高的復(fù)雜性,這就使得管理技術(shù)必須進(jìn)行不斷的創(chuàng)新和升級(jí)。但是目前還沒有此類技術(shù)的深入性研究,所以本文嘗試通過分類化對(duì)大數(shù)據(jù)管理進(jìn)行探究,旨在為大數(shù)據(jù)管理工作者提供一些參考。
目前對(duì)于數(shù)據(jù)這一概念,還沒有達(dá)到統(tǒng)一的意見。從內(nèi)容來看,數(shù)據(jù)被定義為物體運(yùn)動(dòng)變化的狀態(tài)以及數(shù)字的體現(xiàn),是基于人們感官得到的刺激然后進(jìn)行記錄的得到的信息或者符號(hào);從形式來看,數(shù)據(jù)包含的類型有數(shù)字、事實(shí)、圖像、文本、音頻以及尚未注釋的數(shù)字編碼等等,數(shù)據(jù)不依附于問題存在,沒有鮮明的意義,它的存在是毫無意義的;再通過關(guān)聯(lián)性來看,各個(gè)數(shù)據(jù)之間并沒有關(guān)系的建立,呈現(xiàn)出分散性和孤立性。
大數(shù)據(jù)是通過計(jì)算機(jī)來實(shí)現(xiàn)大量數(shù)據(jù)的處理工作,在超出計(jì)算范圍后,常規(guī)的數(shù)據(jù)處理器已經(jīng)無法滿足處理工作的需求,就要進(jìn)行創(chuàng)新和開發(fā)更加高級(jí)的數(shù)據(jù)處理器,以實(shí)現(xiàn)管理收法數(shù)據(jù)的目的。
數(shù)據(jù)管理分類顧名思義就是把屬性相似或者有一定共性的數(shù)據(jù)進(jìn)行歸類,能夠以數(shù)據(jù)的特征或者特點(diǎn)為重點(diǎn)進(jìn)行檢索,以便于查詢數(shù)據(jù)或者篩選數(shù)據(jù),比較常用的數(shù)據(jù)管理分類包括:離散型和連續(xù)性、截面數(shù)據(jù)和時(shí)序數(shù)據(jù)、定類數(shù)據(jù)、定比數(shù)據(jù)以及定序數(shù)據(jù)等等,統(tǒng)計(jì)學(xué)、邏輯學(xué)等相關(guān)行業(yè)對(duì)數(shù)據(jù)管理分類運(yùn)用的比較多。數(shù)據(jù)管理分類也要根據(jù)一定的原則進(jìn)行,首先要保證穩(wěn)定性,以數(shù)據(jù)的特點(diǎn)、屬性作為分類標(biāo)準(zhǔn)的時(shí)候,要保證提取的特點(diǎn)或者屬性具有穩(wěn)定性,從而保證數(shù)據(jù)管理分類的穩(wěn)定性;其次要滿足系統(tǒng)性,數(shù)據(jù)管理分類后必須有清楚的邏輯,系統(tǒng)中要井井有條,便于瀏覽和修改;再次要具備可兼容性,儲(chǔ)存越來越多的數(shù)據(jù)是數(shù)據(jù)管理分類最根本的目的,數(shù)據(jù)變得越來越多后,要確保數(shù)據(jù)的各個(gè)類別可以兼容共存;然后是具有擴(kuò)充性,數(shù)據(jù)隨時(shí)能夠以分類標(biāo)準(zhǔn)為依據(jù)進(jìn)行擴(kuò)充;最后是實(shí)用性,為了科學(xué)、有效的管理和應(yīng)用數(shù)據(jù),才對(duì)數(shù)據(jù)進(jìn)行分類,因此必須要具備鮮明的分類標(biāo)準(zhǔn),并且有清楚的邏輯,以便于索引,方便獲取和使用數(shù)據(jù)[1]。
對(duì)大數(shù)據(jù)管理分類法進(jìn)行討論之前,必須充分了解大數(shù)據(jù)管理的相關(guān)技術(shù)設(shè)計(jì)的環(huán)節(jié)。首先,將各個(gè)來源的數(shù)據(jù)匯總到儲(chǔ)存設(shè)備上,然后進(jìn)行預(yù)處理的執(zhí)行,最后進(jìn)行分析,這樣就是到了決策的終點(diǎn)。管理大數(shù)據(jù)是為了有效并且安全的進(jìn)行儲(chǔ)存數(shù)據(jù)、應(yīng)用數(shù)據(jù)[2]。但是,大數(shù)據(jù)的管理進(jìn)展受到了很多因素的影響和阻礙,這表明大數(shù)據(jù)管理在分類以及流程等方面還存在著一定的問題。針對(duì)這些問題,也有一些解決方案的提出,比如,在復(fù)制和高維數(shù)據(jù)方面,聚類受到了儲(chǔ)存的限制,為了解決這個(gè)限制問題,國(guó)外一位學(xué)者拿出了相對(duì)應(yīng)的解決方案,對(duì)存儲(chǔ)的空間利用分層聚類機(jī)制進(jìn)行優(yōu)化。并且,因?yàn)榉謪^(qū)缺乏選擇科學(xué)合理的分區(qū)機(jī)制,加大了數(shù)據(jù)的處理量,因此為數(shù)據(jù)的科學(xué)處理帶來了一定的挑戰(zhàn),所以,機(jī)器學(xué)習(xí)算法是十分重要的。
由于容量數(shù)據(jù)以及異構(gòu)的不斷產(chǎn)生,存儲(chǔ)的管理成為了根本性的問題,可用設(shè)備的儲(chǔ)存量遠(yuǎn)遠(yuǎn)不足以保存如此大量的數(shù)據(jù)。為了保證未來決策的科學(xué)性和準(zhǔn)確性,不能一味的對(duì)數(shù)據(jù)進(jìn)行篩選過濾甚至是浪費(fèi)。由于數(shù)據(jù)的多維度、動(dòng)態(tài)化以及復(fù)雜化,使得儲(chǔ)存管理要滿足的要求越來越高,管理系統(tǒng)要保存大量的數(shù)據(jù),優(yōu)化數(shù)據(jù)對(duì)處理站的可使用性,同時(shí)要提高檢索工作的效率。大數(shù)據(jù)的管理包括對(duì)儲(chǔ)存的優(yōu)化工作以及并行執(zhí)行工作等等。從這一角度來看,數(shù)據(jù)的集群、索引以及復(fù)制等等都是十分重要的活動(dòng)[3]。
決策的質(zhì)量離不開數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的合理性問題是大數(shù)據(jù)管理同化工作中重要的問題之一。所以在大數(shù)據(jù)進(jìn)行分析之前,有必要對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行檢測(cè)。數(shù)據(jù)的預(yù)處理工作是指將原始的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,以便能夠更加有效的對(duì)數(shù)據(jù)進(jìn)行分析,這些原始的數(shù)據(jù)可能有缺失、錯(cuò)誤或者不能使用的問題。比如說,在某個(gè)數(shù)據(jù)庫內(nèi),A 物品的數(shù)據(jù)的定義類型是數(shù)字,記為001,但是在另外一個(gè)數(shù)據(jù)庫內(nèi),該物品被定義為字母,記為a,那么,在對(duì)該物品的數(shù)據(jù)進(jìn)行分析之前,必須將數(shù)據(jù)全部處理為標(biāo)準(zhǔn)的格式,才能對(duì)數(shù)據(jù)進(jìn)行性集成。
一些豐富的信息可能會(huì)影響到業(yè)務(wù)的處理,為了充分利用這些信息,就必須有能力對(duì)大量的數(shù)據(jù)進(jìn)行處理。但是,受數(shù)據(jù)處理工作復(fù)雜性的影響以及支持算法過于基礎(chǔ),不能充分?jǐn)U展,對(duì)于大部分的處理程序來說,處理數(shù)據(jù)仍是一個(gè)很大的挑戰(zhàn)。數(shù)據(jù)的處理目標(biāo)主要是對(duì)各個(gè)特征間的聯(lián)系進(jìn)行充分了解,同時(shí)開發(fā)出數(shù)據(jù)挖掘的有效方式[4]。大數(shù)據(jù)的處理原則主要有:首先對(duì)于各種類型的分析算法,該構(gòu)架都能夠支持,比如機(jī)器學(xué)習(xí)、視覺分析、統(tǒng)計(jì)分析以及數(shù)據(jù)挖掘等等各種方式;再次就是不能將全部的數(shù)據(jù)在同一個(gè)類型的空間進(jìn)行存儲(chǔ),所以,不同的階段存儲(chǔ)的機(jī)制以及數(shù)據(jù)的處理都是不同的;最后要保證數(shù)據(jù)訪問的有效性,無論是結(jié)構(gòu)化的數(shù)據(jù)還是非結(jié)構(gòu)化的數(shù)據(jù),隨著時(shí)間的變化,他們的挖掘和訪問速度都在不斷的增長(zhǎng),可見,數(shù)據(jù)處理的技術(shù)必須要能夠?qū)嫶蟮臄?shù)據(jù)進(jìn)行挖掘處理。
由于大數(shù)據(jù)的生成來源不止一個(gè),這些來源是否安全是需要重視的問題。絕大部分的企業(yè)組織難以對(duì)數(shù)據(jù)進(jìn)行有效的處理,主要是因?yàn)榇罅康臄?shù)據(jù)都不是正常的數(shù)據(jù)并且特征明顯。想要保證分析數(shù)據(jù)的質(zhì)量,就必須擴(kuò)大儲(chǔ)存空間,推出更高級(jí)的算法,并對(duì)現(xiàn)有的算法進(jìn)行優(yōu)化,以實(shí)現(xiàn)對(duì)發(fā)大數(shù)據(jù)的高效處理。
數(shù)據(jù)的冗余就是指數(shù)據(jù)存在重復(fù)情況,簡(jiǎn)單來說就是在多個(gè)系統(tǒng)或者文件中都能對(duì)同一個(gè)數(shù)據(jù)進(jìn)行查詢,適當(dāng)?shù)臄?shù)據(jù)冗余可以一定程度上防止丟失數(shù)據(jù),確保數(shù)據(jù)的安全[5]。一旦數(shù)據(jù)冗余太多,就會(huì)造成檢索過程中不能高效的對(duì)數(shù)據(jù)進(jìn)行查詢,大部分通過人工操作在不同的地方對(duì)同一數(shù)據(jù)進(jìn)行存放,并且為了保證數(shù)據(jù)完整多次進(jìn)行了儲(chǔ)存和備份,這樣一來,使得數(shù)據(jù)的冗余度大大增加。傳統(tǒng)的數(shù)據(jù)管理分類中過于擔(dān)心數(shù)據(jù)會(huì)丟失,多次對(duì)數(shù)據(jù)進(jìn)行備份工作,但是實(shí)際上提高數(shù)據(jù)的獨(dú)立性,降低數(shù)據(jù)的冗余程度,對(duì)數(shù)據(jù)的質(zhì)量以及使用效率都可以進(jìn)行提高,提高這方面的意識(shí)是十分重要的。
數(shù)據(jù)分類的目的是為了更加充分的管理和運(yùn)用數(shù)據(jù),數(shù)據(jù)進(jìn)行分類的工作一定程度上可以緩解以前操作中數(shù)據(jù)過于冗余的情況,但是傳統(tǒng)的數(shù)據(jù)分類沒有對(duì)分類的標(biāo)準(zhǔn)進(jìn)行明確的規(guī)定,數(shù)據(jù)在分類的過程中過于盲目,在檢索時(shí)會(huì)發(fā)生很多不便,不能有效的對(duì)數(shù)據(jù)進(jìn)行查詢和提取。對(duì)傳統(tǒng)數(shù)據(jù)進(jìn)行分類的方法主要有基于支持向量機(jī)的分類方法、基于小波變換算法分類方法、基于數(shù)據(jù)增益算法,這幾類的算法都會(huì)使數(shù)據(jù)的冗余程度過高。
數(shù)據(jù)冗余簡(jiǎn)單來說就是對(duì)種類進(jìn)行分類的問題,計(jì)算機(jī)進(jìn)行數(shù)據(jù)分類的主要目的之一就是提高數(shù)據(jù)的獨(dú)立性,降低數(shù)據(jù)的冗余程度[6]。大數(shù)據(jù)通過對(duì)分類算法的改變進(jìn)行優(yōu)化分類,分析并處理冗余的數(shù)據(jù),在這數(shù)據(jù)進(jìn)行分類優(yōu)化的工程中,通過局部特征這一分析的方式,再次提取冗余數(shù)據(jù)里面的重點(diǎn)信息,并對(duì)其進(jìn)行標(biāo)記,以替代之前數(shù)據(jù)的特征和屬性,并且將之前的數(shù)據(jù)特征和屬性定義為數(shù)據(jù)冗余的標(biāo)準(zhǔn)和標(biāo)志,避免數(shù)據(jù)管理的后再次發(fā)生同樣的數(shù)據(jù)冗余。
由于大數(shù)據(jù)的數(shù)量龐大性,其中包含了很多的類別,對(duì)這些數(shù)據(jù)進(jìn)行分類的過程中必須有明確清晰的標(biāo)準(zhǔn)可以依據(jù),目前傳統(tǒng)的計(jì)算機(jī)技術(shù)不能達(dá)到這一點(diǎn)。在對(duì)大數(shù)據(jù)進(jìn)行研究的時(shí)候,以特定的標(biāo)準(zhǔn)作為依據(jù)對(duì)數(shù)據(jù)進(jìn)行分類,分類的標(biāo)準(zhǔn)主要以大數(shù)據(jù)中的關(guān)鍵特征和數(shù)據(jù)作為依據(jù),在后續(xù)對(duì)數(shù)據(jù)進(jìn)行整理和歸類的工作中,能夠嚴(yán)格按照分類的標(biāo)準(zhǔn)實(shí)施歸檔工作,以實(shí)現(xiàn)高效的管理和運(yùn)用數(shù)據(jù)。通過研究表明,在一些特定的仿真環(huán)境中,在虛擬的世界里,模擬數(shù)據(jù)分類的優(yōu)化過程,并且對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)得出仿真圖像,通過圖像能夠看出,大數(shù)據(jù)的分類處理以時(shí)域波形的形狀呈現(xiàn),這說明數(shù)據(jù)的分類處理得出的結(jié)果是比較準(zhǔn)確的。另外,向量量化法也可以對(duì)大數(shù)據(jù)中的關(guān)鍵信息進(jìn)行提出和分析處理,并且能夠?qū)Ψ诸惼鸬絻?yōu)化的作用,效果十分理想。
盡管大數(shù)據(jù)在管理方面的研究已經(jīng)有了一定的突破,但是目前還有很多問題沒有解決。想要為相關(guān)人員能夠充分把握管理大數(shù)據(jù)的發(fā)展趨勢(shì)和研究重點(diǎn)提供幫助,就必須更加深入的對(duì)未來機(jī)遇和挑戰(zhàn)進(jìn)行研究。因?yàn)槟承┰颍瑫?huì)造成相當(dāng)一段時(shí)間里,數(shù)據(jù)的預(yù)處理工作要面臨很大的挑戰(zhàn)[7]。比如說,一些社交軟件提倡用戶對(duì)自己的相關(guān)數(shù)據(jù)進(jìn)行搜集、探索或者總結(jié),并分享給其他人。他們希望人們能夠生成或者尋到合適的數(shù)據(jù),實(shí)現(xiàn)共享數(shù)據(jù)的簡(jiǎn)單化,并對(duì)客戶實(shí)行激勵(lì)措施,通過極具說服力的條款對(duì)數(shù)據(jù)隱私的覆蓋率進(jìn)行提高,并且避免數(shù)據(jù)擁有者出現(xiàn)降低系統(tǒng)性能級(jí)別的發(fā)生。從某種角度來講,數(shù)據(jù)集成就是實(shí)現(xiàn)人們的數(shù)據(jù)共享。但是,數(shù)據(jù)的集成有很強(qiáng)的復(fù)雜化,并且很多處理程序還沒有明確的集成方式。比如,有兩家公司生產(chǎn)不同的產(chǎn)品,并且使用的系統(tǒng)是一樣的,那么就必須對(duì)兩家公司系統(tǒng)數(shù)據(jù)在同一系統(tǒng)中進(jìn)行集成是如何操作的進(jìn)行充分的了解。所以,大數(shù)據(jù)的管理分析中,主要的挑戰(zhàn)就是開發(fā)出更多的集成工具對(duì)數(shù)據(jù)進(jìn)行處理。
隨著時(shí)間的流逝,數(shù)據(jù)的規(guī)模變得越來越龐大,進(jìn)而擴(kuò)展出了更多的生成數(shù)據(jù)。所以,管理大數(shù)據(jù)的重點(diǎn)就是要采取科學(xué)有效的管理技術(shù)。本文全面分析了大數(shù)據(jù)管理的分類法,對(duì)分類法的存儲(chǔ)、預(yù)處理、處理以及安全性進(jìn)行了論述,并且對(duì)分類法的問題和優(yōu)化措施進(jìn)行了簡(jiǎn)單的探究。大數(shù)據(jù)管理目前還沒有達(dá)到成熟階段,希望本篇文章可以對(duì)大數(shù)據(jù)的管理分析工作有所助益。