白富強(qiáng)
(晉中職業(yè)技術(shù)學(xué)院 山西省晉中市 030600)
隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,大數(shù)據(jù)已經(jīng)成為人們?nèi)粘I钪凶钪匾男畔⒃矗瑥娜藗兩畹母鱾€(gè)方面體現(xiàn)出大數(shù)據(jù)時(shí)代大數(shù)據(jù)背景下對(duì)人們進(jìn)行信息處理的巨大優(yōu)勢(shì),但是大數(shù)據(jù)也在一定程度上存在信息滯后和錯(cuò)誤判斷等問(wèn)題,所以研究人員也越來(lái)越關(guān)注如何將大數(shù)據(jù)信息以一種高效地方式呈現(xiàn)給受眾,讓人們更好地了解大數(shù)據(jù)。而計(jì)算機(jī)大數(shù)據(jù)可視化分析則是通過(guò)計(jì)算機(jī)技術(shù)對(duì)大量、高維度、多樣化和不確定數(shù)據(jù)進(jìn)行分析,將數(shù)據(jù)以圖形化或表格、圖形化文本等形式進(jìn)行可視化表達(dá),為人們提供更為準(zhǔn)確、高效和直觀的數(shù)據(jù)信息,使人能夠更好理解和掌握這些大數(shù)據(jù),為決策者提供參考依據(jù)。
數(shù)據(jù)可視化是指利用計(jì)算機(jī)技術(shù)將有關(guān)數(shù)據(jù)以圖形的形式表示出來(lái),并使之可讀、可感、可理解的過(guò)程。數(shù)據(jù)可視化是大數(shù)據(jù)時(shí)代對(duì)人們處理和分析復(fù)雜數(shù)據(jù)的一種重要方法?!翱梢暋辈⒉皇且环N可見(jiàn)的東西,而是一種“可理解”的意思,即把復(fù)雜、抽象的數(shù)據(jù)轉(zhuǎn)化為具體的、容易傳播、交流和研究的過(guò)程??梢暬夹g(shù)是將數(shù)據(jù)轉(zhuǎn)化為圖像呈現(xiàn)在大眾面前,更側(cè)重于技術(shù)的實(shí)施和算法的優(yōu)化,涉及到計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)仿真學(xué)等諸多方面,可以說(shuō),可視化技術(shù)是數(shù)據(jù)可視化的基礎(chǔ)??梢暬谋憩F(xiàn)方式有很多,它可以將復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為更清晰的圖形,這并不是單純的視覺(jué),而是聽(tīng)覺(jué)、嗅覺(jué)、觸覺(jué)等感官,再加上互動(dòng)技術(shù),可以讓使用者在互動(dòng)中了解數(shù)據(jù)。同時(shí),可視化技術(shù)也可以通過(guò)合理地利用諸如心理學(xué)等的知識(shí)來(lái)展示數(shù)據(jù)的深層含義。數(shù)據(jù)可視化過(guò)程可以視為一個(gè)以數(shù)據(jù)流為主線的流程,它包含著數(shù)據(jù)采集、清洗、數(shù)據(jù)庫(kù)技術(shù)、可視化、最后再回到數(shù)據(jù)采集,如圖1所示。
圖1:數(shù)據(jù)可視化流程圖
大數(shù)據(jù)的可視化,其數(shù)據(jù)的處理,一般都是基于Hadoop平臺(tái)。在Hadoop 中,有很多大數(shù)據(jù)可視分析的算法,比如特征選擇、特征提取、分類(lèi)器等。為了使計(jì)算出的Hadoop分析結(jié)果更加直觀易懂(通過(guò)圖表),常常會(huì)用到一些可視化工具。但是高維數(shù)據(jù)(如矩陣)會(huì)出現(xiàn)遮擋情況。這種情況通常會(huì)導(dǎo)致結(jié)果的準(zhǔn)確性和精確度降低,對(duì)決策人員造成困擾,也可能造成大數(shù)據(jù)可視化分析結(jié)果混亂[1]。
大數(shù)據(jù)可視化分析的拓展性弱的原因有很多,最主要的是以下幾個(gè)方面:(1)對(duì)于數(shù)據(jù)類(lèi)型沒(méi)有一個(gè)明確而清晰的定義與規(guī)定。(2)對(duì)于“數(shù)”字和“圖”字等非結(jié)構(gòu)化數(shù)據(jù)類(lèi)型的分析,其產(chǎn)生和使用都具有一定的特殊性。
(3)在進(jìn)行數(shù)據(jù)可視化與分析時(shí),并不是將所有大數(shù)據(jù)都進(jìn)行一種可視化處理即可[2]。
(4)如果要對(duì)多個(gè)不同性質(zhì)的數(shù)據(jù)進(jìn)行整合和挖掘分析的話,就需要針對(duì)不同類(lèi)型的數(shù)據(jù)建立相應(yīng)的可視化模型來(lái)處理。
對(duì)于可視化來(lái)說(shuō),信息缺失是最讓人頭疼的問(wèn)題。因?yàn)槿绻鄙贁?shù)據(jù),那么就無(wú)法進(jìn)行可視化了,從而無(wú)法進(jìn)行分析。另外,如果缺少數(shù)據(jù)是一種非結(jié)構(gòu)化的,信息較為貧乏的數(shù)據(jù),那么也就沒(méi)有辦法用一種高效且有效的方式來(lái)對(duì)其可視化。對(duì)于大數(shù)據(jù)來(lái)說(shuō),可視化是必不可少的一項(xiàng)工作。由于信息缺失給可視化帶來(lái)了很大的困難,同時(shí)也給了可視化人員一個(gè)很大的挑戰(zhàn),如果能夠?qū)?shù)據(jù)進(jìn)行有效的描述,那么可視化是有可能成功的。
圖像變換的速度會(huì)直接影響到視覺(jué)效果的展現(xiàn),造成數(shù)據(jù)丟失或者圖像出現(xiàn)扭曲等現(xiàn)象。圖像變換過(guò)快的原因主要是圖像變換過(guò)程中對(duì)數(shù)據(jù)進(jìn)行了大量處理,比如圖像的增強(qiáng)、分割等。在這個(gè)過(guò)程中,需要耗費(fèi)大量的時(shí)間,如果沒(méi)有足夠的計(jì)算能力則無(wú)法滿足快速變換的需求。
雖然可視分析的性能問(wèn)題很常見(jiàn),但其原因卻各不相同。性能低是大數(shù)據(jù)可視分析面臨的最大問(wèn)題之一,它主要是由兩方面原因造成。首先,由于數(shù)據(jù)可視分析系統(tǒng)是一個(gè)大系統(tǒng),而且需要處理成千上萬(wàn)條的數(shù)據(jù)集,這就意味著系統(tǒng)的運(yùn)行時(shí)間和處理時(shí)間非常長(zhǎng)。其次,由于數(shù)據(jù)可視分析系統(tǒng)需要從多個(gè)數(shù)據(jù)庫(kù)中提取或查詢(xún)數(shù)據(jù),所以性能低會(huì)導(dǎo)致在進(jìn)行數(shù)據(jù)挖掘和分析時(shí)速度慢或出錯(cuò)。這些問(wèn)題不僅會(huì)影響到用戶(hù)對(duì)數(shù)據(jù)可視化和可視分析結(jié)果的滿意程度,而且還將嚴(yán)重影響到系統(tǒng)性能指標(biāo)的正常發(fā)揮。
在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)量的增大,數(shù)據(jù)的類(lèi)型、數(shù)據(jù)的種類(lèi)以及數(shù)據(jù)之間的關(guān)系都發(fā)生了改變。為了分析和解決這樣的問(wèn)題,需要對(duì)這些數(shù)據(jù)進(jìn)行處理,使其能夠更加直觀地展現(xiàn)在人們面前。由于傳統(tǒng)計(jì)算機(jī)技術(shù)缺乏足夠的分析能力,所以要采用多種可視化手段對(duì)數(shù)據(jù)進(jìn)行觀察和分析。對(duì)于復(fù)雜多變的多維圖像來(lái)說(shuō),一般使用多維空間來(lái)表示圖像信息,這樣才能更好地展現(xiàn)信息。通常要用到特征值分析法來(lái)實(shí)現(xiàn)多維圖像表達(dá)[3]。特征值分析法是一種比較簡(jiǎn)單實(shí)用的可視化方法,通過(guò)對(duì)多維圖像進(jìn)行特征值分析,可以有效地提高圖像分析和處理能力。
一般來(lái)說(shuō),在進(jìn)行可視化研究時(shí)通常使用二維數(shù)據(jù)表來(lái)顯示信息。為了更好地實(shí)現(xiàn)數(shù)據(jù)可視化和信息傳播,還需要將可視化工具加入到數(shù)據(jù)表中。為使人們能夠更加直觀地對(duì)各種可視化工具加以應(yīng)用,可以在可視化工具中加入特征值分析功能。常見(jiàn)的特征值分析方法有主成分分析法、空間頻率分析法、小波變換分析等。主成分分析法是將多維圖像轉(zhuǎn)化為二維圖形展示出來(lái),二維數(shù)據(jù)可視化圖如圖2所示。
在對(duì)計(jì)算機(jī)數(shù)據(jù)進(jìn)行分析時(shí),要根據(jù)其具體特點(diǎn)選擇合適的可視化工具。原位交互分析法主要是指計(jì)算機(jī)可視化過(guò)程中,通過(guò)對(duì)數(shù)據(jù)、圖表的簡(jiǎn)單分析,可以對(duì)所要反映的信息進(jìn)行定位和分析。原位交互分析法與大數(shù)據(jù)處理方法具有相似之處,它都是在對(duì)數(shù)據(jù)進(jìn)行處理時(shí)結(jié)合了可視化技術(shù),實(shí)現(xiàn)了數(shù)據(jù)在可視化展示中的作用。原位交互分析法首先是在對(duì)已有數(shù)據(jù)處理時(shí)將其作為原始數(shù)據(jù)集,然后把原始數(shù)據(jù)集轉(zhuǎn)換成可視化圖形展示出來(lái)。原位交互分析法中所用到的工具如Data Analyzer 等工具,通過(guò)這些可視化工具可以很方便地進(jìn)行相關(guān)操作。
此外,人們還可以通過(guò)使用不同的可視化工具實(shí)現(xiàn)對(duì)其進(jìn)行操作與分析。比如我們把可視化分析的目的和對(duì)象劃分為:目標(biāo)對(duì)象與過(guò)程、目標(biāo)對(duì)象或結(jié)果。而從可視化分析所要處理的問(wèn)題來(lái)看可以分為可視對(duì)象與問(wèn)題、可視對(duì)象或結(jié)果、可視化技術(shù)。通過(guò)使用各種可視化工具可以實(shí)現(xiàn)對(duì)目標(biāo)事物進(jìn)行處理,從而對(duì)其進(jìn)行可視化表達(dá)。例如,通過(guò)使用圖表來(lái)表示一種事物時(shí)就可以把其所處的狀態(tài)圖呈現(xiàn)出來(lái)。
數(shù)據(jù)可視化的目的是為了讓人們更好地了解數(shù)據(jù),并根據(jù)數(shù)據(jù)的特征,分析其趨勢(shì)和變化情況,為決策提供依據(jù)。由于數(shù)據(jù)量較大,可視化研究必須利用多種可視化技術(shù),使之能夠更好地進(jìn)行研究分析,可視化技術(shù)的主要技術(shù)及內(nèi)容見(jiàn)表1。
表1:數(shù)據(jù)可視化主要技術(shù)
通常情況下,對(duì)計(jì)算機(jī)可視化問(wèn)題進(jìn)行分析時(shí)都會(huì)用到一些簡(jiǎn)單的算法。目前比較常用的可視化算法有:直方圖統(tǒng)計(jì)分析、聚類(lèi)分析和多元統(tǒng)計(jì)。這些方法都可以將不同分類(lèi)的數(shù)據(jù)轉(zhuǎn)化為相應(yīng)種類(lèi)的圖表,并對(duì)這些圖表進(jìn)行可視化展示。直方圖將同一類(lèi)別中不同指標(biāo)(如資產(chǎn)總額、固定資產(chǎn)等)間相互關(guān)系抽象出來(lái),聚類(lèi)分析能有效地表示不同指標(biāo)之間的關(guān)聯(lián)關(guān)系,多元統(tǒng)計(jì)則可以將同一類(lèi)別中不同分類(lèi)(如社會(huì)成員總數(shù)、企業(yè)數(shù)等等)內(nèi)的各種變量及其數(shù)量用一個(gè)可視化表來(lái)展示。在進(jìn)行聚類(lèi)算法時(shí),通常要用到一種算法來(lái)實(shí)現(xiàn),這就是聚類(lèi)算法。聚類(lèi)算法是通過(guò)一定的數(shù)學(xué)運(yùn)算產(chǎn)生若干個(gè)相似的結(jié)點(diǎn)組成一個(gè)簇來(lái)實(shí)現(xiàn)的。由于聚類(lèi)過(guò)程是一個(gè)由許多步驟構(gòu)成的復(fù)雜過(guò)程,所以我們無(wú)法用計(jì)算機(jī)直接實(shí)現(xiàn)對(duì)該過(guò)程進(jìn)行處理和仿真。在實(shí)際應(yīng)用中,一般可以將其應(yīng)用于多分類(lèi)問(wèn)題、預(yù)測(cè)問(wèn)題等方面。例如,在預(yù)測(cè)問(wèn)題中將不同類(lèi)別中所有類(lèi)別數(shù)據(jù)進(jìn)行合并以及將多個(gè)類(lèi)別中數(shù)據(jù)分布規(guī)律進(jìn)行研究處理等都會(huì)用到聚類(lèi)算法,而利用聚類(lèi)分析方法進(jìn)行聚類(lèi)時(shí),往往需要先對(duì)數(shù)據(jù)樣本進(jìn)行初步判斷和篩選,如果數(shù)據(jù)比較集中時(shí)則要利用分類(lèi)方法、相關(guān)分析法、統(tǒng)計(jì)方法等來(lái)對(duì)數(shù)據(jù)分布規(guī)律進(jìn)行研究討論等。此外還可以用一個(gè)數(shù)學(xué)模型來(lái)表示兩個(gè)類(lèi)之間存在一定關(guān)系的多變量聚類(lèi)結(jié)果之間關(guān)系式:
(1)表示該聚類(lèi)是由n 個(gè)變量構(gòu)成[4]。
(2)表示某一分類(lèi)在m 種情況下與n 個(gè)變量之間存在某種聯(lián)系,這種關(guān)聯(lián)可能包括:與n-1 種情況不同,n-2 種情況也可能不同。聚類(lèi)算法是一種非常有效的可視化分析方法。
由于計(jì)算機(jī)本身所具有地處理能力比較有限且存在著很多限制因素?zé)o法滿足于對(duì)數(shù)據(jù)進(jìn)行處理與分析時(shí)需要使用到多種可視化算法或可視化工具等需求,因此對(duì)其進(jìn)行優(yōu)化也是當(dāng)前研究中需要解決的重要問(wèn)題。優(yōu)化算法分為兩類(lèi):基于數(shù)據(jù)和基于模式兩種方式。由于在實(shí)際應(yīng)用中往往會(huì)遇到大量不同類(lèi)型、不同數(shù)量級(jí)的原始數(shù)據(jù)或樣本需要處理與分析時(shí)可以使用兩類(lèi)優(yōu)化算法:一是最小二乘法。二是主成分法。這兩種方法分別以不同形式出現(xiàn)在各種領(lǐng)域中,如線性回歸等。優(yōu)化算法有多種形式:一類(lèi)是基于主成分分析法。另一類(lèi)是基于降維方法、主成分分析法、神經(jīng)網(wǎng)絡(luò)法和模糊聚類(lèi)技術(shù)等。由于這些方法具有簡(jiǎn)單、快捷及計(jì)算量小等特點(diǎn)可被用于解決大數(shù)據(jù)計(jì)算問(wèn)題中。
在計(jì)算機(jī)大數(shù)據(jù)分析中,由于每個(gè)行業(yè)對(duì)數(shù)據(jù)的要求不同,所以各個(gè)可視化工具需要實(shí)現(xiàn)不同的功能。因此,人們?cè)诳梢暬治鰰r(shí)要充分考慮數(shù)據(jù)集內(nèi)每一個(gè)元素的分布情況及整體結(jié)構(gòu),這樣才能更好地掌握可視化分析的效果。通常來(lái)說(shuō),一種典型的數(shù)據(jù)可視分析方法是對(duì)某一區(qū)域進(jìn)行分析。這種方法利用數(shù)學(xué)公式和數(shù)據(jù)集對(duì)特定區(qū)域內(nèi)某一元素的分布情況加以描述。例如,利用聚類(lèi)原理對(duì)用戶(hù)在某時(shí)間內(nèi)與特定用戶(hù)之間的互動(dòng)次數(shù)進(jìn)行分析,可以得出每小時(shí)內(nèi)與特定用戶(hù)互動(dòng)次數(shù)多的用戶(hù)類(lèi)型,進(jìn)而分析出該地區(qū)人口結(jié)構(gòu)、經(jīng)濟(jì)狀況等。
概率分布法可以用來(lái)實(shí)現(xiàn)對(duì)海量數(shù)據(jù)集內(nèi)所有元素進(jìn)行處理與可視分析。概率分布法是通過(guò)使用數(shù)據(jù)集數(shù)據(jù)計(jì)算模型或矩陣來(lái)確定數(shù)據(jù)集中各元素分布情況與總體結(jié)構(gòu)、各元素之間相互關(guān)系及相互之間關(guān)聯(lián)關(guān)系;然后根據(jù)數(shù)據(jù)集分布情況及整體結(jié)構(gòu)及關(guān)聯(lián)關(guān)系,利用計(jì)算公式進(jìn)行可視化效果檢驗(yàn);最后根據(jù)統(tǒng)計(jì)誤差對(duì)可視化效果進(jìn)行判斷。
并行計(jì)算是指多個(gè)進(jìn)程之間進(jìn)行的信息傳遞和處理,這些進(jìn)程通過(guò)并行模式來(lái)實(shí)現(xiàn)相互協(xié)作。在過(guò)去很長(zhǎng)一段時(shí)間內(nèi),對(duì)大規(guī)模數(shù)據(jù)進(jìn)行處理都是通過(guò)單節(jié)點(diǎn)來(lái)完成的,這種處理方式效率較低、無(wú)法適應(yīng)現(xiàn)代社會(huì)發(fā)展中的需求。并行計(jì)算可以將單個(gè)數(shù)據(jù)變成一個(gè)多個(gè)節(jié)點(diǎn),這樣既能有效地提高計(jì)算速度,也能避免出現(xiàn)數(shù)據(jù)混亂現(xiàn)象。并行計(jì)算是指采用一個(gè)或多個(gè)處理器或存儲(chǔ)器作為核心處理器。在并行數(shù)據(jù)處理中通常會(huì)有多個(gè)CPU 共同進(jìn)行數(shù)據(jù)運(yùn)算,所以為了更好地完成計(jì)算機(jī)大數(shù)據(jù)可視化與可視分析任務(wù),就需要采用多個(gè)處理器或存儲(chǔ)器來(lái)實(shí)現(xiàn)并行式運(yùn)算。由于計(jì)算機(jī)的運(yùn)算速度在很大程度上決定了大數(shù)據(jù)可視分析的速度,所以在進(jìn)行計(jì)算機(jī)大數(shù)據(jù)可視化分析中應(yīng)該盡量選擇高性能處理器。在實(shí)際應(yīng)用中,需要注意以下幾點(diǎn):
(1)應(yīng)根據(jù)數(shù)據(jù)類(lèi)型對(duì)計(jì)算機(jī)進(jìn)行合理配置。
(2)應(yīng)該盡量使用相同數(shù)量或者相同性能的處理器或存儲(chǔ)器,以提高計(jì)算機(jī)的整體性能[5]。
(3)可以在多塊內(nèi)存中并行操作,避免出現(xiàn)內(nèi)存不足問(wèn)題。
(4)應(yīng)注意CPU 資源的分配,防止CPU 負(fù)荷過(guò)重而導(dǎo)致整體性能下降。
相關(guān)性算法分析法是指通過(guò)相關(guān)性算法對(duì)數(shù)據(jù)進(jìn)行分析,然后根據(jù)相關(guān)系數(shù)計(jì)算出兩個(gè)圖形的相似度,并用相似度高的圖形來(lái)表示兩個(gè)圖形。相關(guān)性算法的應(yīng)用范圍很廣,包括了統(tǒng)計(jì)、金融等各個(gè)領(lǐng)域,主要有均值回歸法和最小二乘法。
在統(tǒng)計(jì)方面,相關(guān)性算法可以用于處理數(shù)據(jù)之間的多重相關(guān)性以及時(shí)間相關(guān)性。例如,可以對(duì)樣本數(shù)據(jù)進(jìn)行時(shí)間序列和樣本量進(jìn)行相關(guān)性分析。最小二乘法可以用于對(duì)概率進(jìn)行相關(guān)性計(jì)算及可視化,其中最小二乘法主要用于處理多項(xiàng)式、多個(gè)數(shù)組或線性等概率的求和。均值回歸法是指將樣本的均值、標(biāo)準(zhǔn)差以及偏差相比較,從而得出結(jié)論:最小二乘法可用于處理多項(xiàng)式、多個(gè)數(shù)組或線性等概率。
此外還有其他常用的相關(guān)性算法。在金融領(lǐng)域中,使用相關(guān)性算法時(shí)需要根據(jù)計(jì)算出相關(guān)系數(shù)的圖形進(jìn)行計(jì)算。在對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析之前,首先要確定數(shù)據(jù)中存在哪些信息,其次確定哪些信息對(duì)預(yù)測(cè)有重要意義或有意義,并將這些數(shù)據(jù)與已知的信息建立關(guān)系,最后根據(jù)預(yù)測(cè)結(jié)果做出合理地預(yù)測(cè)。在統(tǒng)計(jì)學(xué)中可以采用主成分分析法、判別分析或聚類(lèi)分析等方法。在金融領(lǐng)域中,相關(guān)性算法不但可以應(yīng)用于數(shù)據(jù)特征篩選、分類(lèi)等工作中,還可以應(yīng)用于對(duì)數(shù)據(jù)進(jìn)行降維、排序和分類(lèi)等工作中。通過(guò)這幾種方法可以完成對(duì)復(fù)雜數(shù)據(jù)處理過(guò)程中相關(guān)系數(shù)計(jì)算。除此之外,還可以結(jié)合線性相關(guān)系數(shù)、回歸系數(shù)以及最小二乘法。當(dāng)兩個(gè)圖形之間存在一定的相關(guān)性時(shí),可以將其繪制在一張地圖上。
大數(shù)據(jù)存儲(chǔ)法主要是將數(shù)據(jù)存放在磁盤(pán)或者磁帶上,并將數(shù)據(jù)按照一定的方式進(jìn)行排列、存儲(chǔ),以便進(jìn)行相關(guān)操作。對(duì)于大數(shù)據(jù)處理的數(shù)據(jù)類(lèi)型,一般分為文本型和非文本型。對(duì)于文本型的數(shù)據(jù)是指可以被計(jì)算機(jī)讀取、處理并具有一定意義的數(shù)據(jù),可以通過(guò)語(yǔ)言描述其內(nèi)容。在這種類(lèi)型當(dāng)中,我們需要使用到文本處理工具來(lái)將這些信息中所包含的信息進(jìn)行表達(dá)、加工并存儲(chǔ)在硬盤(pán)或者磁帶上。文本型的數(shù)據(jù)是非特征型的數(shù)據(jù),需要用到專(zhuān)門(mén)使用到計(jì)算機(jī)中的工具進(jìn)行分析和計(jì)算[6]。而對(duì)于這種非特征型的數(shù)據(jù)可以直接通過(guò)數(shù)據(jù)庫(kù)等工具來(lái)對(duì)其數(shù)據(jù)進(jìn)行存儲(chǔ)和處理,不需要進(jìn)行專(zhuān)門(mén)處理。這種類(lèi)型的算法也稱(chēng)為非結(jié)構(gòu)化算法。對(duì)于非特征類(lèi)型數(shù)據(jù)采用的算法有:分塊、合并、分布、聚合、分表等算法,這些算法都可以應(yīng)用到計(jì)算機(jī)上來(lái)進(jìn)行操作,因此在實(shí)際應(yīng)用中都是可以使用到的。如果采用了分塊或者合并等方法來(lái)處理非特征型的數(shù)據(jù)時(shí)則可以對(duì)其存儲(chǔ)方法做一些改變,例如:將非特征型數(shù)據(jù)分塊或者將非特征型數(shù)據(jù)合并等方法,在具體運(yùn)行起來(lái)時(shí)則需要對(duì)其存儲(chǔ)方式做一些改變。此外還有其他幾種非特征信息類(lèi)型,如文本信息類(lèi)型、音頻信息類(lèi)型等,如果采用了分塊和合并等算法將非特征型數(shù)據(jù)分成不同部分儲(chǔ)存也是一種不錯(cuò)的辦法或者選擇。
該方法利用了網(wǎng)絡(luò)流分析法來(lái)處理數(shù)據(jù),可以有效地將數(shù)據(jù)信息展現(xiàn)出來(lái),并且在計(jì)算機(jī)的支持下可以對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)地分析[7]。網(wǎng)絡(luò)流分析法是對(duì)數(shù)據(jù)庫(kù)中大量的數(shù)據(jù),利用網(wǎng)絡(luò)流的方法去探索數(shù)據(jù)庫(kù)中的變化規(guī)律。該方法主要是對(duì)數(shù)據(jù)庫(kù)中不斷變化的值以及相關(guān)值之間的聯(lián)系進(jìn)行比較,從而了解數(shù)據(jù)庫(kù)中信息變化的原因,也能從中發(fā)現(xiàn)數(shù)據(jù)之間存在差異和規(guī)律。隨著信息技術(shù)在人們生活當(dāng)中越來(lái)越廣泛地應(yīng)用,對(duì)于大數(shù)據(jù)庫(kù)也進(jìn)行了越來(lái)越多的數(shù)據(jù)分析,從而得到各種結(jié)果。該方法是通過(guò)對(duì)大量網(wǎng)絡(luò)日志以及電子郵件等相關(guān)資料進(jìn)行分析,得出一系列關(guān)于這些文件的特征。將收集到的網(wǎng)絡(luò)日志信息轉(zhuǎn)換成表結(jié)構(gòu)圖形式并保存起來(lái)。通過(guò)該方法在圖中找到對(duì)應(yīng)數(shù)據(jù)值以及相關(guān)特征。該方法一般采用多層次結(jié)構(gòu)圖進(jìn)行表示,在每一層次上都能夠反映出數(shù)據(jù)之間存在何種聯(lián)系,以此可以將整個(gè)數(shù)據(jù)庫(kù)進(jìn)行連接起來(lái)并加以處理從而了解到數(shù)據(jù)庫(kù)中出現(xiàn)了哪些變化等。該方法采用基于流的方法得到數(shù)據(jù)庫(kù)中一些數(shù)據(jù)變化規(guī)律后再利用這些規(guī)律與其他相關(guān)聯(lián)的網(wǎng)絡(luò)信息進(jìn)行比較,從而得出結(jié)果,具體如表2所示。
表2:2019年-2021年珠海A 股上市公司資產(chǎn)總額TOP10 多層次數(shù)據(jù)表
根據(jù)使用者的具體需求,對(duì)可視分析方法進(jìn)行設(shè)計(jì),以實(shí)現(xiàn)可視分析目標(biāo)。為了提高可視化分析效率,需要對(duì)大數(shù)據(jù)進(jìn)行處理、存儲(chǔ)與展示。目前很多軟件都提供了可視化插件,這些插件可以實(shí)現(xiàn)更多的數(shù)據(jù)管理與分析功能,提高用戶(hù)體驗(yàn)和使用效率。在用戶(hù)界面設(shè)計(jì)方面,需要根據(jù)大數(shù)據(jù)的特點(diǎn)對(duì)可視化設(shè)計(jì)進(jìn)行適當(dāng)調(diào)整。在設(shè)計(jì)中要明確所要展現(xiàn)的重點(diǎn)數(shù)據(jù)、展示方式和展示結(jié)果等情況。目前的可視化軟件都提供了一定數(shù)量的可視化插件,這些插件可以在可視化過(guò)程中實(shí)現(xiàn)不同目標(biāo),還可以對(duì)特定指標(biāo)進(jìn)行可視化分析。為了提高大數(shù)據(jù)可視化分析效率和用戶(hù)體驗(yàn)度,應(yīng)在選擇插件時(shí)綜合考慮其功能、效率、兼容性以及成本等方面。
在數(shù)據(jù)可視化中,通過(guò)建立可視分析模型進(jìn)行數(shù)據(jù)描述和表示,可以為不確定性的量化提供一個(gè)基本框架??梢暬芯恐幸粋€(gè)非常重要的問(wèn)題是如何對(duì)不確定的變量進(jìn)行描述和表示,因?yàn)樗梢詭椭藗兏玫乩斫膺@些變量。對(duì)這個(gè)問(wèn)題的最常用的方法是使用統(tǒng)計(jì)方法來(lái)定量描述數(shù)據(jù)的不確定性或者相關(guān)性,例如,常用的統(tǒng)計(jì)指標(biāo)包括P(t)、R(t)和Z(t)。在分析中,為了便于數(shù)據(jù)分析,通常需要對(duì)不確定性進(jìn)行量化。這里給出了一個(gè)比較常見(jiàn)的用于度量各種不確定性變量之間關(guān)系的數(shù)學(xué)公式:其中a 是常數(shù),r 是隨機(jī)數(shù);a′是給定條件下R (t)與Z (t)的比值。在這種情況下r 與a 的關(guān)系被稱(chēng)為指數(shù)r。如果定義了一個(gè)新隨機(jī)數(shù)s,我們可以用公式來(lái)計(jì)算它在R (t)和Z (t)中對(duì)應(yīng)的值。這個(gè)公式稱(chēng)為統(tǒng)計(jì)距離[8]。
在一個(gè)大型的數(shù)據(jù)倉(cāng)庫(kù)中,會(huì)包含很多數(shù)據(jù)源,并且會(huì)有很多數(shù)據(jù)。所以說(shuō)我們需要一個(gè)基于領(lǐng)域的建模資源庫(kù)。領(lǐng)域建模資源庫(kù)一般包括領(lǐng)域特征、應(yīng)用分析模型以及相應(yīng)技術(shù)等。在可視化分析工具方面,可以使用可視化分析工具來(lái)實(shí)現(xiàn)可視化效果的顯示以及與其他技術(shù)的結(jié)合使用??梢暬治黾夹g(shù)也是有很多工具可供選擇的。我們可以使用Jetson Text 這樣的可視化工具來(lái)實(shí)現(xiàn)對(duì)大量數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè)以及展示,也可以使用Pycharm 等其他可視化方法來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)流進(jìn)行顯示與統(tǒng)計(jì)分析。在一些行業(yè)中,還可以利用一些開(kāi)源軟件或者是框架進(jìn)行相關(guān)研究。比如在一個(gè)大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)中,除了能夠建立一個(gè)龐大系統(tǒng)之外,還需要具備快速建模、快速部署和持續(xù)迭代等特點(diǎn)。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)可視化分析逐漸成為大數(shù)據(jù)時(shí)代分析工具的主流,這也是數(shù)據(jù)可視化技術(shù)應(yīng)用于企業(yè)大數(shù)據(jù)分析的重要基礎(chǔ)。通過(guò)分析大數(shù)據(jù)可視化,可以將數(shù)據(jù)中蘊(yùn)含的信息呈現(xiàn)出來(lái),對(duì)其進(jìn)行分析和解讀。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)可視化技術(shù)具有很強(qiáng)的實(shí)用性,不僅可以輔助人們解決數(shù)據(jù)信息管理中存在的問(wèn)題,還能幫助人們更好地認(rèn)識(shí)信息數(shù)據(jù)。但是由于其專(zhuān)業(yè)性較強(qiáng),需要專(zhuān)業(yè)人員才能實(shí)現(xiàn)良好地操作。因此,相關(guān)工作人員在對(duì)大數(shù)據(jù)可視化技術(shù)進(jìn)行分析和研究時(shí),應(yīng)該要注意加強(qiáng)這方面能力和素質(zhì)的培養(yǎng),從而為大數(shù)據(jù)可視化技術(shù)的發(fā)展提供幫助。推動(dòng)我國(guó)計(jì)算機(jī)數(shù)據(jù)可視化研究工作進(jìn)一步發(fā)展,為我國(guó)企業(yè)在大數(shù)據(jù)可視化領(lǐng)域的發(fā)展帶來(lái)新機(jī)遇。