• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)背景下數(shù)據(jù)可視化方法研究

      2016-07-23 21:08:03黃堰程曉榮
      電腦知識與技術(shù) 2016年17期
      關(guān)鍵詞:數(shù)據(jù)可視化大數(shù)據(jù)

      黃堰++程曉榮

      摘要:大數(shù)據(jù)時代數(shù)據(jù)飛速增長,高維數(shù)據(jù)越來越多迫切需要新的數(shù)據(jù)可視化方法對高維數(shù)據(jù)進行處理。本文在傳統(tǒng)的Radviz數(shù)據(jù)可視化方法基礎(chǔ)上,結(jié)合彈簧模型,給出了一種改進的Radviz數(shù)據(jù)可視化方法,并通過兩種模型之間的比較,證明了改進的Radviz可視化方法增強了屬性間的合力,降低了數(shù)據(jù)遮蓋度,更好地保持了原有數(shù)據(jù)集的特征。

      關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)可視化;Radviz;彈簧模型

      中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)17-0231-03

      隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)產(chǎn)生的速度呈直線上升,數(shù)據(jù)海量化已成為不可避免的發(fā)展趨勢。數(shù)據(jù)急劇增加對數(shù)據(jù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化等都是一個極大的挑戰(zhàn)。目前,數(shù)據(jù)可視化面臨高維數(shù)據(jù)越來越多,數(shù)據(jù)量越來越大,數(shù)據(jù)種類越來越多等多種挑戰(zhàn)。針對這些問題,提出了一種Radviz數(shù)據(jù)可視化方法,將高維數(shù)據(jù)樣本非線性的投影到二維目標空間,能夠快速找到容易被領(lǐng)域?qū)<艺J可的可視化模型。但是傳統(tǒng)的Radviz可視化方法將屬性值均勻分布在圓周上造成屬性間的值相互抵消,從而導致數(shù)據(jù)遮蓋度較大及可視化圖形有內(nèi)縮趨勢等問題。本文提出了一種新的改進的Radviz可視化方法,改進的方法增強屬性了間的合力,降低了數(shù)據(jù)遮蓋度,使得原始數(shù)據(jù)集的特征能夠更好地保持。

      1 數(shù)據(jù)可視化

      數(shù)據(jù)可視化技術(shù)誕生于二十世紀八十年代,是運用計算機圖形學和圖像處理等技術(shù),以圖表、地圖、動畫或其他使內(nèi)容更容易理解的圖形方式來表示數(shù)據(jù),使數(shù)據(jù)所表達的內(nèi)容更加容易被處理。數(shù)據(jù)可視化技術(shù)與虛擬現(xiàn)實技術(shù)、數(shù)據(jù)挖掘、人工智能,甚至與人類基因組計劃等前沿學科領(lǐng)域都有著密切的聯(lián)系[1]。目前數(shù)據(jù)可視化技術(shù)大體可以分為5類:基于幾何投影可視化技術(shù)、面向像素可視化技術(shù)、基于圖標可視化技術(shù)、基于層次可視化技術(shù)以及基于圖形可視化技術(shù)[2]。

      數(shù)據(jù)可視化的簡易工作圖如圖1所示:

      2 傳統(tǒng)的Radviz可視化方法分析

      Radviz(Radial Coordinate Visualization)是一種基于彈簧模型的可視化方法,Radviz是將一系列多維空間的點通過非線性方法映射到二維空間,實現(xiàn)在平面中對多維數(shù)據(jù)可視化的一種數(shù)據(jù)分析方法。自從Ankerst于1996年提出Radviz技術(shù)以來,Radviz技術(shù)取得了很大的發(fā)展,被廣泛應用于可視化分析和數(shù)據(jù)挖掘等領(lǐng)域。近年來更是把Radviz技術(shù)運用到基因表達數(shù)據(jù)的分類上,且取得了良好的分類效果[3]。

      2.1 傳統(tǒng)Radviz模型

      經(jīng)典的Radviz方法通常運用在平行坐標系上,將一系列具有多維度屬性的點通過非線性方法映射到二維空間,使人們得以用肉眼觀察。如圖2所示,設(shè)n個特征變量隨機均勻地分布在單位圓周上(如n= 6),記為,現(xiàn)在假設(shè)n個彈性系數(shù)不同的彈簧一端全部固定在一個小球上,另一端分別固定在。假定第j根彈簧對于觀測點i的彈性系數(shù)為,如果觀測點固定在圓內(nèi)的一個平衡位置,那么()就是n維空間(,…,)在二維空間的投影,便實現(xiàn)了一個n維數(shù)據(jù)轉(zhuǎn)化到二維坐標的Radviz可視化[3]。

      其中,表示隨機均勻分布在單位圓周上的特征向量;單位圓周表示一個二維空間;O表示特征向量映射在二維空間上的平衡點。

      根據(jù)胡克定律,對一個彈簧而言,小球所受到的彈力取決于彈簧拉伸的長度(矢量)和彈簧的彈性系數(shù)(標量) ,當小球靜止不動時,則表明其受到所有彈簧的合力為零。對此可得到如下公式:

      其中xj表示第j個變量在二維空間的圓周上的坐標,pi表示第i個觀測點在圓內(nèi)二維空間平衡位置的坐標。公式(2-2)表示第i個觀測的平衡位置,式(2-3)表示觀測平衡位置向量pi為各變量的坐標位置的加權(quán)平均。為了避免負值的出現(xiàn),常常采用歸一化的方法,即將最大值和最小值歸為1和0,歸一化后的所有得數(shù)值都位于[0,1]之間[4]。歸一化公式為:

      從上述公式分析,我們可以得出如下結(jié)論:

      (1)維度值越大,那么該投影位置將更靠近該維度在圓周上的位置;

      (2)改變圓周上的屬性,將影響投影的位置;

      傳統(tǒng)的Radviz可視化方法計算復雜度低;可顯示維度大;相似多維對象的投影點十分接近,容易發(fā)現(xiàn)聚類信息;直觀便于理解。但是傳統(tǒng)的Radviz方法也存在一些不足,該方法受數(shù)據(jù)本身及數(shù)據(jù)集的類型影響,當相似的數(shù)據(jù)集或成比例的數(shù)據(jù)集較多時,數(shù)據(jù)遮蓋度會很大,將會影響對原始數(shù)據(jù)集的特征保持[5.6]。

      3 改進的Radviz可視化方法分析

      傳統(tǒng)的Radviz可視化方法受數(shù)據(jù)本身和數(shù)據(jù)集類型的影響,一旦相似數(shù)據(jù)集或成比例的數(shù)據(jù)集較多,數(shù)據(jù)遮蓋度就會很大,那么原始數(shù)據(jù)集的特征將會被影響,造成這種現(xiàn)象的原因是傳統(tǒng)Radviz模型屬性間的相互作用增加了數(shù)據(jù)密集度,使數(shù)據(jù)覆蓋和重復概率增大,從而影響原始數(shù)據(jù)集的特征。對此,本文提出了一種改進的Radviz模型,新的模型減少了屬性間的相互作用,從而使可視化結(jié)果更加接近數(shù)據(jù)集的原有特征。

      3.1 改進的Radviz模型

      改進模型采取1/4圓來對應n維空間,對于一個n維數(shù)據(jù)集,那么就將1/4圓n等分,即每一個點表示一個維度,然后通過彈簧模型來將數(shù)據(jù)集投影到二維平面的1/4圓中。但是每個點都在1/4圓弧上,則有可能最后的平衡點不在1/4圓內(nèi),那么就需要一個固定點來使得平衡點一定落在1/4內(nèi),這里把原點設(shè)為固定點。如四維數(shù)據(jù)集,原理圖如下:

      在圖3中,X、Y軸分別表示投影點的橫、縱坐標;原點表示用來使平衡點一定落在1/4圓內(nèi)的固定點;Mi表示數(shù)據(jù)集的每一個維度;O表示數(shù)據(jù)集在1/4圓周上的平衡點;h(x,y)表示平衡點O的坐標函數(shù)。

      3.2 改進Radviz可視化方法的實現(xiàn)

      3.2.1 數(shù)據(jù)預處理

      首先要對數(shù)據(jù)集進行預處理,把非數(shù)字轉(zhuǎn)化為數(shù)字,然后對數(shù)據(jù)集進行歸一化處理,使得數(shù)據(jù)集中的所有數(shù)據(jù)都在[0,1]之間。本文采用的歸一化公式為:

      3.2.2 固定點彈性系數(shù)

      傳統(tǒng)的Radviz模型沒有固定點,當然也就不用設(shè)定固定點彈性系數(shù)。但是,在改進的Radviz模型中所有的屬性都在1/4圓上,他們所受到的彈力都在一側(cè),無法使得平衡點落在1/4圓內(nèi),所以需要提供一個固定點,來提供一個彈力來使得平衡點落在1/4圓內(nèi)。本文提出了一種全局均值的固定點彈性系數(shù)算法,全距均值就是所有屬性中最大值和最小值的均值之和,它可以使數(shù)據(jù)可視化投影點處于居中的位置,方便進一步的數(shù)據(jù)處理。全距均值的計算公式:

      3.2.3 新的平衡點坐標計算

      其中,圓的半徑為1,p表示彈簧彈性系數(shù),k表示第i個數(shù)據(jù)中第t個屬性的值,兩個三角函數(shù)表示第t個屬性沿坐標軸的分量[7.8]。再由合力為零,得到投影坐標的公式為:

      3.3 改進Radviz模型與傳統(tǒng)Radviz模型比較

      傳統(tǒng)的Radviz模型是把所有屬性隨機均勻分布在一個圓周上,那么屬性之間的夾角都是鈍角,那就使得屬性的投影值小于它的初始值,這就導致屬性值的落點更靠近圓點,增加了數(shù)據(jù)遮蓋度,最終導致得到的數(shù)據(jù)可視化效果較差。而改進的Radviz模型是把所有的屬性均勻分布在1/4圓周上,屬性間的夾角就是一個銳角,也就是說屬性的投影值不小于初始值,這就使得屬性值的落點比初始值更遠離原點,這就降低了數(shù)據(jù)遮蓋度,最終得到的數(shù)據(jù)可視化效果就更好。

      綜上所述,改進的Radviz數(shù)據(jù)可視化方法更好,即更好地保持了數(shù)據(jù)集的原始特征,又能得到更好的可視化效果;為數(shù)據(jù)可視化的研究提出了一種更好的方法,使得數(shù)據(jù)可視化更加容易,得到的結(jié)果更加可靠。

      4 總結(jié)

      本文在研究傳統(tǒng)的Radviz數(shù)據(jù)可視化方法的基礎(chǔ)上,結(jié)合傳統(tǒng)方法的優(yōu)點,給出了一種改進的Radviz數(shù)據(jù)可視化方法,并對改進可視化方法進行了分析與比較。解決了傳統(tǒng)方法不能很好保持原始數(shù)據(jù)集特征和數(shù)據(jù)遮蓋度高的問題,使得數(shù)據(jù)可視化的效果更好,為數(shù)據(jù)可視化提出了一種新的參考方法。

      參考文獻:

      [1] 任磊,杜一,馬帥,張小龍,戴國忠.大數(shù)據(jù)可視分析綜述[J],軟件學報,2014(9):1909-1936.

      [2] 陳建軍,于志強,朱昀.數(shù)據(jù)可視化技術(shù)及其應用[J].紅外激光工程,2001,30(5):339-343.

      [3] 張濤,趙發(fā)林,武振宇,李康.Radviz可視化方法在基因表達數(shù)據(jù)分析中的應用[J].中國衛(wèi)生統(tǒng)計,2011(1):2-4+8.

      [4] 徐永紅,洪文學,陳銘明.基于Radviz及其優(yōu)化的可視化故障診斷方[J].計算機應用研究,2009(3):840-842.

      [5] 陳琰.基于Radviz算法的金融數(shù)據(jù)可視化分析技術(shù)研究[D].浙江大學,2014.

      [6] 曾晶.Radviz可視化技術(shù)度量模型的研究[D].北京交通大學,2011.

      [7] 胡健,李濟龍,曹丹陽.一種改進的Radviz數(shù)據(jù)可視化方法[J].北方工業(yè)大學學報,2015(3):30-35.

      [8] John Sharko,Georges Grinstein.Visualizing Fuzzy Clusters Using Radviz[J].IEEE,2009(6):307-316.

      猜你喜歡
      數(shù)據(jù)可視化大數(shù)據(jù)
      移動可視化架構(gòu)與關(guān)鍵技術(shù)綜述
      軟件導刊(2016年12期)2017-01-21 16:36:18
      大數(shù)據(jù)時代背景下本科教學質(zhì)量動態(tài)監(jiān)控系統(tǒng)的構(gòu)建
      可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計研究
      我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
      科技傳播(2016年19期)2016-12-27 14:53:29
      基于R語言的大數(shù)據(jù)審計方法研究
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      數(shù)據(jù)可視化在新聞生產(chǎn)中的應用研究
      今傳媒(2016年3期)2016-03-28 00:30:43
      郯城县| 南康市| 梅州市| 蓬莱市| 大方县| 永兴县| 教育| 徐水县| 原阳县| 桑植县| 灵宝市| 奉节县| 喀喇沁旗| 南城县| 商丘市| 余庆县| 大邑县| 油尖旺区| 龙门县| 府谷县| 鹤峰县| 云南省| 武平县| 廉江市| 北辰区| 葵青区| 辰溪县| 杭锦后旗| 赣榆县| 常熟市| 义马市| 岐山县| 班玛县| 桃园市| 岑巩县| 郸城县| 梁山县| 迭部县| 奉贤区| 报价| 得荣县|