高斐+陳梅++蘇晨
摘要:網絡中非結構化數據急速增長則需求功能強大的可視化技術幫助我們理解數據,此技術成為當前的非重要任務。通過使用先進的數據分析技術對大數據進行研究,企業(yè)能夠及時了解到當前商業(yè)狀況并快速了解用戶最新動態(tài)并做出正確的決策。多維數據可視化對數據的進一步分析和處理,通過交互式的可視化數據挖掘細節(jié),能夠增加數據的可理解性和可信度。
關鍵詞:多維數據;可視化;數據圖表
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)32-0022-02
隨著網絡和數據信息科學的發(fā)展,由于數據的量和復雜度上的爆炸式增長使得世界進入了大數據時代。技術的快速發(fā)展給我們帶來方便也帶來了前所未有的挑戰(zhàn),以最高效率快速解釋并使用數據成為當前重要的課題。數據可視化( Data Visualization )通過將數據映射為容易感知的圖形、符號、顏色等,利用人的高速信息采集能力為大腦提供數據的全面信息,很大程度上提高了數據的理解性。并且可以直觀展示數據內部隱含的模式,對數據的進一步分析和處理提供了基礎。
多維數據可視化是將數據信息以某種圖形圖像可視化的形式呈現出來,給觀察者提供一種量化的方式,用來理解嵌入在數據中的隱藏信息。這些隱藏信息通常是異常信息和模式信息。異常信息會使得用戶觀察到了意想不到的圖形圖像分布信息,通常由異常的數據現象或者數據特征引起。通過交互式的可視化數據挖掘可以觀察數據的細節(jié),能夠增加數據的可理解性和可信度。
1 實現數據可視化的基本圖表
數據可視化( Data Visualization ) 能夠幫助我們理解數據。通常使用圖表來實現數據可視化,那么其中:柱狀圖、折線圖、餅圖等均為常用基本圖表。
基本圖表即簡單的圖表,容易理解,能夠快速地理解數據,正是"數據可視化"的最重要目標。數據可視化的目的即是要對數據進行可視化處理,以使得能夠明確地、有效地傳遞信息。
1.1 柱形圖(Bar Chart)數據
基本圖表當中最為常見且最容易理解的即是柱形圖。適合應用于二維數據集(每個數據點包括兩個值x和y),維度當中的一個需要進行比較。
圖1即是我國智能電視行業(yè)2014年激活數量就是二維數據,其中的數量和品牌就是它的兩個維度,激活數量是其中一個需要比較維度而已。此圖以柱形高度進行反映數據的差別。人類眼睛對柱形高度差可以快速感知識別,效果相對準確。但柱形圖的不足在于比較適合中小型數據集。如果使用不同色彩區(qū)分柱形區(qū)域效果更好。
1.2 折線圖(Line Chart)數據
折線圖適合多個二維數據集進行數據比較。它能夠用于二維的大數據集,對于一些趨勢比單個數據點更重要的情境更為適合。
1.3 餅圖(Pie Chart)
餅圖也是我們最為多用的基本圖表,由于人類眼睛對區(qū)域面積大小的敏感。僅排列在工作表的一列或一行中的數據可以繪制到餅圖中。餅圖3顯示一個數據系列即在圖表中繪制的相關數據點,這些數據源自數據表的行或列。其中的每個數據系列具有唯一的顏色或圖案并且在圖表的圖例中表示(上圖右側為圖例)。餅圖中顯示了各項的大小與各項總和的比例。餅圖中的數據點顯示為整個餅圖的百分比。
當情況是需要反映某個部分占整體的比重,比如磁盤空間使用占比情況等。
1.4 散點圖(Scatter Chart)數據
三維數據集可以使用散點圖,在圖中有兩維數據用來進行比較。散點圖是指在回歸分析中,數據點在直角坐標系平面上的分布圖,散點圖表示因變量隨自變量而變化的大致趨勢,據此可以選擇合適的函數對數據點進行擬合。散點圖分為ArcGIS散點圖、散點圖矩陣、三維散點圖。
如果需要對第三維數據進行識別,可以通過對圖中每個數據點加上文字標示,或者也可以采用不同色彩進行區(qū)分。
1.5 氣泡圖(Bubble Chart)數據
氣泡圖與散點圖相似,不同之處在于允許額外加入一表示大小的變量。氣泡圖通過數據點的面積大小來反映它的第三維數據。是散點圖的另一種變化形式。
上圖的三個維度分別為銷售額、區(qū)域、占比。數據點的面積越大就能夠代表銷售占比越大。氣泡圖可以通過區(qū)域面積的大小對第三維數據進行識別。如果將圖中氣泡數據使用不同顏色或文本說明標識,可以使用氣泡圖對四維數據描述。
1.6 雷達圖(Radar Chart)數據
多維數據(四維以上)可以使用雷達圖,其中每個維度數據必須可以排序。但是,如果當數據點多于6個的情況則無法進行識別。
上圖中每個數據點都具有六個維度,分別是溝通、服務、專業(yè)技術、銷售、執(zhí)行、次要能力。圖中面積越大的數據點表示越重要。使用雷達圖需要配以文本說明更能增強解讀效果。
1.7 基本數據圖表對比
2 圖表和信息圖層次的數據可視化的實現
數據可視化過程包括:數據的采集、分析、治理、管理、挖掘等復雜數據處理,再經設計師設計表現形式,然后工程師創(chuàng)建對應的可視化算法及技術實現手段。
2.1 數據可視化的構成要素
2.2 通過圖表和信息圖層次實現數據可視化
通過增加動態(tài)信息來提供數據可視化的視覺體驗;
通過排版布局對信息的可視化敘事性著力加強;
通過色彩對可視化數據的視覺效果進行提升。
2.3 數據可視化使用工具的選擇
用戶使用的數據結構不存在一定的復雜程度時,需要將數據展現的多彩且具有交互性,需要將數據轉換為決策信息并能夠成為BI系統(tǒng)、分析會議、匯報材料等數據分析的工具,應該首先具有多個實用性控件和主題,其次空間占用小并能將分析結果直接嵌入到Web及相關應用軟件上,最后當然必須簡單易學。
綜上所述,現代網絡數據急速增長則功能強大的可視化技術成為當前的重要任務,通過使用先進的數據分析技術對大數據進行研究,數據可視化能夠將海量的數據轉成圖表形式,更直觀地展示數據間的聯系和變化,有效并及時處理后高效利用。企業(yè)才能在競爭環(huán)境中獲得業(yè)務優(yōu)勢,是本文探討此技術的主要目標。
參考文獻:
[1] 林子雨.大數據技術原理與應用[M].北京:人民郵電出版社,2015.
[2] 陳為.數據可視化教程[M]. 北京:電子工業(yè)出版社,2013.
[3] 胡事民.數據可視化基礎[M]. 北京:清華大學出版社,2016.endprint