左圓圓 王媛媛 蔣珊珊 徐榕薈
摘要:目前,人類社會(huì)正處于大數(shù)據(jù)爆發(fā)的時(shí)代,多元化數(shù)據(jù)涌現(xiàn)和信息激流使人、企業(yè)和社會(huì)對(duì)大數(shù)據(jù)的依賴在不斷深化,與此同時(shí),數(shù)據(jù)可視化研究已成為一個(gè)新的時(shí)代命題。就數(shù)據(jù)可視化展開(kāi)綜述,介紹了數(shù)據(jù)可視化的概念、發(fā)展歷史,然后對(duì)數(shù)據(jù)可視化中的數(shù)據(jù)進(jìn)行了詳細(xì)闡述,列舉了可視化的常用工具及數(shù)據(jù)可視化圖表。
關(guān)鍵詞:數(shù)據(jù)可視化;數(shù)據(jù)分析;可視化工具;可視化圖表
中圖分類號(hào):P208
文獻(xiàn)標(biāo)識(shí)碼:A
DOI: 10.15913/j.cnki.kjycx.2019.11.030
如今,數(shù)據(jù)可視化不是一個(gè)新主題,但它的價(jià)值日益增加,其不僅能將凌亂的數(shù)字轉(zhuǎn)變?yōu)槊利惖木吧?,也能?shí)現(xiàn)凌亂、難以“看穿”數(shù)據(jù)信息到直觀且易于理解的企業(yè)決策信息的變化。在提升企業(yè)形象的同時(shí),它提高了公司的收入,被稱為企業(yè)問(wèn)題的“美麗殺手”,它是技術(shù)與藝術(shù)的完美結(jié)合。
1 數(shù)據(jù)可視化簡(jiǎn)介
1.1 數(shù)據(jù)可視化
數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)視覺(jué)表現(xiàn)形式的科學(xué)和技術(shù)研究。數(shù)據(jù)可視化技術(shù)充分使用圖形、圖像處理、計(jì)算機(jī)視覺(jué)和用戶界面來(lái)表達(dá)、建模和顯示立體、表面、屬性和動(dòng)畫(huà),對(duì)數(shù)據(jù)加以可視化解釋。
1.2 數(shù)據(jù)可視化歷史
1.2.1 18世紀(jì)——數(shù)據(jù)可視化的起源
數(shù)據(jù)可視化起源于18世紀(jì),William Playfair在出版的書(shū)籍《The Commercial and Political Atlas》中第一次使用了柱形圖和折線圖。世界上第一個(gè)餅圖顯示了1789年土耳其帝國(guó)在亞洲、歐洲和非洲的疆土比例。
1.2.2 19世紀(jì)——數(shù)據(jù)可視化的第一個(gè)黃金時(shí)期
在19世紀(jì)上半葉,數(shù)據(jù)開(kāi)始受到關(guān)注,統(tǒng)計(jì)數(shù)據(jù)和概念圖爆炸式增長(zhǎng),包括直方圖、餅圖、直方圖、折線圖、時(shí)間軸、輪廓等;在19世紀(jì)中期,數(shù)據(jù)可視化主要用于軍事目的;19世紀(jì)下半葉,進(jìn)入了數(shù)據(jù)可視化的黃金時(shí)代。
1.2.3 20世紀(jì)前期——現(xiàn)代啟蒙
20世紀(jì)上半葉,人們第一次意識(shí)到圖形的顯示方式為航空航天、物理學(xué)、天文學(xué)和生物學(xué)領(lǐng)域的科學(xué)和工程提供了新的見(jiàn)解和發(fā)現(xiàn)機(jī)會(huì)。
1.2.4 20世紀(jì)中后期——新的生命力
從20世紀(jì)60年代到70年代,數(shù)據(jù)可視化依賴于計(jì)算機(jī)科學(xué)和技術(shù),具有新的活力;從20世紀(jì)70年代到80年代,人們主要嘗試使用多維定量數(shù)據(jù)的靜態(tài)圖來(lái)表示靜態(tài)數(shù)據(jù);在20世紀(jì)80年代中期,動(dòng)態(tài)統(tǒng)計(jì)圖表開(kāi)始出現(xiàn),最后兩種方式在20世紀(jì)末開(kāi)始合并,試圖實(shí)現(xiàn)動(dòng)態(tài)的交互式數(shù)據(jù)可視化。因此,動(dòng)態(tài)交互式數(shù)據(jù)可視化已成為一個(gè)新的發(fā)展主題。
1.2.5 21世紀(jì)——大數(shù)據(jù)時(shí)代
當(dāng)世界在2003年創(chuàng)建5個(gè)EB數(shù)據(jù)時(shí),人們開(kāi)始關(guān)注大數(shù)據(jù)的處理;2011年,世界上每天新增數(shù)據(jù)量開(kāi)始呈指數(shù)級(jí)增長(zhǎng),用戶使用數(shù)據(jù)的效率也在不斷提高;2012年,我們進(jìn)入數(shù)據(jù)驅(qū)動(dòng)的時(shí)代。掌握數(shù)據(jù)意味著掌握發(fā)展方向,因此人們對(duì)數(shù)據(jù)可視化技術(shù)的依賴也在不斷深化。大數(shù)據(jù)可視化研究已成為一個(gè)新的時(shí)代命題。
2 數(shù)據(jù)與可視化
2.1 數(shù)據(jù)釋義
關(guān)于數(shù)據(jù)的定義,大多數(shù)人含糊不清地回答說(shuō)數(shù)據(jù)類似電子表格或很多數(shù)字,而具有一些技術(shù)背景的人會(huì)提到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)。但這些答案僅描述了數(shù)據(jù)的格式和數(shù)據(jù)的存儲(chǔ)方式。要想可視化數(shù)據(jù),則必須知道它所表達(dá)的內(nèi)容。
2.2 可視化工具
2.2.1
Microsoft Excel
Excel是常用的入門級(jí)數(shù)據(jù)可視化工具。輸入某些數(shù)據(jù)后,單擊菜單欄中的“圖表”選項(xiàng)以生成所需的圖表。Excel提供了多種標(biāo)準(zhǔn)圖表類型供用戶選擇,包括柱形圖、折線圖、餅圖和散點(diǎn)圖。
Excel雖然不適合用來(lái)做深度分析,生成的圖表也不會(huì)用于出版,但它方便快捷,隨手點(diǎn)擊幾下鼠標(biāo)就可以用它生成一個(gè)圖形。正是Excel的方便易用讓它獲得了大眾的青睞,但如果想要高質(zhì)量的數(shù)據(jù)圖就不要止步于此,其他工具會(huì)更適合。
2.2.2 Tableau
Tableau是一種用于數(shù)據(jù)可視化敏捷開(kāi)發(fā)和實(shí)現(xiàn)的商業(yè)智能演示工具,可用于實(shí)現(xiàn)交互式、可視化分析和儀表板應(yīng)用程序。數(shù)據(jù)可視化允許將枯燥的數(shù)據(jù)呈現(xiàn)在簡(jiǎn)單、友好的圖表中,這是最直觀、最有效的分析方法,沒(méi)有過(guò)多的技術(shù)基礎(chǔ),任何人可以輕松學(xué)習(xí)Tableau,并使用其可視化功能來(lái)處理和顯示數(shù)據(jù),以便更好地分析表面數(shù)據(jù)。
作為輕量級(jí)可視化BI工具的良好代表,Gartner的商業(yè)智能和分析平臺(tái)魔力象限于2015-02發(fā)布,已連續(xù)第三次蟬聯(lián)領(lǐng)先者。德國(guó)電子商務(wù)網(wǎng)絡(luò)的數(shù)據(jù)科學(xué)家也認(rèn)為,擁有像Tableau這樣的工具就足夠了,無(wú)論是報(bào)告還是挖掘數(shù)據(jù)并進(jìn)行分析。
2.2.3 Python
Python是一種解釋型、面向?qū)ο?、?dòng)態(tài)數(shù)據(jù)類型的高級(jí)程序設(shè)計(jì)語(yǔ)言,在重視開(kāi)發(fā)功率和科技不斷開(kāi)展的背景下,Python得到越來(lái)越多人的青睞。根據(jù)IEEE Spectrum發(fā)布的一項(xiàng)研究,2016年排名第三的Python已成為2017年全球最受歡迎的語(yǔ)言,C語(yǔ)言和Java分別位居第二和第三。
Python具有以下特性:①易于學(xué)習(xí)。Python的關(guān)鍵字相對(duì)較少,結(jié)構(gòu)簡(jiǎn)單,語(yǔ)法定義明確,而且學(xué)習(xí)起來(lái)相對(duì)簡(jiǎn)單。②易于閱讀。Python代碼的定義比較清晰,易于閱讀。③易于維護(hù)。Python的成功在于它的源代碼是相當(dāng)容易維護(hù)的。④具有一個(gè)廣泛的標(biāo)準(zhǔn)庫(kù)。Python的最大優(yōu)勢(shì)之一是具有豐富的庫(kù),它是跨平臺(tái)的,具有良好的兼容性。⑤可移植?;谄溟_(kāi)放源代碼的特性,Python已被移植到許多平臺(tái)。2.2.4 R
R是一款免費(fèi)的開(kāi)源統(tǒng)計(jì)計(jì)算軟件,具有強(qiáng)大的圖形功能。它也是統(tǒng)計(jì)學(xué)最流行的分析軟件之一。R專為數(shù)據(jù)分析而設(shè)計(jì),還有很多支持R的工具包。只需要將數(shù)據(jù)加載到R中并編寫(xiě)一行或兩行代碼來(lái)創(chuàng)建數(shù)據(jù)圖。
用R能做很多事情:它能夠生成較高打印質(zhì)量的圖像,并且非常靈活;也可以編寫(xiě)人格的功能或包,以人希望的方式創(chuàng)建圖形,或可以借用R庫(kù)中其他人開(kāi)發(fā)的成品。R提供了基本的繪圖功能,可以根據(jù)需要繪制所需的圖形,比如線條、形狀和坐標(biāo)軸。實(shí)際上,任何類型的圖表都可以使用R或R工具包實(shí)現(xiàn)。
2.3 數(shù)據(jù)可視化的圖表
實(shí)現(xiàn)可視化是為了證實(shí)我們對(duì)數(shù)據(jù)的認(rèn)識(shí),創(chuàng)建可視化的一個(gè)挑戰(zhàn)是學(xué)習(xí)正確的繪圖方法。數(shù)據(jù)可視化有很多類型的圖表,比如條形圖、餅圖、折線圖、散點(diǎn)圖、氣泡圖、甘特圖、核密度估計(jì)圖、箱線圖和打包圖等,這里列舉一些常用的圖表。
2.3.1 條形圖
條形圖(也稱為條形圖、條形圖和柱形圖)是最常用的圖表類型之一,通過(guò)垂直或水平條顯示維度字段的分布。水平條形圖是一般意義上的條形圖,垂直條形圖通常稱為柱形圖。條形圖最適合比較不同類別的大小。
2.3.2 餅圖
餅圖在數(shù)據(jù)分析中無(wú)處不在。餅狀圖可以用于比較數(shù)值的大小,但是有一個(gè)缺點(diǎn):如果數(shù)值之間差距不大,肉眼很難分。因此,最好用于表示某一個(gè)值占全體值的百分比。餅圖的每個(gè)部分都標(biāo)有標(biāo)簽,或者可以用一條線連接到外部表示。另外,餅狀圖還有一些變種,比如各扇形的半徑不同,該半徑可表示另一個(gè)數(shù)據(jù)量。
2.3.3 折線圖
折線圖是一種經(jīng)常使用的圖表。與條形圖相比,折線圖不僅可以指示數(shù)量,還可以直觀地反映隨時(shí)間序列變化的相同事物的趨勢(shì)。折線圖比較適合連續(xù)、大量的數(shù)據(jù),而且折線圖用于表示多個(gè)數(shù)據(jù)集之間的比較時(shí),效果較好。
2.3.4 散點(diǎn)圖
散點(diǎn)圖使用三維數(shù)據(jù)集,將二維數(shù)據(jù)分別映射到x軸和y軸,然后第三維用點(diǎn)表示。散點(diǎn)圖的數(shù)據(jù)通常是點(diǎn)的集合,通常用于繪制各種依賴關(guān)系。比如正相關(guān)表示隨著一組數(shù)據(jù)遞增,其他數(shù)據(jù)也遞增。一些著名的案例為男性和女性人群中不同年齡患皮膚病可能性、智商測(cè)試分?jǐn)?shù)與GPA之間的關(guān)聯(lián)。
參考文獻(xiàn):
[1]科斯·拉曼.Python數(shù)據(jù)可視化[M].程豪,譯.北京:機(jī)械出版社,2017.
[2] YAUN.鮮活的數(shù)據(jù):數(shù)據(jù)可視化指南[M].向怡寧,譯.北京:人民郵電出版社,2012.
[3]呂之華.精通D3js:交互式數(shù)據(jù)可視化高級(jí)編程[M].北京:電子工業(yè)出版社,2015.
[4]陳為,沈則潛,陶煜波.數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社.2013.
[5]周蘇,張麗娜,王文.大數(shù)據(jù)可視化技術(shù)[M].北京:清華大學(xué)出版社,2016.
[6] KRUMR,唐沁,周優(yōu)游.可視化溝通[M].張璐露,譯.北京:電子工業(yè)出版社,2014.
[7] EDWARD R T.Visual Explanations: Images andQuantities, Evidence and Narrative[M].Nuneaton:Graphics Press,1997
[8] MAARTEN H E, BEKKER H, ISENBERH T, et al.Depth-dependent halos: illustrative rendering of denseLine data[J].IEEE Transactions on Visualization andComputer Graphics, 15(6),2009: 1299-1306.