劉沁穎,郁舒蘭
(南京林業(yè)大學(xué),江蘇 南京 210000)
數(shù)據(jù)可視化是一項(xiàng)將文字?jǐn)?shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù)并通過視覺傳達(dá)的研究;是一種以某種概要形式抽提出來的信息,包括相應(yīng)信息單位的各種屬性和變量[1]。
數(shù)據(jù)可視化起源于計(jì)算機(jī)圖形學(xué),利用計(jì)算機(jī)技術(shù)轉(zhuǎn)變數(shù)據(jù)表現(xiàn)形式,它將難以直接展示的數(shù)據(jù)轉(zhuǎn)換成可感知的圖形、符號、色彩和紋理等,加強(qiáng)數(shù)據(jù)辨認(rèn)效率,以此達(dá)到快速且有效的數(shù)據(jù)傳遞效果。
從遠(yuǎn)古時(shí)代開始,人們便開始以圖像傳遞信息,并逐步衍生出文字。20世紀(jì)50年代,人們開始發(fā)現(xiàn)圖像對于信息表達(dá)的重要性,開始嘗試?yán)糜?jì)算機(jī)創(chuàng)建圖表。
1975年,美國心理學(xué)家帕維奧在其關(guān)于長時(shí)記憶的雙重編碼理論中提及:“表象系統(tǒng)相較于語義系統(tǒng)在對信息的加工過程中具有一定的優(yōu)勢,即人類大腦對于形象材料的記憶效果和記憶速度要遠(yuǎn)好于語義記憶[2]。”圖像視覺傳達(dá)的明顯優(yōu)勢被發(fā)現(xiàn)后,越來越多的學(xué)者開始研究并嘗試以圖像形式展現(xiàn)信息。
1987年,布魯斯·麥考梅克等撰寫的《Visualization in Scienti fi c Computing》促進(jìn)了可視化技術(shù)的發(fā)展,將科學(xué)計(jì)算中的可視化稱之為科學(xué)可視化[3]。在這之后,到了20世紀(jì)90年代早期,在可視化的基礎(chǔ)上又衍生出信息可視化,其與科學(xué)可視化成為了數(shù)據(jù)可視化的兩大分支。
近年來,可視化發(fā)展的速度非???,成功融入了我們的生活中。以一個(gè)簡單的文獻(xiàn)檢索為例,當(dāng)筆者在百度學(xué)術(shù)中輸入“數(shù)據(jù)可視化”后,在出現(xiàn)的網(wǎng)頁中,除了簡介和文獻(xiàn)外,還有有關(guān)于數(shù)據(jù)可視化的研究走勢、關(guān)聯(lián)研究、學(xué)科滲透、相關(guān)學(xué)者、相關(guān)機(jī)構(gòu)等5個(gè)方面的數(shù)據(jù)分析。點(diǎn)擊進(jìn)入其中一個(gè)“研究走勢”,出現(xiàn)的是一幅近年來關(guān)于數(shù)據(jù)可視化的論文研究的走勢圖,從圖中我們可以輕松得出研究開始的時(shí)間、論文數(shù)量和研究熱度等。首先是開始時(shí)間,我國第一篇關(guān)于“數(shù)據(jù)可視化”的論文可以追溯到1992年,截至2016年,一共有1 972篇相關(guān)論文;從1992—1994年,可視化研究熱度的增長速度平穩(wěn)而緩慢;1994年后,對可視化研究的熱度持續(xù)上升;2015年達(dá)到一個(gè)熱度最高峰,具體情況如圖1、圖2、圖3所示。
圖1 輸入框
圖2 搜索結(jié)果
由此可見,可視化呈現(xiàn)數(shù)據(jù)的直觀和便利,及人們對于數(shù)據(jù)的重視。可視化正在影響著我們生活的方方面面,我們身處于一個(gè)互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)的出現(xiàn)方便了我們的生活,同時(shí),網(wǎng)絡(luò)用戶的激增也給網(wǎng)絡(luò)數(shù)據(jù)帶來了爆炸式的增長,而這些數(shù)據(jù)的有效分析整合也在不同程度上給我們帶來了巨大的社會效益和經(jīng)濟(jì)效益。但正是由于數(shù)據(jù)的龐大,傳統(tǒng)的圖表方式已經(jīng)難以負(fù)荷如此高緯度的數(shù)據(jù),我們對于數(shù)據(jù)可視化的呈現(xiàn)方式則需要更加深入的研究和挖掘。下面我們將會闡述關(guān)于可視化設(shè)計(jì)的2個(gè)重要內(nèi)容——色彩與形式。
圖3 “數(shù)據(jù)可視化”研究走勢
就視覺傳達(dá)而言,影響可視化的元素有很多,尺寸、位置、色彩、方向、紋理等[4]。本文主要針對色彩來探討,因?yàn)樵谒锌蓸?biāo)記數(shù)據(jù)的元素中,色彩可以快速抓住人的眼球,而它也是其中最為復(fù)雜的元素,可以編碼大量數(shù)據(jù)信息。
色彩存在于可視化中的形式是多樣的,可以分為顏色、色調(diào)、飽和度、透明度等。
顏色是最常用的視覺通道。在日常生活中,在閱讀文件或文章時(shí),我們習(xí)慣用顏色來劃出重點(diǎn)內(nèi)容,那是因?yàn)樵谇宦傻念伾校蝗坏念伾兓瘯焖僮プ∪藗兊难矍?,將人們的注意力吸引到不同的顏色中去。如圖4所示,在4行數(shù)字中,后2行復(fù)制了前2行的數(shù)字,在相同的2組數(shù)字對后2行中的“8”進(jìn)行了顏色標(biāo)記,很快便能夠被用戶鎖定并記住,這也說明了在可視化中突出變化可以減輕用戶的認(rèn)知負(fù)擔(dān)。除此之外,面對如今如此高維度的數(shù)據(jù),數(shù)量與結(jié)構(gòu)都更加繁復(fù),我們更加需要運(yùn)用顏色來對數(shù)據(jù)結(jié)構(gòu)加以整理區(qū)分,明確數(shù)據(jù)重點(diǎn),吸引用戶的注意力等。
圖4 顏色標(biāo)記
人類的視覺對于色彩的感知最為強(qiáng)烈,圖像本身是建立在色彩的基礎(chǔ)之上,而不同的色調(diào)對比給人以不同程度的心理沖擊,冷暖色的對比尤為明顯。
如圖5所示,餅狀圖中表示占有大比例的數(shù)據(jù)一般用紅色填充,占比小的可以選用藍(lán)色填充,因?yàn)榧t色能給人帶來熱情、快樂、喜慶和飽和感,藍(lán)色則代表了低調(diào)、內(nèi)斂,對紅色的醒目起到了襯托的作用。同時(shí),整個(gè)配色有一種秩序感,紅橙色與冷色放在一起自然就成了前進(jìn)色,藍(lán)色就成了后退色,而紅黃橙同屬于暖色系,整個(gè)配色由暖到冷呈一個(gè)遞減的關(guān)系。如今的可視化功能性與美觀性同等重要,一個(gè)合理的配色方案直接影響到可視化信息的傳達(dá)和呈現(xiàn)的美觀程度。
圖5 餅狀圖
這三者都適用于編碼有序的數(shù)據(jù),其精確度受到對比效果的影響。陳為在《數(shù)據(jù)可視化基本原理與方法》中對三者加以區(qū)分說明,亮度的可辨性有一定的限制,人們對于亮度的分辨能力比較弱,因此,一般在進(jìn)行可視化設(shè)計(jì)時(shí),亮度的使用盡量不超過6個(gè)層次;飽和度作為一個(gè)視覺通道,與尺寸視覺通道之間有著強(qiáng)烈的影響,在小尺寸區(qū)域上的表達(dá)相對于在大尺寸區(qū)域上的表達(dá)較為困難,因此,為了能夠被用戶清晰地捕捉分辨,對于小尺寸區(qū)域一般用飽和度高的顏色填充,大尺寸區(qū)域則用低飽和度的顏色填充;透明度作為顏色的第4個(gè)維度,其取值范圍在0~1之間,在設(shè)計(jì)時(shí)注意其表現(xiàn)層次以及與數(shù)據(jù)上下級間的關(guān)系。
可視化中顏色、色調(diào)、亮度、飽和度融合在一起是一個(gè)完整的配色方案。優(yōu)秀的可視化設(shè)計(jì)需要針對數(shù)據(jù)定性、定量的不同屬性做不同的配色方案。定性數(shù)據(jù)可以理解為我們對于數(shù)據(jù)的分類,而定量則是其各項(xiàng)分類的子集。在設(shè)計(jì)中,對于定性數(shù)據(jù),我們需要考慮色調(diào)的設(shè)計(jì),以此來區(qū)分不同的設(shè)計(jì),同時(shí),也可以明確我們的表達(dá)重點(diǎn)。對于定量數(shù)據(jù)而言,主要考慮它的亮度、飽和度、透明度等,通過改變亮度、透明度等值來做視覺上的區(qū)分,同時(shí),保證與同類別上下集間的一致性和關(guān)聯(lián)性。
合理的配色方案會是可視化設(shè)計(jì)中的重中之重,它主導(dǎo)著用戶最直觀的體驗(yàn)。如今的可視化軟件工具大都帶有自己的配色系統(tǒng),例如ColorBrewer配色系統(tǒng)、Kuler配色系統(tǒng)等,為可視化設(shè)計(jì)者節(jié)約了大量的時(shí)間。此外,除了方案本身的配色設(shè)計(jì),還應(yīng)考慮到它最終的呈現(xiàn)形式(是否需要打印或復(fù)印)以及它的受眾人群(色盲、色弱等)等。
可視化的目的之一就是讓用戶能夠快速注意到重要的信息或區(qū)域[5]。無論是顏色、透明度還是色調(diào)等,都可以輕松做到這一點(diǎn),在不影響信息質(zhì)量的情況下控制信息的有效傳達(dá),針對不同的人群突出不同的重點(diǎn)。另外,在色彩設(shè)計(jì)中,我們還需要注意配色理論,參考配色系統(tǒng),不能僅憑直覺配色。
圖表是表現(xiàn)數(shù)據(jù)的常用手段,表現(xiàn)形式非常多,傳統(tǒng)的圖表類型有柱狀圖、直方圖、餅圖、散點(diǎn)圖、核密度估計(jì)圖和盒須圖等。如何選擇適當(dāng)?shù)谋憩F(xiàn)形式,需要遵從數(shù)據(jù)本身的性質(zhì),因此,在選擇表現(xiàn)形式之前,需要對數(shù)據(jù)進(jìn)行分析分類。通常情況下,在統(tǒng)計(jì)學(xué)中,我們將數(shù)據(jù)按變量值是否連續(xù)分為離散數(shù)據(jù)和連續(xù)數(shù)據(jù)兩類。除此之外,數(shù)據(jù)呈現(xiàn)的最終目的也是影響表現(xiàn)形式的選擇的重要因素之一。
離散型數(shù)據(jù)又被稱為計(jì)數(shù)型,數(shù)據(jù)信息能夠通過觀察記錄而知的,彼此間沒有連續(xù)關(guān)系,一般用計(jì)數(shù)方法取得,數(shù)值只能用自然數(shù)或整數(shù)單位計(jì)算的數(shù)據(jù),最具代表性的表現(xiàn)形式為散點(diǎn)圖。
散點(diǎn)圖也叫 X-Y圖,是指將所有的數(shù)據(jù)以點(diǎn)的形式展現(xiàn)在直角坐標(biāo)系上,表示因變量隨自變量而變化的大致趨勢及相互影響程度,主要用以觀察數(shù)據(jù)的分布情況。點(diǎn)的位置由變量的數(shù)值決定,點(diǎn)的大小及顏色也可以根據(jù)數(shù)據(jù)的分類變動等更改變化,如圖6。
圖6 標(biāo)準(zhǔn)散點(diǎn)圖
連續(xù)數(shù)據(jù),又稱連續(xù)變量。指在x或y軸上可以任意截取數(shù)據(jù)段,其數(shù)據(jù)是連續(xù)的,可隨某一變量(如時(shí)間)的變化而變化。最具代表性的有折線圖。
折線圖是典型的連續(xù)數(shù)據(jù),可以展示隨年月日等變量增加而變化的連續(xù)數(shù)據(jù),不但可以顯示出數(shù)據(jù)的具體數(shù)值,還能夠清晰地顯示出數(shù)量的增減變化以及它的發(fā)展趨勢,可以最直接地反映這種變化和各組之間的差異,如圖7所示。
數(shù)據(jù)呈現(xiàn)的最終目的也是影響表現(xiàn)形式選擇的重要因素之一。明確的數(shù)據(jù)呈現(xiàn)目的決定了方案的成敗,所有的可視化的本質(zhì)是信息的記錄,但其目的各不相同,不同的呈現(xiàn)方式?jīng)Q定可視化最終的表達(dá)內(nèi)容。
例如,柱狀圖和直方圖主要用于對比分析,以長方形的長度表示數(shù)量的多少,利用了人們在視覺上對于高度差異的敏感度,通過比較同一類別、不同個(gè)體之間的優(yōu)劣達(dá)到比較分析的效果。柱狀圖更適合低偉度的、相對簡單的數(shù)據(jù),只有一個(gè)變量。直方圖相對于柱狀圖而言更為復(fù)雜,可以解析出數(shù)據(jù)的規(guī)則性,對于資料分布狀況一目了然。常見的直方圖類型有正常型、折齒型、緩坡型、孤島型、雙峰型和峭壁型,如圖8所示。
圖7 折線圖
圖8 直方圖的類型
餅圖也是較為簡單的數(shù)據(jù)分析圖,它被廣泛應(yīng)用于各個(gè)領(lǐng)域,用于表示不同分類的占比情況,主要通過面積來對比數(shù)據(jù)信息。餅圖與柱狀圖或散點(diǎn)圖的不同之處在于,餅圖只顯示一個(gè)數(shù)據(jù)系列,以顏色映射數(shù)據(jù)分類,以面積映射總體占比。僅存在于表格中一列或一行的數(shù)據(jù)可以繪制到餅圖中。
盒須圖又稱為箱形圖(Box-plot)、盒式圖或箱線圖,因形狀如箱子而得名[6]。它是一種用于顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖,在各種領(lǐng)域也經(jīng)常被使用,常見于品質(zhì)管理。盒須圖以5個(gè)點(diǎn)(中位數(shù)、最大值、最小值、上四分位數(shù)和下四分位數(shù))便可對數(shù)據(jù)進(jìn)行簡單總結(jié),如圖9所示。
圖9 盒須圖
以上幾種圖表類型是人們在統(tǒng)計(jì)中較為常見的,也是一直以來應(yīng)用最為廣泛的。下面介紹更為復(fù)雜且同樣應(yīng)用廣泛的地理空間數(shù)據(jù)可視化。地理空間數(shù)據(jù)可視化主要用于數(shù)據(jù)在空間上的分布,在可視化的基礎(chǔ)上引入了地理空間,利用可視化的能力將信息整合成地理大數(shù)據(jù),通過地圖表達(dá)數(shù)據(jù)的位置與空間關(guān)系。對這些地理數(shù)據(jù)進(jìn)行采集、儲存、管理、運(yùn)算、分析、描述[7],可分為點(diǎn)形數(shù)據(jù)、線形數(shù)據(jù)、平面形數(shù)據(jù)和曲面形數(shù)據(jù)等。
3.6.1 點(diǎn)形數(shù)據(jù)
在空間信息可視化中,點(diǎn)形數(shù)據(jù)以點(diǎn)的形式表現(xiàn)數(shù)據(jù)個(gè)體信息,大多用于空間定位,比如商場、公交站臺、國家等的位置,如圖10所示。
圖10 點(diǎn)形數(shù)據(jù)
3.6.2 線形數(shù)據(jù)
以線形表示數(shù)據(jù)信息,在空間可視化中常表示點(diǎn)與點(diǎn)間的連接,例如航班線路圖、城市人口移動等,如圖11所示。
圖11 線形數(shù)據(jù)
3.6.3 平面形數(shù)據(jù)
有一定面積覆蓋率體現(xiàn)在平面區(qū)域上,通常用于表示信息屬性,比如森林、學(xué)校、國家等,如圖12所示。
圖12 平面形數(shù)據(jù)
3.6.4 曲面形數(shù)據(jù)
將空間數(shù)據(jù)定義在若干空間曲面上,可以用一系列的經(jīng)度、緯度和高度坐標(biāo)向量描述,也可將高度看作描述經(jīng)度和緯度坐標(biāo)的屬性。
隨著信息化程度的不斷加深,數(shù)據(jù)開始飛速增長,面對如此龐大的數(shù)據(jù)量,如果不使用圖形而只用文字表達(dá)出相同的信息,就算使用非常多的文字解釋,也很難達(dá)到可視化圖形傳達(dá)信息的清晰程度[8]。
在這樣的情況下,各行業(yè)開始重視數(shù)據(jù)的可視化設(shè)計(jì),但傳統(tǒng)的圖表已經(jīng)難以負(fù)荷如此高維度的數(shù)據(jù),因此,如何合理利用輔助軟件進(jìn)行高效美觀的可視化設(shè)計(jì),選擇的關(guān)鍵還是在于對數(shù)據(jù)的理解。就可視化的視覺傳達(dá)而言,高效在于形式,美觀在于配色。
[1]孫琳.實(shí)現(xiàn)業(yè)務(wù)營收數(shù)據(jù)展示分析的研究[J].中小企業(yè)管理與科技(旬刊),2016(2):56.
[2]龍鵬飛.基于班班通環(huán)境下的小學(xué)數(shù)學(xué)課堂有效記憶實(shí)踐微探[J].快樂閱讀,2013(27):20.
[3]肖珊.可視化應(yīng)用于信息分析[D].上海:華東師范大學(xué),2010.
[4]梁晶.基于顏色特征的圖像檢索技術(shù)研究[D].廈門:廈門大學(xué),2009.
[5]楊歡,李義娜,張康.可視化設(shè)計(jì)中的色彩應(yīng)用[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015,27(09):1587-1596.
[6]朱兵.箱線圖及其在JCR網(wǎng)絡(luò)版中的應(yīng)用[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2011,23(08):15-18.
[7]楊蘇寧.空間數(shù)據(jù)挖掘在城市地理信息系統(tǒng)中的應(yīng)用[D].鎮(zhèn)江:江蘇科技大學(xué),2010.
[8]Franks,Bill.Taming The Big Data Tidal Wave[M].Indianapolis:Wiley Publishing,2012.