■文/匡 蓓 彭 蕾 陳思明
數(shù)據(jù)可視化是以圖表可視化形式來呈現(xiàn)數(shù)據(jù),加強用戶對數(shù)據(jù)信息的理解,而數(shù)據(jù)可視分析可以讓用戶從數(shù)據(jù)中獲取見解并從數(shù)據(jù)分析中獲得最大收益。
數(shù)據(jù)是21 世紀的新資源、經(jīng)濟發(fā)展與城市發(fā)展的新動能,而數(shù)據(jù)的利用和挖掘是一個漫長的技術(shù)發(fā)展過程,尤其是如何讓傳統(tǒng)行業(yè)、城市的各個方面受益于數(shù)字經(jīng)濟,這是一個極具挑戰(zhàn)性的任務(wù)。大數(shù)據(jù)技術(shù)作為集合計算機、數(shù)學(xué)、統(tǒng)計、經(jīng)濟與各行各業(yè)相關(guān)的一類技術(shù)統(tǒng)稱,目標就是挖掘行業(yè)背后數(shù)據(jù)的特征,提供咨詢與決策能力,以服務(wù)好城市的經(jīng)濟與行業(yè)發(fā)展。
數(shù)據(jù)可視化是一種思想,從結(jié)繩記事和象形文字開始,可視化這一思想就貫穿于人類的歷史中,從古代的地圖、行軍圖,到科學(xué)家用圖形記錄太陽黑子活動、洋流活動和經(jīng)濟行為,都是數(shù)據(jù)可視化的具體體現(xiàn)。隨著計算機技術(shù)的發(fā)展和大數(shù)據(jù)時代的到來,大數(shù)據(jù)可視化與可視分析技術(shù)應(yīng)運而生。
可視化是將數(shù)據(jù)轉(zhuǎn)化為圖形并支持數(shù)據(jù)理解與感知的學(xué)科,可視分析是融合可視化、人機交互與數(shù)據(jù)挖掘的分析方法,是大數(shù)據(jù)分析的一種重要手段。近年來,美國商務(wù)部工業(yè)和安全局發(fā)布了一項針對“新興”和“關(guān)鍵”高技術(shù)領(lǐng)域的出口管控草案,其中涉及的數(shù)據(jù)分析技術(shù)包括數(shù)據(jù)可視化、自動分析算法、環(huán)境感知計算。由此可見,數(shù)據(jù)可視化與可視分析是一門事關(guān)國家安全、經(jīng)濟發(fā)展等方面的重要學(xué)科。2021 年3 月,我國“十四五”規(guī)劃明確強調(diào)了“推動大數(shù)據(jù)采集、清洗、存儲、挖掘、分析、可視化算法等技術(shù)創(chuàng)新,培育數(shù)據(jù)采集、標注、存儲、傳輸、管理、應(yīng)用等全生命周期產(chǎn)業(yè)體系,完善大數(shù)據(jù)標準體系”等內(nèi)容。
數(shù)據(jù)可視化與可視分析技術(shù)將人的分析與決策放在重要的位置,在機器無法完全取代人的情況下,我們需要尋求人與機器和諧共存,共同決策,讓人做自己擅長的那一部分(如感知、綜合大局、統(tǒng)籌決策等),讓機器做自己擅長的那一部分(如計算、并行處理、大容量存儲等)。
新時代最大的特點即大量不同行業(yè)、不同領(lǐng)域的數(shù)據(jù)呈現(xiàn)井噴式增長,但如何深入利用這些數(shù)據(jù),讓它真正為社會經(jīng)濟產(chǎn)業(yè)服務(wù),是當前亟待解決的問題,也是上海提出“城市數(shù)字化轉(zhuǎn)型”的現(xiàn)實背景?;诖?,數(shù)據(jù)可視化與可視分析技術(shù)能夠在數(shù)字經(jīng)濟時代起到3 個關(guān)鍵作用,即態(tài)勢感知、預(yù)判決策、提供洞見。
通常,我們將數(shù)據(jù)分為高維數(shù)據(jù)、時序數(shù)據(jù)、時空數(shù)據(jù)、網(wǎng)絡(luò)與層次結(jié)構(gòu)數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)等。高維數(shù)據(jù)是指數(shù)據(jù)維度較多,常見的二維、三維的可視化方法無法直接展示的數(shù)據(jù)。時序數(shù)據(jù)是指包含時間特性、時間段或者時間點,以及周期屬性特性的數(shù)據(jù),如記錄了不同朝代變化的數(shù)據(jù)、記錄各國的貿(mào)易經(jīng)濟指標隨著時間變化的數(shù)據(jù)。時空數(shù)據(jù)是指包含地理空間信息與時間信息的數(shù)據(jù),如城市車輛移動行為數(shù)據(jù)、人群遷徙等。網(wǎng)絡(luò)與層次結(jié)構(gòu)數(shù)據(jù)是指包含節(jié)點和邊的數(shù)據(jù)類型,也包括社會網(wǎng)絡(luò)、航班網(wǎng)絡(luò)、互聯(lián)網(wǎng)等。其中,層次結(jié)構(gòu)則是特殊的網(wǎng)絡(luò)數(shù)據(jù),表示層級關(guān)系,如組織結(jié)構(gòu)、磁盤存儲等。文本數(shù)據(jù)和多媒體數(shù)據(jù)則比較直觀,包含文本、圖像、音頻、視頻等。
態(tài)勢感知是在安全行業(yè)里常用的詞語,代表對周圍的安全環(huán)境能夠獲得實時的感知,對威脅也有預(yù)警。我們在更大的數(shù)字經(jīng)濟主戰(zhàn)場中,各行各業(yè)都需要態(tài)勢感知的能力。可視化技術(shù)的關(guān)鍵在于“視”這個字,它將復(fù)雜無序的大數(shù)據(jù)轉(zhuǎn)化為人們可以認知、理解的“視覺特征”??梢暬夹g(shù)不僅僅是簡單的直方圖、餅圖、散點圖,還是根據(jù)數(shù)據(jù)的特征設(shè)計和使用合適的可視化形式,讓用戶能夠從復(fù)雜的數(shù)據(jù)中看到數(shù)據(jù)的特征和趨勢,并對數(shù)據(jù)進行態(tài)勢感知??梢暬夹g(shù)能夠融合時空、高維、文本、網(wǎng)絡(luò)、圖像多媒體等不同方面的數(shù)據(jù),讓決策者“眼觀六路、耳聽八方”,對場景的態(tài)勢獲得實際的感知。
● 預(yù)判決策的能力
可視分析通過數(shù)據(jù)提供了一雙“看數(shù)據(jù)”的眼睛,不僅對歷史數(shù)據(jù)和現(xiàn)在發(fā)生的數(shù)據(jù)提供直觀的展示,通常也會結(jié)合人工智能的預(yù)測算法對未來的數(shù)據(jù)進行預(yù)測,以輔助決策。與傳統(tǒng)的機器學(xué)習(xí)不同的是,可視分析考慮人與機器智能共同決策,機器算法通過數(shù)據(jù)的歷史特征進行建模與預(yù)測,并根據(jù)重要程度和置信程度推薦給決策者,讓決策者對未來進行研判。
洞見在可視化技術(shù)中有兩層意思:一是“見所未見”;二是“洞見深遠”。“見所未見”是可視化能夠提供的核心競爭力,數(shù)據(jù)背后蘊含著規(guī)律和價值。在很多情況下,簡單的呈現(xiàn)方式只能把我們所知道的再重復(fù)一遍,但基于數(shù)據(jù)特性設(shè)計的可視化,如針對時序數(shù)據(jù)的周期性,設(shè)計的環(huán)狀可視化方法能夠提供普通可視化無法看到的周期特征,平行坐標可視化技術(shù)將高維數(shù)據(jù)展現(xiàn)在二維平面中,也可以讓用戶看到更多的信息?!岸匆娚钸h”是可視化可以提供已有數(shù)據(jù)的深入探索和理解,一般包括3 個方面。第一,結(jié)合模型的計算,可視化可以將模型計算的結(jié)果提供給決策者,讓他們看到不僅有表面的數(shù)據(jù),還有經(jīng)過挖掘探索的數(shù)據(jù)。第二,對數(shù)據(jù)的不同層面進行可視化,能讓決策者從不同角度觀察數(shù)據(jù)。第三,用戶通過交互探索,可以對感興趣的數(shù)據(jù)進行深挖與探究。
可視化與可視分析技術(shù)應(yīng)用于數(shù)字經(jīng)濟時代的各行各業(yè),在社會經(jīng)濟發(fā)展的多個領(lǐng)域都有涉足,主要體現(xiàn)在以下幾個方面。
“ 新時代最大的特點即大量不同行業(yè)、不同領(lǐng)域的數(shù)據(jù)呈現(xiàn)井噴式增長,但如何深入利用這些數(shù)據(jù),讓它真正為社會經(jīng)濟產(chǎn)業(yè)服務(wù),是當今亟待解決的問題,也是上海提出“城市數(shù)字化轉(zhuǎn)型”的現(xiàn)實背景。 ”
經(jīng)濟與金融涉及方方面面,包括股票、基金、經(jīng)濟指標、市場交易、風(fēng)險和公司管理等。數(shù)據(jù)可視化與可視分析技術(shù)可以從復(fù)雜的經(jīng)濟與金融數(shù)據(jù)中獲得洞見。例如,股票或者基金類別中長期股票或者基金價格的時間序列數(shù)據(jù)是經(jīng)濟與金融可視化研究中的熱點,股票或者基金數(shù)量從幾只到數(shù)千只不等,研究方向包括股票或者基金價格變化趨勢、不同變化模式以及未來預(yù)測等。此類數(shù)據(jù)常常與新聞媒體數(shù)據(jù)相結(jié)合,為投資者提供更加全面的投資市場信息。經(jīng)濟指標類數(shù)據(jù)是指影響金融市場的相關(guān)變量數(shù)據(jù)(如消費者價格指數(shù)、通貨膨脹率等)。公司信息類別數(shù)據(jù)包含與公司業(yè)務(wù)相關(guān)的所有信息(如利潤、財務(wù)報表、銷售、營銷數(shù)據(jù)等),而市場交易類別數(shù)據(jù)則考慮不同主體(如銀行客戶、公司和國家)之間的交易生成的所有數(shù)據(jù)。這些數(shù)據(jù)源的可視化通常涵蓋財務(wù)風(fēng)險管理、經(jīng)濟分析、資本市場管理、投資組合管理和市場分析等領(lǐng)域知識。風(fēng)險類數(shù)據(jù)分析是商業(yè)與投資中的重要組成部分,其可視化從金融市場風(fēng)險、金融產(chǎn)品風(fēng)險、金融機構(gòu)風(fēng)險等不同角度,幫助投資者或者從業(yè)者能夠更加快速識別事件發(fā)展過程中的風(fēng)險,并根據(jù)風(fēng)險改變投資策略。
交互式投資組合分析是新興的研究方向,它對量化投資中的因子模型信息進行了深入探究,可以在3 個不同的層次進行分析:風(fēng)險因素層次,用于總體市場情況分析;多重投資組合層次,用于理解投資組合策略;單一投資組合層次,用于研究單個投資組合的詳細配置信息。例如,研究者可以對股票投資組合數(shù)據(jù)進行分層并有效地對分層進行可視化,從而提高從業(yè)人員的分析效率。交互式可視化投資組合可以幫助用戶在不同參數(shù)設(shè)置下全面探索交易算法的性能,可以選擇最佳的交易算法實例來進行實際的交易部署,避免了由于缺乏有效的工具交易者導(dǎo)致依靠自己的內(nèi)存來手動比較某一交易算法的一類問題。
數(shù)字經(jīng)濟轉(zhuǎn)型中移動端應(yīng)用有了極大增加,互聯(lián)網(wǎng)上的社交媒體方興未艾,如新浪微博、微信、抖音等。越來越多的人開始使用社交媒體發(fā)布微博等多媒體信息。社交媒體的日常使用產(chǎn)生了大量公開的社交媒體數(shù)據(jù),這些數(shù)據(jù)反映了人們的社會行為。數(shù)據(jù)可視化和可視分析技術(shù)能夠從這些海量數(shù)據(jù)中總結(jié)出有效信息,從而支持人們在對社交媒體的復(fù)雜數(shù)據(jù)探索時進行高效的分析和智能化決策。
社交媒體數(shù)據(jù)可以分為3 類,包括時空信息、網(wǎng)絡(luò)和文本數(shù)據(jù)。其中,社交網(wǎng)絡(luò)一般包括用戶社交網(wǎng)絡(luò)(人與人之間的關(guān)注行為)和信息擴散網(wǎng)絡(luò)(信息與信息的轉(zhuǎn)發(fā)行為)。以社交媒體事件可視分析系統(tǒng)E-Map 為例,它將提取的關(guān)鍵詞、信息、轉(zhuǎn)發(fā)行為轉(zhuǎn)化為人們熟悉的城市、城鎮(zhèn)、河流等可視化地圖特征,構(gòu)建結(jié)構(gòu)化的語義網(wǎng)絡(luò)供用戶探索。它還將復(fù)雜的高維網(wǎng)絡(luò)可視化為簡單的軌跡和連接,讓決策者更好地理解輿情隨時間的演變。該可視分析系統(tǒng)構(gòu)建了語義地圖,能夠支持多層次的時空探索,有助于揭示事件發(fā)展的模式和事件中的關(guān)鍵參與者以及他們是如何影響事件發(fā)展的。
用戶分析社交媒體的文本數(shù)據(jù)可以獲得很多深刻的洞見。例如,我們提出的可視分析系統(tǒng)Co-Bridges 使用了“河流”和“橋梁”的可視化隱喻,可以揭示2 個社交媒體數(shù)據(jù)流在關(guān)鍵詞語義和時間演變方面的異同等。又如,在2016 年希拉里·克林頓(Hillary Clinton)和唐納德·特朗普(Donald Trump)總統(tǒng)競選期間的推文中,Co-Bridges 比較兩位候選人關(guān)于多個討論的問題和不同級別時間顆粒度的文本流,從而發(fā)現(xiàn)了他們之間許多有趣的言論模式,如互相攻擊或自我辯護等。
城市作為一個錯綜復(fù)雜的系統(tǒng),不斷地生成種類繁多而又龐大的數(shù)據(jù)。人流、交通、能耗、污染等都是城市生活的分析者關(guān)注的對象。城市既是地理空間上的概念,又因人類活動而在時間上得到延伸。城市數(shù)據(jù)往往同時具有時空和其他多個維度的復(fù)雜數(shù)據(jù)類型。面對龐雜的城市數(shù)據(jù),數(shù)據(jù)可視分析技術(shù)是幫助人們挖掘信息、獲得洞見的得力工具。已有研究人員針對車輛擁堵、人群移動與自動駕駛等3個方面做了城市數(shù)據(jù)可視分析工作。例如,研究人員提出了一個用于探索交通流量數(shù)據(jù)的可視分析系統(tǒng),該系統(tǒng)基于城市中的交通監(jiān)測點記錄的車流數(shù)據(jù),支持宏觀交通分析。由于交通監(jiān)測點在城市交通網(wǎng)中呈點狀分布,得到的車流數(shù)據(jù)其實是稀疏的軌跡數(shù)據(jù)。通過忽略具體車輛的微觀行為并應(yīng)用軌跡聚合技術(shù),該系統(tǒng)使分析者能夠分析各監(jiān)測點的狀態(tài)和監(jiān)測點間的車流。
我們在研究中發(fā)現(xiàn),可視分析系統(tǒng)支持對帶有地理標簽的社交媒體數(shù)據(jù)的分析。這類數(shù)據(jù)既包含文本,又具有時空信息的稀疏軌跡數(shù)據(jù)。與傳統(tǒng)運動軌跡數(shù)據(jù)相比,社交媒體數(shù)據(jù)的稀疏性和不確定性等問題帶來了額外的分析難度。在該系統(tǒng)中,用戶通過與可視化界面的交互來完成分析。為支持對大量人群移動模式的分析,用戶可以通過位置、周期性和屬性等對移動軌跡進行聚合分類并獲得視覺反饋。隨后,用戶可以在不確定性模型和交互式選擇工具的指導(dǎo)下,從每個得到的移動軌跡類別中過濾和選擇可靠的數(shù)據(jù)。通過迭代式探索過濾后的數(shù)據(jù),用戶能夠探索蘊含其中的語義信息,包括人們使用的交通方式、頻繁出現(xiàn)的目的地序列和關(guān)鍵字描述等。
自動駕駛技術(shù)的復(fù)雜性使得評估和改進自動駕駛模型極具挑戰(zhàn)。為了解決這個問題,我們提出了一種自動駕駛的可視化評估方法,考慮了在自動駕駛過程中所有組件生成的數(shù)據(jù),包括感知結(jié)果、規(guī)劃路線、障礙預(yù)測、各種控制參數(shù)和舒適性評估。在可視化界面上,隨著自動駕駛汽車的實時模擬畫面,各個圖表將動態(tài)地顯示對當前駕駛狀況的評估結(jié)果。分析者還可以在特定時間段內(nèi)以交互的方式探索特定的組件,并確定相關(guān)影響因素。通過該系統(tǒng),分析者不僅可以了解特定自動駕駛系統(tǒng)的性能,還可以識別和訪問每個存在問題的組件。這展現(xiàn)了可視化能夠提供態(tài)勢感知與洞見的特性。
城市經(jīng)濟的發(fā)展必須在安全防護下運行。安全問題一直都是重中之重。安全可視分析結(jié)合異常檢測與交互探索,支持對網(wǎng)絡(luò)態(tài)勢的感知。數(shù)據(jù)可視化技術(shù)可以根據(jù)網(wǎng)絡(luò)數(shù)據(jù)(如互聯(lián)網(wǎng)協(xié)議地址、域名、備案信息、網(wǎng)絡(luò)流數(shù)據(jù))生成流圖、連接圖等視圖,描述連接行為以及動態(tài)主機狀態(tài)。雖然計算機能很好地完成數(shù)據(jù)處理的工作,但安全問題是一個針對極大不確定性的工作,我們無法預(yù)料對手會以何種方式進行攻擊,這也是安全分析師在這個過程中不可或缺的原因。隨著技術(shù)手段不斷更迭,網(wǎng)絡(luò)安全又在傳統(tǒng)問題上增加了新的挑戰(zhàn)。例如,云技術(shù)的發(fā)展提出網(wǎng)絡(luò)入侵檢測、集群網(wǎng)絡(luò)實時檢測的要求,因此,網(wǎng)絡(luò)物理系統(tǒng)需要新的部署設(shè)計將安全專業(yè)人員與系統(tǒng)設(shè)計師結(jié)合起來。又如,OCEANS 可視分析系統(tǒng)提供了一套從整體到局部的可視分析探索思路與框架,將互聯(lián)網(wǎng)協(xié)議地址連接聚合,通過弦圖進行可視化,將具體某個時間段的連接細節(jié)信息利用類似平行坐標圖的方式進行可視化。
數(shù)字經(jīng)濟的大幕剛剛拉開,大數(shù)據(jù)技術(shù)是這個時代的弄潮兒。數(shù)據(jù)可視化是大數(shù)據(jù)技術(shù)重要的一環(huán)??梢暬c可視分析技術(shù)利用大數(shù)據(jù)與人工智能,讓決策者“看見”數(shù)據(jù),這樣“看見”的能力,如中國先賢之教誨“眼觀六路、耳聽八方”,運用好可視化與可視分析技術(shù),就能夠為城市數(shù)字化轉(zhuǎn)型進一步添磚加瓦。