趙穎,張卓,袁曉如
?
數(shù)據(jù)可視分析挑戰(zhàn)賽三年回顧
趙穎1,張卓2,袁曉如3
(1. 中南大學(xué)信息科學(xué)與工程學(xué)院,湖南 長沙 410075;2. 360企業(yè)安全集團(tuán),北京 100016;3. 北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
數(shù)據(jù)可視分析挑戰(zhàn)賽作為我國可視化與可視分析領(lǐng)域的一項(xiàng)重要賽事,經(jīng)過2015~2017三年發(fā)展,已成為推動(dòng)領(lǐng)域競技交流、人才培養(yǎng)和實(shí)踐創(chuàng)新的重要力量。首先闡述了數(shù)據(jù)可視分析挑戰(zhàn)賽產(chǎn)生的背景和意義,然后從組織形式、比賽內(nèi)容和信息統(tǒng)計(jì)等方面對(duì)挑戰(zhàn)賽進(jìn)行了全面的回顧和分析,最后對(duì)挑戰(zhàn)賽的未來發(fā)展進(jìn)行了展望。
可視化;可視分析;學(xué)科競賽;數(shù)據(jù)可視分析挑戰(zhàn)賽
競賽是各學(xué)科領(lǐng)域完善其教育和科研體系的重要組成部分。對(duì)教學(xué)科研來說,競賽具有示范和導(dǎo)向效應(yīng),可以豐富教學(xué)方式和引領(lǐng)科研方向;對(duì)人才培養(yǎng)來說,競賽為參與者提供鍛煉和展示自我、與同行競技交流的平臺(tái);對(duì)學(xué)科發(fā)展來說,競賽推動(dòng)知識(shí)和技術(shù)共享,促進(jìn)實(shí)踐與創(chuàng)新融合。以網(wǎng)絡(luò)安全和數(shù)據(jù)挖掘領(lǐng)域?yàn)槔?,網(wǎng)絡(luò)安全領(lǐng)域已形成奪旗類、破解類和培養(yǎng)類百花齊放的國際化競賽體系[1,2],有效地促進(jìn)了學(xué)術(shù)界與工業(yè)界的協(xié)同發(fā)展;數(shù)據(jù)挖掘領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議KDD每年舉辦的KDD Cup[3]被譽(yù)為大數(shù)據(jù)分析“奧運(yùn)會(huì)”,從1997年至今已有二十幾年歷史,見證和推動(dòng)了數(shù)據(jù)挖掘領(lǐng)域的發(fā)展與繁榮。
近年來,我國在可視化與可視分析領(lǐng)域呈現(xiàn)出較為均衡且加速發(fā)展的態(tài)勢。各高校和研究院的可視化與可視分析研究取得了令人矚目的進(jìn)步,尖端研究初具國際影響,基礎(chǔ)教育日益擴(kuò)大,更多單位開始關(guān)注并加入其中。工業(yè)界正加速布局相關(guān)領(lǐng)域的技術(shù)研發(fā)與行業(yè)應(yīng)用,阿里和百度分別推出了組件式可視化基礎(chǔ)開發(fā)庫DataV[4]和ECharts[5],360企業(yè)安全[6]和海云數(shù)據(jù)[7]等企業(yè)也紛紛推出了面向行業(yè)的大數(shù)據(jù)可視分析解決方案。與此同時(shí),可視化技術(shù)也逐步被廣大民眾熟悉與接受,2016年“可視化推動(dòng)大數(shù)據(jù)平民化”位居中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)評(píng)選的大數(shù)據(jù)發(fā)展十大趨勢之首[8]。
在此背景下,我國各界有志之士積極借鑒國際賽事的經(jīng)驗(yàn),在國內(nèi)逐步發(fā)起各類可視化與可視分析競賽,以進(jìn)一步推動(dòng)領(lǐng)域人才培養(yǎng)和實(shí)踐創(chuàng)新。效仿國際著名數(shù)據(jù)分析競賽平臺(tái)Kaggle[9],阿里云在國內(nèi)創(chuàng)辦了天池大數(shù)據(jù)競賽平臺(tái)[10],并于2016和2017年分別推出了2個(gè)數(shù)據(jù)可視化競賽項(xiàng)目“公益云圖數(shù)據(jù)創(chuàng)新大賽”和“廣東政務(wù)數(shù)據(jù)創(chuàng)新大賽”,2項(xiàng)賽事連續(xù)成功舉辦,使其成為國內(nèi)工業(yè)界可視化大賽的標(biāo)桿。借鑒國際頂級(jí)會(huì)議IEEE VIS Conference[11]每年舉辦國際可視分析挑戰(zhàn)賽VAST Challenge[12,13]的成功經(jīng)驗(yàn),國內(nèi)規(guī)模最大的全國性年度可視化與可視分析技術(shù)及產(chǎn)業(yè)應(yīng)用大會(huì)ChinaVis[14],于2015年首次設(shè)置數(shù)據(jù)可視分析挑戰(zhàn)賽(ChinaVis Data Challenge)[15],三年來,挑戰(zhàn)賽飛速發(fā)展,已成為學(xué)術(shù)界主導(dǎo)的國內(nèi)可視化頂尖賽事。
本文對(duì)數(shù)據(jù)分析挑戰(zhàn)賽三年發(fā)展過程進(jìn)行回顧與總結(jié)。首先介紹挑戰(zhàn)賽的產(chǎn)生背景和組織形式,幫助讀者快速了解挑戰(zhàn)賽;然后對(duì)三年挑戰(zhàn)賽的報(bào)名情況、評(píng)審情況、開發(fā)工具使用情況等參賽者普遍關(guān)心的問題進(jìn)行解答,希望能幫助參賽者快速融入比賽節(jié)奏;同時(shí)還提供了這三年挑戰(zhàn)賽題目與數(shù)據(jù)信息以及其他相關(guān)競賽信息,希望能促進(jìn)各類競賽互相學(xué)習(xí)和共同進(jìn)步,更廣泛、更長遠(yuǎn)地推動(dòng)領(lǐng)域人才培養(yǎng)和實(shí)踐創(chuàng)新;最后對(duì)挑戰(zhàn)賽未來發(fā)展進(jìn)行展望。
數(shù)據(jù)可視分析挑戰(zhàn)賽依托于每年召開的中國可視化與可視分析大會(huì)。該大會(huì)前身是由北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室主辦的可視化研討會(huì),從2008年到2013年間共舉辦了4次。隨著可視化與可視分析研究與應(yīng)用在社會(huì)各界的影響不斷加深,為促進(jìn)中國及周邊地區(qū)相關(guān)領(lǐng)域產(chǎn)、學(xué)、研、用協(xié)同發(fā)展,由我國可視化業(yè)界工作者聯(lián)合發(fā)起了中國可視化與可視分析大會(huì),分別于北京(2014年)、天津(2015年)、長沙(2016年)和青島(2017年)成功舉辦了4屆,大會(huì)每年吸引了國內(nèi)外數(shù)百名可視化研究人員與領(lǐng)域?qū)<覅R集一堂,共同探討在大數(shù)據(jù)與人工智能時(shí)代,可視化與可視分析領(lǐng)域面臨的機(jī)遇與挑戰(zhàn)。
中國可視化與可視分析大會(huì)于2015年首次設(shè)立數(shù)據(jù)可視分析挑戰(zhàn)賽,至今已成功舉辦3屆。作為大會(huì)的一個(gè)重要環(huán)節(jié),挑戰(zhàn)賽提供一系列精彩的劇本、詳實(shí)的數(shù)據(jù)和具體的問題,并邀請研究人員、開發(fā)人員和愛好者使用他們最有效的可視分析技術(shù)和工具完成數(shù)據(jù)分析任務(wù)。挑戰(zhàn)賽旨在為參賽者提供鍛煉自我和競技交流的平臺(tái),幫助參賽者評(píng)估他們的技術(shù)和工具在解決復(fù)雜問題中的有效性和新穎性,推動(dòng)可視化與可視分析的專業(yè)人才培養(yǎng),促進(jìn)相關(guān)研究與應(yīng)用的發(fā)展與進(jìn)步。
挑戰(zhàn)賽的組織工作每年與ChinaVis籌備同步進(jìn)行,總體分為題目準(zhǔn)備、發(fā)布宣傳、公開報(bào)名、作品提交、綜合評(píng)審、會(huì)場交流6個(gè)階段。
題目準(zhǔn)備階段一般每年年初開始,工作內(nèi)容包括成立挑戰(zhàn)賽組委會(huì)、確定贊助商、討論組織方案、準(zhǔn)備比賽題目。360企業(yè)安全集團(tuán)是2015年和2016年挑戰(zhàn)賽的獨(dú)家贊助商,2017年挑戰(zhàn)賽由360企業(yè)安全和海云數(shù)據(jù)共同贊助。贊助商不但為挑戰(zhàn)賽提供獎(jiǎng)金和獎(jiǎng)品,還在題目準(zhǔn)備、發(fā)布宣傳、綜合評(píng)審和會(huì)場交流多方面提供技術(shù)支持。近三年挑戰(zhàn)賽題目背景和數(shù)據(jù)都來自真實(shí)場景,一般先由贊助商提供樣本數(shù)據(jù)和總體設(shè)想,然后組委會(huì)與贊助商技術(shù)人員一起確定題目細(xì)節(jié),并根據(jù)題目設(shè)置對(duì)數(shù)據(jù)集進(jìn)行清洗、脫敏、加工和驗(yàn)證性分析。
發(fā)布宣傳與公開報(bào)名階段在每年4到5月進(jìn)行。挑戰(zhàn)賽組委會(huì)首先會(huì)在ChinaVis官方網(wǎng)站上發(fā)布當(dāng)年賽題、答卷和數(shù)據(jù)集,然后通過微博、微信和其他學(xué)術(shù)交流平臺(tái)進(jìn)行宣傳。參賽者以組隊(duì)形式網(wǎng)上報(bào)名,全國普通高等學(xué)校和科研院所的師生和研究人員、企事業(yè)單位的開發(fā)人員和設(shè)計(jì)師、愛好者都可以報(bào)名參加挑戰(zhàn)賽。
作品提交時(shí)間一般在ChinaVis召開前一個(gè)月左右,提交要求與VAST Challenge非常類似,每個(gè)參賽隊(duì)必須同時(shí)提交答卷、視頻和論文。答卷要求參賽隊(duì)在完成對(duì)數(shù)據(jù)的綜合分析后,用圖文并茂的方式盡可能全面和準(zhǔn)確地回答題目中預(yù)設(shè)的問題。視頻要求參賽隊(duì)通過影音手段解釋其分析方法和流程。論文則是希望參賽隊(duì)用不超過兩頁篇幅總結(jié)其可視分析方案的亮點(diǎn)。
所有參賽作品同時(shí)提交給可視分析專家和領(lǐng)域?qū)<疫M(jìn)行通信評(píng)審,評(píng)審重點(diǎn)關(guān)注參賽作品對(duì)預(yù)設(shè)問題解答的準(zhǔn)確性以及可視分析方案的有效性,同時(shí)還會(huì)從新穎性、可擴(kuò)展性和文檔質(zhì)量3個(gè)方面對(duì)作品進(jìn)行綜合評(píng)價(jià)。挑戰(zhàn)賽委員根據(jù)專家通信評(píng)審結(jié)果進(jìn)行討論后,評(píng)選出一等獎(jiǎng)、二等獎(jiǎng)、三等獎(jiǎng)和優(yōu)秀獎(jiǎng)作品,并邀請所有獲獎(jiǎng)參賽隊(duì)來ChinaVis進(jìn)行現(xiàn)場交流。
挑戰(zhàn)賽在這三年的ChinaVis期間都安排了主會(huì)場、分會(huì)場和海報(bào)3個(gè)不同的交流環(huán)節(jié)。一等獎(jiǎng)參賽隊(duì)將獲得在大會(huì)主會(huì)場報(bào)告的機(jī)會(huì),同時(shí)組委會(huì)和出題方代表也將在主會(huì)場介紹本年度比賽總體情況和題目背后的故事。分會(huì)場環(huán)節(jié)包括特邀報(bào)告、部分獲獎(jiǎng)作品分享、現(xiàn)場討論和頒獎(jiǎng)儀式。海報(bào)環(huán)節(jié)則為所有獲獎(jiǎng)參賽隊(duì)提供更自由和深入的交流機(jī)會(huì)。ChinaVis結(jié)束后,組委會(huì)會(huì)擇機(jī)公布當(dāng)年賽題的參考答案和獲獎(jiǎng)作品,使其能夠在一定程度上成為業(yè)界科研與應(yīng)用研發(fā)的標(biāo)準(zhǔn)測試數(shù)據(jù)集。
本節(jié)分別介紹2015至2017三年挑戰(zhàn)賽的比賽內(nèi)容,包括賽題背景、相關(guān)數(shù)據(jù)和分析需求。
2015年挑戰(zhàn)賽題目[15]以多源異構(gòu)大數(shù)據(jù)分析為主題,故事背景發(fā)生在一家為企業(yè)和政府機(jī)構(gòu)提供定制化網(wǎng)絡(luò)服務(wù)的互聯(lián)網(wǎng)公司。該公司內(nèi)部網(wǎng)絡(luò)平臺(tái)上運(yùn)行著很多業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)每天都會(huì)產(chǎn)生很大流量,不幸的是,某幾天公司某個(gè)內(nèi)部系統(tǒng)出現(xiàn)了安全問題,導(dǎo)致該公司的部分重要數(shù)據(jù)泄露。該公司想了解那幾天到底發(fā)生了什么事情,因此將那一段時(shí)間的多種網(wǎng)絡(luò)安全日志數(shù)據(jù)提供出來,希望參賽者能以網(wǎng)絡(luò)安全分析人員的身份,采用可視分析技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析,幫助該公司找到答案,并提供網(wǎng)絡(luò)安全改進(jìn)方案。
挑戰(zhàn)賽在上述業(yè)務(wù)場景下設(shè)置了兩道比賽題目。第一題關(guān)注公司內(nèi)網(wǎng)正常運(yùn)行模式分析,提供了一周約700 MB的Tcpflow日志數(shù)據(jù),希望參賽者準(zhǔn)確找到公司內(nèi)部網(wǎng)絡(luò)的客戶端和服務(wù)器,總結(jié)公司內(nèi)網(wǎng)有哪些正常網(wǎng)絡(luò)通信模式。第二題關(guān)注安全事件分析,提供了兩周共10 GB的4種網(wǎng)絡(luò)安全日志數(shù)據(jù)(Tcpflow日志、HTTP Header日志、數(shù)據(jù)庫行為日志、各應(yīng)用系統(tǒng)登錄日志),希望參賽者能分析出這次安全問題發(fā)生的原因、相關(guān)網(wǎng)絡(luò)資源、演化過程以及造成的危害。
2016年挑戰(zhàn)賽[16]設(shè)置了2個(gè)背景完全不同的題目。第一個(gè)題目是對(duì)2015年挑戰(zhàn)賽題目的延續(xù),該題仍以某互聯(lián)網(wǎng)公司的內(nèi)網(wǎng)安全為背景,提供的仍是Tcpflow網(wǎng)絡(luò)流量日志數(shù)據(jù)。不同的是這次Tcpflow數(shù)據(jù)的信息更為豐富,記錄了網(wǎng)絡(luò)數(shù)據(jù)流在應(yīng)用層、網(wǎng)絡(luò)層和鏈路層3個(gè)層面的信息,時(shí)間跨度2個(gè)月,數(shù)據(jù)量230 MB。參賽者被要求分析流量數(shù)據(jù)中隱含的正常模式和異常事件,并設(shè)計(jì)新穎的可視化方案,有效展示多層次網(wǎng)絡(luò)行為模式。
第二題背景來自網(wǎng)絡(luò)安全領(lǐng)域一個(gè)非常著名的真實(shí)事件。Hacking Team[17]是一家意大利米蘭的信息技術(shù)公司,該公司向客戶提供信息系統(tǒng)入侵、文件解密與通信監(jiān)視服務(wù)。2015年7月5日,Hacking Team公司被黑客入侵,入侵者通過公司官方Twitter賬號(hào)公布了該公司許多內(nèi)幕信息并通告該公司的內(nèi)部數(shù)據(jù)已經(jīng)泄露,近400 GB被公開的內(nèi)部電子郵件、各種相關(guān)文件和源代碼引起了業(yè)界的一片嘩然。挑戰(zhàn)賽從這批數(shù)據(jù)中提取了公司內(nèi)部十多年約400 MB的郵件數(shù)據(jù)作為比賽數(shù)據(jù)集,邀請參賽者通過分析郵件數(shù)據(jù),解密Hacking Team公司的組織結(jié)構(gòu),分析該公司的發(fā)展歷程及各發(fā)展階段的業(yè)務(wù)特點(diǎn)。
2017年挑戰(zhàn)賽[18]以時(shí)空數(shù)據(jù)分析為主題,設(shè)置了兩道賽題,分別對(duì)應(yīng)2個(gè)不同社會(huì)熱點(diǎn)問題。第一題的背景是偽基站行為分析。偽基站即假基站,能夠搜集以其為中心、一定半徑內(nèi)的手機(jī)卡信息,利用GSM驗(yàn)證漏洞偽裝成真基站,冒用銀行、運(yùn)營商、國家機(jī)關(guān)或他人號(hào)碼,強(qiáng)行向用戶發(fā)送詐騙、色情、賭博、廣告等垃圾短信,這不僅干擾公共頻率資源,影響正常通信,而且嚴(yán)重侵害了社會(huì)秩序。手機(jī)衛(wèi)士軟件可以根據(jù)用戶舉報(bào)的垃圾短信信息,初步確定當(dāng)時(shí)偽基站的近似位置,但偽基站流動(dòng)性強(qiáng),依據(jù)近似位置和傳統(tǒng)數(shù)據(jù)分析方法,仍然很難準(zhǔn)確把握偽基站的活動(dòng)規(guī)律。本題提供北京市2個(gè)月約753 MB標(biāo)注為偽基站發(fā)送的垃圾短信樣本數(shù)據(jù),希望參賽者鑒別不同垃圾短信類型,并分析其相關(guān)偽基站時(shí)空活動(dòng)規(guī)律,為執(zhí)法人員打擊整治偽基站出謀劃策。
第二題背景是關(guān)于某市黑網(wǎng)吧整治行動(dòng)。隨著網(wǎng)絡(luò)寬帶進(jìn)入千家萬戶,網(wǎng)吧經(jīng)營舉步維艱,于是部分經(jīng)營者不惜采用接納未成年人、通宵營業(yè)等違規(guī)經(jīng)營方式吸引顧客。某市正在開展嚴(yán)查黑網(wǎng)吧的專項(xiàng)執(zhí)法行動(dòng),但網(wǎng)吧數(shù)量龐大,傳統(tǒng)挨個(gè)排查方法不僅耗時(shí)耗力,還為黑網(wǎng)吧提供了規(guī)避查處的準(zhǔn)備時(shí)間。為了提升全局掌控能力和執(zhí)法效率,某市公安局將市內(nèi)3 000多個(gè)網(wǎng)吧基本信息及3個(gè)月約1.7 GB上網(wǎng)記錄數(shù)據(jù)提供出來,希望參賽者從數(shù)據(jù)中識(shí)別不同上網(wǎng)人群,探索上網(wǎng)人群的時(shí)空行為特征,檢測非法上網(wǎng)行為與團(tuán)伙上網(wǎng)行為,為甄別黑網(wǎng)吧提供線索,為犯罪預(yù)防和維護(hù)社會(huì)公共安全提供新思路。
本節(jié)從報(bào)名情況、評(píng)審情況和其他情況3個(gè)方面對(duì)2015至2017年挑戰(zhàn)賽的相關(guān)信息進(jìn)行統(tǒng)計(jì)與分析。
挑戰(zhàn)賽要求參賽者以組隊(duì)方式報(bào)名,圖1顯示了這三年的報(bào)名隊(duì)伍數(shù)量和隊(duì)伍類型所占比例。三年來,挑戰(zhàn)賽的影響力迅速擴(kuò)大,報(bào)名隊(duì)伍數(shù)量保持高速增長,2017年相比2015年增加了三倍多。如果某個(gè)參賽隊(duì)的成員以學(xué)生居多,則將這支參賽隊(duì)當(dāng)作學(xué)生隊(duì),否則當(dāng)作企業(yè)工程師或愛好者隊(duì)。這三年參賽隊(duì)絕大多數(shù)都是學(xué)生隊(duì),其中??粕?%,本科生占35%,碩士生占42%,博士生占4%,指導(dǎo)老師占18%。參加形式多樣的學(xué)科競賽對(duì)青年學(xué)生來說有著多方面意義,因此依托學(xué)術(shù)會(huì)議舉辦的數(shù)據(jù)分析挑戰(zhàn)賽,學(xué)生順理成章地成為主力軍。
圖1 挑戰(zhàn)賽報(bào)名隊(duì)伍數(shù)量與隊(duì)伍類型三年統(tǒng)計(jì)
企業(yè)工程師和愛好者隊(duì)2015年有1支,2016年有3支,2017年達(dá)到了9支,雖然總體占比很少,但仍是挑戰(zhàn)賽的亮點(diǎn)之一。特別是企業(yè)工程師隊(duì),他們一般會(huì)根據(jù)其行業(yè)背景非常有針對(duì)性地選擇賽題,能給人們帶來更深入的見解,2017年有2支獲獎(jiǎng)企業(yè)工程師隊(duì)的日常工作都與賽題背景有關(guān)。企業(yè)工程師和愛好者越來越多地參與進(jìn)來,反映了挑戰(zhàn)賽正在逐步引起工業(yè)界更多的關(guān)注,有利于促進(jìn)學(xué)術(shù)界與工業(yè)界間多種形式的互通與交流。
正式提交進(jìn)入評(píng)審階段的作品數(shù)量一般要比報(bào)名隊(duì)伍數(shù)少,2016和2017年報(bào)名隊(duì)伍的提交比例大概在60%左右,2015年提交比例最高,19支報(bào)名隊(duì)伍中有14支提交作品,這與第一屆比賽只有相對(duì)小范圍人群關(guān)注有關(guān)。在作品提交數(shù)量和獲獎(jiǎng)率上,本文將挑戰(zhàn)賽與VAST Challenge進(jìn)行比較分析。圖2和圖3分別顯示了挑戰(zhàn)賽和VAST Challenge這三年的作品提交與獲獎(jiǎng)情況。挑戰(zhàn)賽作品提交數(shù)量增長很快,而VAST Challenge作品提交數(shù)量呈現(xiàn)較大幅度波動(dòng),挑戰(zhàn)賽的獲獎(jiǎng)率明顯高于VAST Challenge獲獎(jiǎng)率。一方面反映出VAST Challenge參賽者具有更高的專業(yè)水平,另一方面也因?yàn)樵趧?chuàng)辦初期的挑戰(zhàn)賽希望通過適當(dāng)提高獲獎(jiǎng)比例來吸引更多參賽者。
圖2 挑戰(zhàn)賽作品提交數(shù)量與獲獎(jiǎng)比例三年統(tǒng)計(jì)
圖3 V AST Challenge作品提交數(shù)量與獲獎(jiǎng)比例三年統(tǒng)計(jì)
挑戰(zhàn)賽通信評(píng)審采取分項(xiàng)打分形式,每位評(píng)審專家要對(duì)所評(píng)作品從分析質(zhì)量(解答題目預(yù)設(shè)問題的準(zhǔn)確性)、可視化設(shè)計(jì)、交互設(shè)計(jì)、新穎性、可擴(kuò)展性和文檔質(zhì)量6個(gè)方面做出量化評(píng)價(jià),5分制評(píng)分,1分為最差,5分為最好,這6個(gè)方面的權(quán)重占比分別是30%、20%、20%、10%、10%和10%。圖4顯示了三年所有提交作品分項(xiàng)打分統(tǒng)計(jì)情況,包括每項(xiàng)的平均分和方差。從平均分方面看,參賽者普遍提交了較為整齊、清晰和可讀性高的作品文檔與視頻,因此文檔質(zhì)量平均分明顯高于其他評(píng)分項(xiàng);挑戰(zhàn)賽這三年每個(gè)賽題都提供了參考答案,評(píng)審專家可以較客觀地對(duì)分析質(zhì)量打分,平均分較好的分析質(zhì)量反映了參賽者都能認(rèn)真地理解題目需求和努力地分析數(shù)據(jù),并較好地解答了題目預(yù)設(shè)問題;可視映射與交互功能是可視分析系統(tǒng)相輔相成的2個(gè)最重要的組成部分,交互設(shè)計(jì)平均分明顯低于可視化設(shè)計(jì),反映了許多參賽者把更多精力投入到了呈現(xiàn)和解釋數(shù)據(jù)方面,而忽略了交互功能帶來的分析和理解作用;新穎性平均分也相對(duì)較低,反映了提出和實(shí)現(xiàn)有創(chuàng)新性的可視化與交互設(shè)計(jì)及新算法,對(duì)大部分參賽者難度較大。從方差方面看,交互設(shè)計(jì)和新穎性2個(gè)打分項(xiàng)的方差明顯高于其他4項(xiàng),結(jié)合這2項(xiàng)平均分也相對(duì)較低,說明它們是目前評(píng)價(jià)體系中對(duì)作品質(zhì)量區(qū)分度最大的評(píng)分項(xiàng)。
圖4 挑戰(zhàn)賽作品評(píng)審各評(píng)分項(xiàng)的平均分與方差統(tǒng)計(jì)
在其他情況分析中,本文重點(diǎn)討論開發(fā)工具使用和數(shù)據(jù)下載情況。本文按年統(tǒng)計(jì)了所有提交作品用到的開發(fā)工具,表1給出了每年使用次數(shù)排名靠前的開發(fā)工具。D3(data driven document)[19]連續(xù)三年排名榜首實(shí)屬意料之中,強(qiáng)大的定制能力和方便的數(shù)據(jù)驅(qū)動(dòng)模式,使它成為當(dāng)前可視分析領(lǐng)域復(fù)雜系統(tǒng)開發(fā)與前沿技術(shù)研究的首選工具。同為BI(business intelligence)工具的Excel和Tableau[20]出鏡率都很高,其中,Excel因微軟Office系列工具在國內(nèi)更為普及,排名一直比Tableau靠前。在數(shù)據(jù)處理方面,MySQL是數(shù)據(jù)存儲(chǔ)首選工具,Python則成了算法處理首選。Gephi[21]的使用率高,主要因?yàn)檫@三年賽題都與網(wǎng)絡(luò)分析有關(guān)。非常值得一提的是開源可視化庫Echarts[5],它從2015年和2016年的第七名飛躍至2017年的第二名,這是國產(chǎn)可視化工具甚至國產(chǎn)開源軟件的驕傲。
表1 挑戰(zhàn)賽作品使用開發(fā)工具統(tǒng)計(jì)排名
每年挑戰(zhàn)賽數(shù)據(jù)被下載次數(shù)要遠(yuǎn)大于報(bào)名隊(duì)伍數(shù)量,這間接反映了挑戰(zhàn)賽不但為參賽者提供鍛煉和交流的機(jī)會(huì),還為廣泛的業(yè)內(nèi)人士和愛好者提供了背景故事和標(biāo)準(zhǔn)測試數(shù)據(jù)集。據(jù)不完全統(tǒng)計(jì),2016年第一題數(shù)據(jù)在比賽期間就被來自961個(gè)不同IP地址的用戶下載了1 120次,第二題數(shù)據(jù)被下載了607次;2017年第一題數(shù)據(jù)在比賽期間被來自380個(gè)不同IP地址的用戶下載了556次,第二題數(shù)據(jù)則被下載了305次。在比賽完成后,這些數(shù)據(jù)仍持續(xù)被下載,據(jù)不完全統(tǒng)計(jì),2016年的第一題數(shù)據(jù)在賽后5個(gè)月內(nèi)又被累計(jì)下載了400多次。
數(shù)據(jù)可視分析挑戰(zhàn)賽吸引了眾多學(xué)生、教師、企業(yè)工程師和愛好者,并為他們提供了一個(gè)競技、交流、學(xué)習(xí)的舞臺(tái)。這三年,挑戰(zhàn)賽在規(guī)模增長和影響力擴(kuò)大等方面取得了令人鼓舞的成績,筆者收到了參賽者和關(guān)注者大量正面積極的評(píng)價(jià),也收到了很多非常好的建議。今后幾年,挑戰(zhàn)賽將進(jìn)一步吸引學(xué)會(huì)、政府部門及社會(huì)各界有志之士以多種形式參與進(jìn)來,努力擴(kuò)大國內(nèi)甚至國際影響力。筆者還將不斷完善和豐富比賽組織形式,例如,設(shè)置應(yīng)用創(chuàng)新類或創(chuàng)意設(shè)計(jì)類題目、設(shè)置單項(xiàng)獎(jiǎng)勵(lì)、優(yōu)化賽程和評(píng)審機(jī)制等??傊?,筆者仍然非??春脭?shù)據(jù)可視分析挑戰(zhàn)賽的發(fā)展前景,也期待與社會(huì)各界一起努力,共同推動(dòng)可視化與可視分析領(lǐng)域競賽體系建設(shè),促進(jìn)領(lǐng)域的發(fā)展與進(jìn)步。
感謝中國可視化與可視分析大會(huì)指導(dǎo)委員會(huì)對(duì)挑戰(zhàn)賽籌備的大力支持;感謝2015年及2016年挑戰(zhàn)賽共同主席新疆大學(xué)努爾布力、中國科學(xué)院時(shí)磊、天津大學(xué)張亞平和國防科大大學(xué)宋漢辰對(duì)挑戰(zhàn)賽組織工作的貢獻(xiàn);感謝360企業(yè)安全的黃鑫、黃偉、李秋生,海云數(shù)據(jù)的李龍輝和華德禹,西南電子電信技術(shù)研究所的王勁松為挑戰(zhàn)賽提供技術(shù)支持;感謝所有通信評(píng)審專家在百忙之中為參賽作品給出中肯細(xì)致的評(píng)價(jià);感謝所有參賽者和參會(huì)者的熱情參與。
[1] 諸葛建偉. 我國網(wǎng)絡(luò)空間安全技能競賽現(xiàn)狀漫談[J]. 中國計(jì)算機(jī)學(xué)會(huì)通訊, 2016, 12:(6):49-50.
ZHUGE J W. Discussion on the present situation of Chinese cyberspace competition[J]. Communications of the CCF, 2016, 12(6): 49-50.
[2] 余翔湛, 張宏莉, 于海寧, 等. 網(wǎng)絡(luò)空間安全競賽及人才管理[J]. 中國工程科學(xué), 2016, 18(6):49-52.
YU X Z, ZHANG H L, YU H N, et al. Cyberspace security competition and talent management[J]. Engineering Sciences, 2016, 18(6): 49-52.
[3] KDD Cup 2017 homepage[EB/OL]. http://www.kdd.org/kdd2017/ calls/view/kdd-cup-2017-call-for-proposals.
[4] DataV homepage[EB/OL]. https://data.aliyun.com/visual/datav.html.
[5] ECharts homepage[EB/OL]. http://echarts.baidu.com.
[6] 360企業(yè)安全集團(tuán)主頁[EB/OL]. http://www.360.net.
360 Enterprise Security Group homepage[EB/OL]. http://www. 360.net
[7] 海云數(shù)據(jù)主頁[EB/OL]. http://www.hiynn.com/hy-zh.
HYDATA homepage[EB/OL]. http://www.hiynn.com/hy-zh.
[8] 潘柱廷, 程學(xué)旗, 袁曉如, 等. CCF大專委2016年大數(shù)據(jù)發(fā)展趨勢預(yù)測—解讀和行動(dòng)建議[J]. 大數(shù)據(jù), 2016, 2(1):105-113.
PAN Z T, CHENG X Q, YUAN X R, et al. Developing trend forecasting of big data in 2016 from CCF TFBD: interpretation and proposals[J]. Big Data Research, 2016, 2(1):105-113.
[9] Kaggle homepage[EB/OL]. https://www.kaggle.com.
[10] 阿里天池主頁[EB/OL]. https://tianchi.aliyun.com.
Tianchi homepage[EB/OL]. https://tianchi.aliyun.com.
[11] IEEE VIS conference homepage [EB/OL]. http://ieeevis.org
[12] VAST challenge homepage[EB/OL]. http://www.vacommunity.org.
[13] COOK K, GRINSTEIN G, WHITING M. The VAST challenge: history, scope, and outcomes: An introduction to the Special Issue[J]. Information Visualization, 2014, 13(4):301-312.
[14] 中國可視化與可視分析大會(huì)主頁[EB/OL]. http://chinavis.org.
ChinaVis conference homepage[EB/OL]. http://chinavis.org.
[15] ChinaVis data challenge 2015 Homepage [EB/OL]. http://chinavis. org/2015/challenge.html.
[16] ChinaVis data challenge 2016 Homepage [EB/OL]. http://chinavis. org/2016/challenge.html.
[17] Hacking team Wiki homepage[EB/OL]. https://en.wikipedia.org/ wiki/Hacking_Team.
[18] ChinaVis data challenge 2017 homepage[EB/OL]. http://chinavis. org/2017/challenge.html.
[19] D3 homepage[EB/OL]. https://d3js.org.
[20] Tableau homepage[EB/OL]. https://www.tableau.com.
[21] Gephi homepage[EB/OL]. http://gephi.org.
ChinaVis Data Challenge from 2015 to 2017
ZHAO Ying1, ZHANG Zhuo2, YUAN Xiaoru3
1. School of Information Science and Engineering, Central South University, Changsha 410075, China 2. 360 Enterprise Security Group, Beijing 100016, China 3. Key Laboratory of Machine Perception (Ministry of Education), Peking University, Beijing 100871, China
The evolution of the ChinaVis Data Challenge from its origin 2015 to 2017 was presented. Firstly, the background and organization of the Data Challenge were introduced. Then, the competition contents and statistical data of the three years were summarized. Finally, the future development of the Data Challenge was discussed.
visualization, visual analytics, discipline contest, ChinaVis Data Challenge
TP393
A
10.11959/j.issn.2096-109x.2018012
趙穎(1980-),男,湖南益陽人,博士,中南大學(xué)副教授,主要研究方向?yàn)樾畔⒖梢暬c可視分析。
張卓(1988-),男,山東青島人,360企業(yè)安全集團(tuán)高級(jí)工程師,主要研究方向?yàn)楦呒?jí)威脅檢測、大數(shù)據(jù)與網(wǎng)絡(luò)安全、安全可視化與可視分析。
袁曉如(1975-),男,江蘇吳江人,博士,北京大學(xué)研究員,主要研究方向?yàn)榭茖W(xué)可視化、信息可視化、可視分析、計(jì)算機(jī)圖形學(xué)和人機(jī)交互。
2017-12-05;
2018-01-13
趙穎,zhaoying@csu.edu.cn
國家自然科學(xué)基金資助項(xiàng)目(No.61402540, No.61672538)
The National Natural Science Foundation of China (No.61402540, No.61672538)