主論壇:“大數(shù)據(jù)科學(xué)認識與理解”
5月25日上午,第一屆大數(shù)據(jù)科學(xué)與工程國際會議(2016)的主論壇“大數(shù)據(jù)科學(xué)認識與理解”在貴陽金陽萬麗酒店3F貴陽大廳2/3舉行,清華大學(xué)教授、原中國計算機學(xué)會理事長、《大數(shù)據(jù)》編委會主任鄭緯民作為大會主席及主論壇主持人,現(xiàn)場觀眾爆滿,氣氛熱烈。
大會主論壇觀眾席,座無虛席
貴陽市政協(xié)副主席孫袁代表主辦方出席并致辭
中國工信出版集團董事長,人民郵電出版社社長代表主辦方出席并致辭
中國計算機學(xué)會大數(shù)據(jù)專家委員會副主任委員張曉東教授代表主辦方致辭
作為本次大會的主席,清華大學(xué)教授、原中國計算機學(xué)會理事長鄭緯民表示,貴陽數(shù)博會是全球大數(shù)據(jù)領(lǐng)域的盛會,李克強總理的出席更說明了國家對于大數(shù)據(jù)產(chǎn)業(yè)的重視。第一屆大數(shù)據(jù)科學(xué)與工程國際會議是大數(shù)據(jù)學(xué)術(shù)領(lǐng)域的具有世界一流水平的會議,作為數(shù)博會唯一的學(xué)術(shù)活動,它的舉辦也是希望對于開始蓬勃發(fā)展的大數(shù)據(jù)領(lǐng)域,能夠?qū)崿F(xiàn)產(chǎn)學(xué)研的無縫結(jié)合。本次主論壇以“大數(shù)據(jù)的科學(xué)認識與理解”為主題,希望大家能夠正確認識和理解大數(shù)據(jù)及其價值,下午設(shè)置的4個主題論壇,分別從大數(shù)據(jù)分析與管理、大數(shù)據(jù)系統(tǒng)、大數(shù)據(jù)安全、大數(shù)據(jù)學(xué)科與人才4個維度探討大數(shù)據(jù)的系統(tǒng)性研究及人才領(lǐng)域的建設(shè)。
大數(shù)據(jù)的發(fā)展已經(jīng)有幾年的時間,大數(shù)據(jù)已經(jīng)成為大勢所趨,這已成為無可爭議的事實。總的來看,大數(shù)據(jù)的商業(yè)變現(xiàn)仍然不多,他認為這需要一個過程。大數(shù)據(jù)是一個新興領(lǐng)域,中國企業(yè)在大數(shù)據(jù)領(lǐng)域仍有很大的機會。首先,目前國際大數(shù)據(jù)公司在大數(shù)據(jù)領(lǐng)域的開發(fā)均是開源的,公開源代碼,中國企業(yè)可以直接獲益。其次,中國是第二大經(jīng)濟實體,有大量的數(shù)據(jù)積累,中國在大數(shù)據(jù)的發(fā)展上有很大的希望取得突破。
鄭緯民教授接受采訪
美國伊利諾伊大學(xué)芝加哥分校特聘主任教授、清華 大學(xué)數(shù)據(jù)科學(xué)研究院院長,ACM/IEEE Fellow俞士綸作為大會的名譽主席在主論壇上發(fā)表了“對異構(gòu)數(shù)據(jù)源的思考”的演講。他認為:大數(shù)據(jù)時代,數(shù)據(jù)可以改變很多細節(jié),我們要做的是找到有意義的數(shù)據(jù),并融合不同的數(shù)據(jù),將數(shù)據(jù)運用在實際的事情上。
俞士綸教授將數(shù)據(jù)庫比作藥品,將數(shù)據(jù)比作藥品的內(nèi)部結(jié)構(gòu):如果我們把來自不同領(lǐng)域的數(shù)據(jù)庫和數(shù)據(jù)聯(lián)在一起,我們將可以利用數(shù)據(jù)做出更好的預(yù)測。
俞士綸教授給出了相似的案例,豆瓣利用人們對于一個電影的喜愛程度,綜合這部電影和這個人以往看過電影的主演、導(dǎo)演、電影類型、人物性格等多種電影資訊就可以進行預(yù)測,抓住人與人之間的聯(lián)系,做出預(yù)測。但這種數(shù)據(jù)預(yù)測的效果又是因人而異的,有些人社交關(guān)系比較重要,但有些人卻沒有什么朋友,所以數(shù)據(jù)的預(yù)測要通過不同的路徑進行預(yù)測,就會減少誤差。
他認為:異構(gòu)數(shù)據(jù)可能是一張圖和與之相關(guān)的一段圖解,這是以兩個不同的方式來表達一件事。當我們從圖和文字找到相似的地方時,通過圖就可以找到相關(guān)的文字描述,通過文字描述就可以找到相關(guān)的圖片。如果將兩者聯(lián)系在一起,結(jié)果能更為準確。
俞士綸教授表示:現(xiàn)在是大數(shù)據(jù)時代,一個重要的事情是我們要怎么融合不同的數(shù)據(jù)。比如氣象預(yù)測,光做預(yù)測是根本賺不了錢的,但如果應(yīng)用在貨物運輸、農(nóng)業(yè)等具體領(lǐng)域,這些天氣數(shù)據(jù)可以改變很多細節(jié),提供更多便利,成為真正有價值的數(shù)據(jù)。所以,我們首先要了解什么是有意義的數(shù)據(jù),然后考慮如何把這些數(shù)據(jù)合在一起去提供更好的服務(wù)。
中國工程院院士鄔賀銓作為大會的名譽主席在會上作了“大數(shù)據(jù)之博大精深”的演講,他表示,目前已有的數(shù)據(jù)量相當大,具有“博”“大”“精”“深”的特點。
“博”指數(shù)據(jù)來源非常豐富,包括社會空間數(shù)據(jù)、物理空間數(shù)據(jù)和信息空間數(shù)據(jù)。按網(wǎng)絡(luò)層面劃分則包括自媒體數(shù)據(jù)、日志數(shù)據(jù)、富媒體數(shù)據(jù)、基礎(chǔ)網(wǎng)絡(luò)數(shù)據(jù)。其中國家安全數(shù)據(jù)、商業(yè)秘密數(shù)據(jù)、個人隱私數(shù)據(jù),這3方面的數(shù)據(jù)不能開放,開放的應(yīng)是其他的數(shù)據(jù)。
“大”指現(xiàn)有數(shù)據(jù)量已經(jīng)遠遠超過傳統(tǒng)的研究范圍。現(xiàn)在互聯(lián)網(wǎng)的數(shù)據(jù)流量每年新增40%,每兩年的數(shù)據(jù)量就增加了兩翻,可以預(yù)計,到2020年,全球的數(shù)據(jù)量要超過40 ZB。大數(shù)據(jù)需要的數(shù)據(jù)量大,當數(shù)據(jù)量較少的時候,采用矩陣聚類分析的誤差較大,只有當數(shù)據(jù)大于一定量的時候才可以使用。
“精”不是指追求精準,還是指強調(diào)規(guī)律。這可以理解為對于一個大數(shù)據(jù)集而言,我們很難要求所有數(shù)據(jù)都精準,只要大多數(shù)數(shù)據(jù)有代表性,并不妨礙數(shù)據(jù)集合得到較為準確的結(jié)果。
“深”指對大數(shù)據(jù)的運用應(yīng)該更深層次。大數(shù)據(jù)的分析不僅需要大量的數(shù)據(jù),還需要建立模型。現(xiàn)在利用GPU可模擬超大型人工神經(jīng)網(wǎng)絡(luò),最近百度、谷歌在這方面都取得了較好的進展。
中國工程院院士方濱興在會議上表示,云安全分為4個層面:第一是可靠的云,能夠始終可靠地提供服務(wù);第二是安全云,保障用戶及租戶在云中不會因攻擊而受到損害;第三是可信云,保障云服務(wù)商不會對租戶的運行進行侵害;第四是可控的云,保障租戶不會利用云運算惡意程序。
大數(shù)據(jù)由云平臺進行存儲和處理,分工更細,另外,數(shù)據(jù)的所有權(quán)和管理權(quán)分離,這種分離導(dǎo)致數(shù)據(jù)不可控。而云監(jiān)控與云加密可打造可信的云,云監(jiān)控可防止云服務(wù)商作惡,保障云中數(shù)據(jù)安全;云加密可降低泄密風(fēng)險,無縫數(shù)據(jù)加密傳輸、支持任意云端平臺。
方濱興院士表示,云監(jiān)控與云加密有七大特點:第一,增加了云管控與審計,具備對云平臺和虛擬機全生命周期的細粒度管控和審計能力,具備對云平臺和虛擬機的安全加固能力;第二,多終端無縫介入,隨時進行操作;第三,智能權(quán)限策略,用戶進行敏感操作,可以拒絕;第四,精準指令控制;第五,文化內(nèi)容審計;第六,大數(shù)據(jù)分析;第七,更高安全系統(tǒng)。
中國科學(xué)院院士、上海交通大學(xué)副院長、IEEE Fellow梅宏在會上做了精彩的報告。梅宏院士認為:大數(shù)據(jù)作為一個現(xiàn)象的產(chǎn)生是由于信息技術(shù)不斷降低的成本以及互聯(lián)網(wǎng)及其延伸帶來的無處不在的信息技術(shù)的廣泛應(yīng)用。世界各國高度重視大數(shù)據(jù),但是存在幾個問題:大數(shù)據(jù)的應(yīng)用還屬于初級發(fā)展階段,現(xiàn)在很多數(shù)據(jù)、案例很難被看作典型的成功案例,很多是傳統(tǒng)的方法在技術(shù)上的拓展——“新瓶裝舊酒”,屬于統(tǒng)計的范疇。此外技術(shù)支撐能力也很不足。
梅宏院士表示:我國的大數(shù)據(jù)發(fā)展應(yīng)回歸理性。大數(shù)據(jù)對社會產(chǎn)生了重要的影響,但不能把所有的事都依靠大數(shù)據(jù)來解決。它可能會對我們的生產(chǎn)、生活帶來負面影響,如可能帶來數(shù)據(jù)所有權(quán)、隱私保護及信息安全等一系列的問題。當前的道德建設(shè)、法律建設(shè)以及技術(shù)手段建設(shè)仍處于滯后狀態(tài),而投資已經(jīng)很熱,應(yīng)該頂層規(guī)劃、示范引導(dǎo),要積極謀劃,審慎推進,避免一哄而上,造成超前投資或重復(fù)投資,總之,應(yīng)該“利用驅(qū)動”、“需求驅(qū)動”。
美國特拉華大學(xué)電子與計算機工程學(xué)院終身教授、ETI公司創(chuàng)始人與首席科學(xué)家、ACM/IEEE Fellow高光榮認為,發(fā)展大數(shù)據(jù)要突破3個門檻:其一,認清大數(shù)據(jù)和高性能計算的依托;其二,找到把大數(shù)據(jù)變成知識的途徑;其三,計算出大數(shù)據(jù)投資后產(chǎn)生的經(jīng)濟效益。
高光榮教授說,自己在國外一直從事高性能計算領(lǐng)域的研究。2005年,他接到一個項目,要求分析數(shù)據(jù)速度特別快。為了解決這個問題,他和團隊合作制造出一個機器——世界上第一臺大數(shù)據(jù)的超規(guī)模計算機,這些經(jīng)驗讓他對大數(shù)據(jù)有了直觀的認識。然而,高性能并非計算的“又一春”,眼下的高性能計算和大數(shù)據(jù)產(chǎn)業(yè)既面臨挑戰(zhàn),也擁有機遇。
高光榮教授認為,為了突破上面3個發(fā)展門檻,行業(yè)專家們需要先把自己的“門檻”打開,互相學(xué)習(xí),看看大數(shù)據(jù)和高性能計算到底有多少東西是共通的,從而找到維持大數(shù)據(jù)發(fā)展的辦法。
高光榮教授接受采訪
香港中文大學(xué)常務(wù)副校長、偉倫計算器科學(xué)與工程學(xué)講座教授、ACM/IEEE/AAAS Fellow華云生做了題為
“大數(shù)據(jù)研究的戰(zhàn)略思考”的精彩演講。華云生教授提出眾多實例,說明在對大數(shù)據(jù)進行研究的過程中,目前還面臨著很多挑戰(zhàn),包括對有用數(shù)據(jù)甚至是大數(shù)據(jù)的獲取、對核數(shù)據(jù)的獲取等。
華云生教授認為,應(yīng)該打破現(xiàn)存的這些障礙,并列舉了當前國際上對大數(shù)據(jù)進行的研究項目,提出了大數(shù)據(jù)研究的領(lǐng)域,包括環(huán)境、安全、運輸、教育、通信、網(wǎng)絡(luò)安全、智慧城市、金融、醫(yī)療等。華云生教授最后說,大數(shù)據(jù)發(fā)展需要有一個需求,有了需求才可以做出結(jié)果。另外,對大數(shù)據(jù)我們要從上到下進行管理,積極打破障礙才可以做出有用的大數(shù)據(jù)研究。
華云生教授接受采訪
美國俄亥俄州立大學(xué)教授、ACM/IEEE Fellow張曉東在會上就“數(shù)據(jù)分析將對人類自身的了解達到前所未有的高度”做了精彩的報告。
張曉東教授表示,隨著計算機的不斷演進、數(shù)據(jù)量逐漸增大,數(shù)據(jù)處理面臨諸多挑戰(zhàn)。第一個挑戰(zhàn)是原有的通用數(shù)據(jù)庫技術(shù)不能滿足大數(shù)據(jù)可擴展和高容錯的需求,第二個挑戰(zhàn)是傳統(tǒng)的數(shù)據(jù)管理的商業(yè)模式不被日益增加的非盈利用戶接受。大數(shù)據(jù)分析是走向理性決策的重要基礎(chǔ)。大數(shù)據(jù)分析主要目的是學(xué)到知識,從巨大、不規(guī)則和零散的數(shù)據(jù)中找到新知識,既可以做出完美科學(xué)決策,同時可以消除感性、教條和口號式的決策,也可以憑借經(jīng)驗和直覺將其作為重要的參考。大數(shù)據(jù)讓我們更清晰地看到社會本質(zhì)和認識自身,從而使違背規(guī)律和人的本性的決策大大減少。大數(shù)據(jù)分析的本質(zhì)不是數(shù)據(jù)量的大,而是分析結(jié)果的科學(xué)性。
張曉東教授感慨道:20世紀90年代時,預(yù)測互聯(lián)網(wǎng)的出現(xiàn)和完備將對整個工業(yè)生產(chǎn)和人類日常生活做出顛覆性的變化,現(xiàn)已全部應(yīng)驗。今天通過對大數(shù)據(jù)的分析,我們對人類自身的了解將達到一個前所未有的高度,越來越多的普適價值是以數(shù)據(jù)為基礎(chǔ)的。數(shù)據(jù)是檢驗真理的一個重要標準。
張曉東教授接受采訪
英國帝國理工學(xué)院數(shù)據(jù)科學(xué)研究所終生教授、所長郭毅可就“數(shù)據(jù)科學(xué)和科學(xué)數(shù)據(jù)”做了精彩報告。
郭毅可教授介紹了英國帝國理工學(xué)院數(shù)據(jù)科學(xué)研究所主要的工作方法和思路。他認為大數(shù)據(jù)存在的原因,不是計算機發(fā)展太快,而是科學(xué)數(shù)據(jù)發(fā)展太快。英國帝國理工學(xué)院數(shù)據(jù)科學(xué)研究所主要做數(shù)據(jù)驅(qū)動科學(xué)方面的研究,以數(shù)據(jù)科學(xué)作為技術(shù)來推動科學(xué)的交叉。數(shù)據(jù)科學(xué)研究所的主要任務(wù)包括5方面:一是做研究;二是做教育,把數(shù)據(jù)科學(xué)內(nèi)容嵌入各個系的碩士教育中心;三是開發(fā)一些技術(shù),為學(xué)校科學(xué)研究提供幫助;四是與工業(yè)合作,獲得比較多的科研經(jīng)費;五是影響力,跟政策、政府、國際合作。關(guān)于數(shù)據(jù)研究,研究方向包括3個方面:一是繼承與承接;二是感知與交互;三是學(xué)習(xí)與認識的方向。郭毅可教授認為數(shù)據(jù)科學(xué)是當代科學(xué)的重要基礎(chǔ)和方法論,而且科學(xué)研究推動了數(shù)據(jù)科學(xué)的許多方面和基礎(chǔ)方法的發(fā)展,他們將在這些方向上努力。