張平文,鄂維南,袁曉如,傅毅明
1. 北京大學數(shù)學科學學院,北京 100871;2. 北京大學大數(shù)據(jù)科學研究中心,北京 100871;3. 北京大學信息科學技術學院,北京 100871;4. 北京大數(shù)據(jù)研究院,北京 100871
目前,我國在大數(shù)據(jù)發(fā)展和應用方面已具備一定基礎,擁有一定的市場優(yōu)勢和發(fā)展?jié)摿?,但也存在政府?shù)據(jù)開放共享不足、產(chǎn)業(yè)基礎薄弱、缺乏頂層設計和統(tǒng)籌規(guī)劃、法律法規(guī)建設滯后、創(chuàng)新應用領域不廣等問題,這些問題亟待解決?!秶鴦赵宏P于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》提出“加大大數(shù)據(jù)關鍵技術研發(fā)、產(chǎn)業(yè)發(fā)展和人才培養(yǎng)力度,著力推進數(shù)據(jù)匯集和發(fā)掘,深化大數(shù)據(jù)在各行業(yè)創(chuàng)新應用,促進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展”,強調推進基礎研究和核心技術攻關。
針對我國大數(shù)據(jù)挖掘與分析能力弱、大數(shù)據(jù)算法應用和綜合能力不高等問題,急需開展關鍵技術的攻關研發(fā)與突破工作。為踐行國家大數(shù)據(jù)戰(zhàn)略,北京大學牽頭,聯(lián)合中國科學院數(shù)學與系統(tǒng)科學研究院、中山大學、北京奇虎科技有限公司、北京嘀嘀無限科技發(fā)展有限公司、中國信息安全研究院有限公司等多家單位,共同申請建設大數(shù)據(jù)分析與應用技術國家工程實驗室,并于2017年初獲得了國家發(fā)展和改革委員會的正式批復。其目標是圍繞數(shù)據(jù)科學理論體系、大數(shù)據(jù)計算系統(tǒng)與分析理論等重大基礎研究進行前瞻布局,開展數(shù)據(jù)科學研究,引導和鼓勵在大數(shù)據(jù)分析的理論、方法及關鍵應用技術等方面展開探索;加強數(shù)據(jù)清洗、大數(shù)據(jù)分析發(fā)掘、大數(shù)據(jù)可視化等領域關鍵技術攻關;圍繞多源異構數(shù)據(jù)分析,針對視頻、文本等多種數(shù)據(jù)類型,研究大規(guī)模機器學習的基礎和創(chuàng)新方法,依托合作支撐單位開展面向大數(shù)據(jù)分析的全流程框架和工業(yè)標準的設定、大規(guī)模數(shù)據(jù)分析系統(tǒng)平臺的搭建;針對多項代表性應用的大數(shù)據(jù)分析應用平臺進行設計和優(yōu)化,注重大數(shù)據(jù)分析理論和系統(tǒng)的源頭創(chuàng)新,提升數(shù)據(jù)分析處理能力、知識發(fā)現(xiàn)能力和輔助決策能力;切實和有效地突破目前我國在大數(shù)據(jù)分析和應用方面的技術瓶頸,形成一整套具有國際影響力的大數(shù)據(jù)分析系統(tǒng)軟件,推動我國大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。本文將系統(tǒng)地分析我國大數(shù)據(jù)分析與應用的五大共性技術的瓶頸和解決思路,介紹大數(shù)據(jù)分析系統(tǒng)開發(fā)平臺、大數(shù)據(jù)系統(tǒng)測試評估平臺、大數(shù)據(jù)分析可視化展示平臺、重大應用示范與系統(tǒng)集成平臺四大支撐平臺的設計與應用,并對大數(shù)據(jù)分析與應用技術國家工程實驗室未來的發(fā)展方向和重點工作進行展望。
如圖1所示,在一個典型的大數(shù)據(jù)分析與應用流程中,數(shù)據(jù)經(jīng)過預處理后,采用以大數(shù)據(jù)統(tǒng)計為代表的共性模型和算法與大數(shù)據(jù)挖掘技術進行計算分析,再結合高度智能靈活的可視分析,最后支持復雜場景下的智能決策。分析的結果將進一步反饋到數(shù)據(jù)處理,并再次進入分析過程,進一步提供基于數(shù)據(jù)的洞見能力和決策支持。可見,在大數(shù)據(jù)分析與應用中,大數(shù)據(jù)預處理與質量控制技術、大數(shù)據(jù)分析支撐理論與算法、大數(shù)據(jù)挖掘技術、大數(shù)據(jù)可視分析技術、大數(shù)據(jù)智能知識管理與決策支持技術構成了大數(shù)據(jù)分析與應用的五大共性技術。這五大共性技術也是構建大數(shù)據(jù)分析與應用技術創(chuàng)新平臺的關鍵環(huán)節(jié)。
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)來源的多樣性決定了不同數(shù)據(jù)源提供的數(shù)據(jù)可信度是不同的。數(shù)據(jù)的錯誤可能來自于數(shù)據(jù)生成和融合的各個階段,包括實體和關系抽取、融合等。
圖1 大數(shù)據(jù)分析與應用技術創(chuàng)新平臺的總體框架
(1)數(shù)據(jù)中的可信度建模問題
在對復雜結構數(shù)據(jù)的可信度進行建模時,需要采用“不確定性”和“數(shù)據(jù)溯源”兩個維度。對于不確定性而言,可以采用概率圖模型對所研究的復雜結構數(shù)據(jù)進行數(shù)據(jù)建模,其中根據(jù)應用的需要考慮圖模式中的點、邊的不確定性以及它們之間的互相依賴關系。除此以外,還考慮到復雜結構數(shù)據(jù)的多源特性,不同的數(shù)據(jù)源提供的數(shù)據(jù)的可信度是不同的。在對數(shù)據(jù)的不確定性建模的基礎上,還要考慮數(shù)據(jù)的“溯源”問題。大數(shù)據(jù)分析與應用技術創(chuàng)新平臺將數(shù)據(jù)的不確定性和溯源作為一種統(tǒng)一的元數(shù)據(jù),為描述關聯(lián)數(shù)據(jù)的可信度提供建模。
(2)數(shù)據(jù)中的數(shù)據(jù)質量檢測和評估
數(shù)據(jù)質量決定了數(shù)據(jù)的可用性。傳統(tǒng)的數(shù)據(jù)質量檢測方法中,最經(jīng)典的方法是挖掘數(shù)據(jù)之間的函數(shù)依賴關系以及帶有約束的函數(shù)依賴等。然而這些方法只考慮了關系數(shù)據(jù)庫表中各個列之間的函數(shù)依賴關系。數(shù)據(jù)質量的檢測需要研究復雜數(shù)據(jù)的數(shù)據(jù)質量問題。例如知識圖譜數(shù)據(jù)的數(shù)據(jù)質量問題需要考慮兩個方面的特征:圖結構特點以及知識圖譜數(shù)據(jù)中的本體語義。
(3)大數(shù)據(jù)抽樣
大數(shù)據(jù)分析中有很多問題,其中一個很重要的問題是計算精度和計算復雜度的平衡。一個好的計算方法一方面要誤差小,另一方面要計算速度快。大數(shù)據(jù)分析中這兩方面目標幾乎不能同時達到。當前應發(fā)展更普適的、更穩(wěn)健的再抽樣方法,其普適性將表現(xiàn)在適合于廣義線性模型以及一般凸優(yōu)化問題,其穩(wěn)健性將表現(xiàn)在統(tǒng)計推斷結果的精確性,即均方誤差的減小。
數(shù)據(jù)分析算法大致可以分為計算數(shù)學算法、統(tǒng)計算法、計算機算法、優(yōu)化算法等。由于這些算法來源于不同領域,其側重點和使用的主要工具都有所不同,然而它們之間又有著千絲萬縷的關系,相互關聯(lián)。
(1)大數(shù)據(jù)分析的計算數(shù)學理論與算法
計算數(shù)學包括數(shù)值分析、數(shù)值代數(shù)和最優(yōu)化等,為大數(shù)據(jù)分析提供了堅實的理論和算法基礎,也拓展了大數(shù)據(jù)分析的應用領域與范圍。在大數(shù)據(jù)的研究中,要推動變分法、偏微分方程、低秩和稀疏優(yōu)化的結合,為圖像科學和醫(yī)療影像提供新的數(shù)學模型和數(shù)值方法;推動計算數(shù)學與機器學習的結合;推動偏微分方程與機器學習的結合,發(fā)展高維數(shù)據(jù)分類、聚類和降維的新方法和理論。針對數(shù)據(jù)模型,可以推廣基于多尺度的降維方法在物理模型中的應用,例如圖像表示的小波方法就可以看成一個多尺度方法。深度學習網(wǎng)絡的訓練也和多重網(wǎng)格算法有很多相似之處,可以系統(tǒng)地研究多尺度方法在非結構數(shù)據(jù)分析中的應用?;诙鄬哟紊窠?jīng)網(wǎng)絡的深度學習方法可以看成一種自適應、多尺度、多層次的表示方法,加深了對深度學習的理解,有助于找出其基本原理并推廣。神經(jīng)網(wǎng)絡也可以看成一種特殊的圖模型,從圖模型的角度來看,神經(jīng)網(wǎng)絡有希望發(fā)展出更一般的多尺度、多層次模型。多年來,在計算數(shù)學領域發(fā)展出了一系列行之有效的并行算法、隨機分析方法和張量分析方法,這為大數(shù)據(jù)分析提供了有效的途徑。優(yōu)化算法是計算數(shù)學和大數(shù)據(jù)分析的主要課題之一,實驗室將研究在大數(shù)據(jù)中如何發(fā)展有效的優(yōu)化算法。
(2)大數(shù)據(jù)統(tǒng)計分析方法
在分析大數(shù)據(jù)時,比較大的一個挑戰(zhàn)是如何處理大數(shù)據(jù)的復雜性和不確定性,需要運用統(tǒng)計學原理及方法、機器學習方法來處理這兩方面分析中的技術問題。數(shù)據(jù)的不確定性會帶來預測結果的不確定,在統(tǒng)計中可以用隨機變量的分布來描述數(shù)據(jù)的不確定性,然后用置信區(qū)間或置信帶來量化預測結果的不確定性。
隨著計算機硬件的發(fā)展與大數(shù)據(jù)時代的來臨,深度學習作為一種通用的人工智能算法,在近些年取得了巨大的成功。對比傳統(tǒng)的模式識別方法,深度學習不再需要人工進行特征設計,而是采用端到端的方式進行訓練,并在計算機視覺、語音識別和自然語言處理等很多領域都取得了突破性的進展。目前的深度學習算法主要面臨模型復雜度較高、速度慢以及需要大量訓練數(shù)據(jù)等問題。為了進一步推動深度學習的發(fā)展和廣泛應用,仍需要突破以下關鍵技術:深度神經(jīng)網(wǎng)絡模型的預測加速和模型壓縮、類人的深度學習過程以及新型的深度學習優(yōu)化方法等。隨著深度學習的不斷發(fā)展,各種復雜的網(wǎng)絡結構,特別是深層神經(jīng)網(wǎng)絡,由于靈活性較高,具有良好的表達能力,引起了越來越多的關注。但由于缺乏理論上的指導和支撐,目前深層神經(jīng)網(wǎng)絡的大量自由參數(shù)大多數(shù)情況下仍需依賴經(jīng)驗來調節(jié)與優(yōu)化,離理論上的最優(yōu)性能仍有較大差距。此外,如此復雜的模型很容易在特定的數(shù)據(jù)集上得到近乎理想的擬合效果,然而在推廣泛化性能上卻往往很難得到保障。為了推動深度學習的發(fā)展,繼續(xù)提高模型的性能,需要對復雜神經(jīng)網(wǎng)絡的優(yōu)化算法進行進一步的研究。
深度學習在許多領域都有廣泛的應用。在實際應用中,根據(jù)計算平臺資源等方面的限制,往往需要設計出不同計算復雜度的模型。由于缺乏系統(tǒng)性方法的指導,很多神經(jīng)網(wǎng)絡的超參數(shù)(如卷積神經(jīng)網(wǎng)絡的層數(shù)、每層卷積神經(jīng)網(wǎng)絡卷積核的類型與數(shù)量等)都需要依賴經(jīng)驗來設定,然后通過大量的實驗來驗證模型的性能。因此,將深度學習算法在特定問題上進行應用的關鍵是如何在學習的過程中簡單有效地完成超參數(shù)的自動選擇。
深度學習在監(jiān)督學習領域已經(jīng)取得了巨大的成功?;诒O(jiān)督學習的深度學習方法通常需要海量的標注數(shù)據(jù)進行訓練,從而保證模型的推廣性能。但在很多應用中,標注數(shù)據(jù)往往很難獲得或者獲得成本過高,而沒有標注的原始數(shù)據(jù)往往很容易獲得。相對地,人腦可以在沒有監(jiān)督信息時主動地從周圍環(huán)境中學習。因此,要實現(xiàn)更加高級的智能行為,現(xiàn)有深度學習算法需要突破傳統(tǒng)的監(jiān)督學習模式,從監(jiān)督學習向半監(jiān)督學習乃至無監(jiān)督學習轉變,借鑒人與環(huán)境之間的交互過程,主動且自動地完成增強學習,以擺脫對監(jiān)督信息的依賴,在更嚴苛的環(huán)境下完成學習任務。
在大數(shù)據(jù)挖掘技術方面,該實驗室主要關注文本、視頻、時空等典型數(shù)據(jù)類型,同時大力開展大規(guī)模并行數(shù)據(jù)挖掘技術的研發(fā)。
(1)文本大數(shù)據(jù)分析技術
深度語義分析、跨領域跨語言情感分析、大規(guī)模高精度文本知識挖掘、智能文本對話、語義搜索引擎等是實現(xiàn)大規(guī)模文本數(shù)據(jù)挖掘和自然語言理解的基礎技術。設計制造自動人機對話平臺(即智能問答機器助理)被認為是現(xiàn)代人工智能的一項充滿挑戰(zhàn)也極具困難性的任務。能主動引領新話題的對話模式(即主動式智能問答機器助理)對于現(xiàn)有的被動式人機對話模式而言是全新的突破。語義搜索引擎的應用可以大規(guī)模定制化采集任意多個網(wǎng)址、網(wǎng)頁和文檔信息,利用語義搜索引擎分析相關內容,篩選有價值的信息,構建語義索引,自動匯聚。該平臺用于大規(guī)模文本的信息篩查和收集,可有效實現(xiàn)基于語義的信息與知識匯聚,有利于基于文本大數(shù)據(jù)技術的應用,實現(xiàn)科學決策?;谠撈脚_,可以開發(fā)行業(yè)知識服務與決策支持系統(tǒng)(如智能輔助診療、智能新聞報道)、智庫信息服務(智能產(chǎn)品服務、智庫系統(tǒng))、通用個人知識助理等行業(yè)、專業(yè)及通用的知識服務應用。
(2)面向海量視頻圖像數(shù)據(jù)的語義分析技術
基于語義的圖像視頻分析是計算機視覺和多媒體領域的一個基本問題,與人工智能、機器學習、人機交互等領域緊密相關。其中,圖像數(shù)據(jù)相關的主要任務有圖像分類、物體檢測等,視頻相關的任務包括多媒體語義事件檢測、視頻語義標注等。由于視覺數(shù)據(jù)的特征表達與真實的語義之間存在“語義鴻溝”的問題,盡管現(xiàn)有的研究工作提出了大量理論與算法,上述問題仍然面臨著巨大的挑戰(zhàn)。特別地,在圖像、視頻數(shù)量爆炸式增長的今天,如何充分挖掘海量視覺數(shù)據(jù)及其語義標注信息成為新的技術難題。傳統(tǒng)的機器學習模型往往無法充分表達海量視頻圖像數(shù)據(jù)的語義復雜度,并進而構建高效的用于預測的模型。因此,需要針對海量視頻圖像數(shù)據(jù)的特性進一步擴展與增強現(xiàn)有的模型、理論和算法,并在公開的數(shù)據(jù)集上評測其性能。面向海量視頻圖像數(shù)據(jù)的語義分析技術研究需要突破的關鍵問題有圖像快速索引、多媒體事件檢測、視頻語義標注等。
(3)時空數(shù)據(jù)分析技術
時空數(shù)據(jù)挖掘主要分為以下幾類:時空模式挖掘、時空聚類、時空分類、時空異常檢測等。在應用層面,可以以社會經(jīng)濟現(xiàn)象感知為目標,以時空大數(shù)據(jù)為基礎,并以時空數(shù)據(jù)挖掘算法為支撐,發(fā)展一系列分析方法,包括個體移動行為模式分析、活動時間變化特征分析、場所情感語義分析等。移動是個體層次空間行為最直接的外在表現(xiàn),個體移動行為模式分析是利用時空大數(shù)據(jù)中的移動軌跡信息研究個體移動模式或模型的方法;活動時間變化特征分析是指基于城市不同區(qū)域對應的活動日變化曲線,研究其用地特征和在城市運行中所承載的功能;同時,社交媒體(如推特、微博等)中包含了大量文本數(shù)據(jù),這些數(shù)據(jù)成為語義信息獲取的重要來源,其中帶有位置的社交媒體數(shù)據(jù)通常占3%,可以利用這部分數(shù)據(jù)揭示與地理位置有關的語義信息,即進行面向場所的情感語義分析。
(4)大規(guī)模并行數(shù)據(jù)挖掘技術
考慮到當前開放互聯(lián)環(huán)境中海量數(shù)據(jù)挖掘和應用的需求,該實驗室將充分考慮分布式數(shù)據(jù)的特點,結合不斷發(fā)展的、多樣的存儲和計算環(huán)境,研究海量分布式數(shù)據(jù)挖掘的理論、方法和技術、規(guī)范體系,力爭使我國在相關領域的研究成果進入國際領先行列,重點突破海量數(shù)據(jù)挖掘系統(tǒng)體系結構、基于云計算的數(shù)據(jù)模型、分布式數(shù)據(jù)挖掘算法(包括分類算法、關聯(lián)規(guī)則算法、主成分分析算法)等關鍵技術。
可視分析是對大數(shù)據(jù)進行分析的一種有效手段,日益受到重視。在中國計算機學會大數(shù)據(jù)專家委員會發(fā)布的2014—2016年大數(shù)據(jù)發(fā)展十大趨勢中,可視分析技術連續(xù)3年被列入其中。可視分析技術的目標是使數(shù)據(jù)分析過程透明化。它結合了可視化、人機交互和自動分析技術。在一個典型的可視分析流程中,自動分析的結果通過可視化展示給用戶,用戶通過人機交互技術評價、修改和改進自動分析模型,從而得到新的自動分析結果。通過這種方式,可視分析技術將人的經(jīng)驗智慧與機器的運算能力緊密地結合在一起。這其中,由人來定義分析任務的模式,由機器來存儲和分析大量的數(shù)據(jù)。分析結果的可視化則成為人與機器合作的橋梁。
● 大數(shù)據(jù)原位可視分析技術。最初的面向科學的原位可視化技術將數(shù)據(jù)處理與可視化代碼、數(shù)值模擬代碼進行耦合,在數(shù)值模擬程序運行的過程中進行若干處理與可視化工作,即時對相關特征進行提取并存儲,從而能在后續(xù)處理中得到完整、精確和可靠的數(shù)據(jù)分析和可視化結果,用以支持用戶的探索與分析。原位處理能在保證數(shù)據(jù)精度的同時,大幅減少所需數(shù)據(jù)存儲、數(shù)據(jù)傳輸以及后續(xù)處理的代價。同時,原位處理的過程中,也能即時產(chǎn)生相關的可視化內容,用戶可以基于內容對模型模擬過程進行監(jiān)測、調整和操控。同樣的思路可以被推廣到一般意義上的復雜大數(shù)據(jù)分析中,在大數(shù)據(jù)產(chǎn)生和運輸過程中,同步開展有效的可視化工作,可解決大數(shù)據(jù)可視化的瓶頸問題。
● 多尺度時空可視分析技術。面對多種不同來源、不同粒度的數(shù)據(jù),如何在時空內進行融合是分析時空數(shù)據(jù)的巨大挑戰(zhàn)。在統(tǒng)一空間內,將多源數(shù)據(jù)進行可視化處理并提供有效的可視分析手段是目前的研究熱點之一。多尺度時空可視分析技術是探索應對大規(guī)模、異構的時空數(shù)據(jù)時較為通用的交互式分析和探索方法。
● 支持態(tài)勢感知的大數(shù)據(jù)可視分析技術。傳統(tǒng)的數(shù)據(jù)分析任務主要是針對單個或者一類數(shù)據(jù)進行的分析,隨著大數(shù)據(jù)的出現(xiàn),各式各樣具有隱性相關關系的數(shù)據(jù)涌現(xiàn)出來。在一些復雜任務中,往往需要同時對不同類別的數(shù)據(jù)進行采集、監(jiān)控、分析以及響應。支持用戶對這類分析過程進行實時感知把握是今后可視分析需要具備的重要功能。
面向大數(shù)據(jù)的知識發(fā)現(xiàn)、管理和決策支持服務平臺是大數(shù)據(jù)分析流程中關鍵的一環(huán)。其中包括4個方面的主要內容:一是面向多源異構數(shù)據(jù)源的知識圖譜構建和融合,將不同的數(shù)據(jù)源的數(shù)據(jù)進行有效的整合,形成面向一個領域或者開放領域的完備的知識圖譜;二是海量知識數(shù)據(jù)的存儲和查詢等數(shù)據(jù)管理問題,一個面向海量知識數(shù)據(jù)的高效的知識圖譜數(shù)據(jù)管理系統(tǒng)是提供知識服務和支撐上層決策的基礎;三是智能知識檢索和分析,筆者希望為用戶提供一種基于可視化技術的、交互式的知識數(shù)據(jù)訪問和分析的平臺接口,方便普通用戶使用知識圖譜;四是在上述知識圖譜的構建和分析的基礎上,針對復雜的問題提出定性定量綜合集成建模體系,從而有效支持相關決策。
針對上述技術,大數(shù)據(jù)分析與應用技術創(chuàng)新平臺將搭建相應的支撐平臺,支持方法和系統(tǒng)的研發(fā)與落地。
大數(shù)據(jù)分析系統(tǒng)開發(fā)平臺建設專門面向大數(shù)據(jù)分析技術的支撐平臺與系統(tǒng),實現(xiàn)大數(shù)據(jù)機器學習算法的高效并行化,為各種機器學習算法提供統(tǒng)一的、用戶透明的調度過程。構建兩個面向大數(shù)據(jù)分析的算法庫:面向大數(shù)據(jù)統(tǒng)計與機器學習分析處理基礎算法的并行算法庫、面向大數(shù)據(jù)挖掘技術核心算法的并行算法庫。依托天河二號超級計算機,設計面向大數(shù)據(jù)分析與處理的軟件支撐平臺,包括基于天河二號的大數(shù)據(jù)可視化分析系統(tǒng)、支撐大數(shù)據(jù)可視化的基礎并行算法庫、實現(xiàn)知識圖譜的基礎并行算法庫與軟件系統(tǒng)支撐平臺。重點突破大數(shù)據(jù)背景下深度學習、數(shù)據(jù)挖掘等各類應用的共性問題,研究解決這些問題的基礎算法的并行性,研究并行編程框架及其支撐系統(tǒng),創(chuàng)建基于天河二號的大數(shù)據(jù)分析軟件支撐平臺與系統(tǒng)。
大數(shù)據(jù)分析系統(tǒng)測試評估平臺是一個綜合性試驗測試平臺,能夠實現(xiàn)各種大數(shù)據(jù)分析方法和系統(tǒng)在多種數(shù)據(jù)對象、應用場景下的主客觀質量測試和應用驗證。大數(shù)據(jù)分析系統(tǒng)測試評估平臺將建立標準測試方法和手段,并建立綜合性的測試數(shù)據(jù)集合,能夠提供多種情況下的測試評估能力,對其他平臺的結果具有良好的支撐作用。
大數(shù)據(jù)分析可視化展示平臺將提供先進的可視化顯示環(huán)境,提供對目標數(shù)據(jù)分析效果的高效可視化,提供高度沉浸式、高像素分辨率的大規(guī)模可視化設施。大數(shù)據(jù)分析的可視化通常需要同時展示大量、高精度、多角度的復雜圖形信息,以便使用者進行觀察與分析。
重大應用示范與系統(tǒng)集成平臺主要通過與共建單位合作,在安全、交通等方面建設包括多種應用在內的大數(shù)據(jù)重大應用示范與系統(tǒng)集成。
大數(shù)據(jù)分析與應用技術國家工程實驗室瞄準國家的重大需求進行發(fā)力和突破,同時,還將以企業(yè)和市場的需求為導向,以提高產(chǎn)業(yè)自主創(chuàng)新能力為目標,力爭在我國大數(shù)據(jù)分析與應用領域形成一批重大的標志性成果。
在科研與人才的體制機制上,積極進行探索和創(chuàng)新,與北京大學大數(shù)據(jù)科學研究中心、北京大數(shù)據(jù)研究院等院校機構和科研單位進行深度協(xié)作,整合各方資源,發(fā)揮各方優(yōu)勢,努力實現(xiàn)機構共建、人才聯(lián)聘、成果共享的“三位一體”運行新機制。
在大數(shù)據(jù)人才培養(yǎng)上,將以往的分學科、分階段的“串聯(lián)式”培養(yǎng)方式升級為多學科交叉、理論與實踐并行的“并聯(lián)式”培養(yǎng)方式,聯(lián)合北京大學數(shù)學科學學院、信息科學學院等院系,聚合數(shù)學、計算機、工程應用等多方面的資深專家,為大數(shù)據(jù)領域的優(yōu)秀人才營造良好的成長環(huán)境。在提高人才培養(yǎng)效率的同時,使其具備利用大數(shù)據(jù)相關理論與實踐經(jīng)驗解決具體問題的實戰(zhàn)能力。
大數(shù)據(jù)分析與應用技術國家工程實驗室依托北京大學建立研究環(huán)境與核心團隊,構建創(chuàng)新生態(tài)。針對大數(shù)據(jù)分析技術,建立研究開發(fā)和試驗平臺,開展針對大數(shù)據(jù)的預處理和質量控制、大數(shù)據(jù)的計算數(shù)學理論與算法、大數(shù)據(jù)的統(tǒng)計方法及理論、大規(guī)模機器學習方法、面向異構多源大數(shù)據(jù)的挖掘和分析、大數(shù)據(jù)的可視化以及知識計算和決策支持等方面的研究;針對重點行業(yè)應用和數(shù)據(jù)產(chǎn)業(yè)的發(fā)展需要,建立大數(shù)據(jù)分析系統(tǒng)和數(shù)據(jù)產(chǎn)業(yè)工業(yè)化應用的全流程開發(fā)框架和系統(tǒng)標準;并以支撐平臺為基礎,加強與支持單位以及優(yōu)勢單位和地區(qū)開展的合作研究,突破現(xiàn)有大數(shù)據(jù)分析的技術瓶頸,引領國內外大數(shù)據(jù)分析產(chǎn)業(yè)的發(fā)展,涌現(xiàn)一批具有自主知識產(chǎn)權、形成國際影響力的大數(shù)據(jù)分析系統(tǒng)平臺,為我國大數(shù)據(jù)分析產(chǎn)業(yè)的發(fā)展以及基于大數(shù)據(jù)的政府決策、企業(yè)創(chuàng)新等提供基礎支撐。
本文從我國大數(shù)據(jù)分析與應用的共性技術、大數(shù)據(jù)支撐平臺和應用的現(xiàn)狀和存在的問題出發(fā),介紹了大數(shù)據(jù)分析與應用技術國家工程實驗室建設的大數(shù)據(jù)分析與應用技術創(chuàng)新平臺技術架構。創(chuàng)新平臺圍繞數(shù)據(jù)科學理論體系、大數(shù)據(jù)計算系統(tǒng)與分析理論等重大基礎研究進行前瞻布局,開展數(shù)據(jù)科學研究,引導和鼓勵在大數(shù)據(jù)分析的理論、方法及關鍵應用技術等方面展開探索。創(chuàng)新平臺將引領大數(shù)據(jù)分析技術和國際標準發(fā)展,為我國大數(shù)據(jù)分析產(chǎn)業(yè)健康發(fā)展提供技術支撐、實驗中心和人才基地。在產(chǎn)學研結合方面,該平臺將成為支撐產(chǎn)業(yè)健康發(fā)展的核心試驗支撐平臺和充滿活力的開放式研究開發(fā)環(huán)境。