程學旗 劉盛華 張儒清
1 中國科學院計算技術(shù)研究所 北京 100190
2 中國科學院大學 計算機科學與技術(shù)學院 北京 100049
信息社會進入大數(shù)據(jù)時代后,人們的日常工作和行為、各種在線系統(tǒng)(如信息系統(tǒng)、工業(yè)生產(chǎn)線)的工作狀態(tài)、各類傳感器的信號、導航定位系統(tǒng)(全球定位系統(tǒng) GPS、北斗衛(wèi)星導航系統(tǒng)等)產(chǎn)生的記錄等作為“經(jīng)驗”被常規(guī)地記錄成為大規(guī)模數(shù)據(jù)。不同于以往為驗證科學理論和猜想而記錄和收集的科學大數(shù)據(jù),記錄這些大規(guī)模數(shù)據(jù)起初并沒有明確的科學目標。但是,它們卻制造了另外的機會。人們可以通過這些數(shù)據(jù)發(fā)現(xiàn)和總結(jié)出規(guī)律,并依據(jù)這些規(guī)律提升系統(tǒng)的效率,也可預測、判斷未來的趨勢,甚至輔助做出更加科學理性的決策[1]。這個過程所依賴的就是大數(shù)據(jù)分析處理技術(shù)。因此,大數(shù)據(jù)分析處理技術(shù)旨在利用數(shù)據(jù)科學的方法和廣泛記錄下來的數(shù)據(jù),以實現(xiàn)從數(shù)據(jù)到信息、信息到知識、知識到?jīng)Q策的價值轉(zhuǎn)換[2]。
當前,數(shù)字經(jīng)濟成為社會經(jīng)濟的一個重要內(nèi)涵,數(shù)據(jù)成為關(guān)鍵生產(chǎn)要素,大數(shù)據(jù)處理技術(shù)越來越深刻地影響著世界的運行狀態(tài)。隨著越來越多的數(shù)據(jù)被記錄、收集和存儲,如何深刻洞察數(shù)據(jù)分布規(guī)律、高效挖掘數(shù)據(jù)價值,成為智能化時代需要解決的關(guān)鍵問題。據(jù)美國國際數(shù)據(jù)公司(IDC)的報告,2020 年全球數(shù)據(jù)量為 44 ZB 左右,2025 年全球數(shù)據(jù)量將達到 175 ZB。而這些數(shù)據(jù)只有 2% 得到了留存,且留存的僅 50% 被使用過①Reinsel D, Gantz J, Rydning J.Data Age 2025: The Evolution of Data to Life-Critical, IDC White Paper.USA: IDC, 2017.。由此可見,線性提升的數(shù)據(jù)處理能力并無法匹配指數(shù)級增長的數(shù)據(jù)規(guī)模,使得兩者之間的“剪刀差”越來越大。與此同時,在龐大的數(shù)據(jù)空間中,對特定任務真正有價值的核心數(shù)據(jù)卻往往是極度稀疏或不完整的。以上現(xiàn)象即數(shù)據(jù)泛濫與高價值數(shù)據(jù)缺失并存的表現(xiàn)。
以互聯(lián)網(wǎng)平臺企業(yè)服務為代表的智能化應用大都采用“大數(shù)據(jù)+大模型+大算力”支撐的大數(shù)據(jù)分析處理技術(shù),主要通過系統(tǒng)的優(yōu)化來增加數(shù)據(jù)處理規(guī)模并提升計算性能,從而有效解決了一些相對低階復雜度的預測判定問題,如圖像分類、語音識別、結(jié)構(gòu)預測,以及規(guī)則明確的人機對弈游戲等。而在開放復雜的系統(tǒng)環(huán)境下,數(shù)據(jù)動態(tài)生成演化,影響系統(tǒng)運行狀態(tài)的不確定因素和變量巨大,從而導致一些高階復雜的問題難以直接模型化,或近似求解的結(jié)果不可信,如金融風險預測、個性智能診療、開放環(huán)境下的自動駕駛等。在這些高階復雜的真實系統(tǒng)中,數(shù)據(jù)采集分布往往是不穩(wěn)定和不完備的,這對要求精準判別的大數(shù)據(jù)分析處理模式提出了新的挑戰(zhàn)。
同時,解決數(shù)據(jù)與算法的安全可信問題也已迫在眉睫。數(shù)據(jù)流通共享的過程中面臨著數(shù)據(jù)濫用、隱私泄露的情況。數(shù)據(jù)本身可能也會引入真實世界存在的偏差,或者在對抗攻擊下數(shù)據(jù)被污染,使得大數(shù)據(jù)分析模型做出有偏的、錯誤的決策[3]。在大數(shù)據(jù)分析處理技術(shù)逐漸應用于關(guān)鍵領域的當下,如何讓大數(shù)據(jù)技術(shù)以一種安全可信的方式服務于各個領域,是未來大數(shù)據(jù)發(fā)展必須面對的又一個難題。
本文首先回顧了近 10 年來大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀,并針對數(shù)據(jù)泛濫與數(shù)據(jù)缺失并存、大數(shù)據(jù)分析研判的復雜不確定性和數(shù)據(jù)安全缺失等挑戰(zhàn),提出大數(shù)據(jù)分析的新范式和安全可信的大數(shù)據(jù)處理新架構(gòu),探索大數(shù)據(jù)支撐智能應用的新模式。在此基礎上,提出構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧,并展望新技術(shù)體系下的牽引性需求與重大應用。
近 10 年來,在產(chǎn)學研各界及政府主導的大力推動下,大數(shù)據(jù)技術(shù)架構(gòu)、生態(tài)環(huán)境及各行各業(yè)的大數(shù)據(jù)應用發(fā)展迅速。
海量數(shù)據(jù)促進了大數(shù)據(jù)技術(shù)架構(gòu)的發(fā)展。①大數(shù)據(jù)管理技術(shù)方面。傳統(tǒng)關(guān)系數(shù)據(jù)庫(SQL)主要處理較少數(shù)據(jù)和較小并發(fā)訪問規(guī)模,而且存在大量讀寫硬盤和日志記錄操作,難以橫向擴展,無法滿足互聯(lián)網(wǎng)應用的數(shù)據(jù)管理需求。為了實現(xiàn)更多的數(shù)據(jù)管理、更大規(guī)模的并發(fā)訪問及更多樣的數(shù)據(jù)模式,面向特定需求的各類非關(guān)系型數(shù)據(jù)庫(NoSQL)和從底層重構(gòu)的分布式關(guān)系數(shù)據(jù)庫(NewSQL)正在快速發(fā)展[4]。其中,NewSQL 保持了傳統(tǒng)數(shù)據(jù)庫支持事務處理正確執(zhí)行四要素(ACID)②指數(shù)據(jù)庫管理系統(tǒng)(DBMS)在寫入或更新資料的過程中,為保證事務(transaction)是正確可靠的,所必須具備的4個特性:原子性(atomicity,或稱不可分割性)、一致性(consistency)、隔離性(isolation,又稱獨立性)、持久性(durability)。和 SQL 標準查詢等特性,并具備與 NoSQL 同樣優(yōu)秀的可擴展性。②大數(shù)據(jù)處理技術(shù)方面。根據(jù)處理需求的不同,存在多種不同的并行計算模型,包括以 Hadoop、Spark 為代表的批處理,以 Spark Streaming、Flink、STORM 為代表的高實時性的流處理,以 Apache Beam、Lambda 為代表的流批一體混合處理[5],以及以 GraphX、Apache Giraph 為代表的圖處理③Gonzalez J E, Xin R S, Dave A, et al.Graphx: Graph processing in a distributed dataflow framework.(2014-10-06)[2021-12-31].https://dl.acm.org/doi/abs/10.5555/2685048.2685096.。同時,圖數(shù)據(jù)和實時數(shù)據(jù)處理的爆發(fā)性需求也推動了圖流處理模式的融合[6]。除此之外,計算硬件逐漸發(fā)展為多種計算單元(如 CPU、GPU、NPU 等)組成的異構(gòu)計算系統(tǒng),新型硬件和軟件的多層次融合進一步提升了大數(shù)據(jù)處理效率。③大數(shù)據(jù)分析技術(shù)方面。分析需求逐漸從小規(guī)模、單源、單一模態(tài)數(shù)據(jù)的統(tǒng)計挖掘分析轉(zhuǎn)變?yōu)楹A?、多源、多模態(tài)數(shù)據(jù)的復雜異質(zhì)關(guān)聯(lián)。深度學習技術(shù)的快速發(fā)展,推動了大數(shù)據(jù)分析模型能力的提升。神經(jīng)網(wǎng)絡模型在 2012 年的計算機視覺的目標識別項目 ImageNet 比賽奪冠后重回人們的視野,隨后誕生了一系列突破性的工作,包括知識圖譜提供知識服務、生成對抗網(wǎng)絡合成真實數(shù)據(jù)、AlphaGo 圍棋戰(zhàn)勝人類、GPT-3 預訓練語言模型等。此外,日益成熟的深度學習框架(如 TensorFlow、PyTorch、飛槳等)也降低了使用深度學習分析大數(shù)據(jù)的門檻。
近年來大數(shù)據(jù)分析處理技術(shù)飛速發(fā)展,催生了眾多大數(shù)據(jù)應用,賦能了大量行業(yè)的智能化發(fā)展,一些標志性的應用從模式和能力上顛覆了傳統(tǒng)的信息技術(shù)能力。①科學發(fā)現(xiàn)方面。DeepMind 公司的 Alphafold 可基于蛋白質(zhì)的基因序列數(shù)據(jù)預測蛋白質(zhì)的三維結(jié)構(gòu),進而分析蛋白質(zhì)的屬性,幫助生物學取得了重大進展[7]。②數(shù)字經(jīng)濟方面。電商平臺的興起,連接遍布全球各個角落的消費者和供貨方,通過交易大數(shù)據(jù)的精準分析,提高了交易效率,推動了在線支付與數(shù)字貨幣的使用,顛覆了社會征信的模式;基于大數(shù)據(jù)進行的金融風險研判、小微金融和普惠式金融等也促進了數(shù)字經(jīng)濟的繁榮。③社會安全方面。我國使用大數(shù)據(jù)方法輔助公共衛(wèi)生、金融等領域的社會治理與決策;美國嘗試研究大數(shù)據(jù)技術(shù)在解決社會不平等、城市政策制定方面的作用。④生命健康方面。英國基于海量學術(shù)論文和臨床試驗結(jié)果研發(fā)了治愈運動神經(jīng)衰退等多種藥物④https://www.technologyreview.com/10-breakthrough-technologies/2020.,以及近兩年各國大量使用的數(shù)字接觸追蹤技術(shù),輔助預測了疫情傳播速度和趨勢⑤https://www.technologyreview.com/2021/02/24/1014369/10-breakthrough-technologies-2021.,分別被列入《麻省理工科技評論》2020 年和 2021 年的“全球十大突破性技術(shù)”。國內(nèi)外大數(shù)據(jù)技術(shù)的應用改變了諸多傳統(tǒng)行業(yè)中耗時耗力的工作方式,取得了智能高效的豐碩成果。
大數(shù)據(jù)分析處理的繁榮離不開大規(guī)模數(shù)據(jù)資源共享、技術(shù)架構(gòu)開放和算法模型開源所形成的技術(shù)生態(tài)發(fā)展。①開源數(shù)據(jù)方面。開源數(shù)據(jù)支撐各類大數(shù)據(jù)技術(shù)的構(gòu)建。例如,2009 年美國斯坦福大學發(fā)布的視覺數(shù)據(jù)集 ImageNet[8]、2015 年美國麻省理工學院發(fā)布的大規(guī)模醫(yī)療信息數(shù)據(jù)庫 MIMIC-Ⅲ[9]、2020 年斯坦福大學發(fā)布的圖數(shù)據(jù)集 Open Graph Benchmark[10],都極大地影響了大數(shù)據(jù)技術(shù)的發(fā)展。②開源軟件方面。Apache 軟件基金會基于 Hadoop 生態(tài)先后發(fā)布了一整套完善的分布式存儲與處理框架 Map-Reduce、線性代數(shù)計算框架 Mahout、機器學習庫 MLlib 等,旨在讓開發(fā)者快速實現(xiàn)和應用大數(shù)據(jù)分析處理算法。2014 年以來,深度神經(jīng)網(wǎng)絡的開源框架,如 Caffe、Tensorflow、PyTorch 等,更是為從大數(shù)據(jù)中學習面向不同任務的智能模型提供了重要支持。③開源模型方面?;诖笠?guī)模數(shù)據(jù)學習的 BERT、GPT3 等預訓練語言模型[11],大幅降低了相關(guān)技術(shù)的應用成本,拓寬了下游應用場景。此外,如何保障數(shù)據(jù)安全和個人隱私,最近也得到了各國政府和組織的高度重視。因此,兼顧技術(shù)發(fā)展和數(shù)據(jù)安全,平衡效率和風險,建立良好的大數(shù)據(jù)生態(tài)環(huán)境,仍需要進一步探索。
當前針對大規(guī)模異質(zhì)化數(shù)據(jù)集合,主流的大數(shù)據(jù)分析處理方法是在通用模型框架下不斷嘗試超大規(guī)模的模型參數(shù),實現(xiàn)“端到端”的分析推斷。在這種模式下,大數(shù)據(jù)分析處理能力很大程度依賴于算力平臺和數(shù)據(jù)資源的支持。在實際應用中,這些大數(shù)據(jù)分析處理技術(shù)面臨著真實場景和關(guān)鍵領域中數(shù)據(jù)泛濫與缺失并存、大數(shù)據(jù)分析研判的復雜不確定性、數(shù)據(jù)安全監(jiān)管缺失等挑戰(zhàn),最終使得分析處理存在過程可解釋性差、模型泛化能力弱、因果規(guī)律不清晰、研判結(jié)果不可信、數(shù)據(jù)價值利用率低等問題。為解決這些挑戰(zhàn)性問題,我們需要重新思考大數(shù)據(jù)處理架構(gòu)與分析模式,新一代的大數(shù)據(jù)分析處理技術(shù)體系應該在各種實時場景下實現(xiàn)高價值知識生成、持續(xù)在線的瞬時決策、安全可信的推理研判,以及適用于未來各種有人-無人結(jié)合的在線系統(tǒng)行動優(yōu)化。本文認為,新一代大數(shù)據(jù)分析處理至少需要滿足如下 4 個方面的需求。
(1)人在回路的計算范式。為解決現(xiàn)有大數(shù)據(jù)分析處理方法難以攻克的高階復雜問題,需要在其中引入人的智能與決策,強調(diào)人、機器及數(shù)據(jù)之間的有機交互。不同于原來的人機交互,即機器按照人的指令,或人聽機器的輸出結(jié)果,而是更關(guān)注人腦和機器思維的深度融合計算[12]。
(2)廣譜關(guān)聯(lián)的分析模式。為解決大數(shù)據(jù)價值密度低、極稀疏、不均勻、關(guān)鍵信息缺失的問題,一方面,融合各個對象在“人機物”融合的多域多維數(shù)據(jù)空間中留下的多元異構(gòu)信號,利用關(guān)聯(lián)增強信號;另一方面,融合數(shù)據(jù)與知識,構(gòu)建終生學習、可遷移擴展的知識體系,形成數(shù)據(jù)驅(qū)動與知識制導深度融合的新分析模式。
(3)在線增強的處理架構(gòu)。隨著萬物互聯(lián)和智能泛在發(fā)展,大數(shù)據(jù)云邊端協(xié)同計算技術(shù)和解耦化的云邊端處理框架成為熱點?;谠朴嬎悱h(huán)境下的流批混合處理將進一步向邊緣端發(fā)展,訓練學習與推理預測將在前端設備上融合一體。利用云邊端資源彈性調(diào)度能力,實現(xiàn)感知與認知能力前置,支持在線環(huán)境下基于動態(tài)活性數(shù)據(jù)的瞬時決策,從而形成去中心化、異構(gòu)分布、持續(xù)在線的新型計算框架。
(4)安全可信的大數(shù)據(jù)分析。安全可信是滿足關(guān)鍵領域和場景下認知和決策安全的基本需求。一方面,著重關(guān)注大數(shù)據(jù)分析處理結(jié)果的可解釋、可信和公平性[3,13];另一方面,實現(xiàn)數(shù)據(jù)在收集、存儲、使用、流通中的安全保護和異常檢測,保證在強對抗攻擊下分析處理模型與方法的魯棒性和免疫性。
在高效的大數(shù)據(jù)價值提取、安全可信的分析處理目標下,針對以上 4 個大數(shù)據(jù)分析處理的重要需求,未來急需建立自立自強的大數(shù)據(jù)分析處理技術(shù)新體系,發(fā)展新一代大數(shù)據(jù)分析處理軟件棧(圖 1),從底層數(shù)據(jù)操作系統(tǒng)、通用分析處理中間件、業(yè)務驅(qū)動的計算環(huán)境及框架 3 個方面進行研究。
圖1 新一代大數(shù)據(jù)分析處理軟件棧Figure 1 New big data analyzing and processing system stack
發(fā)展并涵蓋數(shù)據(jù)接入、流式處理、圖計算、訓推一體⑥在人工智能深度學習中指訓練和推理一體化。等多個方面的大數(shù)據(jù)系統(tǒng)軟件。
(1)數(shù)據(jù)接入方面。針對當前數(shù)據(jù)采集流程中數(shù)據(jù)來源繁多、數(shù)據(jù)類型混合及異質(zhì)數(shù)據(jù)存儲效率低下的難題,研究“人機物”融合的數(shù)據(jù)匯聚與融合方法,支持對多種數(shù)據(jù)源的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的采集與融合,探索高效的存儲算法,提高底層存儲空間利用效率,支持對數(shù)據(jù)的高效壓縮與還原,實現(xiàn)對“人機物”三元數(shù)據(jù)空間中的多源異構(gòu)數(shù)據(jù)進行高效感知、采集、融合與存儲,為系統(tǒng)提供高質(zhì)量的數(shù)據(jù)流接入。
(2)流式處理方面?,F(xiàn)有大數(shù)據(jù)處理框架中存在計算模式單一的問題,即單獨追求大批量或強時效。針對這一問題,將研究多計算模式融合的流式處理框架,支持批處理、流處理、圖處理等多種計算模式,實現(xiàn)低延時、大流量、強時效的數(shù)據(jù)處理,以應對不斷接入的高速數(shù)據(jù)流。
(3)關(guān)聯(lián)數(shù)據(jù)的計算方面?,F(xiàn)有計算框架難以適應圖結(jié)構(gòu)數(shù)據(jù)的強數(shù)據(jù)依賴性、高隨機訪存與非均勻冪律分布特性。針對這一問題,研究針對圖結(jié)構(gòu)和網(wǎng)絡大數(shù)據(jù)的計算引擎,提出大規(guī)模圖數(shù)據(jù)的新型分布式計算框架和并行計算機制,定制大規(guī)模圖數(shù)據(jù)的查詢語言標準與規(guī)范,實現(xiàn)圖查詢與圖分析語言的標準化。
(4)訓練推理方面。現(xiàn)有云端大數(shù)據(jù)處理架構(gòu)難以滿足大規(guī)模服務的實時性與計算資源需求。針對這一問題,研究云邊端協(xié)同的訓推一體框架,將大數(shù)據(jù)分析處理中的訓練與推斷流程從云端推向邊緣,支持訓推一體[14],在數(shù)據(jù)生成的邊端提供服務和執(zhí)行計算,實現(xiàn)“認知前置”和終生學習,以提供分布式、低延遲、持續(xù)在線的智能服務和瞬時決策。
從預處理、數(shù)據(jù)表征、語義分析與知識推理、決策研判到可視化的全技術(shù)鏈上升級創(chuàng)新。
(1)數(shù)據(jù)質(zhì)量處理與簡約計算方面。針對數(shù)據(jù)質(zhì)量處理,可發(fā)展利用群智技術(shù)挖掘高質(zhì)量數(shù)據(jù),以低成本、高效率的方式實現(xiàn)大規(guī)模數(shù)據(jù)的采集處理;針對簡約計算方面,可研究基于數(shù)據(jù)復雜度的近似計算理論和優(yōu)化算法框架,以此指導人們尋找面向計算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法,構(gòu)建具有高效計算能力的模型。
(2)大數(shù)據(jù)高階表征與建模方面。探索基于無監(jiān)督預訓練的數(shù)據(jù)表征學習的理論與方法,從大規(guī)模未標注的語料數(shù)據(jù)中抽取高層次語義抽象的數(shù)據(jù)表征,提高語義表征的泛化能力;研究基于小樣本數(shù)據(jù)的預訓練—微調(diào)模型,在大規(guī)模無監(jiān)督語料訓練得到的數(shù)據(jù)表征基礎上,構(gòu)建輔助上層任務的通用高質(zhì)量數(shù)據(jù)表征;探索基于領域知識的預訓練數(shù)據(jù)建模理論與方法,將人類知識融合到預訓練模型中,提升預訓練模型的學習效率等。同時,為應對數(shù)據(jù)多源異構(gòu)造成的知識隔閡,有必要進一步發(fā)展跨模態(tài)數(shù)據(jù)表征和建模、多源知識融合技術(shù),以實現(xiàn)全域知識聯(lián)合和利用。
(3)大數(shù)據(jù)驅(qū)動的語義分析與知識推理方面。研究面向細粒度語義單元的大數(shù)據(jù)語義融合方法,顯著提高多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)融合的效果;研究樣本稀疏環(huán)境下的領域知識獲取、大規(guī)模常識獲取與理解、知識獲取中的人機協(xié)作機制與方法,提升知識獲取的能力,大幅提高知識庫的規(guī)模;研究基于知識圖譜的可解釋分析方法、數(shù)據(jù)驅(qū)動與知識引導深度融合的新型語義分析方法,顯著提升知識驅(qū)動下各類模型的效果和可解釋性。
(4)人機結(jié)合的增量決策研判方面。未來大量物理設備、無人設備、人腦,通過泛在網(wǎng)絡實現(xiàn)“上線”和“互聯(lián)”,為人的參與提供了基本的物質(zhì)條件。人作為具備智能的自然系統(tǒng),如何參與到機器智能的系統(tǒng)回路中是一個關(guān)鍵問題。未來應重點解決思維融合或決策融合的問題,探索人腦數(shù)據(jù)及機器智能系統(tǒng)信息可相互轉(zhuǎn)換的新型數(shù)據(jù)科學理論,并設計高效能的計算方法。當下的算法模型不會隨著數(shù)據(jù)的生成而持續(xù)學習,即無法應對連續(xù)和意外變化的環(huán)境,特別是在任務關(guān)鍵型應用程序中更需謹慎。因此,研究持續(xù)學習、在線學習等技術(shù),實現(xiàn)算法模型持續(xù)在線瞬時決策十分必要。
(5)探索式可視化分析方面。研究新型的跨主體(人、機、物)可視交互理論,構(gòu)建多人協(xié)同的混合主動式可視分析范式,支持多人同時對相同或不同的可視化視圖進行多角度的探索,設計相應的可視表達與交互形式;研究圍繞大數(shù)據(jù)可視化的認知計算與聚合理解模型、方法與核心技術(shù),構(gòu)建人機協(xié)同智能及其驅(qū)動的大數(shù)據(jù)可視內(nèi)容與屬性的自動理解關(guān)鍵技術(shù);提升圍繞大數(shù)據(jù)可視化的計算機自動理解、表示與生成能力等,構(gòu)建大數(shù)據(jù)可視計算與交互技術(shù)體系。
從可組合的模塊化編程框架、可伸縮的大數(shù)據(jù)分析處理框架、任務感知的知識重構(gòu)模型裁剪這 3 個方面發(fā)力,為各行各業(yè)提供場景感知、共識感知的更優(yōu)質(zhì)和更靈活的分析處理環(huán)境。
(1)可組合的模塊化編程框架方面。未來可發(fā)展面向多業(yè)務可擴展、可重構(gòu)的敏捷開發(fā)框架,構(gòu)建多形態(tài)分析模式庫和智能業(yè)務編程框架,突破多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)分析和全息展示,實現(xiàn)對數(shù)據(jù)、算法、模型的高層次抽象,形成支撐面向任務場景的智能組合分析算子庫,實現(xiàn)智能算法的內(nèi)生性支持,賦能人機混合的交互式協(xié)同分析。
(2)可伸縮的大數(shù)據(jù)分析處理框架方面。未來可發(fā)展支持彈性計算、可伸縮模型、可彈性配置的處理框架,即根據(jù)實際應用的任務場景與計算資源的需求等方面劃分各種任務,滿足特定需求、精度需求、延時需求、實時性需求等;同時,構(gòu)建可伸縮的大數(shù)據(jù)分析處理框架,能夠靈活配置計算資源和數(shù)據(jù)規(guī)模,以實現(xiàn)彈性適配。
(3)任務感知的知識重構(gòu)和模型裁剪方面。未來可發(fā)展面向任務的高級知識計算語言和模型裁剪技術(shù),基于通用知識圖譜實現(xiàn)面向特定領域任務的知識重構(gòu),建立起常識與領域知識融合的知識計算引擎,顯著提升知識管理和利用的能力與效率。
(1)建立理論基礎。大數(shù)據(jù)分析處理技術(shù)新體系的建立,離不開基礎理論的突破。①建立數(shù)據(jù)復雜性和大數(shù)據(jù)可計算性理論?;貧w數(shù)據(jù)本原,探索數(shù)據(jù)在分布規(guī)律、結(jié)構(gòu)規(guī)則和時空尺度方面的規(guī)律性,以此設計高效能的計算方法。②探索異質(zhì)廣譜關(guān)聯(lián)的大數(shù)據(jù)分析理論。將各類目標在“人機物”融合的多維數(shù)據(jù)空間留下的微弱信號進行關(guān)聯(lián)放大,研究廣域開環(huán)、非統(tǒng)一量綱環(huán)境下瞬時決策推斷方法的收斂性理論。③研究大數(shù)據(jù)分析處理的安全可信理論。一方面,研究數(shù)據(jù)的安全共享和隱私計算理論,保障數(shù)據(jù)流通共享過程中的安全性;另一方面,研究數(shù)據(jù)的固有偏差性和數(shù)據(jù)遭受攻擊時的分析處理的魯棒性極限和可驗證理論,建立可防范、可審計、可追責的機制,保證強對抗環(huán)境下分析處理結(jié)果的可信。
(2)加大應用牽引。新大數(shù)據(jù)分析處理技術(shù)體系應能全面高效賦能行業(yè)、產(chǎn)業(yè)、安全領域。同時,還需要利用科學發(fā)現(xiàn)、生命健康、社會治理等牽引性應用場景來推動大數(shù)據(jù)分析處理新體系的健康、良性發(fā)展。①科學發(fā)現(xiàn)方面。研究借助大數(shù)據(jù)分析技術(shù)從大量實驗數(shù)據(jù)中發(fā)現(xiàn)科學規(guī)律,形成基于大數(shù)據(jù)分析的新型科學研究方法論。②生命健康方面。研究大數(shù)據(jù)方法用于輔助復雜化合物分子的發(fā)現(xiàn),降低新型藥物的研發(fā)成本,加快提升綜合醫(yī)療水平,利用大數(shù)據(jù)手段應對重大疫情和事件的高效用、持續(xù)在線決策。③社會治理方面。充分發(fā)揮大數(shù)據(jù)技術(shù)在多方復雜關(guān)聯(lián)問題、社會群體認知建模分析中的優(yōu)勢,構(gòu)建人工輔助智能決策系統(tǒng),實現(xiàn)政府決策科學化、社會治理精準化、公共服務高效化。
(3)數(shù)據(jù)治理生態(tài)環(huán)境。大數(shù)據(jù)技術(shù)的應用與發(fā)展離不開良性的數(shù)據(jù)治理和技術(shù)生態(tài)建設。①個人隱私保護。需要相應的法律法規(guī)加以規(guī)范。例如,歐盟2016年出臺了《通用數(shù)據(jù)保護條例》,幫助公民控制個人隱私數(shù)據(jù);我國于 2021 年發(fā)布了《中華人民共和國數(shù)據(jù)安全法》和《中華人民共和國個人信息保護法》,對大數(shù)據(jù)的采集與使用給予合理的管控和監(jiān)督。②保證數(shù)據(jù)的安全流通共享。需要建立數(shù)據(jù)流通交易規(guī)則規(guī)范,優(yōu)化數(shù)據(jù)共享、交易、流通相關(guān)的制度,明確數(shù)據(jù)權(quán)屬分配,探索數(shù)據(jù)交易市場,構(gòu)建有序的數(shù)據(jù)流通環(huán)境。
綜上所述,未來應發(fā)展突破通用模型架構(gòu)、分析模式和計算范式,建立新架構(gòu)、新模式、新范式,以及安全可信的大數(shù)據(jù)分析處理技術(shù)新體系;構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧;研究和發(fā)展相應的理論,踐行牽引性應用;建立良性的數(shù)據(jù)治理生態(tài),推動大數(shù)據(jù)分析處理技術(shù)的持續(xù)進步和跨越式發(fā)展。