自2012年起,中國計算機(jī)學(xué)會(CCF)大數(shù)據(jù)專家委員會(以下簡稱大專委)面向全體委員,發(fā)起了一年一度的大數(shù)據(jù)趨勢預(yù)測活動。站在年底展望來年大數(shù)據(jù)領(lǐng)域的發(fā)展趨勢,已經(jīng)成為大專委的一項品牌活動。2019年12月5日,在中國大數(shù)據(jù)技術(shù)大會(BDTC)開幕式上,CCF大專委正式發(fā)布了2020年大數(shù)據(jù)十大發(fā)展趨勢預(yù)測。本次預(yù)測匯集了160余名大專委委員的投票結(jié)果,參與投票的委員來自高校、科研院所、相關(guān)部委、大型央企、民營企業(yè)等不同團(tuán)體,具有廣泛的代表性。本文將介紹本次趨勢預(yù)測結(jié)果,分析歷年預(yù)測結(jié)果的變化趨勢,并對本次趨勢預(yù)測體現(xiàn)出的新變化進(jìn)行解讀。
按照得票數(shù)排序,大專委對2020年大數(shù)據(jù)十大發(fā)展趨勢的預(yù)測結(jié)果見表1。
表1 2020年大數(shù)據(jù)十大發(fā)展趨勢預(yù)測
同往年相比,本次的趨勢預(yù)測結(jié)果體現(xiàn)出以下共性。
● 大數(shù)據(jù)與人工智能的共生關(guān)系受到持續(xù)認(rèn)可。反映在預(yù)測結(jié)果上,2020年與人工智能相關(guān)的預(yù)測項(表1中的第1條、第4條)已經(jīng)連續(xù)4年出現(xiàn)在十大趨勢中。
● 對學(xué)科突破的期待心態(tài)依然存在。這體現(xiàn)在第2條預(yù)測項上,專家們認(rèn)可數(shù)據(jù)科學(xué)對多學(xué)科融合的推動作用,也重視基礎(chǔ)理論研究,但仍然不認(rèn)為短期內(nèi)能取得突破性進(jìn)展。
● 既要挖掘數(shù)據(jù)價值,又要在此過程中兼顧數(shù)據(jù)安全和隱私保護(hù)。與數(shù)據(jù)安全相關(guān)的預(yù)測項(表1中的第3條)是十大趨勢中的常青樹,歷年都會有與之相關(guān)的預(yù)測項。伴隨著2018年歐盟《通用數(shù)據(jù)保護(hù)條例(GDPR)》落地引發(fā)的關(guān)注、2019年我國網(wǎng)絡(luò)安全和信息化委員會辦公室《數(shù)據(jù)安全管理辦法(征求意見稿)》的出臺,2020年與數(shù)據(jù)安全相關(guān)的選項再度進(jìn)入前三名。
● 從數(shù)據(jù)到知識的途徑依然是關(guān)注熱點。從大數(shù)據(jù)中獲得知識和價值是人們利用大數(shù)據(jù)的一個基本需求,因此基于知識圖譜的大數(shù)據(jù)應(yīng)用以及與知識自動發(fā)現(xiàn)和挖掘相關(guān)的候選項(表1中的第5條、第9條)得到了較多關(guān)注。
● 大數(shù)據(jù)與區(qū)塊鏈的結(jié)合穩(wěn)中有升。區(qū)塊鏈?zhǔn)且豁棾霈F(xiàn)已有10年的技術(shù),在2019年下半年再度成為關(guān)注熱點。體現(xiàn)在本次預(yù)測結(jié)果上,與區(qū)塊鏈相關(guān)的預(yù)測項(表1中的第7條)排名較2019年上升一位。
對于上述在往屆趨勢預(yù)測結(jié)果中曾經(jīng)出現(xiàn)過的預(yù)測項,本文不再對其進(jìn)行詳細(xì)解讀,如需了解可參閱2019年的趨勢預(yù)測分析[1],本文重點關(guān)注2020年趨勢預(yù)測結(jié)果中的新面孔(表1中的第6條、第8條、第10條)。
數(shù)據(jù)融合技術(shù)是多源信息協(xié)調(diào)處理技術(shù)的總稱,數(shù)據(jù)治理是運用不同的技術(shù)工具對大數(shù)據(jù)進(jìn)行管理、整合、分析并挖掘其價值的行為[2]。數(shù)據(jù)融合治理是大數(shù)據(jù)應(yīng)用的基石,如果數(shù)據(jù)在融合中存在屬性偏差或信息損失,或者融合后的數(shù)據(jù)質(zhì)量低下,上層應(yīng)用的價值將無從保障。在行業(yè)大數(shù)據(jù)應(yīng)用實踐中解決了數(shù)據(jù)有無問題后,對數(shù)據(jù)質(zhì)量的管理將會成為最迫切的挑戰(zhàn)。目前業(yè)界還缺乏通用、有效的數(shù)據(jù)融合治理與數(shù)據(jù)質(zhì)量管理工具,這將成為大數(shù)據(jù)應(yīng)用向深層次發(fā)展的瓶頸。
大數(shù)據(jù)時代“一切皆數(shù)據(jù)”,被數(shù)字化的事物和流程越來越多。利用統(tǒng)計方法對數(shù)據(jù)進(jìn)行相關(guān)性分析,成為科學(xué)決策和預(yù)測的重要手段。然而相關(guān)性不等于因果性,許多在統(tǒng)計上具有強(qiáng)相關(guān)性的事物,在邏輯上并不存在直接或間接的因果性。如果無法分析出相關(guān)性背后的因果關(guān)系,不考慮結(jié)論的可解釋性,必然會影響決策的質(zhì)量和應(yīng)用范圍。例如,利用醫(yī)療大數(shù)據(jù)和人工智能算法,深度神經(jīng)網(wǎng)絡(luò)對病理圖像處理的準(zhǔn)確性已經(jīng)達(dá)到甚至超過普通醫(yī)師[3],但受限于深度學(xué)習(xí)的黑箱特性,目前仍然無法用深度神經(jīng)網(wǎng)絡(luò)取代醫(yī)師的診斷結(jié)論。專家預(yù)測:對數(shù)據(jù)中的因果性、對結(jié)果可解釋性的研究,將會受到更多的重視。
邊緣計算是指靠近數(shù)據(jù)源的處理模式,是一種分散式處理框架。過去大數(shù)據(jù)的概念往往和云計算綁定在一起,但在實際應(yīng)用中,將數(shù)據(jù)放在終端上進(jìn)行部分處理的方法具有實時性高、對網(wǎng)絡(luò)帶寬占用少、更有利于隱私保護(hù)等優(yōu)點。隨著終端處理能力的增強(qiáng),將部分計算任務(wù)部署在終端上,與云端任務(wù)進(jìn)行合理的分層解耦,成為一種可靠性更高、計算成本更低、實時性更強(qiáng)的計算框架。預(yù)期在未來的大數(shù)據(jù)處理模式中,邊緣計算和云計算將成為互補(bǔ)模型,共同發(fā)展。
自大專委2012年開展活動以來,已經(jīng)連續(xù)8年對大數(shù)據(jù)領(lǐng)域的發(fā)展趨勢進(jìn)行了預(yù)測。如果以3年為一個周期,對每年的趨勢預(yù)測結(jié)果進(jìn)行歸類和對比分析,可以清晰地感受到8年來大數(shù)據(jù)趨勢預(yù)測結(jié)果的變化情況,這也體現(xiàn)了大數(shù)據(jù)發(fā)展階段的變化。
● 2013—2015年:在該階段的趨勢預(yù)測項中,大數(shù)據(jù)概念剛剛產(chǎn)生,專家們關(guān)注大數(shù)據(jù)如何落地、如何從“概念”走向價值以及大數(shù)據(jù)與傳統(tǒng)行業(yè)的跨界融合。這期間的典型預(yù)測項包括“數(shù)據(jù)的資源化”(2013年,第1項)、“大數(shù)據(jù)從概念走向價值”(2014年,第1項)、“大數(shù)據(jù)分析成為數(shù)據(jù)價值化的熱點”(2015年,第1項)、“與各行業(yè)的結(jié)合,跨領(lǐng)域應(yīng)用”(2015年,第3項)等。
● 2016—2018年:在該階段的趨勢預(yù)測中,大數(shù)據(jù)概念已經(jīng)被各行業(yè)所接受,專家們關(guān)注大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的推動力,從希冀政策法規(guī)過渡到依賴學(xué)科進(jìn)展,最終聚焦在人工智能上。這期間的典型預(yù)測項包括“《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》驅(qū)動產(chǎn)業(yè)生態(tài)”(2016年,第6項)、“人工智能與腦科學(xué)相結(jié)合,成為大數(shù)據(jù)領(lǐng)域熱點” (2017年,第2項)、“多學(xué)科融合與數(shù)據(jù)學(xué)科興起”(2017年,第4項)、“機(jī)器學(xué)習(xí)繼續(xù)成為大數(shù)據(jù)智能分析的核心技術(shù)”(2016年、2017年均為第1項)等。
● 2019—2020年:在該階段的趨勢預(yù)測中,基于大數(shù)據(jù)的行業(yè)應(yīng)用已經(jīng)廣泛興起,專家們開始關(guān)注數(shù)據(jù)科學(xué)的基礎(chǔ)作用、大數(shù)據(jù)在具體領(lǐng)域中發(fā)揮實效以及大數(shù)據(jù)應(yīng)用落地中的具體技術(shù)障礙。這期間的典型預(yù)測項包括“數(shù)據(jù)科學(xué)與人工智能的結(jié)合越來越緊密”“數(shù)據(jù)的語義化和知識化是數(shù)據(jù)價值的基礎(chǔ)問題”以及本次趨勢中新出現(xiàn)的3條候選項。
在十大趨勢預(yù)測之外,2020年的趨勢調(diào)研仍然包括9個專項調(diào)研項目。對于每個調(diào)研項目,保留得票數(shù)遠(yuǎn)高于其余候選項的條目作為調(diào)研結(jié)果,具體見表2。
在“最令人矚目的應(yīng)用領(lǐng)域”投票中,2020年預(yù)測的投票結(jié)果延續(xù)了2019年預(yù)測的態(tài)勢,健康醫(yī)療排在了首位,而人們習(xí)以為常的互聯(lián)網(wǎng)、電子商務(wù)退居到第4位,這表明互聯(lián)網(wǎng)領(lǐng)域的大數(shù)據(jù)應(yīng)用相對成熟,大家已經(jīng)習(xí)以為常,其他領(lǐng)域的新應(yīng)用更容易受到關(guān)注。與之相對應(yīng)的是,在“將取得重大應(yīng)用和技術(shù)突破的數(shù)據(jù)類型”投票中,視頻數(shù)據(jù)首次排在了首位,這與健康醫(yī)療、智慧城市領(lǐng)域的主流數(shù)據(jù)類型是一致的。
在“最令人矚目的學(xué)科和技術(shù)”投票中,人工智能、自然語言處理/知識工程、圖計算位列前三名,在“將取得突破性進(jìn)展的技術(shù)環(huán)節(jié)”投票上,數(shù)據(jù)分析、數(shù)據(jù)語義理解、脫敏和隱私保護(hù)排在前三名,這與前面的“十大趨勢調(diào)研”的結(jié)果是吻合的。
在“大數(shù)據(jù)市場處于哪個階段”判斷上,2020年的調(diào)研結(jié)果與2019年相比有一個有趣的變化。認(rèn)為大數(shù)據(jù)的發(fā)展處于前兩個階段(初級、即將快速擴(kuò)張)的得票率總計下降7%,認(rèn)為處于中間3個階段(爆發(fā)增長中、上升乏力、下降和幻滅)中每一項的得票率與2019年恰好相同,3項的得票率在最近兩年均為21%、9%和1%,而認(rèn)為處于最后一個階段(穩(wěn)步成長)的得票率上升7%??梢钥吹剑瑢<覀儗τ诖髷?shù)據(jù)的發(fā)展趨勢更加樂觀了,3個增長階段的得票率綜合達(dá)到了83%。從投票結(jié)果看,給讀者的感覺是大數(shù)據(jù)已經(jīng)度過了下降和幻滅期,進(jìn)入了相對穩(wěn)定的增長階段。
表2 2020年大數(shù)據(jù)趨勢專項調(diào)研結(jié)果
在“我國大數(shù)據(jù)發(fā)展的最主要推動者”投票中,投票結(jié)果已經(jīng)維持多年不變,仍然是只有大型互聯(lián)網(wǎng)公司和政府機(jī)構(gòu)?;ヂ?lián)網(wǎng)公司在自身業(yè)務(wù)發(fā)展中擁有了大數(shù)據(jù),而政府機(jī)構(gòu)在社會治理中也積累了大數(shù)據(jù),其他領(lǐng)域的推動力量顯得單薄。反映在“數(shù)據(jù)資源流轉(zhuǎn)上的舉措”上,投票結(jié)果跟往年相比有了細(xì)微的變化,大家還是更傾向于自己收集數(shù)據(jù),或者為已經(jīng)收集的數(shù)據(jù)提供服務(wù),同時購買數(shù)據(jù)的意愿得到了提升,首次進(jìn)入前三名;但銷售數(shù)據(jù)的意愿并沒有提升,由此看來,距離交易雙方的意愿達(dá)成還有一定差距。
在“大數(shù)據(jù)的最佳拍檔概念”投票中,排名靠前的選項是數(shù)據(jù)科學(xué)、機(jī)器人和人工智能、智能計算和認(rèn)知計算、5G。其中,前3個選項之間本身就具有較強(qiáng)的關(guān)聯(lián)性,且在最近的趨勢調(diào)研中已經(jīng)連續(xù)出現(xiàn)。值得強(qiáng)調(diào)的是2020年的新面孔“5G”。2019年被稱為我國的5G元年,國內(nèi)電信運營商開啟了對5G通信協(xié)議的支持,大家預(yù)期未來會產(chǎn)生一些基于5G的新應(yīng)用形態(tài),從而產(chǎn)生新的大數(shù)據(jù)應(yīng)用領(lǐng)域。筆者也期待著未來大數(shù)據(jù)與5G融合產(chǎn)生的化學(xué)反應(yīng)。
雖然這是一項已經(jīng)連續(xù)開展了8年的趨勢預(yù)測活動,人們?nèi)匀荒軌驈拿磕甑念A(yù)測結(jié)果中感受到大數(shù)據(jù)領(lǐng)域的一些新變化。本次趨勢預(yù)測中出現(xiàn)的3個新預(yù)測項中,“數(shù)據(jù)融合治理和數(shù)據(jù)質(zhì)量管理工具”是在解決了數(shù)據(jù)的存儲規(guī)模、訪問速度、計算能力后,大數(shù)據(jù)應(yīng)用深入發(fā)展面臨的難題;“大數(shù)據(jù)因果分析”相對于直接的、表層的相關(guān)性分析,需要挖掘更深層次的邏輯關(guān)系;“邊緣計算和云計算成為互補(bǔ)模型”則是大數(shù)據(jù)應(yīng)用向低成本、低時延、保護(hù)隱私方向發(fā)展的更契合實際的落地方案??傮w來看,這3個新預(yù)測項針對的問題都是大數(shù)據(jù)應(yīng)用發(fā)展到較深入的階段才會遇到的新問題。筆者認(rèn)為,一項事物發(fā)展到一定階段,總會產(chǎn)生與這個階段相適應(yīng)的特定問題;本次趨勢預(yù)測中新問題的出現(xiàn),也標(biāo)志著大數(shù)據(jù)應(yīng)用發(fā)展到了一個新階段。
大數(shù)據(jù)從概念興起到應(yīng)用落地,已有約10年的歷史。在當(dāng)前所處的數(shù)字經(jīng)濟(jì)時代,數(shù)據(jù)已經(jīng)成為各行各業(yè)發(fā)展的基石。筆者期待著數(shù)據(jù)科學(xué)能取得理論突破,也希望基于大數(shù)據(jù)的應(yīng)用能夠更深層次、更加充分地體現(xiàn)大數(shù)據(jù)的價值。在本次趨勢預(yù)測中,無論是在數(shù)據(jù)科學(xué)層面,還是在應(yīng)用工具層面,都有一些需要攻克的難關(guān)。筆者期待著這些困難能夠被逐漸攻破,從而讓大數(shù)據(jù)的發(fā)展上升到一個新高度。
2018年《大數(shù)據(jù)》高被引論文Top10