本報(bào)編輯部
數(shù)據(jù)融合利用需要標(biāo)準(zhǔn)規(guī)范先行,實(shí)現(xiàn)數(shù)據(jù)可見性、數(shù)據(jù)易理解性、數(shù)據(jù)可鏈接性、數(shù)據(jù)可信性、數(shù)據(jù)互操作性和數(shù)據(jù)安全性。
中國工程院院士鄔賀銓表示,數(shù)據(jù)融合利用需要標(biāo)準(zhǔn)規(guī)范先行,實(shí)現(xiàn)數(shù)據(jù)可見性、數(shù)據(jù)易理解性、數(shù)據(jù)可鏈接性、數(shù)據(jù)可信性、數(shù)據(jù)互操作性和數(shù)據(jù)安全性。
鄔賀銓通過舉例向大家做具體介紹。例一,以色列首都特拉維夫把所有交通攝像頭的視頻合成一個(gè)完整的視頻,就像城市的領(lǐng)導(dǎo)坐著直升飛機(jī)俯視這個(gè)城市一樣,可以看到不同的時(shí)間用不同顏色標(biāo)注交通管制、交通事故,并且實(shí)時(shí)通過5G、4G發(fā)送給行人、駕駛員,供大家選擇自己的出行路線,這是數(shù)據(jù)可見性。
例二,新冠肺炎確診除了做核酸檢測(cè),可能還要做CT,一個(gè)肺可以做出300張CT,把300張CT照片還原為一個(gè)肺,再看看肺有沒有纖維化,肺周邊怎么樣,可以讓數(shù)據(jù)變成可理解的內(nèi)容。
例三,要展示去年和今年歐洲航空的情況,把所有飛機(jī)上的數(shù)據(jù)連接起來,形成一個(gè)航空數(shù)字孿生的交通鏡像,就有了全局性。
例四,有很多古羅馬的遺址散落在現(xiàn)代建筑之中,如果想看古代羅馬建筑的整體效果,現(xiàn)在可以把這些遺址照片合成一個(gè)視頻,把時(shí)空分散的照片組合起來,生成一個(gè)反映古羅馬街景的視頻,這是數(shù)據(jù)的互操作性。
關(guān)于數(shù)據(jù)的可信性和安全性,鄔賀銓院士特別提到,如果數(shù)據(jù)本身是不全面的,或者說是有很多差錯(cuò)的,那這個(gè)數(shù)據(jù)挖掘是沒有用的,需要有數(shù)據(jù)質(zhì)量管理技術(shù),按照規(guī)定程序適當(dāng)標(biāo)記、保存和記錄數(shù)據(jù),在壽命周期內(nèi)能夠保護(hù)和約束數(shù)據(jù)。數(shù)據(jù)安全性方面,需要實(shí)現(xiàn)精細(xì)化權(quán)限管理,定期評(píng)估分類標(biāo)準(zhǔn)并測(cè)試合規(guī)性。
數(shù)據(jù)挖掘 面臨算力算法的挑戰(zhàn)
鄔賀銓院士表示,數(shù)據(jù)挖掘首先要建數(shù)據(jù)模型。建數(shù)據(jù)模型的前提需要了解模型開發(fā)背景和用途,以及確定誰來訓(xùn)練模型,這些數(shù)據(jù)從哪來,確定模型運(yùn)用的效果如何。同時(shí),也需要關(guān)注算法的完整性、可解釋性、公平性和適應(yīng)能力。同時(shí),模型開發(fā)完還需要不斷地檢驗(yàn)、迭代和完善。
算法現(xiàn)在主要還是用深度神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)經(jīng)歷了兩代,第一代主要是知識(shí)驅(qū)動(dòng),就是專家系統(tǒng),把專家經(jīng)驗(yàn)找出來,然后邏輯推理。現(xiàn)在是第二代人工智能,主要是數(shù)據(jù)驅(qū)動(dòng)。
鄔賀銓院士認(rèn)為:“目前大數(shù)據(jù)很多應(yīng)用,我把它叫做大數(shù)據(jù)、大算力、小任務(wù),非常多的數(shù)據(jù),能力非常強(qiáng)的計(jì)算能力,實(shí)際上只做了一件很小的事情,而且穩(wěn)定性不夠,知其然不知其所以然,可解釋性差,應(yīng)用場(chǎng)景窄,怎么解決這個(gè)問題呢?最好是小數(shù)據(jù)、小算力、大任務(wù)。”賀銓院士表示,現(xiàn)在需要發(fā)展到第三代,需要知識(shí)與數(shù)據(jù)雙驅(qū)動(dòng),而且很多人說需要內(nèi)腦,把人的認(rèn)知機(jī)理用上去,雖然比較困難,但是這個(gè)方向還是需要的。
鄔賀銓院士指出,大數(shù)據(jù)分析不能只靠中心云,很多時(shí)候要使用邊緣云,因?yàn)檫吘壴瓶梢跃徒幚恚m用于那些對(duì)數(shù)據(jù)試驗(yàn)敏感的一些業(yè)務(wù)。比如,我們生產(chǎn)線上的一些數(shù)據(jù)不能送到遠(yuǎn)方去處理。如果送到遠(yuǎn)方喪失了實(shí)時(shí)處理的作用,只能得到經(jīng)驗(yàn)的總結(jié)。有時(shí)候需要實(shí)時(shí),就要把中心云的一部分能力下沉變成邊緣云。如果所有東西都希望云邊端協(xié)同,這個(gè)挑戰(zhàn)是非常大的。怎么協(xié)同,怎么分配這種計(jì)算能力,這是大數(shù)據(jù)挖掘需要解決的問題。
現(xiàn)在是大數(shù)據(jù)、大算力、小任務(wù),大數(shù)據(jù)也不見得那么全面,人工智能也可能會(huì)誤判,而且模型準(zhǔn)確性也不是想象中那么好,人工智能需要大量標(biāo)注或清洗的數(shù)據(jù),但很多時(shí)候只有小數(shù)據(jù),怎么在小數(shù)據(jù)、小算力的情況下邊提高人工智能的分析能力,這是大數(shù)據(jù)分析面臨的挑戰(zhàn)。
大數(shù)據(jù)融合 需要人與數(shù)據(jù)融合
鄔賀銓院士認(rèn)為,很多大數(shù)據(jù)融合需要人與數(shù)據(jù)融合。把人的數(shù)據(jù)跟客觀的東西融合在一起,把人的經(jīng)驗(yàn)介入到大數(shù)據(jù)分析過程,但是人不能永遠(yuǎn)介入,什么時(shí)候、場(chǎng)景下能介入,這是需要經(jīng)驗(yàn)的。大數(shù)據(jù)分析不是不需要人,也不是大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)時(shí)代的工人、工程師沒用了,里面還需要用到工程師和工匠的精神。
數(shù)據(jù)只有融合才有價(jià)值,但融合就涉及到隱私和商密保護(hù)問題。鄔賀銓院士談道:“每個(gè)企業(yè)都希望用別人的企業(yè)的數(shù)據(jù),不愿意把自己的數(shù)據(jù)拿出去,總覺得這是商業(yè)秘密,那怎么做融合?怎么做到既融合又不會(huì)泄露每個(gè)企業(yè)的商業(yè)秘密,這是可以做到的,也有很多很多方案,比如,采用多方計(jì)算的方式。”
此外,大數(shù)據(jù)分析本身會(huì)用很多軟件,包括很多開源軟件,可以網(wǎng)上宕下來,但開源軟件漏洞很多,而且版本升級(jí)頻繁,需要檢查它的安全性,采用也可能會(huì)出問題。如果用自然語言直接生成代碼,更容易理解軟件意圖,就能知道有沒有加入不該加的東西,進(jìn)而就能確保代碼是否可信。另外,大家往往防止數(shù)據(jù)泄露和篡改,往往采用加密手段,加密數(shù)據(jù)是比較難進(jìn)行安全掃描的,不過加密也不是萬能的,還得從開始作為內(nèi)生的設(shè)計(jì)上讓它更安全。
最后,鄔賀銓院士總結(jié)到,智慧城市的管理和工業(yè)互聯(lián)網(wǎng)里有很多需要數(shù)據(jù)融合應(yīng)用的場(chǎng)景,多元異構(gòu)的數(shù)據(jù)融合能夠盤活數(shù)據(jù),通過數(shù)據(jù)挖掘開發(fā)數(shù)據(jù)的價(jià)值,發(fā)揮數(shù)據(jù)作為生產(chǎn)要素的作用。但是數(shù)據(jù)挖掘和人工智能的分析要面對(duì)海量的處理能力、云邊端的協(xié)同、建模、小數(shù)據(jù)、人與數(shù)據(jù)的融合、數(shù)據(jù)自身安全、隱私和商密保護(hù)等挑戰(zhàn),我們需要從基礎(chǔ)理論跟工程實(shí)踐多方面來研究數(shù)據(jù)價(jià)值挖掘的問題,要開發(fā)出更高效的大數(shù)據(jù)和人工智能分析技術(shù),整個(gè)大數(shù)據(jù)的創(chuàng)新還是任重道遠(yuǎn)。
(本文根據(jù)中國工程院院士鄔賀銓公開演講整理,未經(jīng)本人確實(shí)。)
相關(guān)鏈接
5G提升大數(shù)據(jù)應(yīng)用價(jià)值
移動(dòng)通信進(jìn)入到5G時(shí)代,正在更充分地利用空間、時(shí)間、頻率。大體上,移動(dòng)通信發(fā)展過程是十年一代,每一代的速率都提升了一千倍,如果1G的設(shè)計(jì)是面向個(gè)人的,那么5G就擴(kuò)展到產(chǎn)業(yè)互聯(lián)網(wǎng)和智慧城市的應(yīng)用,它已經(jīng)有了2G/3G/4G三代應(yīng)用場(chǎng)景,還有支持產(chǎn)業(yè)、智慧城市的應(yīng)用。
中國工程院院士鄔賀銓表示:“5G和4G比,控制速率提升30倍,用戶體驗(yàn)數(shù)據(jù)的提升10倍。5G可以為企業(yè)‘上傳下達(dá)提供一個(gè)可靠的通道。5G的增強(qiáng)移動(dòng)寬帶、高可靠低時(shí)延和大連接適應(yīng)工業(yè)互聯(lián)網(wǎng)要求?!?/p>
整體來說,5G的出現(xiàn)為工業(yè)、企業(yè)的數(shù)據(jù)聯(lián)網(wǎng)提供了可靠的通道。此外,還有物聯(lián)網(wǎng)跟人工智能結(jié)合,即AIoT。利用5G的第一時(shí)間、高可靠、高寬帶、大連接,可以實(shí)現(xiàn)在港口、煉油廠、建筑公司等場(chǎng)景的應(yīng)用。比如,上海的商飛,建成了全世界第一個(gè)5G+工業(yè)互聯(lián)網(wǎng)的園區(qū)。其通過5G+8K+AI實(shí)現(xiàn)機(jī)翼復(fù)合材料鋪設(shè)質(zhì)量實(shí)時(shí)檢測(cè)、飛機(jī)蒙皮鉚釘安裝質(zhì)量檢測(cè),實(shí)現(xiàn)飛機(jī)裝配精度3D檢測(cè)。通過5G+AR 頭盔支撐飛機(jī)分段組裝的內(nèi)部電纜精準(zhǔn)連接。