鄔賀銓
(中國工程院,北京 100088)
傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)分析通常是對(duì)單一數(shù)據(jù),如交通數(shù)據(jù)流量、電商營銷數(shù)據(jù)等,獨(dú)立地進(jìn)行跟蹤和分析[1]。而在以大數(shù)據(jù)和智能化為主要特征的數(shù)據(jù)時(shí)代,各種領(lǐng)域,如從電子醫(yī)療(e-health)到智能交通(smart transportation),從在線游戲(online game)到網(wǎng)絡(luò)傳媒(network media),實(shí)時(shí)產(chǎn)生著廣泛而多樣的數(shù)據(jù)集。多源性、異構(gòu)性為主要特征的數(shù)據(jù)集驅(qū)使著我們在解決問題時(shí),將各種數(shù)據(jù)集進(jìn)行有機(jī)融合。例如,為了更好地解決空氣污染問題,需要結(jié)合氣象數(shù)據(jù)、車輛和工廠的排放,以及一個(gè)地方的人口分布情況等來探索空氣質(zhì)量數(shù)據(jù);為了為用戶生成更準(zhǔn)確的旅游推送指南,可以將用戶的網(wǎng)絡(luò)行為和社會(huì)關(guān)系進(jìn)行綜合分析,有選擇地進(jìn)行旅游推送;而為了更好地理解圖像的語義含義,可以利用圖像周圍的文本和從圖像像素派生出來的特征進(jìn)行推斷等。在上述過程中,從多元數(shù)據(jù)集中派生出關(guān)鍵信息,并對(duì)數(shù)據(jù)進(jìn)行有機(jī)融合已成為不可或缺的關(guān)鍵一步。
數(shù)據(jù)融合不同于數(shù)據(jù)一體化。數(shù)據(jù)融合不是將所有數(shù)據(jù)集中在一起,而是以決策為目的將數(shù)據(jù)源中的關(guān)鍵信息進(jìn)行提取、融合并整合為一個(gè)獨(dú)立和靈活的分析數(shù)據(jù)集的過程。此分析數(shù)據(jù)集可隨源數(shù)據(jù)集的變化進(jìn)行調(diào)整及更新并可有效地提升數(shù)據(jù)的內(nèi)涵價(jià)值。
對(duì)于多源異構(gòu)數(shù)據(jù)融合,文獻(xiàn)[2]使用基于統(tǒng)計(jì)和人工智能方法研究了多傳感器數(shù)據(jù)融合技術(shù)。文獻(xiàn)[3]構(gòu)建了一個(gè)多源非線性異構(gòu)數(shù)據(jù)融合模型,用于研究多源異構(gòu)數(shù)據(jù)的融合。文獻(xiàn)[4]將無線傳感器網(wǎng)絡(luò)和數(shù)據(jù)融合技術(shù)相結(jié)合,提出了一種卡爾曼濾波估計(jì)融合算法,該算法已成功應(yīng)用于目標(biāo)位置跟蹤過程。文獻(xiàn)[5]研究了數(shù)字礦山建設(shè)過程中多源異構(gòu)數(shù)據(jù)的融合技術(shù),從而確保了數(shù)字礦山建設(shè)中基本信息平臺(tái)的安全性,穩(wěn)定性和效率。文獻(xiàn)[6]研究了物聯(lián)網(wǎng)環(huán)境中的大規(guī)模多模式數(shù)據(jù)融合方法,并將其成功用于目標(biāo)位置跟蹤過程。文獻(xiàn)[7]將深度學(xué)習(xí)引入多模式數(shù)據(jù)的特征提取中,將音頻和視頻的2種不同信息模式集成到語音識(shí)別數(shù)據(jù)上,并訓(xùn)練了深度神經(jīng)網(wǎng)絡(luò)以從2種模式中提取聯(lián)合特征。文獻(xiàn)[8]將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像檢索任務(wù),并將從圖像數(shù)據(jù)中提取的各種特征用作圖像模態(tài)。
數(shù)據(jù)融合是目前大數(shù)據(jù)應(yīng)用和智能決策過程中的一個(gè)瓶頸。尤其是在大數(shù)據(jù)和智能化時(shí)代,促進(jìn)多元異構(gòu)數(shù)據(jù)的融合和智能化的數(shù)據(jù)處理,對(duì)發(fā)揮數(shù)據(jù)作為生產(chǎn)要素的作用具有十分重要的理論意義和實(shí)際價(jià)值。本文介紹了大數(shù)據(jù)在城市、交通、醫(yī)療、電商等領(lǐng)域的融合及可視化應(yīng)用。重點(diǎn)說明了海量數(shù)據(jù)、小數(shù)據(jù)分析面臨的難題,并討論了人與數(shù)據(jù)融合、數(shù)據(jù)融合共享與商密保護(hù)、開源軟件與數(shù)據(jù)安全管理、數(shù)據(jù)融合中AI技術(shù)的兩面性等挑戰(zhàn)。
數(shù)據(jù)的融合和應(yīng)用在城市管理、交通、醫(yī)療、電商等領(lǐng)域有著廣泛的應(yīng)用,并在大數(shù)據(jù)和智能化時(shí)代的驅(qū)動(dòng)下出現(xiàn)了一些新的特征應(yīng)用,如街景生成,視頻合成,交通鏡像,3D還原和AR體驗(yàn)等。
古羅馬遺址如圖1。這些古羅馬遺址特征散落在現(xiàn)代建筑中,在收集大量古羅馬遺址照片后(圖1左),通過人工智能、大數(shù)據(jù)的技術(shù),可以還原出古羅馬的街景(圖1右)。將時(shí)空分散的照片合成為視頻,這在評(píng)價(jià)一個(gè)建筑物的風(fēng)格等方面也是很有用的。例如將大量歷史照片還原成實(shí)際街景,也可以將不同結(jié)構(gòu)與風(fēng)格的建筑合成在一個(gè)畫面,以評(píng)價(jià)是否協(xié)調(diào)。
圖1 圖像合成: 古羅馬遺址Fig.1 Image synthesis: Ancient Roman ruins
在未來智慧城市的建設(shè)中,將會(huì)有大量攝像頭、傳感器收集交通狀況,傳統(tǒng)方法是將攝像頭對(duì)應(yīng)的電視屏放在交管中心。一方面,如此多的電視屏無法全部放在交管中心;另一方面,在實(shí)際中,單靠肉眼觀察如此多的電視屏來判別馬路交通情況的效果很差。而通過攝像頭感知與手機(jī)定位數(shù)據(jù)可精確獲得城市交通實(shí)時(shí)狀況,同時(shí)利用大數(shù)據(jù)與人工智能技術(shù)深度挖掘,可得出可視化的全局視圖,如圖2為以色列的首都特拉維夫。將攝像頭的所有視頻組合起來合成一個(gè)視頻,就像坐著直升飛機(jī)俯視整個(gè)城市。在不同時(shí)間用不同顏色標(biāo)注不同的道路交通狀況,這樣利用大數(shù)據(jù)的視頻合成技術(shù)就可以將道路上的交通事故、交通管制等情況實(shí)時(shí)地發(fā)送到駕駛員的手機(jī)上,方便選擇較好的出行路線。
圖2 可視化全局視圖Fig.2 Visual global view
在圖3中,左圖為2019年希臘上空的航班運(yùn)行情況,右圖為2020年疫情時(shí)的航班運(yùn)行情況,圖3是空域交通的數(shù)字孿生。利用數(shù)字孿生的航班運(yùn)行圖,可以看出疫情對(duì)航空業(yè)的影響。同時(shí),利用數(shù)字孿生技術(shù)可以在礦山和大型工業(yè)園區(qū)建立對(duì)生產(chǎn)流程的數(shù)字孿生平臺(tái),實(shí)時(shí)掌握運(yùn)行的全局狀況。
圖3 2019年與2020年疫情間希臘航班運(yùn)行情況Fig.3 Flight operations in Greece between 2019 and outbreaks in 2020
醫(yī)療患者胸部CT檢查會(huì)生成200—300張CT影像,即使每張只需要看3 s,放射科醫(yī)生也需要至少10 min才能看完。借助AI可以將肺部多達(dá)百張CT照片還原為一幅3D影像,可以有效地提高醫(yī)生的診斷效率。同時(shí),在網(wǎng)上選購衣服時(shí),利用AR技術(shù),可以在自己的手機(jī)上看到將衣服虛擬穿在身上的感覺,可以同時(shí)比較穿不同服飾的體驗(yàn),從中選出合適的衣服。
數(shù)據(jù)融合具有廣泛的應(yīng)用前景,然而,大數(shù)據(jù)融合給眾多領(lǐng)域帶來積極作用的同時(shí),也依然面臨數(shù)據(jù)融合的規(guī)范、融合數(shù)據(jù)的處理、數(shù)據(jù)的安全與隱私等挑戰(zhàn)。
數(shù)據(jù)融合需要標(biāo)準(zhǔn)先行。數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)從可見性、易理解性、可鏈接性、可信性、互操作性和安全性等方面進(jìn)行標(biāo)準(zhǔn)規(guī)范。
1)數(shù)據(jù)要具有可見性。需要有元數(shù)據(jù)標(biāo)準(zhǔn),包括共享數(shù)據(jù)的位置和訪問方法,有標(biāo)準(zhǔn)且可重用的API等。
2)數(shù)據(jù)要具有易理解性。要求數(shù)據(jù)以一種保留語義的方式呈現(xiàn),并以標(biāo)準(zhǔn)化的方式表達(dá),同時(shí)還要求具有科學(xué)的數(shù)據(jù)目錄、識(shí)別轉(zhuǎn)換、組合和衍生新數(shù)據(jù)能力的自適應(yīng)智能系統(tǒng)。
3)數(shù)據(jù)要具有可鏈接性。孤立數(shù)據(jù)的價(jià)值很難體現(xiàn),要讓數(shù)據(jù)之間可以進(jìn)行鏈接,這就要求實(shí)施統(tǒng)一的標(biāo)識(shí)符和通用的元數(shù)據(jù)標(biāo)準(zhǔn),能夠發(fā)現(xiàn)、鏈接、檢索、合并和整合數(shù)據(jù)。
4)數(shù)據(jù)要具有可信性。如果數(shù)據(jù)來源本身不可信或數(shù)據(jù)質(zhì)量很差,這說明技術(shù)挖掘本身就存在問題。要保證數(shù)據(jù)的可信性,要有數(shù)據(jù)質(zhì)量管理技術(shù),按規(guī)定程序適當(dāng)標(biāo)記和保存數(shù)據(jù)和記錄。在壽命周期內(nèi)要有保護(hù)和血緣元數(shù)據(jù)的約束。
5)數(shù)據(jù)要具有互操作性。不同的數(shù)據(jù)彼此間要進(jìn)行數(shù)據(jù)交換,需要數(shù)據(jù)交換規(guī)范來協(xié)調(diào)不同數(shù)據(jù)的標(biāo)準(zhǔn)和格式,保證不損失數(shù)據(jù)本身的保真度、精確度或準(zhǔn)確性。
6)數(shù)據(jù)要具有安全性。數(shù)據(jù)在進(jìn)行挖掘的時(shí)候,要注意個(gè)人隱私的保護(hù)、商業(yè)秘密的保護(hù)以及結(jié)構(gòu)體數(shù)據(jù)的授權(quán)審計(jì)等。這要求實(shí)現(xiàn)精細(xì)化權(quán)限管理(身份、屬性、權(quán)限)和審計(jì),定期評(píng)估分類標(biāo)準(zhǔn)并測試合規(guī)性。
IDC分析報(bào)告顯示,互聯(lián)網(wǎng)總數(shù)據(jù)到2025年將達(dá)到175 ZB,其中視覺數(shù)據(jù)幾乎占一半。雖然視頻壓縮技術(shù)在進(jìn)步,但進(jìn)步的速度差不多每10年才提高一倍,而數(shù)據(jù)量每2年就翻一番,靠視頻壓縮沒辦法減少數(shù)據(jù)量。例如醫(yī)療的數(shù)據(jù)本身就已經(jīng)超過二維,新冠病毒的數(shù)據(jù)中很多圖片都是百萬像素以上,病毒大數(shù)據(jù)的維數(shù)更高。
海量數(shù)據(jù)需要大算力來支持,2012年至2019年,隨著深度學(xué)習(xí)模型的演進(jìn),人工智能需要的計(jì)算量已經(jīng)增加到了30萬倍,對(duì)云上服務(wù)器能力有很高的要求,需要探尋更適合機(jī)器學(xué)習(xí)的算力和低算力約束下的算法。
另外,機(jī)器學(xué)習(xí)使用專用計(jì)算機(jī)可能比通用計(jì)算機(jī)會(huì)更適合。如:①機(jī)器學(xué)習(xí)大部分場景僅需要較低精度計(jì)算即可,一般應(yīng)用場景下機(jī)器學(xué)習(xí)8比特即可滿足95%以上的需求,無需FP32,F(xiàn)P16等高精度計(jì)算;②機(jī)器學(xué)習(xí)計(jì)算只需要很小的操作指令集,高性能運(yùn)行矩陣乘法、向量計(jì)算、卷積核等線性代數(shù)計(jì)算,無需分支預(yù)測器、推測執(zhí)行、超線程執(zhí)行處理核、深度緩存內(nèi)存層次結(jié)構(gòu)等計(jì)算技術(shù)。
傳統(tǒng)的視頻數(shù)據(jù)是非結(jié)構(gòu)化的,價(jià)值密度較低。如一個(gè)8M攝像頭一天產(chǎn)生的數(shù)據(jù)量大概是168 GB,而一個(gè)城市有大量的攝像頭,如果都送到云端進(jìn)行處理,會(huì)占用大量的計(jì)算、存儲(chǔ)及網(wǎng)絡(luò)資源,而其中可用信息又是有限的,因此,大數(shù)據(jù)不等于數(shù)據(jù)大,通過提取視頻特征信息的方式,把特征信息送到后臺(tái),減少數(shù)據(jù)量。然而,這種方式又面臨前端數(shù)據(jù)分析能力的有限性,不能很準(zhǔn)確地確定特征信息,提取的特征信息是有限或者不準(zhǔn)確的,無法通過后臺(tái)分析來彌補(bǔ)。
通過仿照生物視覺系統(tǒng),構(gòu)建云邊端協(xié)同計(jì)算,端側(cè)顯示視頻編碼,邊緣計(jì)算實(shí)現(xiàn)特征壓縮。通過云端協(xié)同,總的存儲(chǔ)和帶寬可以節(jié)省50%以上,算力可以節(jié)省90%。所以根據(jù)大數(shù)據(jù)分析,可提升數(shù)據(jù)的處理效率。此外,還需要一些關(guān)鍵技術(shù),如全局統(tǒng)一的時(shí)空ID、視頻編碼、特征編碼、聯(lián)合優(yōu)化,模型可更新、可調(diào)節(jié)、軟件可定義等。如何合理分配端邊云的能力以及選擇視頻編碼與特征信息的數(shù)據(jù)量比例是值得重視的。
大數(shù)據(jù)分析中有很多數(shù)學(xué)模型,正如生產(chǎn)具有很多環(huán)節(jié),每個(gè)環(huán)節(jié)都有數(shù)據(jù)產(chǎn)生,如圖4。臺(tái)灣一家鋼鐵企業(yè)利用人工智能解決方案,預(yù)測27噸鋼熱軋為0.5 mm成品的過程中的缺陷,這家企業(yè)先收集一年7 000多批次產(chǎn)品的各種工藝參數(shù),對(duì)于缺陷率有關(guān)的數(shù)據(jù)進(jìn)行清洗,然后把數(shù)據(jù)分為2組,80%的數(shù)據(jù)用于機(jī)器學(xué)習(xí),從中選出4種數(shù)學(xué)模型,再利用20%的數(shù)據(jù)驗(yàn)證模型的可行性,得到優(yōu)化的數(shù)學(xué)模型,最后由優(yōu)化數(shù)學(xué)模型分析產(chǎn)品線上產(chǎn)生的數(shù)據(jù),找出關(guān)鍵環(huán)節(jié)做出改進(jìn)。
圖4 某鋼鐵企業(yè)生產(chǎn)環(huán)節(jié)Fig.4 Production link of a steel company
此例說明了數(shù)學(xué)模型的應(yīng)用前提是了解模型開發(fā)的背景及原定用途、誰訓(xùn)練模型、數(shù)據(jù)來源,以及模型應(yīng)用的效果,要關(guān)注算法的完整性、可解釋性、公平性及適應(yīng)能力。需要注意模型得出后不是一勞永逸的,一段時(shí)間后模型可能會(huì)出錯(cuò),模型運(yùn)行時(shí)間越長偏差越大,運(yùn)行時(shí)間偏差的蔓延、時(shí)間推移導(dǎo)致的預(yù)測不準(zhǔn)確和對(duì)抗性攻擊等問題會(huì)妨礙模型輸出結(jié)果的有效性。
數(shù)據(jù)融合的前提是數(shù)據(jù)的分析及抽取。如圖5,將圖片分解,可以分解為只有馬路和樹,沒有房子,也可以分解為馬路、房子沒有樹。實(shí)際上數(shù)據(jù)融合反過來就是數(shù)據(jù)分析和抽取。如果能分別把關(guān)鍵數(shù)據(jù)分析和抽取出來,就能實(shí)現(xiàn)數(shù)據(jù)融合。例如,基于AI技術(shù),在語義分割掩碼輸入下,換個(gè)掩碼顏色,該系統(tǒng)就能直接將街景中的樹變成建筑物。
在實(shí)際中,更多情況面對(duì)的是小數(shù)據(jù)。AI決策效果前提是有海量準(zhǔn)確標(biāo)注與清洗的數(shù)據(jù),但很多情況下僅有小數(shù)據(jù),例如小語種的機(jī)器翻譯。在小數(shù)據(jù)小算力情況下提供高效人工智能分析能力是值得研究的創(chuàng)新課題。如2020年6月IEEE舉辦世界計(jì)算機(jī)視覺植物病理學(xué)細(xì)粒度分類挑戰(zhàn)賽,考察對(duì)蘋果樹葉“健康、銹病、痂病、銹病+痂病”4種疾病的AI識(shí)別能力。比賽組委會(huì)提供含標(biāo)簽錯(cuò)誤的1 821張?zhí)O果樹葉訓(xùn)練集照片和1 821張?jiān)囶}照片,讓選手判斷這些樹葉的分類。1 000多張的訓(xùn)練樣本是小數(shù)據(jù),靠這些小數(shù)據(jù)利用大數(shù)據(jù)的算法一般得不出最佳結(jié)果,這是典型的“小數(shù)據(jù)小算力”問題。支付寶天筭安全實(shí)驗(yàn)室采用隨機(jī)光照、隨機(jī)對(duì)比增強(qiáng)、上下與左右翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)縮放、知識(shí)蒸餾等數(shù)據(jù)增強(qiáng)技術(shù),得分居1 327個(gè)參賽團(tuán)隊(duì)之首。
圖5 照片分解結(jié)果Fig.5 Result of decomposing a photograph
“小數(shù)據(jù)小算力大任務(wù)” 是人工智能技術(shù)需要研究的目標(biāo),推理與類腦計(jì)算結(jié)合是研究方向之一。
過去許多企業(yè)的企業(yè)資源計(jì)劃(enterprise resource planning,ERP)是以Excel表的方式來靜態(tài)運(yùn)行的,但生產(chǎn)過程中總是會(huì)臨時(shí)發(fā)生各種問題,需要召開臨時(shí)生產(chǎn)調(diào)度會(huì)議,重新改表格,效率低下。而在ERP中增加物聯(lián)網(wǎng)、區(qū)塊鏈、大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等功能,自適應(yīng)地根據(jù)發(fā)現(xiàn)的問題相應(yīng)地修改ERP表,效率就會(huì)提高很多。前者是依靠人,后者是依靠現(xiàn)場數(shù)據(jù)。但完全依賴現(xiàn)場數(shù)據(jù)靠AI決策執(zhí)行會(huì)有風(fēng)險(xiǎn),因?yàn)閿?shù)據(jù)有可能有誤,或者算法有風(fēng)險(xiǎn),需要做到在正確的時(shí)點(diǎn)和場景下人的準(zhǔn)確介入,人在回路或者人機(jī)協(xié)同是工業(yè)互聯(lián)網(wǎng)的難點(diǎn),需要企業(yè)根據(jù)積累的經(jīng)驗(yàn)來判斷?!吧田w大腦”建立了數(shù)據(jù)融合標(biāo)準(zhǔn),統(tǒng)一了上千種數(shù)據(jù)類型,整合上百種工業(yè)機(jī)理,歸納出上百項(xiàng)基于人工經(jīng)驗(yàn)的數(shù)學(xué)模型,完整描述了大飛機(jī)全生命周期業(yè)務(wù)流程。人與數(shù)據(jù)融合的ERP如圖6。
圖6 人與數(shù)據(jù)融合的ERPFig.6 Integration of human and date for ERP
在跨企業(yè)做數(shù)據(jù)融合時(shí),為了保證數(shù)據(jù)共享同時(shí)敏感數(shù)據(jù)不外泄,需要建立一個(gè)新的數(shù)據(jù)隔空分析機(jī)制,用虛擬的黑箱使得數(shù)據(jù)不脫離所在單位的管理又能被授權(quán)給其他的單位調(diào)用,雖然已有人提出基于黑盒子的可信計(jì)算環(huán)境方式,但是仍需要證明第三方的可靠性。
圖靈獎(jiǎng)獲得者、清華大學(xué)姚期智院士,他在圖靈獎(jiǎng)中的主要貢獻(xiàn)是提出了多方計(jì)算(muti-party computation,MPC)概念。MPC主要機(jī)理概念模型如圖7。MPC協(xié)議是一種分布式協(xié)議,基于秘密分享、同態(tài)加密、混淆電路、不經(jīng)意傳送4項(xiàng)技術(shù)。它的主要機(jī)理是當(dāng)A,B都有數(shù)據(jù)時(shí),對(duì)A,B的數(shù)據(jù)進(jìn)行融合計(jì)算分析,以前數(shù)據(jù)既不能儲(chǔ)存在A里,也不能儲(chǔ)存在B里,若儲(chǔ)存在第三方又不知道數(shù)據(jù)是否會(huì)外泄。而現(xiàn)在數(shù)據(jù)可以儲(chǔ)存在A也可以存儲(chǔ)在B,也可以在第三方,但都不是原始數(shù)據(jù),而是加密數(shù)據(jù)。即便是加密數(shù)據(jù),B要取A的數(shù)據(jù)時(shí),A也可以猜到B的用途,這里要用到不經(jīng)意傳送機(jī)理。不經(jīng)意傳送就是在取有用的數(shù)據(jù)時(shí)實(shí)際上會(huì)同時(shí)取一大堆無關(guān)數(shù)據(jù),這避免了對(duì)方知道你的意圖。A和B都不可能知道對(duì)方的數(shù)據(jù),但利用加密數(shù)據(jù)就可以聯(lián)合計(jì)算出一個(gè)函數(shù),A和B可以取出各自所需的數(shù)據(jù)融合結(jié)果,卻不會(huì)透露各自數(shù)據(jù)和知識(shí)產(chǎn)權(quán)。不過MPC的計(jì)算量很大,性能還有待改進(jìn)。
圖7 MPC過程圖Fig.7 MPC process diagram
如何簡化計(jì)算量以及支持更多方的協(xié)同計(jì)算是推廣MPC應(yīng)用需要解決的挑戰(zhàn),這也是數(shù)據(jù)融合與數(shù)據(jù)安全的重要課題及創(chuàng)新空間。
大數(shù)據(jù)分析與人工智能會(huì)用到大量開源軟件,優(yōu)點(diǎn)是可移植性,可以在操作系統(tǒng)上也可以在專有硬件上運(yùn)行軟件,硬件和軟件生態(tài)系統(tǒng)的脫鉤有利于創(chuàng)新。但開源軟件漏洞很多,而且版本升級(jí)頻繁,軟件測試與漏洞分析檢查工作量太大,執(zhí)行未知來源程序會(huì)面臨安全威脅?,F(xiàn)在開發(fā)了從自然語言標(biāo)準(zhǔn)文檔直接生成代碼的自動(dòng)編程方式,又可以由代碼反推原來的自然語言,通過反推軟件意圖就可以發(fā)現(xiàn)軟件是否有不該加入的代碼,這種方式可以用于自動(dòng)化遵從性測試、正確性證明、協(xié)議執(zhí)行完整性檢查等。當(dāng)然,為了防止數(shù)據(jù)泄露和被篡改,數(shù)據(jù)加密是一種手段,但加密的數(shù)據(jù)很難進(jìn)行安全掃描檢測,所以怎么對(duì)加密數(shù)據(jù)進(jìn)行檢查也是一種挑戰(zhàn)。此外,防止別人對(duì)加密數(shù)據(jù)再加密也是很重要的,勒索軟件就是通過對(duì)被攻擊對(duì)象的數(shù)據(jù)或軟件加密的方式來實(shí)現(xiàn)其利益??梢哉f,網(wǎng)絡(luò)信息安全也是大數(shù)據(jù)融合分析必須面對(duì)的挑戰(zhàn)。
由于數(shù)據(jù)樣本規(guī)則的缺漏和模型當(dāng)中有限的設(shè)定點(diǎn),人工智能會(huì)出現(xiàn)誤判。一旦將模型投入實(shí)際使用,其準(zhǔn)確性就開始下降。此外,當(dāng)事件和圖像處于AI模型辨識(shí)分界線,或受到樣本攻擊時(shí)會(huì)使AI誤判。不過,對(duì)抗樣本僅對(duì)指定的圖片和攻擊模型生效,對(duì)諸如區(qū)域截圖、放大縮小之類的預(yù)處理過程是非常敏感的,因此可通過數(shù)據(jù)增強(qiáng)技術(shù)來應(yīng)對(duì)。
在智慧城市管理與工業(yè)互聯(lián)網(wǎng)中有很多需要數(shù)據(jù)融合應(yīng)用的場景,多元異構(gòu)的數(shù)據(jù)融合將盤活數(shù)據(jù),發(fā)揮數(shù)據(jù)作為生產(chǎn)要素的作用。同時(shí),數(shù)據(jù)融合和數(shù)據(jù)的智能化分析依然面對(duì)海量數(shù)據(jù)處理能力、建模、小數(shù)據(jù)融合、人與數(shù)據(jù)融合、數(shù)據(jù)自身安全、隱私與商密保護(hù)等挑戰(zhàn),需要從基礎(chǔ)理論與工程實(shí)踐多方面研究聚數(shù)融智的問題,開發(fā)更高效的大數(shù)據(jù)分析技術(shù)任重道遠(yuǎn)。