朱銳,王宏志,崔雙雙,張愷欣,燕鈺
哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150000
元宇宙(metaverse)是由meta(意為超越)和verse(宇宙的縮寫)組合而成的術(shù)語,在尼爾·斯蒂芬森(Neal Stephenson)于1992年撰寫的《雪崩》中第一次被提到?!堆┍馈访枋隽艘粋€叫作矩陣的虛擬現(xiàn)實世界,小說中的人們通過他們的數(shù)字化身探索一個數(shù)字世界,以逃避現(xiàn)實世界的痛苦。到目前為止,有一些“精簡版”的元宇宙,它們主要是從大型多人在線游戲發(fā)展而來的,如Pokemon Go、Second Life和World of Warcraft[1]等。
元宇宙是計算機生成的、網(wǎng)絡(luò)化的擴展現(xiàn)實(extended reality,XR)[2-3]世界。擴展現(xiàn)實包含增強現(xiàn)實(augmented reality,AR)、混合現(xiàn)實(mixed reality,MR)和虛擬現(xiàn)實(virtual reality,VR)的所有方面。參考文獻(xiàn)[4]提出元宇宙可以是完全虛擬的,像VR一樣;也可以是部分虛擬的,如通過AR設(shè)備與虛擬世界交互;同時提出了一個框架,該框架具有3個特征(共享、持久、去中心化),以區(qū)分元宇宙與AR和VR。元宇宙的優(yōu)勢是允許用戶在物理空間之外創(chuàng)建自己的內(nèi)容,并在網(wǎng)上體驗只有在線下才能體驗到的東西。但是,訪問元宇宙需要使用特定類型的設(shè)備(如AR設(shè)備)或安裝程序,這降低了元宇宙的可及性。目前,元宇宙被定義為一個共享的虛擬3D世界,可以通過交互和協(xié)作為用戶提供全面的沉浸式體驗。在元宇宙中,現(xiàn)實世界中的人類與虛擬世界的自動化實體(如虛擬人物)進(jìn)行交互。隨著新興技術(shù)(如區(qū)塊鏈[5]、人工智能等)的發(fā)展,元宇宙被定義為一個與現(xiàn)實世界并行、相互映射的復(fù)雜虛擬世界和數(shù)字世界的融合。人們可以使用移動設(shè)備的AR應(yīng)用與元宇宙中的虛擬世界進(jìn)行交互,或者在游戲中體驗更沉浸式的互動。
近年來,現(xiàn)實世界的許多行為發(fā)生改變,如遠(yuǎn)程會議、線上購物等。隨著人們越來越習(xí)慣于在“虛擬世界”中進(jìn)行這些日?;顒?,元宇宙的概念重新流行起來。此外,各種新興技術(shù)的發(fā)展使元宇宙實現(xiàn)的可能性越來越大。例如,增強移動寬帶(enhanced mobile broadband,eMBB)和超可靠低時延通信(ultra reliable low latency communications,URLLC)[6-7]可以支持AR、VR等技術(shù),使用戶在感官上更沉浸于元宇宙的虛擬世界中。這些新型技術(shù)的快速發(fā)展使元宇宙在教育[8]、醫(yī)療[9]、電子商務(wù)[10]、智能產(chǎn)業(yè)[11]以及許多活動中占據(jù)優(yōu)勢。通過將更多的數(shù)據(jù)注入虛擬世界和物理世界中,并且使用人工智能輔助系統(tǒng),為用戶創(chuàng)造全新的空間和體驗。
在技術(shù)層面上,元宇宙可以被看作大數(shù)據(jù)與信息技術(shù)的融合載體。用戶在元宇宙中的信息等以數(shù)據(jù)的形式被記錄在各種形式的文件中。隨著用戶的增加,元宇宙中將產(chǎn)生大量的數(shù)據(jù),從而形成一個大數(shù)據(jù)網(wǎng)絡(luò)。同時該網(wǎng)絡(luò)會繼續(xù)擴大,人們需要使用智能的數(shù)據(jù)分析工具來獲取有用的信息,使決策更加可預(yù)測和準(zhǔn)確,更有效地指導(dǎo)生產(chǎn)和生活,因此給數(shù)據(jù)處理技術(shù)[12]帶來了巨大挑戰(zhàn)。元宇宙中虛擬世界和物理世界的無縫連接需要眾多物聯(lián)網(wǎng)設(shè)備的支持,這些設(shè)備要實時地收集和處理物理世界中的數(shù)據(jù)。虛擬世界與現(xiàn)實世界的融合、互動是大數(shù)據(jù)技術(shù)的關(guān)鍵任務(wù)。處理大數(shù)據(jù)的能力對于元宇宙來說非常重要。
值得注意的是,元宇宙不是簡單地將物理世界與虛擬世界結(jié)合起來。相反,它是物理世界在虛擬世界中的延續(xù),是一個融合了物理世界與虛擬世界的生態(tài)系統(tǒng)。虛擬世界依賴于分布式技術(shù)來協(xié)調(diào)、溝通和完成各項活動。為了解決元宇宙中地理、時間等密切相關(guān)但不連續(xù)的問題,需要合理協(xié)調(diào)虛擬世界與物理世界的各項活動,使人們可以在兩個世界間有效溝通。盡管有成熟的協(xié)作工具,但是仍然無法滿足元宇宙因地理分散等原因帶來的相關(guān)挑戰(zhàn)[13-15]。
目前,元宇宙中的虛擬世界依賴于集中式的架構(gòu),每個虛擬世界在被劃分為更小的區(qū)域之后使用專用服務(wù)器進(jìn)行管理,但是一些計算(如仿真)需要中央服務(wù)器執(zhí)行。邊緣計算可以減輕中央服務(wù)器的計算壓力。邊緣計算將云計算擴展到網(wǎng)絡(luò)邊緣,支持資源有限的移動設(shè)備將其任務(wù)上傳到邊緣服務(wù)器進(jìn)行處理[16]。然而,隨著元宇宙的出現(xiàn),連接到通信網(wǎng)絡(luò)的移動設(shè)備數(shù)量將急劇增加,這可能會使邊緣服務(wù)器由于資源有限[17-18]而擁塞,因此可以采用分布式協(xié)同計算解決元宇宙[9]中的計算密集型任務(wù)。云邊端協(xié)同技術(shù)綜合考慮了云邊端不同層次的特征,可以進(jìn)一步優(yōu)化元宇宙中的分布式問題。
元宇宙中虛擬世界和物理世界需要云的大型計算能力和邊、端共同協(xié)作來完成工作。然而,現(xiàn)有工作并沒有從云邊端協(xié)同的角度關(guān)注元宇宙中數(shù)據(jù)存取等相關(guān)挑戰(zhàn)。本文從元宇宙的云邊端協(xié)同的角度出發(fā),提出大數(shù)據(jù)解決元宇宙數(shù)據(jù)管理問題的方案。
本文主要考慮以下幾個問題。
● 如何跨越通信和網(wǎng)絡(luò)障礙,在時延和數(shù)據(jù)速率的要求下,實現(xiàn)虛擬世界與物理世界的數(shù)據(jù)統(tǒng)一。物理世界與虛擬世界之間存在大量的數(shù)據(jù)和信息流動,以保證兩個世界的同步。因此,綜合考慮帶寬的限制和要傳輸?shù)拇罅繑?shù)據(jù),筆者希望盡可能讓物理世界與虛擬世界具有高度一致性。
● 如何設(shè)計數(shù)據(jù)存取結(jié)構(gòu),使用戶在虛擬世界與物理世界中高效管理數(shù)據(jù)。元宇宙平臺擁有大量的網(wǎng)絡(luò)用戶和擴展現(xiàn)實設(shè)備的物理用戶,需要用好的數(shù)據(jù)結(jié)構(gòu)管理產(chǎn)生的大量數(shù)據(jù),以便元宇宙平臺及所有用戶對數(shù)據(jù)進(jìn)行操作。
● 同一數(shù)據(jù)在虛擬世界與物理世界中的語義可能不同,如何定義數(shù)據(jù)模型以便管理數(shù)據(jù)。例如,元宇宙中不同世界數(shù)據(jù)的優(yōu)先級是不同的,針對不同世界的同一數(shù)據(jù)需要不同的處理方案,因此需要設(shè)計統(tǒng)一的數(shù)據(jù)模型對數(shù)據(jù)進(jìn)行約束,作為查詢計劃等的理論基礎(chǔ)。
● 如何執(zhí)行數(shù)據(jù)查詢以便用戶在兩個世界無縫切換,使元宇宙更具有沉浸性。虛擬世界與物理世界的查詢?nèi)蝿?wù)可能是不相同的,結(jié)果的精度也存在差異。因此,需要根據(jù)不同查詢指定相應(yīng)的查詢計劃。同時,元宇宙中的查詢更加復(fù)雜,如元宇宙游戲中可能涉及移動查詢,查詢?nèi)蝿?wù)會根據(jù)用戶的地理位置不同而變化。因此執(zhí)行良好的查詢計劃可以更好地融合虛擬世界與物理世界。
Thomason J[19]研究了元宇宙對協(xié)作工作、教育、臨床護(hù)理、健康和貨幣化的影響。參考文獻(xiàn)[20]提出了一種管理游戲中用戶生成數(shù)據(jù)的解決方案。Yang Q L等人[21]討論了AI和區(qū)塊鏈的融合如何促進(jìn)元宇宙中的服務(wù)交付。還有一些工作討論了人工智能如何在開發(fā)元宇宙中發(fā)揮作用,如參考文獻(xiàn)[22]中根據(jù)自然語言處理來創(chuàng)建智能聊天機器人或機器視覺,以允許AR/VR設(shè)備有效地分析和理解用戶環(huán)境。Ning H S等人[23]重點討論了元宇宙目前的應(yīng)用和工業(yè)發(fā)展,并從工業(yè)的角度對未來的前景進(jìn)行了預(yù)測。
現(xiàn)有的“精簡版”元宇宙,如在游戲Second Life中,用戶可以通過客戶端與游戲中的虛擬化身互動。在游戲中,虛擬化身的活動與區(qū)域有關(guān),而區(qū)域與服務(wù)器相關(guān)聯(lián),任何客戶端與任何服務(wù)器都可以交互。因此,這種模式與云邊端協(xié)同的管理模式相似。
為了支撐不同場景下的數(shù)據(jù)管理,研究人員提出了多種數(shù)據(jù)模型,主要包括關(guān)系型數(shù)據(jù)模型、非關(guān)系型數(shù)據(jù)模型、多模態(tài)數(shù)據(jù)模型3種。對應(yīng)每類數(shù)據(jù)模型有不同的研究,包括基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)、基本數(shù)據(jù)操作及其代數(shù)理論、數(shù)據(jù)完整性約束研究。最經(jīng)典的數(shù)據(jù)模型是關(guān)系型數(shù)據(jù)模型[24],相關(guān)知識包括基礎(chǔ)關(guān)系數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)關(guān)系數(shù)據(jù)操作、關(guān)系代數(shù)和關(guān)系數(shù)據(jù)完整性約束理論。隨著不同類型數(shù)據(jù)的出現(xiàn),多種非關(guān)系型數(shù)據(jù)模型被提出。其中比較有代表性的是XML數(shù)據(jù)模型[25]、JSON數(shù)據(jù)模型、RDF數(shù)據(jù)模型、Property圖模型[26]等。
當(dāng)前云邊端數(shù)據(jù)的存儲策略主要有集中和分布兩種。參考文獻(xiàn)[27]提出了一種數(shù)據(jù)定期從傳感器節(jié)點收集并發(fā)送到集中式數(shù)據(jù)庫的方法,但由于該方法會生成大量數(shù)據(jù),可能在服務(wù)器中因資源爭奪形成瓶頸[28]。Kanzaki A等人[29]提出了基于集中方法的無線傳感器網(wǎng)絡(luò)測試平臺X-Sensor,該平臺將從所有節(jié)點獲取的數(shù)據(jù)存儲在集中數(shù)據(jù)庫中。Elias A G F等人[30]提出了基于集中存儲的無線傳感器網(wǎng)絡(luò)監(jiān)測方法,該方法收集傳感數(shù)據(jù),并將其存儲在集中式關(guān)系數(shù)據(jù)庫中。在支持云邊端的數(shù)據(jù)庫產(chǎn)品中,OpenTSDB[31]/HBase[32]僅支持云側(cè)數(shù)據(jù)存儲;InfluxDB[33]支持云側(cè)和邊側(cè)的數(shù)據(jù)存儲;TDengine、Machbase和Apache IoTDB均支持云邊端3類數(shù)據(jù)存儲,但均不支持協(xié)同處理。
隨著不同云存儲系統(tǒng)的出現(xiàn),如GFS[34]、Cassandra[35]、Dynamo[36]等,研究人員已經(jīng)提出了多種索引方案來有效地支持大規(guī)模分析作業(yè)和高并發(fā)聯(lián)機事務(wù)處理過程(on-line transaction processing,OLTP)查詢[37-39]。為了有效支持復(fù)雜查詢,多維索引策略被提出。RTCAN在CAN中使用了基于R-tree的索引[40],Zhang X Y等人[41]通過使用R-tree和KD-tree的組合來支持多維索引,Cheng C L等人[42]提出了一種基于多維索引的CAN,Chen G等人[43]在云基礎(chǔ)設(shè)施中提出了一個類似數(shù)據(jù)庫管理系統(tǒng)(database management system,DBMS)的索引。
近年來,隨著云計算、邊緣計算的興起,也有一些新興數(shù)據(jù)庫可以更好地支持云邊端協(xié)同數(shù)據(jù)管理。例如時序數(shù)據(jù)庫InfluxDB[33]被用來支持云邊數(shù)據(jù)查詢;Apache IoTDB雖然支持云邊端上的數(shù)據(jù)管理,但其僅支持有限的幾種基于規(guī)則的查詢優(yōu)化技術(shù)[44],且無法實現(xiàn)元宇宙云邊端協(xié)同查詢處理和優(yōu)化。
首先,與目前在數(shù)據(jù)流和傳感器上進(jìn)行的相對簡單的聚合不同,元宇宙中的數(shù)據(jù)管理需要對這些數(shù)據(jù)源進(jìn)行更復(fù)雜的邏輯推理。其次,與旨在為一組異構(gòu)數(shù)據(jù)庫派生通用模式的數(shù)據(jù)集成不同,元宇宙中數(shù)據(jù)管理基于這些數(shù)據(jù)發(fā)生的事件,并在元宇宙中準(zhǔn)確而有效地描述這些事件。顯然,需要開發(fā)數(shù)據(jù)管理機制來有效地處理這兩個問題。元宇宙中的活動可以被看作云邊端設(shè)備共同協(xié)作的結(jié)果。以元宇宙購物為例,用戶的終端設(shè)備(如手機等)可以被看作端,實體商場可以被看作邊,而虛擬的線上商店可以被看作云。因此,元宇宙中的數(shù)據(jù)管理可以被看作云邊端協(xié)同的數(shù)據(jù)管理。下面從云邊端的角度討論數(shù)據(jù)管理的優(yōu)勢和挑戰(zhàn)。
云邊端協(xié)同可以充分整合云計算與邊緣計算的優(yōu)勢。以在線購物為例,位于用戶端側(cè)的設(shè)備(如手機)需要處理大量的用戶數(shù)據(jù)及需求,使數(shù)據(jù)量激增;而位于邊側(cè)的商場和位于云側(cè)的線上商店需要管理商品信息、處理用戶需求等,這需要準(zhǔn)確、快速的計算能力支撐。若全部在端側(cè)或邊側(cè)處理,端、邊側(cè)設(shè)備的計算能力無法支撐,且無法實現(xiàn)全局?jǐn)?shù)據(jù)分析;若將端側(cè)的全量數(shù)據(jù)傳至云端處理,則無法滿足數(shù)據(jù)處理的實時性要求,且會嚴(yán)重消耗網(wǎng)絡(luò)帶寬。此時云邊端協(xié)同的優(yōu)勢顯著體現(xiàn)。在端側(cè)對用戶數(shù)據(jù)進(jìn)行過濾、平滑、降采樣等處理,在邊側(cè)進(jìn)行特征提取等操作,在云側(cè)進(jìn)行關(guān)聯(lián)規(guī)則挖掘、深度學(xué)習(xí)等高代價的分析任務(wù)。此時,終端算力上移,云端算力下沉,可有效解決云上集中處理帶寬消耗大、響應(yīng)速度慢的問題,也能有效解決邊端處理能力不足的問題,進(jìn)而為用戶提供良好的購物體驗。
云邊端協(xié)同的新計算模式對數(shù)據(jù)管理提出了新的要求,需要有效融合云邊端的計算能力,構(gòu)筑云邊端數(shù)據(jù)處理、通信、存儲等能力全面協(xié)同的數(shù)據(jù)管理平臺,這可以帶來以下3個方面的優(yōu)勢。
● 強時效。由于云的計算能力更強,而邊緣側(cè)和端側(cè)距離數(shù)據(jù)源更近,云邊端協(xié)同能夠為數(shù)據(jù)存儲和查詢、處理任務(wù)分配最優(yōu)計算節(jié)點,減少中間數(shù)據(jù)傳輸,從而提高數(shù)據(jù)存取性能,確保實時處理,使虛擬世界與物理世界更好地融合。例如,為了保證元宇宙購物的高時效性,需要在用戶端側(cè)監(jiān)控數(shù)據(jù)實時處理端側(cè)數(shù)據(jù),而大量交易信息交換可以在云側(cè)完成。
● 高安全性。邊緣和端上的數(shù)據(jù)處理基于本地,涉及用戶隱私的敏感數(shù)據(jù)無須上傳到云端,這避免了網(wǎng)絡(luò)傳輸帶來的泄漏風(fēng)險。數(shù)據(jù)受到攻擊,只會影響本地數(shù)據(jù),不會影響云上數(shù)據(jù),從而提高數(shù)據(jù)安全性,為元宇宙提供安全保障。例如,在軍事演習(xí)中,如果將所有的戰(zhàn)略信息上傳到云端,可能會造成軍事信息泄露,因此可以采用聯(lián)邦學(xué)習(xí)框架,在邊端完成面向敏感數(shù)據(jù)的學(xué)習(xí)任務(wù)并加密上傳到云,在云上基于密態(tài)數(shù)據(jù)完成分析,這樣可以在不泄露軍事機密的前提下完成元宇宙軍事演習(xí)。
● 低代價。由于數(shù)據(jù)無須全部上傳到云,面向云邊端協(xié)同的數(shù)據(jù)管理無須使 用太多的網(wǎng)絡(luò)帶寬,充分利用云的協(xié)同能力和邊端的計算能力,降低本地設(shè)備管理數(shù)據(jù)的成本和能耗,從而提高計算效率。例如,在元宇宙游戲中,用戶的擴展現(xiàn)實設(shè)備采集的數(shù)據(jù)不需要全部上傳到云端,在用戶端進(jìn)行信息篩選,在云端運行復(fù)雜模型進(jìn)行處理。這既節(jié)省了帶寬,又避免在邊端上執(zhí)行代價高昂的復(fù)雜運算。
盡管面向云邊端協(xié)同的數(shù)據(jù)管理具有諸多優(yōu)勢,但是云邊端的計算、存儲資源狀況和對數(shù)據(jù)管理的需求帶來了一些挑戰(zhàn),如圖1所示。
圖1 面向元宇宙的云邊端協(xié)同大數(shù)據(jù)管理的挑戰(zhàn)
● 異構(gòu)性。元宇宙中云邊端協(xié)同的異構(gòu)性主要包括設(shè)備異構(gòu)和數(shù)據(jù)異構(gòu)兩個方面。一方面,異構(gòu)設(shè)備(如不同的用戶XR設(shè)備、承載虛擬世界的服務(wù)器)之間的計算能力和通信資源存在巨大的差異,導(dǎo)致將同樣的模型和方法應(yīng)用于不同設(shè)備會產(chǎn)生不同代價。同時元宇宙各個設(shè)備的存儲能力和計算能力有巨大差異。云節(jié)點存儲計算能力強,但查詢時延大,且I/O帶寬容易成為瓶頸;邊緣節(jié)點靠近終端,查詢時延低,但存儲計算能力較弱,通常只保存局部數(shù)據(jù),難以執(zhí)行大規(guī)模復(fù)雜查詢;終端節(jié)點存儲計算能力差,但其兼顧數(shù)據(jù)采集功能,適用于數(shù)據(jù)過濾等輕量級操作。因此,實現(xiàn)異構(gòu)設(shè)備的兼容協(xié)調(diào)及資源的合理分配與管理為數(shù)據(jù)管理帶來挑戰(zhàn)。另一方面,元宇宙的云邊端協(xié)同中,終端設(shè)備上產(chǎn)生海量數(shù)據(jù),包括數(shù)值型數(shù)據(jù)、圖像數(shù)據(jù)和音頻數(shù)據(jù)等;同時,邊緣設(shè)備和云有大量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)有數(shù)據(jù)管理方法難以有效處理設(shè)備異構(gòu)和應(yīng)用場景差異,以及其帶來的數(shù)據(jù)規(guī)模、分布和模式的差異,因此這是面向元宇宙的云邊端協(xié)同數(shù)據(jù)管理的第一個挑戰(zhàn)。
● 高維性。包括數(shù)據(jù)在時間維度的高維性和單個時間戳上各個屬性維度的高維性兩個方面。一方面,在元宇宙的云邊端協(xié)同場景下,物理世界終端設(shè)備上產(chǎn)生的傳感器監(jiān)測數(shù)據(jù)隨采樣時間有序變化,是典型的時序數(shù)據(jù)。由于端設(shè)備采樣頻率高、時間維度高,時序數(shù)據(jù)的長度很大,需要更加快速的數(shù)據(jù)寫入能力和更高效的壓縮技術(shù)。 例如,在元宇宙游戲中,用戶終端設(shè)備上的攝像頭需要實時監(jiān)控用戶的行為,并將相應(yīng)數(shù)據(jù)上傳到虛擬世界中,如使用高速攝像頭進(jìn)行高頻率的圖像采集,可達(dá)到單點每秒采集100 MB以上的數(shù)據(jù)。另一方面,在元宇宙的云邊端協(xié)同場景下,端側(cè)設(shè)備(如各類傳感器以及檢測設(shè)備)數(shù)量巨大,這使得同一實體在各個采樣點上的屬性具有超高維度。例如,元宇宙游戲中同一時間玩家視野下需要采樣數(shù)百個點才能在虛擬世界中建?!,F(xiàn)有的數(shù)據(jù)索引和查詢處理技術(shù)難以高效處理這類超高維度的數(shù)據(jù),這成為面向元宇宙的云邊端協(xié)同數(shù)據(jù)管理的第二個挑戰(zhàn)。
● 實時性。在云邊端協(xié)同場景中,物理世界中海量終端設(shè)備以較高的頻率采集數(shù)據(jù),使數(shù)據(jù)規(guī)模進(jìn)一步擴大。而云邊端協(xié)同的業(yè)務(wù)需求,如商場實時購物、游戲中的獎勵、基于元宇宙的遠(yuǎn)程醫(yī)療等,常需要實時響應(yīng)。因此,面向元宇宙大規(guī)模數(shù)據(jù)的實時響應(yīng)能力成為面向元宇宙的云邊端協(xié)同數(shù)據(jù)管理的第三個挑戰(zhàn)。
● 可用性。受網(wǎng)絡(luò)信號、能量損耗和設(shè)備故障等因素的影響,物理世界的設(shè)備會頻繁地上線或下線,邊云側(cè)也會出現(xiàn)不穩(wěn)定的情況。例如,元宇宙購物可能會因網(wǎng)絡(luò)故障無法交易、云端用戶可能發(fā)生堵塞等。因此,元宇宙的云邊端協(xié)同的顯著特點是系統(tǒng)存在頻繁波動?,F(xiàn)有數(shù)據(jù)管理理論和方法均未考慮到這一問題,因而,如何應(yīng)對元宇宙的故障、保證系統(tǒng)可用性成為面向元宇宙的云邊端協(xié)同數(shù)據(jù)管理的第四個挑戰(zhàn)。
當(dāng)前針對云邊端的數(shù)據(jù)管理理論和技術(shù)研究主要集中在云側(cè),面向邊和端的研究較少,面向云邊端協(xié)同的數(shù)據(jù)管理理論和技術(shù)的研究更少,難以應(yīng)對上述挑戰(zhàn),因此很難將其應(yīng)用在云邊端協(xié)同場景下,更無法應(yīng)用在元宇宙場景中。因而,本文討論面向元宇宙的云邊端協(xié)同大數(shù)據(jù)管理技術(shù),重點討論面向元宇宙的數(shù)據(jù)統(tǒng)一技術(shù)、數(shù)據(jù)存取技術(shù)、數(shù)據(jù)模型技術(shù)以及查詢優(yōu)化技術(shù)。
針對上述元宇宙中數(shù)據(jù)管理的挑戰(zhàn),本文提出面向元宇宙數(shù)據(jù)管理的4個研究內(nèi)容,如圖2所示。首先,本文提出了面向元宇宙的云邊端協(xié)同數(shù)據(jù)模型,將其作為元宇宙數(shù)據(jù)管理的基礎(chǔ);其次,本文分別提出了面向元宇宙的云邊端數(shù)據(jù)同步管理以及高效存儲索引,解決元宇宙的數(shù)據(jù)同步、存儲、索引等問題;最后,本文提出面向元宇宙的云邊端協(xié)同查詢優(yōu)化,在數(shù)據(jù)管理的基礎(chǔ)上解決元宇宙中的各種復(fù)雜查詢。
數(shù)據(jù)模型是數(shù)據(jù)管理的基礎(chǔ)。在面向元宇宙的數(shù)據(jù)管理中,傳統(tǒng)的數(shù)據(jù)模型存在3個問題。第一,數(shù)據(jù)和設(shè)備異構(gòu)帶來了元宇宙中不同的數(shù)據(jù)模型需求及元宇宙的數(shù)據(jù)模型新需求,現(xiàn)有數(shù)據(jù)模型或者數(shù)據(jù)模型的簡單疊加難以同時滿足元宇宙異構(gòu)數(shù)據(jù)管理和協(xié)同關(guān)系管理需求。第二,面向元宇宙的數(shù)據(jù)庫中數(shù)據(jù)操作更加復(fù)雜,難以用傳統(tǒng)代數(shù)運算來描述,很多查詢需要虛擬世界和物理世界協(xié)同處理,傳統(tǒng)數(shù)據(jù)模型難以直接支撐復(fù)雜的協(xié)同數(shù)據(jù)處理,而多種數(shù)據(jù)操作的簡單組合又會降低數(shù)據(jù)操作執(zhí)行的效率。第三,元宇宙不同世界的異構(gòu)數(shù)據(jù)結(jié)構(gòu)帶來了新的數(shù)據(jù)完整性約束需求,目前尚未有面向元宇宙的數(shù)據(jù)完整性約束理論,而現(xiàn)有的完整性約束理論難以支撐元宇宙數(shù)據(jù)協(xié)同中不同層次異構(gòu)數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)協(xié)同查詢所需的完整性判定。
綜上,本文針對上述3個問題,提出面向元宇宙的云邊端協(xié)同數(shù)據(jù)模型,為數(shù)據(jù)管理奠定理論基礎(chǔ)。重點研究面向元宇宙的異構(gòu)數(shù)據(jù)映射模型、異構(gòu)模型協(xié)同數(shù)據(jù)操作與代數(shù)運算,以及多元彈性數(shù)據(jù)完整性約束。
為了完成虛擬世界與現(xiàn)實世界的交互,元宇宙通常利用多源數(shù)據(jù)與多臺設(shè)備進(jìn)行交互,從而帶來了設(shè)備和模型異構(gòu)的數(shù)據(jù)管理需求。本文基于云邊端平臺,針對虛擬數(shù)據(jù)和現(xiàn)實數(shù)據(jù)設(shè)計異構(gòu)數(shù)據(jù)映射模型,定義不同元數(shù)據(jù)的具體數(shù)據(jù)模式和數(shù)據(jù)模式在云邊端層內(nèi)、層間的關(guān)聯(lián)、依賴關(guān)系,以有效支撐對虛擬世界與現(xiàn)實世界的高效管理,還能夠有效支撐元宇宙中云邊端協(xié)同的數(shù)據(jù)管理,為元宇宙管理的數(shù)據(jù)操作和數(shù)據(jù)完整性約束理論奠定基礎(chǔ)。
其次,元宇宙除了要支撐虛擬數(shù)據(jù)和現(xiàn)實數(shù)據(jù)的存取,還要支撐虛擬世界與現(xiàn)實世界的自動鏈接,傳統(tǒng)數(shù)據(jù)平臺的范圍過濾、時序過濾、近似過濾以及聚集過濾等操作已經(jīng)難以滿足元宇宙的數(shù)據(jù)操作需求。因而,要研究元宇宙中異構(gòu)模型協(xié)同數(shù)據(jù)操作,包括多源虛擬數(shù)據(jù)模型、多源現(xiàn)實數(shù)據(jù)模型和異構(gòu)映射模型的數(shù)據(jù)操作;定義面向元宇宙中新型數(shù)據(jù)結(jié)構(gòu)的基本數(shù)據(jù)操作,并研究底層代數(shù)運算,為查詢處理與優(yōu)化奠定基礎(chǔ)。
最后面向元宇宙的異構(gòu)映射數(shù)據(jù)模型對數(shù)據(jù)完整性約束理論提出了新的泛化需求,元宇宙數(shù)據(jù)具有不同的數(shù)據(jù)約束語義,并且現(xiàn)實數(shù)據(jù)和虛擬數(shù)據(jù)之間存在復(fù)雜映射約束語義,傳統(tǒng)面向關(guān)系模型或高維數(shù)據(jù)模型設(shè)計的數(shù)據(jù)完整性約束理論不能支撐面向元宇宙數(shù)據(jù)管理的復(fù)雜多樣語義需求。因此要研究面向異構(gòu)映射數(shù)據(jù)模型和數(shù)據(jù)操作的多元彈性數(shù)據(jù)完整性約束理論,以支持元宇宙數(shù)據(jù)的多樣化語義約束、一對多依賴語義約束以及約束理論的推理規(guī)則,為元宇宙數(shù)據(jù)存儲、索引、查詢優(yōu)化奠定理論基礎(chǔ)。
元宇宙數(shù)據(jù)的來源多樣、類型不同,且在不同應(yīng)用的數(shù)據(jù)處理中,虛擬世界與物理世界對數(shù)據(jù)存儲的要求不同。元宇宙數(shù)據(jù)處理要求低時延、高度自治,而傳統(tǒng)數(shù)據(jù)存儲技術(shù)無法兼顧兩個世界。針對元宇宙對數(shù)據(jù)存儲的復(fù)雜需求,要設(shè)計基于深度學(xué)習(xí)的虛實結(jié)合分級分層數(shù)據(jù)存儲策略,分別為物理世界和虛擬世界數(shù)據(jù)設(shè)計相應(yīng)的存儲架構(gòu)、存儲結(jié)構(gòu)、存儲布局等智能存儲策略。將物理世界設(shè)備的敏捷性與虛擬世界數(shù)據(jù)的彈性融為一體,需要以最小化存儲空間、最大化負(fù)載性能為目標(biāo)設(shè)計元宇宙存儲彈性自適應(yīng)算法,實現(xiàn)元宇宙不同世界數(shù)據(jù)的協(xié)同管理。
元宇宙中數(shù)據(jù)來源復(fù)雜,物理世界需要支撐有一定復(fù)雜度的數(shù)據(jù)處理任務(wù),實時管理和低時延響應(yīng)要求高。而傳統(tǒng)的數(shù)據(jù)存儲結(jié)構(gòu)較單一、存儲方式較固定,僅能在數(shù)據(jù)采集階段確定存儲結(jié)構(gòu),不能在協(xié)同處理過程中提供靈活多變的存儲結(jié)構(gòu)方案,難以滿足面向元宇宙的存?zhèn)魉阋惑w、計算力下沉需求,實現(xiàn)元宇宙中海量數(shù)據(jù)的高效并發(fā)存取。為了支撐元宇宙多源異構(gòu)數(shù)據(jù)的存儲,滿足數(shù)據(jù)處理能力下沉至邊端側(cè)的需求,需設(shè)計智能化存儲方案,設(shè)計基于深度學(xué)習(xí)的智能存儲決策算法,最小化存儲代價,確保物理世界和虛擬世界均可存儲與數(shù)據(jù)處理任務(wù)最匹配的數(shù)據(jù),消除不必要的數(shù)據(jù)傳輸開銷,實現(xiàn)元宇宙低時延特性。同時,為了實現(xiàn)數(shù)據(jù)管理過程中存算有機耦合,可以在存儲結(jié)構(gòu)中設(shè)計智能數(shù)據(jù)處理方法,實現(xiàn)存儲與數(shù)據(jù)處理相融合的需求,完成數(shù)智化存儲;針對視頻、語音、圖像等多模態(tài)數(shù)據(jù),開發(fā)虛實結(jié)合的多模態(tài)存儲引擎;根據(jù)負(fù)載和數(shù)據(jù)變化,綜合現(xiàn)有數(shù)據(jù)存儲布局的優(yōu)缺點,提出智能切換數(shù)據(jù)布局的方法,面向元宇宙?zhèn)鬏斝枨髮崿F(xiàn)存儲結(jié)構(gòu)自適應(yīng)轉(zhuǎn)換,提高元宇宙數(shù)據(jù)實時并發(fā)讀寫能力。
元宇宙中設(shè)備間、虛擬世界和物理世界間數(shù)據(jù)傳輸頻繁,需要高效選擇需傳輸?shù)臄?shù)據(jù),提高數(shù)據(jù)傳輸效率。現(xiàn)有方法雖然可以結(jié)合索引實現(xiàn)數(shù)據(jù)過濾等操作,但是索引結(jié)構(gòu)單一,針對傳輸任務(wù)的變化及多樣化處理不靈活,限制了任務(wù)傳輸效率。例如,在元宇宙軍事演習(xí)中,重要數(shù)據(jù)必須實時同步以保證演習(xí)的正常進(jìn)行。時延可能導(dǎo)致策略失效,進(jìn)而導(dǎo)致演習(xí)失敗。針對這個問題,需研究面向元宇宙中通信任務(wù)的索引結(jié)構(gòu),以降低元宇宙中的通信代價,滿足實時性要求;同時結(jié)合工作負(fù)載等特征,對傳輸數(shù)據(jù)進(jìn)行適當(dāng)聚合和過濾,對不同世界不同設(shè)備的傳輸任務(wù)自適應(yīng)地選擇恰當(dāng)?shù)乃饕Y(jié)構(gòu),針對傳輸任務(wù)的變化自動對索引結(jié)構(gòu)進(jìn)行調(diào)整,達(dá)到數(shù)據(jù)在元宇宙設(shè)備上高效傳輸、同步的目的。
元宇宙中的數(shù)據(jù)量巨大,原有的數(shù)據(jù)管理方法不再有效,因此提供高效數(shù)據(jù)管理機制對元宇宙虛擬世界和物理世界互通是非常必要的。
(1)面向元宇宙的數(shù)據(jù)存儲技術(shù)
面向元宇宙的數(shù)據(jù)管理的基礎(chǔ)是元宇宙兩個世界一體的數(shù)據(jù)協(xié)同存儲。虛擬世界和物理世界數(shù)據(jù)的來源多樣且規(guī)模巨大,包含多種傳感器采集的實時數(shù)據(jù)。隨著物理世界的計算力逐漸下沉到邊端側(cè),邊端側(cè)存儲面臨存算一體的設(shè)計挑戰(zhàn)。為了提升元宇宙中數(shù)據(jù)的交互能力,元宇宙中的數(shù)據(jù)與計算力同樣需要下沉,傳統(tǒng)數(shù)據(jù)存儲方法難以滿足要求。
面向元宇宙的數(shù)據(jù)管理需要在兩個世界存儲熱度不同的數(shù)據(jù),傳統(tǒng)的存儲方法沒有考慮面向元宇宙存儲中不同特征的數(shù)據(jù)區(qū)分方法。物理世界需要對采集的數(shù)據(jù)或歷史數(shù)據(jù)進(jìn)行長期的存儲,同時,數(shù)據(jù)會在協(xié)同處理時,由物理世界上傳至虛擬世界,物理世界也會在處理過程中提供原始數(shù)據(jù)支持。例如,元宇宙游戲中,一些僅與玩家有關(guān)的數(shù)據(jù)可以在本地處理,當(dāng)虛擬世界需要該數(shù)據(jù)時再進(jìn)行上傳操作。基于此,為了節(jié)省存儲空間,應(yīng)對不同節(jié)點可用性不同的挑戰(zhàn),需要研究智能數(shù)據(jù)熱度分級管理方案,從而自動區(qū)分處理過程中數(shù)據(jù)的熱度,基于熱度選擇不同位置和模式進(jìn)行存儲,并能夠預(yù)測出不同方案的存儲代價,以加快面向元宇宙的數(shù)據(jù)處理速度。
物理世界的數(shù)據(jù)規(guī)模整體上非常巨大且數(shù)據(jù)存在大量冗余,給數(shù)據(jù)傳輸和存儲帶來負(fù)擔(dān),因此需要面向元宇宙數(shù)據(jù)的特點對數(shù)據(jù)進(jìn)行壓縮。為了應(yīng)對元宇宙海量高維時序數(shù)據(jù)存儲的挑戰(zhàn),最大化存儲空間利用率,需要設(shè)計適用于元宇宙的數(shù)據(jù)彈性壓縮方法,按照數(shù)據(jù)分布、負(fù)載等特征進(jìn)行自適應(yīng)壓縮,實現(xiàn)虛擬世界和物理世界數(shù)據(jù)的智能化協(xié)同壓縮。針對多模態(tài)數(shù)據(jù),設(shè)計基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)壓縮算法,最大限度降低不同世界間的數(shù)據(jù)傳輸代價。
(2)面向元宇宙的索引技術(shù)
有效的索引對提升數(shù)據(jù)處理效率起著重要作用,快速獲取數(shù)據(jù)可以在很大程度上淡化虛擬世界與物理世界的邊界,使用戶在兩個世界中切換自如。
現(xiàn)有索引缺少元宇宙中云邊端整體協(xié)同及元宇宙中數(shù)據(jù)不斷更新的綜合考慮。由于這些索引未能考慮到元宇宙兩個世界以及云邊端3個層次之間的協(xié)同,簡單的疊加會導(dǎo)致查詢處理過程中數(shù)據(jù)或索引的冗余訪問,進(jìn)而影響效率,因此需要綜合考慮元宇宙協(xié)同數(shù)據(jù)索引技術(shù),設(shè)計一體化新型索引。例如,在元宇宙圖書館中,圖書庫存不斷變化,一旦虛擬世界與物理世界的數(shù)據(jù)不匹配,就會出現(xiàn)購買數(shù)量超過實際庫存的情況。因此針對高維時序數(shù)據(jù)分布復(fù)雜、節(jié)點數(shù)量多、數(shù)據(jù)量大而目前尚無系統(tǒng)性設(shè)計索引的現(xiàn)狀,需綜合考慮元宇宙中云邊端協(xié)同的問題,研究面向元宇宙的高維索引,充分考慮高維時序數(shù)據(jù)特征和元宇宙中云邊端協(xié)同的綜合特征,以處理效率最大化為目標(biāo)設(shè)計元宇宙索引分布策略。為虛擬世界和物理世界數(shù)據(jù)的映射設(shè)計索引,支持元宇宙中云邊端各個節(jié)點的高效查找,實現(xiàn)元宇宙高效協(xié)同??紤]到元宇宙中數(shù)據(jù)的不穩(wěn)定更新,需要研究支持快速更新的索引結(jié)構(gòu),解決由數(shù)據(jù)更新過快引發(fā)的索引不同步問題。
由于元宇宙設(shè)備的異構(gòu)性,不同世界之間的數(shù)據(jù)難以統(tǒng)一索引且同一個世界的索引很難擴展到其他世界,尚無有效方法根據(jù)不同設(shè)備處理任務(wù)的能力自適應(yīng)地生成或選擇相應(yīng)的索引。針對元宇宙不同設(shè)備處理能力和承擔(dān)的計算任務(wù)不同、現(xiàn)有索引結(jié)構(gòu)單一且難以擴展的挑戰(zhàn),需要研究以提升元宇宙數(shù)據(jù)訪問整體任務(wù)的效率為目的的自適應(yīng)索引,降低空間復(fù)雜度、加速查詢處理,保證面向元宇宙不同設(shè)備、數(shù)據(jù)和負(fù)載特征的索引智能構(gòu)建和更新。
面向元宇宙的查詢處理和優(yōu)化帶來了數(shù)據(jù)海量異構(gòu)、協(xié)作約束復(fù)雜、優(yōu)化目標(biāo)多樣、設(shè)備網(wǎng)絡(luò)異構(gòu)和節(jié)點穩(wěn)定性低5個方面新的挑戰(zhàn),當(dāng)前的技術(shù)難以應(yīng)對這些挑戰(zhàn),因此元宇宙中的查詢處理和優(yōu)化需要新的機制。針對上述挑戰(zhàn),本文提出4個查詢優(yōu)化技術(shù)路線。
首先元宇宙中存在著海量異構(gòu)數(shù)據(jù),現(xiàn)有數(shù)據(jù)庫查詢技術(shù)無法對這些復(fù)雜異構(gòu)數(shù)據(jù)做出有效管理。例如,在元宇宙購物、圖書館和游戲等場景下,元宇宙環(huán)境中存在著海量的三維模型數(shù)據(jù)、文本數(shù)據(jù)和鍵值數(shù)據(jù)等。面對元宇宙中用戶的復(fù)雜交互行為,需要針對其海量異構(gòu)的數(shù)據(jù)特點,研究面向元宇宙的邏輯查詢計劃表示模型,并設(shè)計支持異構(gòu)數(shù)據(jù)交叉查詢的查詢執(zhí)行引擎。
元宇宙異構(gòu)節(jié)點間普遍存在著多種協(xié)作形式,現(xiàn)有數(shù)據(jù)庫的查詢處理和優(yōu)化方法難以適應(yīng)這種分層架構(gòu)下復(fù)雜的協(xié)作和異構(gòu)節(jié)點中多樣的約束條件。例如,在元宇宙購物場景中,商品需要顯示高精度的三維模型和詳細(xì)的文字描述信息。為了減小客戶端側(cè)的交互時延,提升元宇宙的沉浸性,需要利用邊側(cè)設(shè)備對用戶常用或元宇宙空間中用戶周圍的商品進(jìn)行緩存以加速查詢。不同用戶使用的邊端設(shè)備的計算能力、存儲能力千差萬別。為了有效利用元宇宙不同層級設(shè)備的處理能力,打通元宇宙異構(gòu)設(shè)備的屏障,實現(xiàn)異構(gòu)數(shù)據(jù)操作的協(xié)同處理,需要研究面向元宇宙數(shù)據(jù)管理中一系列基本數(shù)據(jù)操作的高效協(xié)同算法,在基本數(shù)據(jù)操作層面實現(xiàn)對元宇宙分層異構(gòu)節(jié)點的自適應(yīng),作為面向元宇宙查詢處理的基礎(chǔ)。
在元宇宙中,存在不同優(yōu)化目標(biāo)的多類查詢,如連續(xù)、聚集和復(fù)雜查詢等,當(dāng)前尚未有面向多樣優(yōu)化目標(biāo)的協(xié)同查詢處理和優(yōu)化方法。例如,遠(yuǎn)程手術(shù)協(xié)助等對查詢時延要求極高的場景要求數(shù)據(jù)庫能夠快速查詢、傳遞場景中的信息,其中的生理指標(biāo)監(jiān)控、器械信息和病歷查詢等涉及連續(xù)查詢和復(fù)雜聚集查詢。同時,醫(yī)院內(nèi)的邊端設(shè)備還受到能源效率和計算效率的約束,其各自有不同的優(yōu)化目標(biāo),這進(jìn)一步為元宇宙場景下云邊的協(xié)同查詢優(yōu)化帶來了困難。為了適應(yīng)元宇宙中復(fù)雜多樣的查詢類型、極高的時延要求和異構(gòu)的優(yōu)化目標(biāo),需要研究面向元宇宙的物理查詢計劃模型,為協(xié)同查詢優(yōu)化奠定基礎(chǔ);并針對不同查詢類型、協(xié)作形式的要求與約束,面向元宇宙異構(gòu)設(shè)備與協(xié)議研究協(xié)同查詢優(yōu)化算法。以總體效率最大化、云邊負(fù)載平衡、端側(cè)能效最優(yōu)為目標(biāo),設(shè)計協(xié)同查詢重寫、云邊操作下推、端側(cè)設(shè)備參數(shù)動態(tài)自適應(yīng)等方法,可以實現(xiàn)各類查詢在元宇宙上的協(xié)同優(yōu)化,在查詢效率最大化的同時,滿足各級異構(gòu)設(shè)備的約束需求。
最后,元宇宙中節(jié)點的安全性、穩(wěn)定性按虛擬世界、物理世界、云邊端順序遞減。在實際生產(chǎn)環(huán)境中,用戶終端節(jié)點可能隨時因網(wǎng)絡(luò)不穩(wěn)、設(shè)備故障等原因斷線,目前尚無針對此特性的魯棒查詢處理方法。面向元宇宙中不同層次的節(jié)點異構(gòu)分層且安全性和穩(wěn)定性存在較大差異的挑戰(zhàn),為了協(xié)調(diào)元宇宙各節(jié)點上的動態(tài)查詢執(zhí)行,并有效應(yīng)對終端設(shè)備出現(xiàn)斷線、重連以及系統(tǒng)節(jié)點出現(xiàn)安全性問題等異常情況,需要設(shè)計面向元宇宙的高效查詢執(zhí)行方法,最小化因節(jié)點或傳輸異常而導(dǎo)致的異常終止、結(jié)果錯誤等問題,達(dá)到提高查詢處理效率、魯棒性和穩(wěn)定性的目的。
隨著新興技術(shù)的快速發(fā)展,在過去的幾年中研究人員越來越關(guān)注元宇宙,并且基于元宇宙進(jìn)行了大量的研究。本文針對元宇宙中的數(shù)據(jù)管理技術(shù)進(jìn)行了分析。已有的成果缺乏對元宇宙中大數(shù)據(jù)管理技術(shù)的闡述。因此,本文首先回顧了關(guān)于元宇宙及其應(yīng)用的文獻(xiàn),總結(jié)了元宇宙的應(yīng)用現(xiàn)狀;然后,本文針對云邊端協(xié)同的元宇宙數(shù)據(jù)管理提出了未來的研究方向。希望本文的討論,能夠?qū)υ钪媾c數(shù)據(jù)管理之間的關(guān)系進(jìn)行詳細(xì)的解釋,并為今后的研究提供一些有益的研究方向。