徐建博,魏 昕,周 亮
(1.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇南京 210003;2.南京郵電大學(xué)寬帶無線通信與傳感網(wǎng)技術(shù)教育部重點實驗室,江蘇南京 210003)
隨著以社交媒體、AR/VR、5G 等為代表的無線通信與多媒體技術(shù)的快速發(fā)展,人們在視聽需求得到極大滿足的同時,開始追求更多維度、更高層次的感官體驗[1,2].當(dāng)前,觸覺信息正逐步融入到以音頻、視頻為代表的傳統(tǒng)多媒體業(yè)務(wù)中,形成了包含音頻、視頻、觸覺信息等多模態(tài)業(yè)務(wù).例如,日產(chǎn)汽車公司將HaptX 觸覺手套與VR 頭顯結(jié)合,實現(xiàn)方向盤、各種開關(guān)、后視鏡調(diào)整等更為逼真細膩的架控操作[3].為了支撐多模態(tài)業(yè)務(wù)的發(fā)展,跨模態(tài)通信思想應(yīng)運而生[4].與傳統(tǒng)的多媒體通信、觸覺互聯(lián)網(wǎng)[5]相比,跨模態(tài)通信是以音頻、視頻、觸覺信息協(xié)同傳輸與處理為典型特征,即充分利用不同模態(tài)碼流間的相關(guān)性,實現(xiàn)多模態(tài)碼流的高效傳輸以及處理.
表1 給出了音頻、視頻、觸覺碼流的通信傳輸參數(shù)需求[4].在傳輸過程中,視頻碼流因其體積容量大而需要較大的傳輸帶寬,而觸覺碼流則對低時延、高可靠性要求很高.從表1 中可以發(fā)現(xiàn),觸覺碼流對抖動、丟包等特別敏感,這對通信環(huán)境提出了非??量痰囊?此外,由于音頻、視頻和觸覺碼流尺寸差別大,傳輸時延與速率各不相同,也容易造成終端接收到的多模態(tài)碼流之間存在嚴重的不同步問題.并且,無線信道往往帶有各種信道噪聲,進一步影響了通信質(zhì)量.
表1 音頻、視頻、觸覺的通信傳輸參數(shù)[4]
為了解決上述問題,一方面,Yuan 等[6]提出一種冗余設(shè)備到設(shè)備傳輸方案,可以實現(xiàn)網(wǎng)絡(luò)的超低時延和超可靠性連接.Zhou 等[7]針對海量多媒體業(yè)務(wù)調(diào)度難題,提出了基于數(shù)據(jù)驅(qū)動的高效調(diào)度算法.然而,這些方法僅從功率控制、碼流調(diào)度等傳輸角度解決問題,其局限性在于:傳輸中無線信道環(huán)境復(fù)雜并且是動態(tài)變化的,即使采用了一定機制保障了傳輸時延和可靠性,數(shù)據(jù)包受到的干擾、噪聲等產(chǎn)生的丟失、時延增加等仍然難以避免.
因此,僅從傳輸角度考慮,無法有效地解決跨模態(tài)通信中面臨的問題.不同于現(xiàn)有復(fù)用、調(diào)度等傳輸策略,本文的出發(fā)點在于:可否運用信號處理的手段,對實際跨模態(tài)通信系統(tǒng)接收端存有已接收到的音頻、視頻、觸覺信號等多模態(tài)數(shù)據(jù)加以合理利用,通過檢索的方式,直接彌補接收終端處存在的某些模態(tài)數(shù)據(jù)包的丟失、數(shù)據(jù)延遲到達、數(shù)據(jù)不同步等問題,實現(xiàn)信息的有效恢復(fù).在信息檢索方面,Mikolaj 等[8,9]研究了關(guān)于行人和車輛的邊緣無線圖像檢索問題,提出了一種基于自動編碼器的融合信源和信道編碼的檢索模型,并將其應(yīng)用于無線信道環(huán)境[8],該方法也是無線通信場景中關(guān)于信息檢索的首個研究工作.然而,該方法僅僅針對單模態(tài)圖像的檢索問題.因此,目前尚未出現(xiàn)從信息檢索的角度去恢復(fù)無線通信環(huán)境下的傳輸丟失或受噪聲干擾的多模態(tài)碼流,并且現(xiàn)有的無線通信環(huán)境下的單模態(tài)檢索方法無法直接擴展到多模態(tài)信息檢索.究其原因,主要存在三大關(guān)鍵性挑戰(zhàn):第一,如何構(gòu)建面向信息恢復(fù)的跨模態(tài)通信系統(tǒng)架構(gòu)以充分利用接收端已有數(shù)據(jù);第二,如何解決視頻、音頻、觸覺三種不同模態(tài)信號之間的相互檢索問題;第三,如何解決在無線信道環(huán)境下受到干擾或丟失的多模態(tài)碼流的恢復(fù)問題.
為了應(yīng)對上述挑戰(zhàn),本文提出了面向跨模態(tài)通信的信息恢復(fù)技術(shù),具體貢獻如下:
(1)提出了面向信息恢復(fù)的跨模態(tài)通信系統(tǒng)架構(gòu).在發(fā)送端的邊緣節(jié)點處將視頻、音頻、觸覺信號三種模態(tài)進行預(yù)處理并傳輸,同時考慮數(shù)據(jù)在無線信道傳輸過程中受到的信道噪聲污染等問題,利用接收端邊緣節(jié)點處已有的多模態(tài)數(shù)據(jù)實現(xiàn)信息恢復(fù).
(2)設(shè)計了一種視頻、音頻和觸覺信號相互檢索的信息恢復(fù)方法.運用多模態(tài)語義融合技術(shù),挖掘并關(guān)聯(lián)蘊含在三種模態(tài)信息中的語義關(guān)聯(lián)性,并將同模態(tài)一對一檢索、跨模態(tài)一對一檢索、跨模態(tài)一對多檢索等方式統(tǒng)一于該方法下進行信息恢復(fù).
(3)通過在公開的多模態(tài)數(shù)據(jù)集以及實際跨模態(tài)通信平臺采集的數(shù)據(jù)上進行實驗,分析多模態(tài)數(shù)據(jù)在無線信道傳輸條件下,信噪比和帶寬限制對信息恢復(fù)效果的影響.
Zhou 等[4]提出了跨模態(tài)通信思想,構(gòu)建了一種跨模態(tài)流傳輸架構(gòu)以及基于信號語義融合和共享的跨模態(tài)信號恢復(fù)、重建和渲染策略.在此基礎(chǔ)上,針對跨模態(tài)傳輸中出現(xiàn)的低延遲、高可靠、吞吐量高和復(fù)雜度低等需求,Zhou等[10]提出一種通用的跨模態(tài)流調(diào)度方案.更進一步地,Gao等[11]提出一種面向邊緣智能的跨模態(tài)流傳輸架構(gòu),將人工智能引入到通信、緩存、計算和控制能力中,并利用基于注意力機制的深度強化學(xué)習(xí)來解決跨模態(tài)流傳輸優(yōu)化模型.另外,與只關(guān)注于觸覺這一種模態(tài)單獨作用的觸覺互聯(lián)網(wǎng)不同,跨模態(tài)通信旨在音頻、視頻、觸覺信息三者協(xié)同作用,使得碼流高效傳輸并利用.
將機器人應(yīng)用于觸覺感知方面的研究工作也在不斷地開展,不同設(shè)備采集到的觸覺信號擁有不同的表現(xiàn)形式.Liu等[12]構(gòu)建的數(shù)據(jù)集包含水果、瓶子等實物,由裝有觸覺傳感器的機械手抓取實物并處理獲得三維觸覺序列.Luo 等[13]構(gòu)建的數(shù)據(jù)集包含扳手、剪刀等實物,由機械手握住觸覺陣列傳感器對實物進行按壓并處理獲得基于尺度不變特征變換的觸覺描述子.Chu等[14]構(gòu)建的數(shù)據(jù)集包含約60 種實物相關(guān)的觸覺信息,既有機械手在物體表面移動獲得的觸覺時間序列信號,也有由人類作為測試者進行收集構(gòu)建的觸覺形容詞語料庫(“硬的”“有彈性的”等).Ward 等[15]開發(fā)一種同時采集視覺和觸覺數(shù)據(jù)的裝置,其中收集到的觸覺信號主要表現(xiàn)為觸摸點陣列.但是,目前針對觸覺信號還沒有一種普適的預(yù)處理和特征提取方法.
目前跨模態(tài)檢索大部分研究工作主要集中在涉及兩種模態(tài)的檢索.一方面,子空間法[16]通過最大化兩種不同模態(tài)數(shù)據(jù)的投影特征來學(xué)習(xí)同一個公共子空間,其中較為典型的方法包括典型關(guān)聯(lián)分析[17]和核典型關(guān)聯(lián)分析[18].核典型關(guān)聯(lián)分析在典型關(guān)聯(lián)分析的基礎(chǔ)上引入核函數(shù),將低維數(shù)據(jù)映射至高維空間中使其具有非線性表達能力.但是該方法僅僅局限于兩種模態(tài).另一方面,深度學(xué)習(xí)[19]具有強大的非線性表達和底層特征提取能力,可以有效地提取不同模態(tài)的底層特征并在高層進行語義關(guān)聯(lián).Shang等[20]提出一種基于多模態(tài)自編碼器的深度學(xué)習(xí)模型,通過共享層生成圖像和文本兩種模態(tài)的高層通用特征,用于多模態(tài)檢索.Wang 等[21]針對圖像和文本這兩種模態(tài)的高度非線性語義相關(guān)性,提出一種正則化深度神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)圖像和文本的高層語義映射.然而,現(xiàn)有的跨模態(tài)檢索方法卻無法直接應(yīng)用于伴有信道噪聲污染的無線通信場景中.
為此,本文綜合利用深度學(xué)習(xí)的特征提取能力以及通過公共子空間關(guān)聯(lián)不同模態(tài)的語義信息,通過解決三種模態(tài)的檢索難題,實現(xiàn)接收端的信息恢復(fù),從而提升跨模態(tài)通信質(zhì)量.
圖1展示了面向信息恢復(fù)的跨模態(tài)通信系統(tǒng)架構(gòu).發(fā)送端采集設(shè)備感知并采集視頻、音頻、觸覺信號三路信息,完成同步后上傳至邊緣節(jié)點進行預(yù)處理.對于視頻,直接采用視頻中的每幀圖像;對于音頻和觸覺信號,進行預(yù)加重、分幀、加窗、計算功率譜、濾波器組,將音頻和觸覺信號都轉(zhuǎn)變成最終的圖像[22].將三種模態(tài)預(yù)處理后得到的圖像再進行編碼,經(jīng)過無線信道傳輸,接收端邊緣節(jié)點在收到多模態(tài)碼流后進行解碼.考慮到信息可能受到無線信道噪聲污染或者丟失問題,對此使用接收端已有的多模態(tài)數(shù)據(jù)替換該信息,實現(xiàn)信息恢復(fù).最后,將該信息傳輸至接收端設(shè)備.與此同時,接收端的觸覺控制設(shè)備可以向發(fā)送端發(fā)送位置坐標等指令,控制機械裝置移動.
圖1 面向信息恢復(fù)的跨模態(tài)通信系統(tǒng)架構(gòu)
對于接收端邊緣節(jié)點處的信息恢復(fù)模塊而言,根據(jù)傳輸過程中的不同情況,分別采用不同的檢索方式,但是我們假設(shè)傳輸過程的情況和對應(yīng)的檢索方式是已知的.具體而言,將視頻、音頻和觸覺信號分別記為V、A 和H,所有模態(tài)的集合記為All={V,A,H},分為三種典型的情形:同模態(tài)一對一檢索,包括V→V、A→A、H→H;跨模態(tài)一對一檢索,包括V→A、V→H、A→V、A→H、H→V、H→A;跨模態(tài)一對多檢索,包括V→All、A→All、H→All.
情形1:在一段時間內(nèi),視頻、音頻、觸覺三種模態(tài)信息都受到信道噪聲污染.以視頻模態(tài)為例,這時將受到噪聲污染的視頻模態(tài)信息作為查詢樣本,從終端的視頻數(shù)據(jù)庫中檢索出同類視頻,用這個檢索出的同類視頻替換掉傳輸過程中受到噪聲污染的視頻,達到信息恢復(fù)的目的.即采用同模態(tài)一對一檢索.
情形2:在一段時間內(nèi),某一模態(tài)信息發(fā)生丟失.假設(shè)視頻丟失,這時將音頻作為查詢樣本,從終端的視頻數(shù)據(jù)庫中檢索出一個與音頻類別最相似的視頻樣本,將這個最相似的視頻樣本替補傳輸過程中丟失的視頻,達到信息恢復(fù)的目的.即采用跨模態(tài)一對一檢索.
情形3:在一段時間內(nèi),可能會出現(xiàn)兩種模態(tài)的丟失.假設(shè)視頻和音頻丟失,觸覺未丟失,這時將觸覺作為查詢樣本,從終端數(shù)據(jù)庫中檢索出與觸覺種類類似的視頻或音頻模態(tài),替補傳輸過程中丟失的視頻和音頻模態(tài).即采用跨模態(tài)一對多檢索.
上述三種情形涵蓋了跨模態(tài)通信中所產(chǎn)生的信號丟失情況.針對這三種情形,在接下來的章節(jié)中,設(shè)計了一種針對視頻、音頻、觸覺信號的信息恢復(fù)方法.
視頻、音頻、觸覺信號三種模態(tài)信息恢復(fù)方法的總體流程如圖2 所示.首先將三種模態(tài)預(yù)處理后得到的圖像都輸入至使用ImageNet 權(quán)重的去除末端全連接層的VGG16 網(wǎng)絡(luò)中并扁平化(flatten),得到的一維向量作為各個模態(tài)的特征;然后將三種模態(tài)經(jīng)過扁平層輸出的特征分別進行訓(xùn)練,學(xué)習(xí)更好的特征;再將所有模態(tài)共同輸入至語義融合模塊中訓(xùn)練,實現(xiàn)不同模態(tài)深層語義的相互關(guān)聯(lián);最后進行檢索,從而實現(xiàn)信息恢復(fù).
圖2 信息恢復(fù)方法的總體流程
在對不同模態(tài)進行語義融合前,需要將不同模態(tài)分別進行訓(xùn)練,進一步提取特征[23,24].圖3 展示了特征提取的網(wǎng)絡(luò)結(jié)構(gòu),包括:批量歸一化層(Batch Normalization,BN)、Dropout 層1、全連接層1(Fully Connected layer,F(xiàn)C)、激活函數(shù)Relu、Dropout 層2、全連接層2、Softmax 函數(shù).批量歸一化層可以對數(shù)據(jù)進行歸一化,加速模型訓(xùn)練,并且具有正則化的效果;Dropout層可以防止模型過擬合;全連接層用來學(xué)習(xí)特征;激活函數(shù)Relu 可以增加網(wǎng)絡(luò)的非線性映射能力;Softmax 函數(shù)用來對數(shù)據(jù)進行分類.網(wǎng)絡(luò)訓(xùn)練完畢后,移除Dropout2、全連接2、Softmax,并接入語義融合模塊中.
圖3 特征提取結(jié)構(gòu)
視頻、音頻、觸覺三種模態(tài)的特征提取都采用多分類交叉熵損失函數(shù)進行各自的網(wǎng)絡(luò)訓(xùn)練.具體而言,視頻模態(tài)的損失函數(shù)為fV,音頻模態(tài)的損失函數(shù)為fA,觸覺模態(tài)的損失函數(shù)為fH,如式(1)~(3)所示.
圖4 展示了語義融合塊的整體結(jié)構(gòu).三種模態(tài)經(jīng)過特征提取后,共同輸入至該模塊中進行語義融合.相對于三種模態(tài)使用不同的網(wǎng)絡(luò)進行語義融合,使用同一個網(wǎng)絡(luò)有利于降低模型的復(fù)雜性.更重要的是,針對該模塊設(shè)計了一種新的損失函數(shù),以此進行不同模態(tài)的語義關(guān)聯(lián).該損失函數(shù)由兩部分組成,具體如式(4)所示.
圖4 語義融合塊結(jié)構(gòu)
其中λ為損失函數(shù)的超參數(shù).
部分1 模態(tài)內(nèi)損失:分類約束
為了區(qū)分模態(tài)的類別,采用式(5)的分類約束函數(shù).將視頻、音頻和觸覺信號三種模態(tài)分別記為V、A和H,Ni表示模態(tài)i訓(xùn)練數(shù)據(jù)的樣本總數(shù)表示模態(tài)i的第k個樣本通過語義融合塊輸出的特征表示模態(tài)i的第k個樣本對應(yīng)的標簽,標簽為1,2,…,C,C的數(shù)值含義也表示模態(tài)i的類別總數(shù),其中i∈{V,A,H}.式(5)中g(shù)(·)為多分類交叉熵損失函數(shù),如式(6)所示.
為了進一步使不同模態(tài)的相同類別更加緊湊,采用式(7)的中心約束函數(shù).其中,N表示視頻、音頻和觸覺信號三種模態(tài)所有訓(xùn)練數(shù)據(jù)樣本總數(shù),即N=NV+NA+NH,xm表示第m個訓(xùn)練數(shù)據(jù)的特征,cm表示第m個訓(xùn)練數(shù)據(jù)對應(yīng)類別的中心,該中心在模型訓(xùn)練過程中是不斷變化的.
將視頻、音頻和觸覺信號三種模態(tài)經(jīng)過特征提取后,各自輸出的n個樣本分別記為v=[v1,v2,…,vn],a=[a1,a2,…,an]和h=[h1,h2,…,hn],不同模態(tài)的相同類別的樣本具有共同的類別標簽y=[y1,y2,…,yn].本文中不同模態(tài)各自的樣本數(shù)相同.語義融合模塊的優(yōu)化目標函數(shù)如式(8)所示,學(xué)習(xí)網(wǎng)絡(luò)映射函數(shù)f(v,a,h;θ),使得y=f(v,a,h;θ),其中v、a、h分別為視頻、音頻、觸覺模態(tài)的n個樣本,將樣本v1,v2,…,vn,a1,a2,…,an,h1,h2,…,hn依次輸入語義融合模塊中,并采用新設(shè)計的損失函數(shù)L進行網(wǎng)絡(luò)優(yōu)化,θ為語義融合網(wǎng)絡(luò)參數(shù).具體網(wǎng)絡(luò)優(yōu)化流程如算法1所示.
經(jīng)過算法1優(yōu)化的語義融合模塊后所輸出的視頻、音頻、觸覺特征,如其具有同一或相似語義,則在語義空間中也更為接近.舉個例子,材質(zhì)為木板的視頻、音頻、觸覺數(shù)據(jù)經(jīng)過語義融合模塊后,其輸出的特征矢量比輸入的特征矢量在語義空間中更加相似(因為它們都有共同的語義“木板”).
將視頻、音頻、觸覺這三種模態(tài)所有的樣本經(jīng)過整個模型后,各自模態(tài)輸出的集合分別記為{V}、{A}和{H},并分別提供一個查詢樣本qi和檢索樣本rj,具體而言:
情形1:同模態(tài)一對一檢索,包括qi∈{V} ∪rj∈
情形2:跨模態(tài)一對一檢索,包括qi∈{ V }∪rj∈{A}、qi∈{V}∪rj∈{H}、qi∈{A}∪rj∈{V}、qi∈{ A }∪rj∈{H}、qi∈{H}∪rj∈{V}、qi∈{H}∪rj∈{A};
情形3:跨模態(tài)一對多檢索,包括qi∈{ V }∪rj∈{V,A,H}、qi∈{A} ∪rj∈{V,A,H}、qi∈{ H }∪rj∈{V,A,H}.
利用余弦相似函數(shù)度量兩個向量之間的距離,如式(9)所示.其中,i和j分別表示查詢樣本集合和檢索樣本集合中樣本的序號.固定i,將j遍歷檢索樣本集合,并由式(9)計算兩者之間的余弦值,按照距離從大到小的順序進行排序,距離越大代表兩個樣本越相似,輸出最相似的結(jié)果,替換受到噪聲污染或丟失的信息,實現(xiàn)信息恢復(fù).
實驗選取的多模態(tài)公共數(shù)據(jù)集為LMT108 表面紋理材質(zhì)數(shù)據(jù)集[25],如圖5所示.該數(shù)據(jù)集收集了關(guān)于表面紋理材質(zhì)的多模態(tài)數(shù)據(jù),包括圖像、聲音信號、加速度信號、摩擦力信號和反射率掃描信號,其中聲音和加速度信號又分別包含移動和擊打兩種采集方式獲取得到的數(shù)據(jù).其中,采集加速度信號的裝置是三軸加速度計(ADXL345),其中配置范圍是±78.5 m/s(2±8 g),采樣頻率為1 000 Hz.將三軸加速度計和麥克風(fēng)都集成在一支筆上,采集者手握這支筆,將筆尖在材料表面進行移動或者用筆尖擊打材質(zhì)得到加速度信號和聲音信號.該數(shù)據(jù)集共有108種不同的表面紋理材質(zhì),可以分為九大類,包括網(wǎng)格、石頭、空白光滑表面、木材、橡膠、纖維、泡沫、箔紙類和紡織品面料類,每個大類含有5~17個小類,每種小類材質(zhì)含有20個樣本,即九種類別的材質(zhì)各含有100~340個樣本.
圖5 公共數(shù)據(jù)集
將數(shù)據(jù)集中的圖像、擊打得到的聲音和加速度信號分別作為實驗的視頻、音頻、觸覺信號,并將每種材質(zhì)的樣本打亂,按3:1:1 的比例重新劃分出訓(xùn)練集、驗證集和測試集,如表2 所示,其中將測試集用于最后的檢索,通過檢索性能來評價信息恢復(fù)的效果.
表2 公共數(shù)據(jù)集劃分
實驗采用常見評價指標平均精度均值[26](Mean Average Precision,MAP)來評估方法的優(yōu)劣.提供一個查詢樣本,根據(jù)檢索集中的所有樣本求出每個查詢樣本的平均準確率(Average Precision,AP),然后對所有查詢樣本的平均準確率求均值,得到最終的MAP值.
計算式如式(10)和式(11)所示.其中,APj表示第j個查詢樣本的AP 值,Q表示查詢樣本總數(shù),R表示檢索集中樣本總數(shù),Pre(i)是位置排序i處檢索到的樣本對應(yīng)的精確率,Re(li)是位置排序i處查詢樣本與檢索樣本的相關(guān)度(如果兩者屬于同一類別,則Re(li)=1;否則,Re(li)=0).
將圖1 中發(fā)送端邊緣節(jié)點處三種模態(tài)預(yù)處理得到的圖像調(diào)整成相同的分辨率,通過分辨率的不同間接地反映出無線信道帶寬B的大小.實驗中將分辨率128×128×3、128×96×3、128×64×3 分別看成是帶寬為128、96、64 的情形.無線信道噪聲采用加性高斯白噪聲,討論信噪比范圍在-12~15 dB,以及理想信道(B=128、SNR=∞)情形,并且實驗弱化了編碼和解碼過程.
首先,在理想信道情形下,通過MAP值的大小選擇合適的全連接層長度.在圖3、圖4的網(wǎng)絡(luò)結(jié)構(gòu)中,實驗有九大類別,因此全連接2長度都為固定值9,損失函數(shù)分別為多分類交叉熵損失和新設(shè)計的損失函數(shù)L,優(yōu)化器都為Adam 優(yōu)化器.實驗中分別選取全連接1 長度為64、128、256、512 和1 024.從表3 中可以看出,全連接1長度為256 時,MAP 值最大,其中MAP 值表示三種一對一同模態(tài)檢索和六種一對一跨模態(tài)檢索MAP值的平均值.因此,實驗選取全連接1長度為256.
表3 全連接層長度對MAP的影響
然后,對語義融合塊中損失函數(shù)的超參數(shù)λ進行敏感性分析,討論迭代步數(shù)(Epoch)和超參數(shù)λ對MAP 值的影響.同樣,MAP值表示三種一對一同模態(tài)檢索和六種一對一跨模態(tài)檢索MAP 值的平均值.選取λ∈{0.001,0.01,0.1,1,10,100},從 圖6 可以看出:λ∈{10,100}時檢索效果最差;λ=1時檢索效果一般,并且在迭代步數(shù)為30 時,MAP 值的變化才趨于平穩(wěn);λ∈{0.001,0.01,0.1}時檢索效果最好,而且MAP 值隨迭代步數(shù)變化比較平穩(wěn).因此,實驗選取λ=0.001.
圖6 參數(shù)λ敏感性分析
接著,將所提方法與4 種傳統(tǒng)機器學(xué)習(xí)和3 種深度學(xué)習(xí)方法在公共數(shù)據(jù)集上進行比較,包括典型關(guān)聯(lián)分析[17](Canonical Correlation Analysis,CCA)、核典型關(guān)聯(lián)分析[18](Kernel Canonical Correlation Analysis,KCCA)、主成分分析[27](Principal Component Analysis,PCA)、獨立成分分析[28](Independent Component Analysis,ICA)、自編碼器[29](Auto-Encoder,AE)、變分自編碼器[30](Variational Auto-Encoder,VAE)、注意力機制[31](Attention),其中KCCA 的核函數(shù)選取高斯核函數(shù).從表4 的實驗結(jié)果表明,本文所提方法的MAP 值遠遠優(yōu)于其他方法.
表4 各種方法的MAP值比較
最后,考慮誤碼對實驗性能的影響.具體而言,考慮訓(xùn)練集和測試集的樣本具有相同的信噪比,分析帶寬B和信噪比SNR 對信息恢復(fù)效果的影響.圖7 展示了在加性高斯白噪聲信道條件下,帶寬、信噪比和MAP 值的關(guān)系.實驗結(jié)果表明:一方面,帶寬越大,MAP 值越大,信息恢復(fù)效果越好;另一方面,當(dāng)信噪比低于0 dB 時,曲線增長比較陡峭,而當(dāng)信噪比高于0 dB時,曲線增長相對較平緩,但是都低于理想信道情形.總之,信噪比越大,帶寬越大,信息恢復(fù)效果越好.
圖7 加性高斯白噪聲信道下MAP值比較
圖8展示了實際搭建的跨模態(tài)通信系統(tǒng)平臺.在該平臺的發(fā)送端,采用4 K高清HDMI攝像頭采集視頻,機械手指裝有麥克風(fēng)和TeckScan 薄膜壓力傳感器分別采集音頻和觸覺信號,其中TeckScan薄膜壓力傳感器的采樣頻率約200 Hz,通過該機械手在材料表面移動,Teck-Scan 薄膜壓力傳感器會收集到機械手指尖按壓材料得到的壓力信號.在平臺的接收端,用戶使用Geomagic Touch 力反饋設(shè)備控制UR3機械臂和機械手觸摸材質(zhì),可以獲得觸覺體驗,并在裝有64位操作系統(tǒng)的筆記本電腦上進行實時顯示;與此同時,根據(jù)在Unity 3D里搭建的虛擬環(huán)境,用戶可以獲得視聽體驗.Touch力反饋設(shè)備和UR3機械臂機械手之間進行雙向通信,力反饋設(shè)備向機械裝置傳遞位置坐標,機械裝置向接收端筆記本和力反饋設(shè)備傳遞視頻、音頻和觸覺信號三路信息.
圖8 實際跨模態(tài)通信系統(tǒng)平臺
圖9 展示了跨模態(tài)通信平臺接收到的部分表面紋理材質(zhì)數(shù)據(jù),從左往右依次為石板、木板、紙板、絲綢、泡沫、黃銅、亞麻布、氣泡膜和孔狀塑料片,以及對應(yīng)的音頻和機械手指壓力信號,其中機械手指壓力信號作為實驗所需的觸覺信號.
圖9 所接收到的多模態(tài)數(shù)據(jù)
對于實際跨模態(tài)通信系統(tǒng)平臺,考慮誤碼對實驗性能的影響.固定帶寬,考慮訓(xùn)練集和測試集的樣本具有不同的信噪比.圖10 展示了在加性高斯白噪聲信道條件下,不同信噪比的訓(xùn)練集、測試集和MAP 值的關(guān)系.通過提供低信噪比的查詢樣本,在接收端已有數(shù)據(jù)中檢索出高質(zhì)量的樣本.從圖10 的曲線可以看出,當(dāng)用于檢索的樣本質(zhì)量越來越高(即信噪比越來越大)時,曲線總體上呈上升趨勢,說明檢索效果越來越好.當(dāng)訓(xùn)練樣本的信噪比過低時,比如-3 dB,檢索性能可能會發(fā)生急劇惡化.當(dāng)測試集和訓(xùn)練集樣本的信噪比都比較低時,MAP 值較??;當(dāng)訓(xùn)練樣本的信噪比低,即使測試樣本質(zhì)量高,也獲得較低的MAP值;當(dāng)訓(xùn)練集和測試集都有較高的信噪比時,MAP 值較高.因此,如果模型無法在擁有充足的高質(zhì)量數(shù)據(jù)下進行訓(xùn)練時,可以適當(dāng)弱化訓(xùn)練數(shù)據(jù)的質(zhì)量,這也會獲得較好的檢索性能.
圖10 加性高斯白噪聲信道下MAP值比較
本文提出了面向跨模態(tài)通信的信息恢復(fù)技術(shù),通過利用模態(tài)間的語義相關(guān)性實現(xiàn)跨模態(tài)信息恢復(fù),以解決多模態(tài)碼流傳輸過程中的丟失以及受到的無線信道噪聲污染問題.首先,提出了一種面向信息恢復(fù)的跨模態(tài)通信系統(tǒng)架構(gòu),并針對數(shù)據(jù)在無線信道傳輸過程中遇到的不同問題,討論了同模態(tài)一對一檢索、跨模態(tài)一對一檢索、跨模態(tài)一對多檢索等方式.接著,設(shè)計了具體的信息恢復(fù)方法,挖掘視頻、音頻、觸覺信號三種模態(tài)間的深層語義關(guān)聯(lián),實現(xiàn)上述三類檢索方式,通過檢索達到信息恢復(fù)的目的.最后,在帶寬受限、存在無線信道噪聲的信道條件下,通過在公開的多模態(tài)數(shù)據(jù)集和實際跨模態(tài)通信平臺采集的數(shù)據(jù)上進行實驗,分析了不同的信噪比和帶寬限制對信息恢復(fù)效果的影響,仿真結(jié)果驗證了所提方法的有效性.
未來工作將進一步探討在實際跨模態(tài)通信平臺上音頻、視頻、觸覺信號三種模態(tài)的信息恢復(fù)問題.具體包括三個方面:第一,在實際系統(tǒng)方面,目前跨模態(tài)通信平臺采集觸覺數(shù)據(jù)的方式僅為機械手的單根手指(單點),而在實際中只有通過多點觸摸才能更加全面地了解物體的質(zhì)感,因此需要對觸覺信息采集裝置做進一步的改進,這將間接性地影響到信息恢復(fù)性能;第二,在算法方面,目前的檢索方法一般忽略了豐富的上下文信息,如何充分關(guān)聯(lián)上下文信息進行細粒度跨模態(tài)信息恢復(fù)也是未來需要研究的問題;第三,在跨模態(tài)通信架構(gòu)方面,目前實驗忽略了編碼和解碼過程,未來將討論在融合編解碼過程和信道條件下的信息恢復(fù)效果.