• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向6G的跨模態(tài)語義編解碼技術(shù)

      2023-07-27 14:49:42陳鳴鍇柳明浩王文俊王磊鄭寶玉
      信號處理 2023年7期
      關(guān)鍵詞:接收端解碼語義

      陳鳴鍇 柳明浩 王文俊 王磊 鄭寶玉

      (南京郵電大學(xué)寬帶無線通信與傳感網(wǎng)技術(shù)教育部重點實驗室,江蘇南京 210003)

      1 引言

      目前,以5G/6G 通信與人工智能為代表的新一波信息技術(shù)革命正在全球范圍內(nèi)飛速發(fā)展,通信已從原本的1G 時代的“人-人”通信演變成為6G 時代的“人-機-物-靈”的協(xié)作場景[1]。為滿足人類用戶精神與物質(zhì)的全方位需求,實現(xiàn)智能體與人類用戶之間的有效交互,未來通信必將面向承載海量化、多元化、個性化的數(shù)據(jù)業(yè)務(wù)進(jìn)程。在現(xiàn)有的應(yīng)用服務(wù)體系中,數(shù)據(jù)業(yè)務(wù)大都是由文本、聲音、圖像等不同模態(tài)交織、重構(gòu)、編排而成的。并且,6G通信中的諸多前瞻性應(yīng)用[2],如全息通信、數(shù)字孿生、元宇宙、觸覺互聯(lián)網(wǎng)等,將給用戶打造如觸覺、嗅覺、味覺等更多模態(tài)的沉浸式感官體驗。跨模態(tài)的信號重建技術(shù)成為6G 通信中亟待解決問題[3],并且,更多模態(tài)的緊密結(jié)合也將會促成更多全新應(yīng)用的誕生。

      但是,文、音、視、動、觸、嗅、味等模態(tài)在通信研究認(rèn)知中卻具有完全不同的通信指標(biāo)要求,使得同時滿足諸多模態(tài)通信需求難上加難[4]。同時,隨著業(yè)務(wù)需求的激增,6G 通信不可避免地需要進(jìn)行多元、海量的數(shù)據(jù)傳輸,然而傳輸速率也已逼近了香農(nóng)極限,現(xiàn)有的通信系統(tǒng)已逐漸不能滿足上述多模態(tài)應(yīng)用的要求。因此,是否能挖掘應(yīng)用更深層次的語義信息,把握不同模態(tài)之間的關(guān)聯(lián)來實現(xiàn)數(shù)據(jù)的達(dá)意傳輸,成為了值得深入探討的問題。

      近年來,語義通信作為一種極具前景的達(dá)意通信范式,受到了研究人員的關(guān)注。在單一模態(tài)數(shù)據(jù)通信過程中,即在文本、語音、圖像中,語義通信系統(tǒng)已經(jīng)在提升傳輸效率和誤碼率表現(xiàn)等方面取得了不錯的成績,其有望成為支撐上述模態(tài)的有效手段與核心技術(shù)。這是由于語義通信擺脫了傳統(tǒng)通信系統(tǒng)中在語法層面的束縛,而將通信問題推到更高層次——語義層來進(jìn)行考慮。與此同時,語義通信還可將不同的模態(tài)轉(zhuǎn)化成為了語義,進(jìn)而在語義層面實現(xiàn)更加高效的數(shù)據(jù)融合,從而弱化對模態(tài)數(shù)據(jù)層面的指標(biāo)要求。因此,語義通信作為一種能夠顯著提高傳輸效率與可靠性的全新通信架構(gòu),展示出在處理海量數(shù)據(jù)方面的巨大潛力。

      但是,現(xiàn)有的語義通信工作仍存在著許多問題:1)尚未多模融合:對于語義通信,目前研究僅聚焦單一模態(tài)內(nèi)的語義處理,而缺乏多模態(tài)數(shù)據(jù)在語義層面的融合。2)存在模態(tài)差異:對于多模態(tài)數(shù)據(jù)通信,發(fā)送端與接收端之間所要求的模態(tài)之間可能存在差異,因此在模態(tài)轉(zhuǎn)化過程中,將會導(dǎo)致意圖傳遞不到位,從而會影響語義通信的達(dá)意效果。3)缺乏評判方式:在語義通信中,當(dāng)收發(fā)雙端模態(tài)不同時,兩種模態(tài)之前的相似度將缺乏合適客觀的評價方法。因此,如何克服以上三大難題,如何降低多模態(tài)數(shù)據(jù)在語義通信過程中的語義丟失是本文研究的重點。

      基于此,本文創(chuàng)新性的提出一種包含多神經(jīng)網(wǎng)絡(luò)的跨模態(tài)語義通信模型,與現(xiàn)有語義通信理論模型相比,本文所提出的通信模型主要具有以下三個方面的特色:

      1)設(shè)計了一種語義級信息融合的跨模態(tài)編解碼方案,根據(jù)特征相似度進(jìn)行加權(quán),更進(jìn)一步融合模態(tài)的中間語義,提煉其中的關(guān)鍵語義信息,保證語義通信系統(tǒng)的高魯棒性。

      2)以接收端用戶需求任務(wù)為導(dǎo)向,實現(xiàn)包含了語音、文本、圖像三種多模態(tài)數(shù)據(jù)的跨越式傳輸,為通信面向語用任務(wù)提供了解決方案,滿足了語義通信用戶的沉浸式體驗。

      3)設(shè)計了基于孿生網(wǎng)絡(luò)的跨模態(tài)語義評價機制,給出了收發(fā)雙端之間相同或不同的模態(tài)語義相似度評判方法,同時反向指導(dǎo)跨模態(tài)編解碼中的網(wǎng)絡(luò)參數(shù)優(yōu)化。

      本文的剩余部分組織如下:第2 節(jié)將對現(xiàn)有的語義通信相關(guān)工作進(jìn)行回顧和總結(jié),指出跨模態(tài)語義處理的優(yōu)勢;第3 節(jié)將對跨模態(tài)語義通信系統(tǒng)模型進(jìn)行簡要介紹,主要說明各模塊之間的關(guān)系與具體功能;第4節(jié)將對跨模態(tài)語義編碼、跨模態(tài)語義解碼、跨模態(tài)語義評價模塊進(jìn)行詳細(xì)介紹,闡述其中所采用的模態(tài)處理方法與深度學(xué)習(xí)算法;第5 節(jié)將對跨模態(tài)語義通信進(jìn)行仿真與數(shù)據(jù)分析,證明系統(tǒng)模型的有效性;最后,在結(jié)束語中,總結(jié)全文貢獻(xiàn)。

      2 國內(nèi)外研究現(xiàn)狀

      Shannon和Weaver將信息分為三個層面:語法、語義[5]、語用[6],隨著現(xiàn)代通信技術(shù)的不斷發(fā)展,僅僅從語法層面考慮通信問題已經(jīng)不能滿足人們的要求,因此語義通信成為了近年來研究的熱點問題。而針對語義通信的基礎(chǔ)理論研究,目前主要圍繞語義信息量定義、語義信道容量定義。一方面,北京郵電大學(xué)的牛凱教授在文獻(xiàn)[7]中用隸屬函數(shù)刻畫信源的模糊測度,對語義信息量的度量方法進(jìn)行了討論。另一方面,北京郵電大學(xué)的楊洋[8]認(rèn)為語義信息量的表征應(yīng)該是面向任務(wù)的,并基于此定義了面向任務(wù)的語義信道容量。但是,由于目前的工作仍缺乏統(tǒng)一標(biāo)準(zhǔn),現(xiàn)有的語義通信系統(tǒng)通常采用基于深度學(xué)習(xí)的方法,通過數(shù)據(jù)集訓(xùn)練得到可以提取語義特征的語義編碼器,并在接收端用一個語義解碼器根據(jù)特征進(jìn)行恢復(fù)。并且本文認(rèn)為語義通信系統(tǒng)中的編解碼在語義層面應(yīng)該是面向用戶、面向任務(wù)的。而任務(wù)所指向的模態(tài)卻是多種多樣的,針對不同的模態(tài),語義通信系統(tǒng)中所采用的深度學(xué)習(xí)的方法也不盡相同。下面本文將對各個模態(tài)中的語義通信研究進(jìn)行歸納與總結(jié)。

      在文本語義通信系統(tǒng)設(shè)計方面,現(xiàn)有的工作大致可以分為三類:文本語義編解碼器設(shè)計、文本語義關(guān)聯(lián)挖掘、文本語義通信系統(tǒng)性能優(yōu)化。1)文本語義編解碼器設(shè)計:清華大學(xué)的秦志金教授等人[9]在所提出的語義通信系統(tǒng)模型DeepSC 中首次提出基于深度學(xué)習(xí)的語義編解碼器,以針對文本信息進(jìn)行傳輸;南京郵電大學(xué)的胡晗等人[10]在設(shè)計語義解碼器時將接收端的用戶的個體情感考慮了進(jìn)去;國防科技大學(xué)的趙海濤教授等人[11]提出了一種基于上下文的文本語義解碼策略;清華大學(xué)的陶曉明[12]提出考慮語義噪聲的文本編解碼器,并利用校準(zhǔn)的自我注意機制和對抗訓(xùn)練來解決語義噪聲。2)文本語義關(guān)聯(lián)挖掘:西南交通大學(xué)的類先富教授等人[13]提出將從文本中提取出的語義符號視為主實體、關(guān)系與尾實體的三元組合,以在接收端更好地實現(xiàn)語義信息檢測。3)文本語義通信系統(tǒng)性能優(yōu)化:北京郵電大學(xué)的戴金晟[14]提出了一個具有迭代架構(gòu)的半神經(jīng)框架,使文本語義通信系統(tǒng)能夠在各種信道條件下進(jìn)行泛化;浙江大學(xué)的李榮鵬在文獻(xiàn)[15]采用自適應(yīng)計算時間作為universal transformer 循環(huán)架構(gòu)中文本輸出的判別機制,使系統(tǒng)可以靈活地處理語義差異并根據(jù)變化的信道條件進(jìn)行自適應(yīng)調(diào)整。

      在圖像語義通信系統(tǒng)設(shè)計方面,現(xiàn)有的工作可以分為以下兩類:圖像語義綜合恢復(fù)、圖像語義多用戶處理。1)圖像語義綜合恢復(fù):清華大學(xué)的黃丹藍(lán)等人[16]設(shè)計了一個由粗到精的圖像語義編碼模型,并使用多個感知度量方法來訓(xùn)練和評估所提出的圖像語義編碼模型;Trinh V[17]提出一種對語義通信中得到的圖片進(jìn)行兩階段重建的方法,在利用信道知識從嘈雜的接收數(shù)據(jù)中解碼圖像信息以后,將解碼后的圖像通過后置濾波器和圖像統(tǒng)計加以增強。2)圖像語義多用戶處理:北京郵電大學(xué)的許文俊教授等人在文獻(xiàn)[18]中將不同圖像的語義特征融合成一個通過動態(tài)定制權(quán)重的全局特征,以便接收端聯(lián)合利用語義特征進(jìn)行識別,而不會額外增加延遲;華中科技大學(xué)的肖泳教授等人在文獻(xiàn)[19]中提出了一種面向多用戶、基于具有知識/模型共享的聯(lián)邦邊緣智能的語義通信系統(tǒng)結(jié)構(gòu)。

      在語音語義通信系統(tǒng)設(shè)計方面,現(xiàn)有的工作大致可以分為兩類:語音語義綜合恢復(fù)、語音-文字語義轉(zhuǎn)化。1)語音語義綜合恢復(fù):Weng 和秦志金教授采用擠壓和激勵網(wǎng)絡(luò)設(shè)計了一個[20-21]基于注意力機制支持的端到端的語音語義通信系統(tǒng),并提出利用多個聲學(xué)的評價指標(biāo)進(jìn)一步提升語音編解碼器綜合復(fù)原語音信號的性能;2)語音-文字語義轉(zhuǎn)化:Weng 和秦志金教授[22]設(shè)計了一個僅學(xué)習(xí)和提取語音信號中與文字相關(guān)的語義特征的語義編碼器,使得系統(tǒng)在不降低性能的情況下傳輸比源語音數(shù)據(jù)少得多的數(shù)據(jù);浙江大學(xué)的張朝陽教授在文獻(xiàn)[23]中采用軟對齊模塊和冗余去除模塊來僅提取語音頻譜中與文字相關(guān)的語義特征,同樣大大減少了語義冗余量。

      在多模態(tài)語義通信系統(tǒng)設(shè)計方面,現(xiàn)有的工作大致可以分為兩類:接收端的信息融合和信道級的信息融合。1)接收端的信息融合:XIE 和秦志金教授[24]等人基于DeepSC 提出一種用于多模態(tài)數(shù)據(jù)傳輸?shù)拿嫦蛉蝿?wù)的多用戶語義通信系統(tǒng),其中一個用戶傳輸圖像,另一個用戶發(fā)送文本用于視覺問答(VQA)。在[25]中,針對文本和圖像傳輸設(shè)計了一種基于transformer的模型,并為圖像檢索、機器翻譯和視覺問答(VQA)任務(wù)提出了三種多用戶語義通信框架。盡管[24-25]中考慮了多模態(tài)語義通信,但信息融合是在接收器處和信道解碼之后進(jìn)行的。2)信道級的信息融合:Luo 等人提出了一種信道級的多模態(tài)信息融合方案,將無線信道充當(dāng)融合多模態(tài)數(shù)據(jù)的介質(zhì),并根據(jù)信道增益進(jìn)行加權(quán)?,F(xiàn)有的多模態(tài)信號處理方案中沒有考慮到多模態(tài)之間的關(guān)聯(lián)性,忽略了不同模態(tài)之間的語義互補性可以更有效的表達(dá)語義信息。

      綜上所述,目前在語義通信中研究中還需圍繞的以下三個關(guān)鍵問題展開:單/多模態(tài)語義編解碼器設(shè)計方法、任務(wù)驅(qū)動下的語義通信系統(tǒng)設(shè)計、語義評價體系構(gòu)建。目前單/多模態(tài)語義編解碼器設(shè)計主要針對于文本、圖像、語音特征的進(jìn)行提取和恢復(fù),但缺乏語義層面的數(shù)據(jù)融合來進(jìn)一步壓縮語義信息。任務(wù)驅(qū)動下的語義通信系統(tǒng)需將用戶的特性考慮進(jìn)了設(shè)計,但對于用戶的不同任務(wù)要求難以良好調(diào)整與適配。語義評價指標(biāo)設(shè)計是衡量使恢復(fù)得到的信號在語義層面與源信號的數(shù)據(jù)是否等價的設(shè)計關(guān)鍵,但研究尚缺乏模態(tài)間相似度的有效評價方法。

      根據(jù)以上調(diào)研結(jié)果,本文對現(xiàn)有的各模態(tài)語義通信研究方向和內(nèi)容進(jìn)行了總結(jié),如表1所示。

      表1 現(xiàn)有各模態(tài)語義通信研究方向和內(nèi)容Tab.1 The current research direction and content of modal semantic communication

      3 系統(tǒng)模型

      隨著業(yè)務(wù)形式的多樣化,在通信過程中,尤其是人機物交互過程中對于發(fā)送任務(wù)與接收任務(wù)之間的模態(tài)要求可能會有所不同。例如語音傳輸?shù)倪^程中,為了克服方言、語音的影響,接收者會要求語音任務(wù)轉(zhuǎn)化為文本語音輸出,來達(dá)成很好的通信效果。

      為了在通信過程中既能很好保障語義任務(wù)的傳達(dá)效率,保證多模態(tài)數(shù)據(jù)轉(zhuǎn)化的傳輸需求,提高多元數(shù)據(jù)的壓縮效率,本文提出一種可以同時傳輸融合不同模態(tài)數(shù)據(jù)的跨模態(tài)語義通信架構(gòu),如圖1所示。在跨模態(tài)語義通信的數(shù)據(jù)發(fā)送端,提取文本、語言與圖像等不同模態(tài)中的關(guān)鍵語義信息,并將其投影到共享語義空間來確保語義數(shù)據(jù)的完整性表示;在語義傳輸過程中,采取聯(lián)合信源信道措施減少物理信道的干擾、噪聲造成的影響;在接收端,根據(jù)任務(wù)需求,在接收到的數(shù)據(jù)語義空間中,摘取相關(guān)信息,完成語義解碼以及所需模態(tài)復(fù)現(xiàn);對于不同模態(tài)數(shù)據(jù)與相同模態(tài)數(shù)據(jù)之間的比較,本文所提的跨模態(tài)語義評價方法能夠有效完成通信數(shù)據(jù)準(zhǔn)確程度的判別。因此,圖1 所示的跨模態(tài)語義通信系統(tǒng)進(jìn)一步可以分解為語義編碼模塊、語義傳輸模塊、語義解碼模塊和語義評價模塊。下面將對系統(tǒng)的各模塊展開詳細(xì)介紹。

      本文假設(shè)數(shù)據(jù)源S具有多模態(tài)數(shù)據(jù)表示為SQ,Q?{I:圖像,T:文本,V:語音}。其中,數(shù)據(jù)源S中包含了具有模態(tài)關(guān)聯(lián)性的語義信息。同時,由于不同的模態(tài)數(shù)據(jù)包含了不同的語義信息內(nèi)容,本文將被提取出的多模態(tài)中的語義信息表示為

      其中,Z是將多模態(tài)語義信息融合的度量值,而αQ是跨模態(tài)語義編碼器中可被網(wǎng)絡(luò)所學(xué)習(xí)的參數(shù)表示。

      考慮到受限的通信資源與無線網(wǎng)絡(luò)的動態(tài)特性,語義編碼產(chǎn)生的語義信息數(shù)據(jù)需要被轉(zhuǎn)化為適應(yīng)無線信道環(huán)境的編碼形式,如公式(2)所示,

      其中,x是傳輸復(fù)雜信號通過信道編碼之后的尺度表示。語義特征Z通過密集層(Dense Layer)和整形層(Reshape Layer)后傳入物理信道。同時βQ是信道編碼后Q所學(xué)習(xí)到的網(wǎng)絡(luò)參數(shù)。聯(lián)合信源信道編碼過程可以有效壓縮語義信息,減少語義信息的采樣信號和傳輸符號,同時增加傳輸?shù)臋z糾錯能力,以此來提升語義信息的魯棒性[26],對抗無線信道的動態(tài)變化。

      當(dāng)傳輸?shù)恼Z義信號經(jīng)過物理信道之后,接收端所能收到的信號可以表示為

      其中,h為信道轉(zhuǎn)移矩陣,n為疊加的高斯白噪聲信號,均值為零,方差為。

      除此之外,當(dāng)接收到的信號經(jīng)過線性最小均方解碼器解碼后,系統(tǒng)將給出預(yù)估的信道狀態(tài)估計,可表示為

      在完成信道解碼后,根據(jù)用戶不同的任務(wù)的選擇M 決定接收端語義信息的模態(tài)表征形式,即,語義解碼將被表示為

      其中,用戶的任務(wù)選擇M 代表了用戶對接收端的要求,如任務(wù)選擇為圖像重構(gòu)就要輸出圖像模態(tài)信息,任務(wù)為文本精煉就要輸出文本模態(tài)的信息;是以任務(wù)為導(dǎo)向的多模態(tài)語義解碼結(jié)果;φQ是多模態(tài)語義解碼中被學(xué)習(xí)到網(wǎng)絡(luò)參數(shù)。需要強調(diào)的是,本文假設(shè)跨模態(tài)語義通信過程中存在反向傳播,能夠完成端到端的網(wǎng)絡(luò)訓(xùn)練[27]。

      除了編解碼過程以外,為了衡量跨模態(tài)語義傳輸任務(wù)的可靠性,并且用于持續(xù)優(yōu)化語義編碼和語義解碼模塊,本文提出了跨模態(tài)語義評價機制,用于衡量跨模態(tài)任務(wù)的語義相似度,如圖1 所示。并且采用此評價機制來設(shè)計損失函數(shù)

      以此損失函數(shù)來反饋優(yōu)化整個網(wǎng)絡(luò),不斷改變參數(shù)αQ,βQ,γQ,φQ,使語義信息損失達(dá)到最小。

      4 跨模態(tài)語義通信系統(tǒng)設(shè)計

      在本章節(jié)將對跨模態(tài)語義通信中的三個重要組成部分,跨模態(tài)語義編碼模塊、跨模態(tài)語義解碼模塊、跨模態(tài)語義評價方法,進(jìn)行詳細(xì)介紹。

      4.1 跨模態(tài)語義編碼

      跨模態(tài)語義編碼模塊中主要包含各模態(tài)語義提取與跨模態(tài)語義融合兩部分。由于模態(tài)數(shù)據(jù)的不同特點與處理方式不同,預(yù)處理過程需要針對模態(tài)數(shù)據(jù)的結(jié)構(gòu)設(shè)計相對應(yīng)的語義提取方法。而在時序編碼部分中,為了保證跨模態(tài)語義信息的完整性和時序有效性,確保共享語義空間的順序傳遞,在設(shè)計過程中需要對共享語義信息進(jìn)行實時校驗。

      各模態(tài)語義提?。簽榱藵M足源信號的數(shù)據(jù)生成需求,跨模態(tài)語義編碼模塊將能夠適應(yīng)對于語音(SV),文本(ST),圖像(SI)等諸多模態(tài)需求,構(gòu)造其對應(yīng)語義特征的提取過程,如圖2所示。

      圖2 跨模態(tài)語義編碼模塊原理圖Fig.2 Schematic diagram of cross-modal semantic encoding module

      1)文本模態(tài)語義提取。對于文本信號,本文在文本模態(tài)語義提取流程中引入Transformer 網(wǎng)絡(luò),用于執(zhí)行自然語言處理中的文本語義提取工作,凝練語義信息。其中,本文所設(shè)計的Transformer 由6 層Encoder和Decoder組成,對多頭注意力模塊的q,k,v參數(shù)完成了8 次不同的線性映射,實現(xiàn)了64 維的dk設(shè)置,注意力點被輸出到2 個“add and norm”層進(jìn)行處理。并且Transformer 網(wǎng)絡(luò)處理中還包含了對文本殘差結(jié)構(gòu)及歸一化的處理過程。因此,本次設(shè)計的Transformer 網(wǎng)絡(luò)中的,該注意力模型可用如下公式進(jìn)行表示:

      由此可見,本文將原始的文本模態(tài)數(shù)據(jù)輸入Transformer網(wǎng)絡(luò),將獲得中間語義向量ZT。

      2)語音模態(tài)語義提取。對于語音波形信號,系統(tǒng)就無法通過Transformer 網(wǎng)絡(luò)進(jìn)行語義提取,需通過波形編碼器將語音信號提取為中間語義特征向量ZV。由于語音信號輸入容易引入噪聲,首先要經(jīng)過去噪模塊(譜減法),將去噪后的頻譜送入到門控循環(huán)單元(GRU,Gate Recurrent Unit)、卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network),最后輸出中間特征向量ZV。

      3)圖像數(shù)據(jù)語義提取。對于圖像信號,需要將圖像經(jīng)過CNN 映射到中間語義向量ZI。本文的圖像語義提取器設(shè)計是建立在Inception-v3的基礎(chǔ)上,將輸入圖像重新縮放為299×299 像素,緊接著從Inception-v3 的最后一個平均池化層中提取獲得圖像數(shù)據(jù)的全局特征向量f∈R2048,最后再通過添加感知層將圖像特征轉(zhuǎn)換到中間語義特征的公共語義空間,表示為

      其中ZI∈RD*2048是整個圖像的中間語義特征。

      跨模態(tài)語義融合:為了滿足數(shù)據(jù)的時效性特征和所具有的上下文關(guān)聯(lián),將各個模態(tài)生成的中間語義向量ZV,ZT,ZI共同輸入到堆疊長短期記憶網(wǎng)絡(luò)(SLSTM,Stack Long Short-Term Memory)中。由于RNN 網(wǎng)絡(luò)無法實現(xiàn)長序列的記憶,會導(dǎo)致梯度消失或梯度爆炸。而長短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)只能單向傳播,并且模塊設(shè)計對上下文語義的時序順序有著很高的要求。因此,本流程采用了SLSTM 進(jìn)行跨模態(tài)語義的編碼,如圖3所示,其由兩層LSTM 從正反方向同時進(jìn)行訓(xùn)練,可被認(rèn)為是兩層堆疊起來的神經(jīng)網(wǎng)絡(luò)。SLSTM 下層網(wǎng)絡(luò)以左端作為網(wǎng)絡(luò)的起始輸入w0,wn(0≤n≤N)代表每個中間特征ZQ的每一時刻單獨向量,在反向處理流程過程中,SLSTM 網(wǎng)絡(luò)的上層是從右端作為語義數(shù)據(jù)的起始輸入,在語義處理上可以理解為在網(wǎng)絡(luò)周期內(nèi)最后一位模態(tài)語義wN到達(dá)作為輸入,上層網(wǎng)絡(luò)將完成與下層網(wǎng)絡(luò)反向的操作。最后,SLSTM 網(wǎng)絡(luò)將對所得到的結(jié)果進(jìn)行融合處理,輸出包含位置信息的完整語義特征。

      圖3 語義融合網(wǎng)絡(luò)中SLSTM算法結(jié)構(gòu)設(shè)計Fig.3 SLSTM algorithm structure design in semantic fusion network

      對于本文的三種模態(tài)生成的中間特征向量,SLSTM 還起到特征融合的作用。由于三種模態(tài)的中間特征向量所表達(dá)的語義近似,并且其中還包含了諸多模態(tài)間相同特征與模態(tài)內(nèi)獨有特征。因此,本文對整體的中間特征ZQ進(jìn)行了融合處理,即SLSTM 網(wǎng)絡(luò)也完成了中間特征做融合處理提取出了全局語義信息Z,如圖2所示。

      所有輸出特征Zn按時序組合形成一個完整且精簡描述源模態(tài)信號的跨模態(tài)全局語義特征Z=[Z0,Z1,…,Zn,…ZN]。

      4.2 跨模態(tài)語義解碼

      跨模態(tài)語義解碼模塊可被認(rèn)為是跨模態(tài)語義編碼模塊的反向操作,即對語義特征進(jìn)行逆變換,得到語音、文本和圖像三種模態(tài)的信號。同樣,根據(jù)信號結(jié)構(gòu)的不同,所采取的各模態(tài)解碼方法也不盡相同。由于解碼部分無法了解接收數(shù)據(jù)的先后時序以及語義內(nèi)容的起始和終止位置,只能根據(jù)所獲取的數(shù)據(jù)直接進(jìn)行處理,因此本流程使用LSTM網(wǎng)絡(luò),如圖4所示,將通過無線信道的語義特征通過用戶選擇模塊確定輸出特征需要采取的解碼方法。在經(jīng)過LSTM 解碼器反向解出全局語義特征對應(yīng)的中間特征向量。對于輸出的中間特征所采取的解碼方法,由接收端任務(wù)M 驅(qū)動,如公式(6)所示,不同任務(wù)決定LSTM 解碼器輸出的中間特征經(jīng)過何種網(wǎng)絡(luò)到達(dá)接收端輸出不同模態(tài)信號。

      圖4 跨模態(tài)語義解碼模塊原理圖Fig.4 Schematic diagram of cross-modal semantic decoding module

      判別器損失函數(shù)如公式(14)所示,第三層將前兩層特征和詞級特征進(jìn)行融合,經(jīng)過迭代訓(xùn)練最終輸出256*256高分辨率的圖像。

      4.3 跨模態(tài)語義評價

      評價模塊用于客觀、定量比較發(fā)送端和接收端的各模態(tài)信號之間相似度,同時在訓(xùn)練過程中可將該相似度進(jìn)行梯度的反向傳播,用以優(yōu)化整個網(wǎng)絡(luò)的訓(xùn)練參數(shù)αQ,βQ,γQ,φQ,最終生成準(zhǔn)確、低噪的各模態(tài)信號。因此跨模態(tài)語義通信評價方法的好壞,直接決定了通信效果的好壞,是通信架構(gòu)中設(shè)計的重中之重。

      為了滿足多模態(tài)乃至跨模態(tài)數(shù)據(jù)內(nèi)容的差異化評價要求,本文提出了跨模態(tài)語義通信評價體系,如圖5所示。其中包含孿生網(wǎng)絡(luò)(siamese network)和偽孿生網(wǎng)絡(luò)(pseudo-siamese network)融合架構(gòu)。

      圖5 跨模態(tài)語義相似度評價機制示意圖Fig.5 Cross-modal semantic similarity evaluation mechanism diagram

      同樣根據(jù)任務(wù)選擇不同,跨模態(tài)評價體系對孿生與偽孿生網(wǎng)絡(luò)的應(yīng)用也不相同。如果接收端任務(wù)M 選擇的輸出模態(tài)與發(fā)送端的模態(tài)Q相同,則應(yīng)用孿生網(wǎng)絡(luò)進(jìn)行評價,否則用偽孿生網(wǎng)絡(luò)進(jìn)行評價??梢钥闯觯挥惺瞻l(fā)兩端分別是文-文、圖-圖、音-音這三種情況時,才會用孿生網(wǎng)絡(luò)評價,其他相關(guān)情況應(yīng)用偽孿生網(wǎng)絡(luò)對其評價。

      其中,孿生部分用于處理比較類似的模態(tài)信息,如圖6所示,如要計算收發(fā)雙端同模態(tài)的語義相似度,使用孿生網(wǎng)絡(luò)將發(fā)送端和接收端的文本信號共同輸入相同的鑒別子網(wǎng)絡(luò),如圖6所示,相同顏色的網(wǎng)絡(luò)代表相同的鑒別子網(wǎng)絡(luò),兩網(wǎng)絡(luò)之間共享相同權(quán)值,兩個輸入相當(dāng)于采用了相同的編碼機制映射到相同的向量空間,進(jìn)而對嵌入向量進(jìn)行處理,計算兩者的Loss值。Loss由相似系數(shù):

      圖6 跨模態(tài)語義評價機制中孿生網(wǎng)絡(luò)體系結(jié)構(gòu)設(shè)計Fig.6 Siamese network architecture design in cross-modal semantic evaluation mechanism

      對于輸入的模態(tài)不同,將采用其對應(yīng)的偽孿生網(wǎng)絡(luò)來進(jìn)行評估語義相似度的好壞。如計算收發(fā)兩端圖像和文本的語義相似度,采用偽孿生網(wǎng)絡(luò)將發(fā)送端接收端不同模態(tài)的信號輸入兩個不同的鑒別子網(wǎng)絡(luò)中,例如,CNN、BERT 等。兩個網(wǎng)絡(luò)權(quán)值之間不共享。如圖7 所示,黑白兩種顏色代表兩種不同的鑒別子網(wǎng)絡(luò)。U,分別代表發(fā)送端文本的嵌入向量和接收端圖像的嵌入向量。損失函數(shù)公式可被表示為

      5 仿真實驗

      在這一部分中,本文比較了所提出的跨模態(tài)語義編碼通信和傳統(tǒng)編碼通信在性能上的不同。

      5.1 訓(xùn)練設(shè)置

      針對不同的模態(tài)任務(wù),本文選擇了3種數(shù)據(jù)集,CUB-200-2011 鳥類數(shù)據(jù)集[28],MSCOCO 數(shù)據(jù)集[29],European Parliament數(shù)據(jù)集[30]。

      本文網(wǎng)絡(luò)由隨機梯度下降法(SGD,stochastic gradient descent)進(jìn)行迭代訓(xùn)練,設(shè)置初始學(xué)習(xí)率為0.001,并不斷優(yōu)化,設(shè)置訓(xùn)練迭代次數(shù)epoch為50,批處理量為10。在硬件配置上,使用RTX 2080Ti顯卡進(jìn)行模型訓(xùn)練。

      訓(xùn)練后的損失值和準(zhǔn)確率如圖8,圖9 所示,函數(shù)損失逐漸收斂到0 振蕩,準(zhǔn)確率逐漸收斂到1 振蕩。表示損失值達(dá)到最小,整體網(wǎng)絡(luò)收斂。

      圖8 模型訓(xùn)練損失函數(shù)Fig.8 Model training loss function

      圖9 模型訓(xùn)練準(zhǔn)確率Fig.9 Model training accuracy

      為了方便對比,本文除了跨模態(tài)語義通信傳輸還采用了另外三種傳輸編解碼方式:

      傳統(tǒng)通信傳輸:這里本文采用了霍夫曼編對文本源進(jìn)行編碼,Turbo 編碼對文本信道進(jìn)行編碼;采用JEPG 對圖像源進(jìn)行編碼,LDPC 對圖像信道進(jìn)行編碼;采用AMR-WB對語音進(jìn)行編碼。

      無差錯傳輸:傳輸無噪聲的語音,文本,圖源模態(tài)信號,用于表達(dá)傳輸信號的極限值,作為上界或下界。

      單模態(tài)語義傳輸:傳統(tǒng)的單模態(tài)語義通信傳輸,未實現(xiàn)多模態(tài)語義級融合的傳輸方式。

      5.2 實驗結(jié)果分析

      本文對于不同模態(tài)下的語義傳輸,分別展示了它們在不同SNR下的性能。對于文本的語義傳輸本文采用了兩種評價方法,分別是基于詞級的相似度和基于句子級別的相似度對比。從圖10可以看出在基于詞級的相似度方法中,當(dāng)SNR 值高于12 dB時,由于來自信道的噪聲減少,傳統(tǒng)方法性能要高于語義傳輸方法。但是也可以看出在低信噪比的情況下,語義通信的可靠性還是遠(yuǎn)高于傳統(tǒng)通信。

      圖10 詞級文本相似度Fig.10 Word-level text similarity

      從圖11 中還可以看出基于句子級別的相似度方法更適合于語義通信的度量,這是因為語義通信會涉及同義詞或者不同表達(dá)方式,詞級的相似度可能會將其判定為單詞錯誤,從而影響評價標(biāo)準(zhǔn)。而句子級的相似度,可以根據(jù)語法和單詞間的特征關(guān)系,基于人類對于文本識別的感知進(jìn)行評價,顯然可以消除詞級相似度的這種誤差。

      圖11 句子級文本相似度Fig.11 Sentence-level text similarity

      無論詞級還是句子級的相似度在-6 dB 時增長迅速,在9 dB 以后逐漸平穩(wěn),其中詞級相似度達(dá)到了接近80%,對于80%的文本,人類已經(jīng)可以很好的理解文本了,所以對應(yīng)的句子級相似度接近與1。

      對于語音之間的語義傳輸,本文應(yīng)用基于聲學(xué)模型的語音識別方法進(jìn)行相似度判別。傳統(tǒng)的方法依賴于提取語音信號的MFCC(Mel 頻率倒譜系數(shù))特征,然后計算MFCC 系數(shù)的協(xié)方差矩陣,使用Mahalanobis 距離作為相似性度量指標(biāo),從而判斷兩段語音的相似度。在語義通信中這種方法不適用,所以我們將提取收發(fā)端語音特征,利用聲學(xué)模型生成對應(yīng)的文本,對于生成的文本進(jìn)行句子級相似度判別。由圖12中可以看出,語音相似度略低于文本句子級相似度,這是由于語音識別過程中不可避免的失真導(dǎo)致的結(jié)果,但是在任何信噪比情況下,語義通信的語音相似度都優(yōu)于傳統(tǒng)通信。

      圖12 語音相似度Fig.12 Speech similarity

      對于圖像之間的語義傳輸,本文采用了圖像感知相似度評價體系來說明處理效果。傳統(tǒng)對于圖像相似度的判別如峰值信噪比(PSNR),結(jié)構(gòu)相似性(SSIM),分別根據(jù)均方誤差(MSE)和亮度、對比度、結(jié)構(gòu)來計算,不適合與語義通信的度量。所以圖像的感知相似度被提出用于度量圖像語義通信。由圖13 中可以看出,在-3 dB 到3 dB 時,感知相似度迅速提升,到9 dB達(dá)到平穩(wěn)為80%左右。在任何信噪比情況下,語義通信的圖像感知相似度的值都要優(yōu)于傳統(tǒng)通信。

      圖13 圖像感知相似度Fig.13 Image perceived similarity

      本文的跨模態(tài)語義通信系統(tǒng)對比于傳統(tǒng)的語義通信來說同樣具有優(yōu)勢。由于信道傳輸中不可避免的存在不同程度的損失,使語義不再完整,當(dāng)前的大量研究主要集中在單模態(tài)語義傳輸,沒有考慮到多模態(tài)之間語義關(guān)聯(lián)性。本文提出的跨模態(tài)語義傳輸在語義層面對多模態(tài)語義進(jìn)行了融合處理,從圖10、圖11 和圖12 中可以看出,跨模態(tài)語義傳輸明顯優(yōu)于現(xiàn)有的單模態(tài)語義傳輸。

      對于跨模態(tài)評價,本文對三種模態(tài)的跨模形式分別進(jìn)行評價,分別是圖像與文本、語音與文本、圖像和語音。

      對語音和文本間的跨模態(tài)評價中,如圖14,在SNR 為-6 dB 時,相似度最低為64%,在3 dB 到9 dB時快速增長直到最終達(dá)到平穩(wěn),接近93%。

      對圖像和文本間的跨模態(tài)評價中,如圖15,在SNR 為-6 dB 時,跨模態(tài)相似度最低僅為53%,在3 dB到9 dB時快速增長直到最終達(dá)到平穩(wěn)至83%。

      圖15 圖像與文本間跨模態(tài)相似度Fig.15 Cross-modal similarity between image and text

      對圖像和語音間的跨模態(tài)評價中,如圖16,在SNR 為-6 dB 時,相似度為最低的46%,在12 dB 時逐步達(dá)到最高的相似度為80%。

      圖16 圖像與語音間跨模態(tài)相似度Fig.16 Cross-modal similarity between image and speech

      從圖14、圖15 和圖16 對比可以看出,跨模態(tài)相似度判別中語音和文本之間的效果較好,最高可以達(dá)到93%,而圖像文本間和圖像語音間的相似度失真比較嚴(yán)重,18 dB 下也只能達(dá)到80%左右。但是無論在任何信噪比的情況下跨模態(tài)語義傳輸都要優(yōu)于傳統(tǒng)通信性能。

      6 結(jié)論

      本文在深度學(xué)習(xí)的支撐下,提出了一個包含語音,文本,圖像的跨模態(tài)語義通信系統(tǒng)通識框架。該通識框架中主要包含了語義編碼模塊和語義解碼模塊,兩模塊共同實現(xiàn)了跨模態(tài)語義融合和關(guān)鍵語義信息傳輸。并且對于多模態(tài)之間達(dá)意效果的好壞,本文提出了一種跨模態(tài)語義評價機制,基于任務(wù)實現(xiàn)對跨模態(tài)信號的相似度進(jìn)行評估,并將評價結(jié)果的損失反向傳播給系統(tǒng)網(wǎng)絡(luò),進(jìn)行整體訓(xùn)練迭代,實現(xiàn)通信網(wǎng)絡(luò)收斂。仿真結(jié)果表明,本文的語義通信系統(tǒng),實現(xiàn)跨模態(tài)語義傳輸?shù)耐瑫r,在低信噪比情況下其性能明顯優(yōu)于傳統(tǒng)通信,高信噪比下各種模態(tài)相似度也幾乎都達(dá)到90%以上。在18 dB 時,圖像相似度和圖像與文本間的相似度高達(dá)80%;文本相似度和文本與語音的相似度都達(dá)到了94%。在本文目前工作的基礎(chǔ)上,未來研究方向可能會進(jìn)一步拓展到其他模態(tài)的語義傳輸,發(fā)掘在觸覺、視頻等方面的語義融合提煉的可能性,為提供更加完善的用戶沉浸式體驗。

      猜你喜歡
      接收端解碼語義
      《解碼萬噸站》
      基于擾動觀察法的光通信接收端優(yōu)化策略
      頂管接收端脫殼及混凝土澆筑關(guān)鍵技術(shù)
      一種設(shè)置在密閉結(jié)構(gòu)中的無線電能傳輸系統(tǒng)
      新能源科技(2021年6期)2021-04-02 22:43:34
      基于多接收線圈的無線電能傳輸系統(tǒng)優(yōu)化研究
      語言與語義
      解碼eUCP2.0
      中國外匯(2019年19期)2019-11-26 00:57:32
      NAD C368解碼/放大器一體機
      Quad(國都)Vena解碼/放大器一體機
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      泾源县| 穆棱市| 卢龙县| 赤壁市| 玉门市| 尚志市| 休宁县| 威海市| 汉沽区| 唐海县| 长宁区| 会昌县| 新建县| 兴国县| 岱山县| 芜湖县| 绍兴市| 辽阳县| 油尖旺区| 溧水县| 东方市| 同江市| 泰兴市| 伊春市| 东源县| 三亚市| 顺义区| 洛南县| 西安市| 三明市| 家居| 云南省| 高陵县| 罗定市| 奎屯市| 惠水县| 青浦区| 扶沟县| 崇明县| 蒙城县| 定安县|