李勉,李洋,張縱輝,史清江
(1.香港中文大學(深圳)理工學院,廣東 深圳 518172;2.深圳市大數(shù)據(jù)研究院,廣東 深圳 518172;3.鵬城國家實驗室,廣東 深圳 518055;4.琶洲實驗室(黃埔),廣東 廣州 510555;5.同濟大學軟件學院,上海 200092)
大規(guī)模多輸入多輸出(Massive MIMO)是5G及未來無線通信系統(tǒng)中的核心技術[1-2],其核心思想是給基站配置幾十乃至數(shù)百根天線,同時為幾十個用戶提供高質量的通信服務。大量天線的加持極大地提高了基帶處理的空間分辨率,從而有效提升了通信系統(tǒng)的頻譜效率[3]。此外,Massive MIMO 可以利用終端移動的隨機性、信道衰落的不相關性、不同用戶間信道的近似正交性降低用戶間干擾和誤碼率,實現(xiàn)多用戶空分復用?;谝陨咸攸c,近年來,Massive MIMO 在LTE 演進、5G 和6G 領域被廣泛討論[4]。
Massive MIMO 也給無線系統(tǒng)的實現(xiàn)帶來了巨大的挑戰(zhàn)。一方面,天線數(shù)量的增加大幅提高了基帶處理任務的復雜度,這對芯片的處理性能提出了極高的要求;另一方面,Massive MIMO 系統(tǒng)需要支持大量天線,因此需要在芯片設計中綜合考慮天線數(shù)量、布局、尺寸等復雜因素。這兩方面因素導致單基帶處理單元(BBU)芯片系統(tǒng)在成本和技術難度上缺乏優(yōu)勢,因此無線設施供應商都轉向了多BBU 芯片基站系統(tǒng)的方案。
多BBU 系統(tǒng)支持靈活可擴展的部署,根據(jù)基站天線數(shù)量要求調整芯片數(shù)量。將基帶處理任務分配到多塊芯片上進行,降低了對芯片處理性能的要求,是一種可行且經(jīng)濟的設計。主流的基于多BBU系統(tǒng)的天線陣列可以把天線數(shù)量做到192 甚至更多,但是在進一步增加天線數(shù)量時會遇到數(shù)據(jù)交互,也就是前傳流量帶寬的瓶頸。具體而言,當多個BBU 芯片聯(lián)合進行基帶處理時,芯片間的數(shù)據(jù)交互量隨著天線數(shù)量的增加而增長,最終變得難以承載。例如,考慮一個配備256 根天線、12 bit 模數(shù)轉換器(ADC,analog to digital converter)的基站,當帶寬為80 MHz 時,基站BBU 的前傳速率需求將達到1 Tbit/s,而這樣的高數(shù)據(jù)速率已經(jīng)超出了現(xiàn)有數(shù)據(jù)互聯(lián)標準的承受能力[5-7]。
分布式基帶處理系統(tǒng)的BBU 間過高的前傳流量是阻礙更大規(guī)模天線陣列發(fā)展的重要因素,是工業(yè)界在攻克512 天線乃至1 024 天線Massive MIMO系統(tǒng)的過程中必須解決的問題。除了研究更高數(shù)據(jù)交換速度的總線互聯(lián)接口,另一個值得重點研究的問題是如何從算法層面降低多BBU 系統(tǒng)的前傳流量。工業(yè)界的多BBU 系統(tǒng)通?;凇爸行墓?jié)點-分布式節(jié)點”的系統(tǒng)架構,其特點是分布式節(jié)點處理局部天線數(shù)據(jù),中心節(jié)點融合處理全局天線數(shù)據(jù),達到和集中式算法等效的結果,通用的優(yōu)化前傳流量的手段主要還是直接的數(shù)據(jù)壓縮,如離散傅里葉變換(DFT)去噪、量化壓縮[8]等。
如何在保證性能的前提下優(yōu)化分布式預編碼算法的性能是本文考慮的核心問題。學術界關于分布式預編碼算法已經(jīng)有一部分工作。最早的相關工作來自文獻[9-10]。文獻[9-10]首次提出了下行的分布式基帶處理架構,并在該架構上設計了基于交替方向乘子法(ADMM,alternating direction method of multiplier)的迫零(ZF,zero forcing)[11]預編碼算法。后來學術界又提出了基于坐標下降(CD,coordinate descent)[5]、維納濾波(WF,Wiener filter)[12]、消息傳遞(MP,message passing)的近似ZF 和最大比傳輸(MRT,maximal ratio transmission)的方法[13]。以上工作假定節(jié)點之間的連接速率十分受限,因此和工業(yè)界的應用仍存在一定割裂的現(xiàn)象,并且由于MRC 和ZF 預編碼的性能不佳,應用潛力不大。在線性預編碼算法領域,WMMSE(weighted minimum mean squared error)[14]在至今十多年來一直被視為性能上界的標準。盡管其計算復雜度很高,但是隨著移動互聯(lián)網(wǎng)對預編碼算法性能要求的不斷提升,WMMSE 也逐漸被部署到現(xiàn)網(wǎng)中。目前,學術界還沒有關于WMMSE 的分布式預編碼算法的工作,而前述分布式預編碼工作以ZF 預編碼作為近似性能的上界,同場景下參考價值較低。因此在評估本文算法的性能時,將以集中式ZF、集中式WMMSE 算法作為對比算法。
本文提出了一種通信高效的分布式預編碼方案,其核心思想為分布式算法框架與可學習數(shù)據(jù)壓縮模塊的有機結合。該方案的基礎是一種基于WMMSE 預編碼的分布式變體,被稱為分布式R-WMMSE[15]算法。通過向該算法框架中引入可學習模塊并進行聯(lián)合優(yōu)化,保證了預編碼的性能并實現(xiàn)了前傳交互的優(yōu)化。所提方案對可學習壓縮模塊采用極簡的設計,實現(xiàn)了預編碼性能和前傳交互之間的良好折中。仿真表明,相對于經(jīng)典的WMMSE算法,本文所提算法在保證預編碼性能的前提下,大大降低了前傳流量帶寬。
基站端根據(jù)下行信道信息求解不同用戶的預編碼矩陣。數(shù)學上,以最大化加權和速率(WSRM,weighted sum rate maximization)為目標,該問題可以表示為
其中,αk≥ 0表示用戶k的權重,Pmax表示基站的最大發(fā)射總功率。事實上,式(2)中目標函數(shù)是頻譜效率的加權之和,其與帶寬的積才是加權和速率。帶寬在該優(yōu)化問題中是常量,因此將頻譜效率和可達速率作為目標函數(shù)是等效的,故本文也沿用相關工作[14,16]對該問題的稱呼。
用戶k的信干噪比(SINR,signal-to-interferenceand-noise ratio)為
Massive MIMO 的一個重要優(yōu)勢是當基站天線數(shù)M大于用戶天線數(shù)N時,隨著M的增加,線性預編碼的頻譜效率可以逐漸接近理想的頻譜效率[17]。反之,當M≈N時,信道線性自相關程度會增加,導致頻譜效率降低。
在實際應用中,正常情況下基站工作于M>N的狀態(tài)。為了實現(xiàn)單用戶頻譜效率和能耗之間的良好折中,通常采用用戶調度和天線關斷等手段,以維持比值在一個適當?shù)姆秶鷥?。本文的討論也僅考慮M>N的情形。
多BBU 系統(tǒng)采用星形拓撲架構執(zhí)行分布式預編碼。具體而言,系統(tǒng)將基站天線分成不同的簇,每簇天線對應一個局部的BBU,使每個BBU只負責局部信號的處理。同時,一個中央BBU節(jié)點處理對應的全局數(shù)據(jù)。這種多BBU 系統(tǒng)能夠適應更加靈活的天線數(shù)量和分布式的部署,相對于單BBU 系統(tǒng),它能夠降低對處理芯片性能的要求。
本文考慮如圖1 所示的分布式基帶處理星形架構,其由一個中心節(jié)點和C個局部節(jié)點(對應C簇天線的BBU)組成。這種架構廣為采用,其原因是它能夠很好地適應天線分簇所產生的處理流程。天線分簇自然會產生“局部數(shù)據(jù)”和對應的局部節(jié)點;高性能算法需要綜合全局數(shù)據(jù)進行運算,這對應于中心節(jié)點的數(shù)據(jù)處理;而數(shù)據(jù)匯總和分發(fā)的過程則需要中心節(jié)點和局部節(jié)點之間的數(shù)據(jù)通路。
圖1 分布式基帶處理星形架構
分布式預編碼的前傳數(shù)據(jù)交互是一個往返的過程。局部節(jié)點首先對局部信道矩陣Hc進行預處理和壓縮,然后將壓縮結果匯總到中心節(jié)點進行進一步運算;中心節(jié)點在運算完畢后,將運算結果壓縮并傳回各個局部節(jié)點,然后由各個局部節(jié)點計算得到其各自的預編碼矩陣。
本節(jié)主要介紹所提方案的技術細節(jié)。首先簡要介紹了WMMSE 預編碼算法,接著介紹了該算法的一種變體,即R-WMMSE 分布式預編碼,并將其作為本文方案所使用的優(yōu)化算法框架。在學習方法部分,分別詳述了可學習數(shù)據(jù)壓縮模塊的設計思路與分析,以及模塊與算法框架的整合和聯(lián)合優(yōu)化的細節(jié)。分布式預編碼算法框架與可學習的數(shù)據(jù)壓縮模塊共同構成了一個完整的分布式預編碼方案。
WMMSE[14]是一種高性能MIMO 線性預編碼算法。其核心在于將原始的最大化加權和速率問題式(2)等價轉化為
其中,Wk為新引入的輔助變量,Ek為用戶端均方誤差矩陣,定義為
其中,Uk為用戶端接收合并矩陣。
通過對問題式(5)采用塊坐標下降(BCD,block coordinate descent)法,可以得到經(jīng)典的WMMSE算法。每次迭代依次更新Uk、Wk、Pk
對Pk的子問題求解涉及能量約束,因此需要優(yōu)化對偶變量μk。預編碼矩陣的能量是關于μk的單調函數(shù),所以在優(yōu)化μk時需要使用二分法[14]。WMMSE 預編碼算法如算法1 所示。
算法1WMMSE 預編碼算法
本文的分布式預編碼方案使用一種WMMSE算法的分布式變體(稱為R-WMMSE)作為算法框架,可提供較好的可解釋性。利用優(yōu)化問題中最優(yōu)解的子空間特性,R-WMMSE 分布式預編碼將BBU間的交互數(shù)據(jù)壓縮到相應的低維子空間,從而有效地降低了數(shù)據(jù)交互量。需要強調的是,在預編碼性能上,R-WMMSE 預編碼和WMMSE 預編碼具備相同的性能。
在對R-WMMSE 分布式預編碼算法進行推導前,先介紹引理1。
下面證明新構造的可行解具有更優(yōu)的性能(目標函數(shù)值)。這樣的結論基于式(12)的正定性
基于引理1,可以證明定理1[15]。
R-WMMSE 分布式預編碼算法執(zhí)行流程如算法2 所示。
算法2R-WMMSE 分布式預編碼算法
評估算法在實際系統(tǒng)中的性能表現(xiàn)時,需要綜合考慮全頻帶、用戶調度、算法時間分配等因素,因此本文只能給出簡易的估算。下面給出一個示例,當考慮M=128、N=D=16、C=4 時,WMMSE預編碼的數(shù)據(jù)交互量為 4 096 個復數(shù),而R-WMMSE 的數(shù)據(jù)交互量僅為1 536 個復數(shù)。當全頻帶為80 MHz 時,按照30 kHz 一個子載波進行切分,復數(shù)量化位數(shù)為12 bi(t6 bit 實部和6 bit 虛部),算法執(zhí)行時限定時間分配為0.3 ms,那么WMMSE預編碼執(zhí)行過程的數(shù)據(jù)交互為 488.28 Gbit/s,R-WMMSE 預編碼則為183.11 Gbit/s。如果該基站系統(tǒng)最高支持 500 Gbit/s 前傳帶寬,那么使用WMMSE 預編碼時,系統(tǒng)只能驅動上面介紹的128天線,而使用R-WMMSE 預編碼時則能夠驅動256天線(M=256,C=8)。
以上分析表明,在常規(guī)的基站規(guī)模配置下,相較于WMMSE 算法,R-WMMSE 分布式預編碼大幅優(yōu)化了前傳交互量。同時,示例直觀展示了優(yōu)化數(shù)據(jù)交互量如何幫助系統(tǒng)支持更大規(guī)模的天線陣列。
為了進一步降低算法2 中(第1 行和第8 行)的數(shù)據(jù)交互量,本節(jié)給出可學習的數(shù)據(jù)壓縮模塊設計。所介紹的模塊設計不依賴于特定預編碼算法,而是能與本文提到的各種方法(如ZF 預編碼、WMMSE 預編碼、R-WMMSE 預編碼等)結合。本文以R-WMMSE 分布式預編碼為例展示方案的可行性。
下面分別介紹3種不同的可學習的數(shù)據(jù)壓縮模塊。
1) 單邊壓縮(SSC,single sided compression)模塊
考慮一種簡單的矩陣單邊壓縮,即
其中,θ1即P1,θ2包含P2和S兩部分,總參數(shù)量為mn+2mp。由的表達式可以看到,SSC 壓縮方式要求q=n,p<m。
2) 雙邊壓縮(DSC,double sided compression)模塊
另一種壓縮模塊執(zhí)行對矩陣的雙邊壓縮,即
3) 全連接(FC,fully connected)模塊
參考神經(jīng)網(wǎng)絡的全連接設計,可以直接得到如下的全連接數(shù)據(jù)壓縮模塊設計
其中,reshape 函數(shù)和vec 函數(shù)正好是一對互逆的映射,reshape 的第二個參數(shù)表示輸出矩陣的維度,θ1即P3,θ2包含P4和S兩部分,總參數(shù)量為mn+2mnpq。
下面分析以上3 種模塊的輸出元素關于輸入元素的依賴關系。所提出的2 種模塊中SSC 的輸入輸出關系根據(jù)式(20)可以表示為FSSC(A)=P2P1A+S。記=P2P1,可以得到如下的逐元素輸入輸出關系
對比式(23)~式(25),有以下發(fā)現(xiàn)。
①SSC 模塊的第k行第l列輸出元素為A中第l列元素的線性組合再加上一個常數(shù)。
②DSC 模塊的第k行第j列輸出元素為A中所有元素的線性組合再加上一個常數(shù),因此具備比SSC 更強的輸入輸出關系表達能力。
③FC 模塊的第k行第j列輸出元素為A中所有元素的線性組合再加上一個常數(shù),且線性組合權重不共享,和DSC 具有同水平的輸入輸出關系表達能力。
值得注意的是,壓縮解壓層次更多的單邊矩陣壓縮、雙邊矩陣壓縮模塊可以化簡為SSC 和DSC 模塊。例如,包含多個壓縮解壓矩陣的雙邊壓縮模塊
綜合比較上述3 種可學習壓縮模塊的參數(shù)量和表達能力,當m,n,p,q的數(shù)量級相同時,有以下結論成立。
①復雜度方面:FC 相比SSC 或DSC 模塊的參數(shù)量高2 階,對應地引入了高2 階的計算復雜度。
②表達能力方面:FC 和DSC 模塊的表達能力水平相同,且都高于SSC 模塊。
本文認為,所提出的SSC 和DSC 模塊相比FC模塊在復雜度和性能方面都分別實現(xiàn)了更好的均衡,后文將用實驗佐證該觀點。此外,值得注意的是,以上模塊設計所引入的計算復雜度和參數(shù)存儲開銷的量級都不大。其中,計算復雜度和原矩陣所做的矩陣乘法相當,而參數(shù)存儲開銷同樣和原矩陣的維度相當。
本節(jié)介紹可學習數(shù)據(jù)壓縮模塊和分布式算法框架進行聯(lián)合優(yōu)化的模型訓練方法,并闡述可學習模塊提升模型性能的機理。
最直接的模型優(yōu)化方式是有監(jiān)督學習,其直接優(yōu)化SSC、DSC 的輸入輸出間的差距,如優(yōu)化輸入輸出的均方誤差(MSE,mean square error)
其中,期望E 是通過對大量隨機生成的樣本A取平均近似得到的。采用梯度下降(GD,gradient descent)法優(yōu)化式(27)得到可學習壓縮模塊的參數(shù)后,即可將其植入R-WMMSE 分布式算法中。盡管基于式(27)的獨立優(yōu)化簡單且直接,但是其最終得到的模型預編碼性能會有較大的損失。其根本原因在于,訓練后的帶壓縮預編碼僅逼近未壓縮預編碼,并沒有考慮到對和速率的優(yōu)化。例如,本文基于2 輪迭代的R-WMMSE 的帶壓縮預編碼,其性能上限是2 輪迭代的R-WMMSE 預編碼,此時其性能與R-WMMSE 預編碼的收斂性能還有較大差距。
為了避免上述的性能損失,本文提出使用無監(jiān)督學習的方案。直接以下行加權和速率為目標函數(shù)(見原問題式(2)),對可學習壓縮模塊和分布式預編碼采用端到端的聯(lián)合優(yōu)化。如算法3 所示,算法執(zhí)行主要分為3 個階段。第一階段為信道數(shù)據(jù)的預處理及匯總(第1~2 行);第二階段為預編碼的中心迭代計算(第3~7 行);第三階段為預編碼矩陣的分發(fā)和局部計算(第8~9 行)。為了優(yōu)化可學習壓縮模塊中的參數(shù)值,本文對算法3 采用基于反向傳播的梯度下降法。具體而言,首先產生一個訓練集Ω={H(1),H(2),…,H(S)},其中,S表示訓練集的樣本數(shù)。對于每個樣本,執(zhí)行算法3 輸出P(H(i)),其中,i表示第i個樣本,然后以和速率為目標函數(shù)通過反向傳播計算其關于壓縮模塊參數(shù)的梯度,從而采用GD 法更新參數(shù)值。
算法3通信高效的分布式預編碼算法
值得注意的是,當固定迭代次數(shù)時,在特定壓縮維度下,本文提出的基于無監(jiān)督聯(lián)合優(yōu)化的算法3 的性能可以超越同迭代次數(shù)(如2 輪,此時優(yōu)化迭代算法未收斂)的無壓縮損失的R-WMMSE 算法2。這是因為無監(jiān)督優(yōu)化的算法3的訓練目標為達到最優(yōu)解,而固定迭代次數(shù)的算法2 在相應迭代次數(shù)下尚未收斂,性能比全局最優(yōu)解更差。因此算法3 通過訓練有機會得到比算法2 性能更好的解。
為了直觀理解,可以考慮一種特殊情況,即壓縮模塊不執(zhí)行維度壓縮(輸入、輸出和壓縮維度都相等)。通過恰當?shù)某跏蓟?,可將學習模塊變成一個恒等映射,從而在相同迭代次數(shù)下,算法3 模型的初始性能和算法2 相等。訓練開始時,算法3 模型性能并非最優(yōu),可學習壓縮模塊的參數(shù)梯度不為0。因此,通過GD 法更新參數(shù),可學習模塊的映射輸出逐漸改變,從而在恒等映射的基礎上產生一個有助于提升目標函數(shù)值的偏置(例如,使解更接近最優(yōu)解)。利用多個迭代中的可學習壓縮模塊,算法3 模型可以累積多次性能提升,比同迭代次數(shù)的算法2 性能更佳。
本節(jié)通過仿真實驗,展示所提出的通信高效的分布式預編碼算法3 相比于傳統(tǒng)算法在預編碼性能和前傳通信效率方面的優(yōu)勢,證明本文方案對于降低前傳流量、支持更大天線陣列的意義。
仿真設置如下,基站天線數(shù)M=64,分為C=8簇,用戶數(shù)K=8,每個用戶的天線數(shù)Nk=4,數(shù)據(jù)流數(shù)Dk=2,則總天線數(shù)N=32,總流數(shù)D=16。采用 QuaDRiGa(quasi deterministic radio channel generator)信道生成套件(版本v2.2.0)[18]按照3GPP-mmw 標準建模[19]生成信道數(shù)據(jù)。訓練集包含12 000 個信道矩陣,測試集包含1 200 個信道矩陣。仿真信道參數(shù)設定如表1 所示。
表1 仿真信道參數(shù)設定
在算法3 的訓練中,樣本的SNR 在-10~25 dB均勻隨機產生。訓練和預測中,算法3 的迭代次數(shù)固定為T=2。將算法3 與現(xiàn)有方法WMMSE 預編碼進行對比,其中,WMMSE 和R-WMMSE 的迭代次數(shù)都為6 次,與完全收斂的性能之間還存在一定差距,這部分性能區(qū)間用于展示算法3 對性能的優(yōu)化。
圖2(a)和圖2(b)分別展示了將X∈C32×16的維度壓縮為16×16 和12×16 時在DSC、SSC、FC 這3 種數(shù)據(jù)壓縮模塊下算法3 的性能。圖2(a)將X壓縮到了其秩的維度,而圖2(b)則將X壓縮到了比其秩更小的維度。實驗中WMMSE 與R-WMMSE 的性能幾乎一致,代表了使用“無損壓縮”的現(xiàn)有方法的性能。
圖2 壓縮維度為16×16 和12×16 時在3 種數(shù)據(jù)壓縮模塊下算法3 的性能
從圖2(a)可以看到,當X被壓縮到其秩的維度時,本文提出的算法3 在DSC、SSC 壓縮模塊下的性能都優(yōu)于R-WMMSE 算法。3 種模塊的模型訓練目標都是利用自身特定的映射結構,嘗試將輸入矩陣映射為一個性能更強的解。其性能提升機制和2.4 節(jié)末尾所考慮的特殊情況類似,但并不完全相同。在這種實驗條件下,可學習模塊的輸出在提升目標函數(shù)值時,還需要對抗維度壓縮的損失。不同的模塊表達能力導致了不同的性能。
①FC 的參數(shù)量和復雜度都較高,性能方面反而表現(xiàn)較差。原因在于其參數(shù)量過多,結構過于復雜,導致泛化性較差。典型表現(xiàn)如圖2 所示,當測試信噪比接近25 dB 邊界時,使用信噪比-10~25 dB 數(shù)據(jù)訓練出來的FC 模塊性能顯著下降。
②DSC 因其較強的輸入輸出關系表達能力和適中的參數(shù)量,具備最佳的性能。與FC 模塊相比,DSC模塊充分利用了輸入矩陣的行列信息,左乘提取輸入的行間特征(左乘矩陣的每一行可以視作一個特征提取向量),改變矩陣列空間,右乘則正好相反。
③SSC 相比DSC 具有更簡單的結構,只能提取行間或列間關系,變換單邊子空間,但是由于結構更簡單,因此更不容易產生過擬合。在較低的復雜度下,仍然可實現(xiàn)良好的泛化性能。
從圖2(b)可以看出,當壓縮后的維度低于其秩時,3 種模塊的性能相比圖2(a)都有所下降,且全部比R-WMMSE 預編碼更低。各模塊的性能下降幅度不同,由于DSC 和SSC 的運算過程始終保持矩陣結構,過小的壓縮維度將導致運算過程降低矩陣的秩,產生信息丟失,削弱這2 種矩陣模塊的表達能力。相比之下,F(xiàn)C 模塊則不受矩陣秩的影響。因此,和圖2(a)相比,DSC 和SSC 的性能損失較大,而FC 的損失較小。然而,需要強調的一點是,預編碼算法應用的核心指標是可達速率,如果可達速率不達標,那么繼續(xù)降低交互量便沒有意義。圖2(b)中的結果表明維度壓縮的損失較大,無法通過可學習模塊完全補償,因此需要采用更大的壓縮維度。
圖2 的結果表明壓縮維度(前傳交互流量)和性能之間存在折中。在保證性能的前提下,DSC 和SSC可以實現(xiàn)更好的預編碼性能和壓縮維度的折中。此外,在適當?shù)膲嚎s維度下,DSC、SSC 相比FC 展現(xiàn)出來的性能優(yōu)勢體現(xiàn)了2 種矩陣結構的模塊設計的優(yōu)勢。
將X的維度壓縮至16×16,并固定訓練和測試的SNR 為20 dB,各算法的性能對比如圖3 所示。對比各算法關于不同輸入樣本的性能范圍,發(fā)現(xiàn)DSC 和SSC 的頻譜速率在不同樣本上的差異都在10 bit/(s·Hz)左右,而 FC 和 R-WMMSE 的差異都達到了15 bit/(s·Hz)。圖2 和圖3 的實驗結果都表明,分布式算法框架和可學習壓縮模塊聯(lián)合優(yōu)化的模型,既從經(jīng)典算法的計算結構中獲得了“魯棒的性能保證”,又依靠可學習壓縮模塊獲得了“降交互和提性能”的潛力。
圖3 固定SNR=20 dB 時各算法的性能對比
接下來,對比各算法的數(shù)據(jù)交互量和計算復雜度。表2 展示了各算法的前傳流量大小。從表2 可以看到,本文提出的算法3 在不同的壓縮模塊下,數(shù)據(jù)交互量都比R-WMMSE 小。例如,當壓縮維度為16×16 時,本文提出的算法3 的數(shù)據(jù)交互量比R-WMMSE 降低了多達25.0%。
表2 各算法的前傳流量大小
表3 統(tǒng)計了各算法的復數(shù)乘法次數(shù)。從表3 可以看到,本文提出的采用DSC 和SSC 的分布式預編碼算法在計算復雜度方面相比R-WMMSE 有相當大的優(yōu)勢,可以極大地降低基帶處理的時延。例如,當壓縮維度為16×16 時,采用DSC 的分布式預編碼算法比R-WMMSE 的計算復雜度降低了52.9%。
表3 各算法的復數(shù)乘法次數(shù)
最后,本文提供了一個參考策略,指導如何在應用中選擇合適的模塊。這包括選擇合適的壓縮維度和從SSC、DSC 中選出一種模塊。模塊的選擇要滿足系統(tǒng)的核心需求,例如,在本文所考慮的應用中,核心需求是性能和數(shù)據(jù)交互,前者保證系統(tǒng)的實用性,后者對應于模塊的基本功能。壓縮維度是影響這2 個指標的首要條件。如果系統(tǒng)對性能有嚴格要求,設計者可以測試SSC 和DSC 在不同壓縮維度下的性能,找到符合性能需求的壓縮維度。然后選擇模塊。如果在計算復雜度和模型存儲(模型參數(shù)量)方面沒有特別要求,選擇DSC 即可;否則,可以根據(jù)計算復雜度和模型存儲的具體表現(xiàn)進一步選擇??傊?,模塊選擇是一個帕累托最優(yōu)點的選擇問題,需要通過實驗,根據(jù)系統(tǒng)對不同指標的要求程度做出權衡。
此外,一種經(jīng)驗性的選用策略是,在壓縮維度方面盡量保證壓縮后矩陣的秩不比原矩陣秩更低,模塊選擇方面在對計算復雜度和存儲沒有嚴苛要求的情況下選用DSC 模塊即可,否則需要基于不同帕累托最優(yōu)點的實驗結果,根據(jù)性能指標的重要性進行權衡。
隨著未來通信系統(tǒng)中基站天線數(shù)的持續(xù)增長,BBU 間進行信號處理的前傳流量也將極大增加。為了降低前傳數(shù)據(jù)交互,支持更大的天線陣列,本文提出了一種針對Massive MIMO 系統(tǒng)的通信高效的分布式預編碼方案。該方案以R-WMMSE 分布式預編碼作為算法框架,結合高效極簡的可學習數(shù)據(jù)壓縮模塊設計,通過對兩者進行聯(lián)合優(yōu)化,可以實現(xiàn)預編碼性能和前傳通信效率兩方面的提升。仿真結果表明,相比于經(jīng)典的WMMSE 預編碼算法,本文的分布式預編碼方案具有更好的性能和更低的數(shù)據(jù)交互要求。