劉曹洋,孫林,肖家旺,毛邦寧,劉寧
(1 蘇州大學(xué) 電子信息學(xué)院,江蘇省新型光纖技術(shù)與通信網(wǎng)絡(luò)工程研究中心,江蘇 蘇州 215006)
(2 中國計(jì)量大學(xué) 光學(xué)與電子科技學(xué)院,杭州 310018)
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能的蓬勃發(fā)展,基于云的互聯(lián)網(wǎng)流量出現(xiàn)了爆炸式增長,這對(duì)數(shù)據(jù)中心的容量及其光互連系統(tǒng)的速率提出了更高的要求。同時(shí)5G/物聯(lián)網(wǎng)等業(yè)務(wù)推動(dòng)了邊緣計(jì)算和云-邊協(xié)同需求的發(fā)展,催生出更多邊緣數(shù)據(jù)中心間的通信流量,從而將數(shù)據(jù)中心光互連系統(tǒng)的互連長度需求從百米延伸至10~20 km。對(duì)于高速短距離的數(shù)據(jù)中心光互連系統(tǒng),光強(qiáng)度調(diào)制/直接檢測(cè)(Intensity Modulation/Direct Detection,IM/DD)系統(tǒng)因其結(jié)構(gòu)簡單、成本低廉而被認(rèn)為是最有前途的解決方案之一[1]。同時(shí)為了降低光學(xué)和電子元件的波特率和帶寬要求,先進(jìn)調(diào)制格式引起了人們的關(guān)注和研究,如脈沖振幅調(diào)制[2-3]、離散多音調(diào)制[4]和無載波振幅相位調(diào)制[5]??紤]到系統(tǒng)實(shí)現(xiàn)和功耗,四電平脈沖振幅調(diào)制(Four-level Pulse Amplitude Modulation,PAM-4)是一種針對(duì)100 Gb/s、200 Gb/s 和400 Gb/s 短距離光纖傳輸?shù)睦硐胝{(diào)制格式[6]。與光相干檢測(cè)系統(tǒng)不同的是,IM/DD 系統(tǒng)中的平方律檢測(cè)會(huì)丟失信號(hào)的相位信息使得色散帶來非線性的損傷難以進(jìn)行補(bǔ)償[7],同時(shí)低成本激光器的啁啾以及帶寬受限器件的非理想響應(yīng)也會(huì)帶來嚴(yán)重的非線性,從而限制IM/DD 系統(tǒng)的傳輸容量和距離。因此,迫切需要強(qiáng)大的均衡器來補(bǔ)償IM/DD 系統(tǒng)的非線性失真。
非線性機(jī)器學(xué)習(xí)模型,特別是神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)模型,由于具備高度的非線性特性被廣泛用于光通信中相干系統(tǒng)[8-9]和IM/DD 系統(tǒng)[10-15]的非線性補(bǔ)償。YI Lilin 等[10]提出一種前饋神經(jīng)網(wǎng)絡(luò)均衡器(Feedforward Neural Network Equalizer,F(xiàn)NNE)用于補(bǔ)償IM/DD 系統(tǒng)中的強(qiáng)非線性損傷,其與前饋均衡器、沃爾泰拉非線性均衡器相比表現(xiàn)出更強(qiáng)的均衡性能,但同時(shí)也帶來更高的復(fù)雜度。除了FNNE 之外,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)均衡器[12]、卷積神經(jīng)網(wǎng)絡(luò)均衡器[13]和循環(huán)神經(jīng)網(wǎng)絡(luò)均衡器(Recurrent Neural Network Equalizer,RNNE)[14]都已在不同的場(chǎng)景中使用和驗(yàn)證。XU Zhaopeng 等[15]在50 Gbps 20 km 的IM/DD 系統(tǒng)中對(duì)比了具有相同輸入和隱藏神經(jīng)元數(shù)目的單隱藏層FNNE 和基于自回歸循環(huán)神經(jīng)網(wǎng)絡(luò)的RNNE,該RNNE 由于添加額外反饋神經(jīng)元復(fù)雜度有所提高,但是得到了更優(yōu)的性能。然而,上述提到的NN 結(jié)構(gòu)中隱藏層只有一層或者兩層,隱藏層層數(shù)和隱藏層神經(jīng)元數(shù)目的對(duì)神經(jīng)網(wǎng)絡(luò)均衡器的影響仍是未知的。
本課題組對(duì)單層隱藏層RNNE 和2 層隱藏層RNNE 在光IM/DD 系統(tǒng)中的性能進(jìn)行了研究[16]。在此基礎(chǔ)上,為了探究隱藏層數(shù)目對(duì)RNNE 性能的影響,尋求低復(fù)雜度高效的均衡方案,本文進(jìn)一步分析了增加隱藏層數(shù)目對(duì)均衡器算法復(fù)雜度降低的有效性,并制訂了隱藏層神經(jīng)元數(shù)目的選擇策略。搭建了112 Gbps 20 km 的PAM-4 光IM/DD 傳輸仿真平臺(tái),在不同維度下定量分析了隱藏層數(shù)目對(duì)RNNE 誤碼率(Bit Error Rate,BER)及算法復(fù)雜度的影響,結(jié)果表明2 層隱藏層RNNE 具有更優(yōu)的性能。另外,通過遍歷隱藏層內(nèi)部神經(jīng)元的數(shù)目、分析其對(duì)均衡器性能的影響,統(tǒng)計(jì)得出隱藏層神經(jīng)元數(shù)目的優(yōu)化策略,對(duì)多層RNNE 實(shí)現(xiàn)非線性均衡具有一定的指導(dǎo)意義。
單隱藏層FNNE 的結(jié)構(gòu)如圖1。這是一個(gè)兩層網(wǎng)絡(luò),包括隱藏層和輸出層,輸入層不計(jì)入其中。圖1 中x代表均衡器的輸入,l是輸入的數(shù)目,h代表隱藏層神經(jīng)元,n是隱藏層神經(jīng)元的數(shù)目,y是均衡器的輸出,代表均衡后的值。RNNE 結(jié)構(gòu)中D代表四電平判決模塊,Z代表延時(shí)模塊,d是判決后反饋的符號(hào),k是反饋的數(shù)量。與FNNE 的結(jié)構(gòu)相比,RNNE 重用輸出判決后的符號(hào)的作為輸入,在預(yù)測(cè)當(dāng)前輸出時(shí),過去預(yù)測(cè)的輸出作為輸入提供了額外的信息。因此,在強(qiáng)非線性系統(tǒng)中,RNNE 具有更優(yōu)的均衡性能。
圖1 單隱藏層NN 均衡器的結(jié)構(gòu)Fig.1 Schematic of the single hidden layer NN equalizers
在衡量RNNE 的性能時(shí),除了BER 還有一個(gè)重要的參數(shù)指標(biāo)是算法復(fù)雜度。首先考慮單隱藏層FNNE 的算法復(fù)雜度。因?yàn)槌朔ū燃臃◤?fù)雜得多,所以均衡一個(gè)符號(hào)所需要的執(zhí)行的乘法次數(shù)用來表示FNNE 的算法復(fù)雜度[11]。為了恢復(fù)一個(gè)符號(hào),將l個(gè)相鄰的采樣序列作為輸入神經(jīng)元,然后通過n個(gè)隱藏層神經(jīng)元的計(jì)算,得到一個(gè)輸出。在圖1 FNNE 中,每個(gè)隱藏層神經(jīng)元都可以看做是一個(gè)計(jì)算單元,其內(nèi)部計(jì)算可以表示為
式中,yh為當(dāng)前隱藏層神經(jīng)元的輸出,wi為對(duì)應(yīng)輸入xi的權(quán)重,b是偏置。w和b需要通過訓(xùn)練來優(yōu)化。f(·)為激活函數(shù),用來引入非線性。ReLU(x)結(jié)構(gòu)簡單,同時(shí)也能很好地解決IM/DD 系統(tǒng)中的非線性,作為激活函數(shù),其表達(dá)式為
由于ReLU(x)函數(shù)只需要做簡單判斷,其復(fù)雜度可以忽略不計(jì)。根據(jù)式(1)可以計(jì)算出一個(gè)隱藏層神經(jīng)元中需要的乘法次數(shù)等于輸入神經(jīng)元的數(shù)目l,輸出神經(jīng)元需要的乘法次數(shù)等于上一層的輸入數(shù)目n。FNNE 均衡一個(gè)符號(hào)需要的乘法總數(shù)NFNN等于所有神經(jīng)元中乘法的次數(shù)總和,可表示為
類似地,單隱藏層RNNE 的算法復(fù)雜度也使用均衡一個(gè)符號(hào)需要的乘法次數(shù)NRNN表示,圖1 中RNNE與FNNE 不同的是:輸入神經(jīng)元除了相鄰的采樣序列xi,還包括判決反饋符號(hào)dj,其中一個(gè)隱藏層神經(jīng)元的計(jì)算可以表示為
根據(jù)式(4),RNNE 每個(gè)隱藏層神經(jīng)元中乘法次數(shù)等于輸入神經(jīng)元的數(shù)目(l+k),和輸入數(shù)目為(l+k)的FNNE 相等。RNNE 均衡一個(gè)符號(hào)需要的乘法總數(shù)NRNN同輸入數(shù)目為(l+k)的FNNE 相等,可表示為
多隱藏層RNNE 結(jié)構(gòu)如圖2,第i層隱藏層的神經(jīng)元數(shù)目為ni(i=1,2,...,m),其中第一層隱藏層神經(jīng)元輸出可用式(4)表示,第i層(i=2,...,m)隱藏層神經(jīng)元輸出可表示為
圖2 多隱藏層RNNE 的結(jié)構(gòu)Fig.2 Schematic of the multiple hidden layers RNNE
特殊地,當(dāng)每層神經(jīng)元的數(shù)目都相等時(shí),即n1=n2=...=nm=n,式(7)可簡化為
對(duì)于不同結(jié)構(gòu)的RNNE 在均衡信號(hào)之前需要通過訓(xùn)練來優(yōu)化均衡器的參數(shù),這些參數(shù)包括所有的權(quán)重和偏差。對(duì)于一個(gè)m層隱藏層RNNE 一共包括m+1 組權(quán)重和偏置,分別位于輸入層和隱藏層、隱藏層和隱藏層,隱藏層和輸出層之間。在訓(xùn)練之前,需要對(duì)這些參數(shù)進(jìn)行隨機(jī)初始化,然后通過反向傳播和Adam 優(yōu)化器進(jìn)行小批量梯度下降訓(xùn)練。訓(xùn)練超參數(shù)的設(shè)置:學(xué)習(xí)率設(shè)置為10-3,最大迭代輪次設(shè)定為100,小批量梯度下降的批次大小為16。每批數(shù)據(jù)正向傳播后,計(jì)算均方誤差LMSE,其表達(dá)式為
式中,s為小批量梯度下降的批次大小,為一批數(shù)據(jù)中第i個(gè)原始符號(hào),yi為第i個(gè)符號(hào)對(duì)應(yīng)的均衡器輸出。得到LMSE后進(jìn)行反向傳播,再更新權(quán)重和偏置以最小化均方誤差。在每輪迭代完成后,使用RNNE 分別均衡訓(xùn)練集和測(cè)試集上的數(shù)據(jù),得到均衡后的符號(hào),并計(jì)算BER。隨著迭代輪次的增加,參數(shù)不斷優(yōu)化,LMSE值逐步減小,測(cè)試集上的BER 也越來越小。當(dāng)測(cè)試集上的BER 不再下降時(shí),網(wǎng)絡(luò)停止更新,記錄下BER 最優(yōu)時(shí)的均衡器參數(shù)。
和單隱藏層RNNE 的訓(xùn)練相比,多隱藏層均衡器的誤差函數(shù)的收斂會(huì)變緩甚至無法收斂,使得經(jīng)過100輪迭代更新后的RNNE 不能在測(cè)試集上得到理想的BER。增加迭代輪次可使誤差函數(shù)收斂來解決這個(gè)問題,但訓(xùn)練時(shí)長也會(huì)相應(yīng)增加,所以訓(xùn)練時(shí)使用遷移學(xué)習(xí)而不是單純的增加迭代輪次。在遷移學(xué)習(xí)的幫助下,可以顯著減少迭代輪次和訓(xùn)練符號(hào)數(shù)目,從而保證大大縮短N(yùn)N 訓(xùn)練時(shí)間。同一個(gè)NN 結(jié)構(gòu)在不同場(chǎng)景下的遷移學(xué)習(xí)的有效性已經(jīng)被驗(yàn)證[17]。本文將其推廣到同一場(chǎng)景下的不同NN 結(jié)構(gòu),在訓(xùn)練2 層隱藏層RNNE 時(shí),將已經(jīng)訓(xùn)練好的單隱藏層RNNE 的第一組的權(quán)重和偏置(輸入層和第一層隱藏層之間)賦值給2層隱藏層RNNE 對(duì)應(yīng)位置的參數(shù)。這樣2 層隱藏層RNNE 可以在單隱藏層RNNE 的參數(shù)上繼續(xù)優(yōu)化,均方誤差可以更快地收斂,從而大大縮減訓(xùn)練所需要的迭代輪次,縮短訓(xùn)練所需要的時(shí)間。類似地,對(duì)m層隱藏層RNNE 的訓(xùn)練,可以直接加載對(duì)應(yīng)m-1 層隱藏層RNNE 的前m-1 組的權(quán)重和偏置。
為了衡量多隱藏層RNNE 的BER 和復(fù)雜度性能,使用VPItransmissionMaker 13.1 搭建的仿真平臺(tái)如圖3。ERIKSSON T A 等[18]指出:基于機(jī)器學(xué)習(xí)的均衡器的性能可能被高估了,因?yàn)樵谑褂脗坞S機(jī)二進(jìn)制比特序列(Pseudo-random Bit Sequence,PRBS)訓(xùn)練模型情況下,NN 可以識(shí)別PRBS 數(shù)據(jù)的模式,從而獲得卓越的性能。因此,在發(fā)射機(jī)處200 000 PAM-4 符號(hào)由MATLAB 隨機(jī)生成的,其中50 000 用于訓(xùn)練,其余用于測(cè)試。PAM-4 信號(hào)經(jīng)過4 倍上采樣和滾降系數(shù)為0.1 的奈奎斯特濾波整形后通過數(shù)模轉(zhuǎn)換器(Digital to Analog Converter,DAC)變成模擬信號(hào),再被電吸收調(diào)制器(Electro-absorption Modulator,EAM)調(diào)制到1 550 nm 波長的激光上。調(diào)制好的光信號(hào)經(jīng)過標(biāo)準(zhǔn)單模光纖(Standard Single-mode Fiber,SSMF)傳輸20 km 到達(dá)接收端。在接收端,可變光衰減器(Variable Optical Attenuator,VOA)將接收光功率(Received Optical Power,ROP)調(diào)整到合適的水平,光信號(hào)被檢測(cè)響應(yīng)度為0.65 A/W 的光電檢測(cè)器(Photo-detector,PD)接收轉(zhuǎn)變?yōu)殡娦盘?hào),然后通過采樣率為224 GSa/s、分辨率為8 位的模數(shù)轉(zhuǎn)換器(Analog to Digital Converter,ADC)變?yōu)閿?shù)字信號(hào),最后進(jìn)入離線數(shù)字信號(hào)處理(Digital Signal Processing,DSP)模塊。該模塊包括匹配濾波、重采樣、RNNE 均衡和 BER 計(jì)算。仿真采用的參數(shù)如表1。
圖3 用于112 Gbps PAM-4 光鏈路的多隱藏層RNNE 的驗(yàn)證設(shè)置Fig.3 Verification setup of the multiple hidden layers RNNE for a 112-Gbps optical PAM-4 link
表1 PAM-4 光鏈路的仿真參數(shù)Table 1 Parameters of optical PAM-4 link
為了得到最優(yōu)的BER 及復(fù)雜度性能,對(duì)于多隱藏層RNNE 結(jié)構(gòu)的確定,需要考慮每層隱藏層中神經(jīng)元數(shù)目的選擇。圖4 中散點(diǎn)代表不同結(jié)構(gòu)的2 層隱藏層RNNE,數(shù)字表示RNNE 隱藏層神經(jīng)元數(shù)目,具體地,(u,v)表示第一隱藏層具有u個(gè)神經(jīng)元、第二隱藏層具有v個(gè)神經(jīng)元的RNNE。圖4 中固定第一隱藏層神經(jīng)元的數(shù)目,然后遍歷優(yōu)化第二隱藏層神經(jīng)元的數(shù)目得到了不同結(jié)構(gòu)RNNE 的BER 及復(fù)雜度性能。結(jié)果表明,均衡器的BER 及復(fù)雜度性能最優(yōu)時(shí),第二隱藏層的神經(jīng)元數(shù)目與第一層相近。然后將最優(yōu)的均衡器結(jié)構(gòu)用實(shí)線擬合,同時(shí)將第二和第一隱藏層神經(jīng)元數(shù)目相等的均衡器作為目標(biāo)結(jié)構(gòu)用點(diǎn)劃線擬合。對(duì)比兩條曲線,發(fā)現(xiàn)選擇神經(jīng)元數(shù)目相等的均衡器結(jié)構(gòu)可以得到與最優(yōu)結(jié)構(gòu)相近的性能,同時(shí)避免了大量重復(fù)的遍歷訓(xùn)練。
圖4 2 層隱藏層RNNE BER 和乘法次數(shù)的關(guān)系Fig.4 BER vs.multiplication numbers for two hidden layers RNNE
圖5 顯示了隱藏層數(shù)目不同的RNNE 算法復(fù)雜度和BER 之間的關(guān)系。從整體的趨勢(shì)來看,隨著隱藏層神經(jīng)元數(shù)目的增加,RNNE 的均衡一個(gè)符號(hào)的所需乘法次數(shù)相應(yīng)增加,BER 結(jié)果也越好。對(duì)比單層和2 層隱藏層RNNE 的曲線,發(fā)現(xiàn)在同一BER 閾值下,2 層隱藏層RNNE 的復(fù)雜度小于單隱藏層RNNE 的復(fù)雜度,具體復(fù)雜度對(duì)比如表2。
表2 不同閾值下多隱藏層RNNE 的算法復(fù)雜度Table 2 NRNN of multiple hidden layers RNNE at different thresholds
圖5 多隱藏層RNNE BER 和乘法次數(shù)的關(guān)系Fig.5 BER vs.multiplication numbers for multiple hidden layers RNNE
在BER 為10-2、3.8×10-3(7% OH-FEC)和10-3三個(gè)閾值下,2 層隱藏層RNNE 相比于單隱藏層RNNE的算法復(fù)雜度理論上分別可以降低8.3%、15.6%和23.3%。隨著復(fù)雜度的增加,降低復(fù)雜度的效果也越好。但是在同一BER 閾值下,隱藏層數(shù)目繼續(xù)增加,RNNE 的算法復(fù)雜度反而會(huì)增加。為了進(jìn)一步研究隱藏層數(shù)目對(duì)RNNE 性能的影響,在隱藏層神經(jīng)元數(shù)目相同的條件下,對(duì)比多隱藏層RNNE 的BER 性能,具體如表3。
表3 隱藏層神經(jīng)元數(shù)目相同的多隱藏層RNNE 的BER 性能Table 3 BER of multiple hidden layers RNNE with the same hidden neurons number
觀察表3 中數(shù)據(jù),增加RNNE 的隱藏層層數(shù)和隱藏層神經(jīng)元的數(shù)目均可以提高均衡器的BER 性能。對(duì)比隱藏層神經(jīng)元數(shù)目相同的RNNE,發(fā)現(xiàn)增加隱藏層數(shù)目總是可以降低BER,雖然增加隱藏層數(shù)目帶來的算法復(fù)雜度增加是一樣的,但是增加第三層隱藏層帶來的BER 優(yōu)化遠(yuǎn)遠(yuǎn)小于增加第二層隱藏層帶來的BER 優(yōu)化。隱藏層神經(jīng)元數(shù)目相同的多隱藏層RNNE 的算法復(fù)雜度對(duì)比具體如圖6。
圖6 隱藏層神經(jīng)元數(shù)目相同的多隱藏層RNNE 的算法復(fù)雜度對(duì)比Fig.6 Comparison of multiplication numbers of multiple hidden layers RNNE with the same hidden neurons number
通過調(diào)節(jié)VOA,繪制了不同接收光功率下三種RNNE 的BER 性能,如圖7。具有10 個(gè)隱藏神經(jīng)元的單隱藏層RNNE 的復(fù)雜度為 320,具有12 個(gè)隱藏神經(jīng)元的單隱藏層 RNNE 的復(fù)雜度為 384,分別如圖7 中RNNE(A)和(B)。對(duì)于圖7 中2 層隱藏層的RNNE,每層神經(jīng)元數(shù)目為8,對(duì)應(yīng)的乘法數(shù)是320。圖7 中2 層隱藏層RNNE 和單隱藏層RNNE(A)相比,復(fù)雜度降低了16.7 %,同時(shí)得到了相似的性能。另外,在相同的復(fù)雜度下,2 層隱藏層RNNE 比單隱藏層RNNE(B)具有更好的BER 性能,在7 % OH-FEC 閾值下,系統(tǒng)整體功率預(yù)算提高約1 dB。圖8 展示了-8 dBm 接收光功率下的單隱藏層RNNE(B)和2 層隱藏層的RNNE的眼圖。
圖7 不同結(jié)構(gòu)的RNNE 的BER 和ROP 的關(guān)系Fig.7 BER vs.received optical power for single and two hidden layers RNNEs
圖8 ROP為-8dBm的眼圖Fig.8 Eye diagrams at -8 dBm ROP
本文研究了IM/DD 系統(tǒng)中多隱藏層RNNE 隱藏層層數(shù)及隱藏層神經(jīng)元數(shù)目對(duì)神經(jīng)網(wǎng)絡(luò)均衡器性能的影響。針對(duì)2 層隱藏層RNNE,固定第一隱藏層神經(jīng)元的數(shù)目,比較第二隱藏層神經(jīng)元數(shù)目不同的RNNE的性能,結(jié)果表明:對(duì)于2 層隱藏層的RNNE,隱藏層神經(jīng)元數(shù)目相近時(shí),其BER 及復(fù)雜度性能最優(yōu)。對(duì)于多隱藏層的RNNE,通過定量研究隱藏層數(shù)目對(duì)RNNE 的BER 及算法復(fù)雜度的影響,發(fā)現(xiàn)最佳隱藏層數(shù)目為2。在相同BER 性能條件下,2 層隱藏層RNNE 相較于單隱藏層RNNE 最多可以實(shí)現(xiàn) 23.3% 的復(fù)雜度降低。在同一算法復(fù)雜度條件下,2 層隱藏層RNNE 比單隱藏層RNNE 在7 % OH-FEC 閾值下功率預(yù)算提高1 dB 左右。本文以均衡器的最優(yōu)結(jié)構(gòu)為目標(biāo),分別量化研究了隱藏層層數(shù)和隱藏層神經(jīng)元數(shù)目對(duì)RNNE 性能的影響,為神經(jīng)網(wǎng)絡(luò)解決IM/DD 系統(tǒng)的非線性時(shí)隱藏層層數(shù)和隱藏層神經(jīng)元數(shù)目的選擇提供了參考。