梁興東 李焱磊 劉云龍 郭宇豪 解玉鳳 徐興元 劉 柳 劉文成
(1.中國科學院空天信息創(chuàng)新研究院,微波成像技術國家級重點實驗室,北京 100190;2.中國科學院大學電子電氣與通信工程學院,北京 100049;3.復旦大學微電子學院,上海 200433;4.北京郵電大學電子工程學院,北京 100876)
隨著電子信息技術的飛速發(fā)展,為了滿足不斷涌現的各種應用需求,多功能一體化電子信息系統(tǒng)成為大勢所趨[1-8]。為了提升系統(tǒng)的感知能力和反應速度,需要在同一平臺上搭載雷達、通信終端等多種電子信息系統(tǒng)。這些系統(tǒng)在提高系統(tǒng)綜合性能的同時,也會導致體積、重量和功耗大為增加;并且由于各系統(tǒng)間缺乏統(tǒng)一的規(guī)劃設計,系統(tǒng)冗余和頻譜沖突等問題非常突出,因此,多功能一體化系統(tǒng)成為解決上述難題的不二選擇[3-4]。此外,在5G/6G 移動通信[5-8]中,多功能一體化系統(tǒng)同樣具有廣闊的應用前景,智慧家居[7]、自動駕駛[8]等應用要實現傳感器之間高速率通信,同時要具備環(huán)境感知能力。為了解決各種功能之間由于頻譜沖突造成的電磁空間資源緊張問題,必須有效解決多功能一體化信號處理問題[9-11]。
一體化信號處理主要包括發(fā)射端的一體化信號設計與實時生成[12-18]和接收端的信號分離與協(xié)同處理[19-21]。發(fā)射端一體化信號設計與生成具體是指:通過對信號幅度、頻率和相位等參數的配置,形成同時承載雷達探測和無線通信等功能的一體化信號,并在實際應用中利用高性能計算實時生成一體化信號波形。為了同時滿足多種功能的需求,需要聯(lián)合時間、頻率、空間等維度資源以提供更多的自由度。接收端的信號分離與處理具體是指:根據一體化信號中各功能的承載方式,在接收端完成不同功能信號的分離,利用雷達探測、通信解調等相關處理方法實現相應的功能。隨著一體化信號維度數量的增加,一體化信號處理對系統(tǒng)的算力需求呈幾何級數增長。同時,搭載于輕小型平臺的一體化信號處理系統(tǒng)具有廣闊的應用前景[22],在此類應用中系統(tǒng)的尺寸、重量和功耗(size,weight and power,SWaP)嚴格受限。因此,一體化信號處理要求系統(tǒng)架構具有高算力、低功耗(即高能效)的特征。
在采用馮·諾依曼架構的系統(tǒng)中,由于總線的傳輸帶寬受限,因此系統(tǒng)難以滿足一體化信號處理的算力需求。此外,系統(tǒng)中一次單精度的基本運算只需要幾皮焦耳的能量,而從存儲器中進行數據檢索和搬移則需要消耗上千皮焦耳的能量,遠超于計算所需的能量。因此,馮·諾依曼架構的系統(tǒng)能效極低,無法滿足一體化系統(tǒng)高能效的需求。針對上述需求目前可供選擇的方案包括:增加處理單元(GPU)[23]、對指令進行流水化設計(DSP)[24]、采用數據流驅動(FPGA)[25]和采用面向特定領域的處理架構(DSA)[26]等。GPU 增加處理單元提高了并行處理的規(guī)模,雖然能夠大幅增加算力,但是其每個處理單元仍采用串行處理方式,導致系統(tǒng)功耗過大。DSP 采用哈佛架構,在馮·諾依曼架構的基礎上,通過增加總線數量的方式提高了系統(tǒng)傳輸帶寬,故而更適合計算密集型的應用場合,但其串行處理的特點導致提升算力只能依靠主頻的提高和核心數量的增加,從而限制了算力和能效的進一步提高。FPGA 采用島式架構,具備硬件可編程的能力,但這種架構限制了其工作頻率的提升,同時冗余的布線資源造成了額外的功耗,導致無法大幅提升處理能效。近年來DSA 技術發(fā)展迅速,面向卷積神經網絡這一特定域的處理需求,谷歌研發(fā)出張量處理器(TPU);類似地,針對一體化信號處理的高算力、高能效處理需求,應研發(fā)相應的特定域處理架構。
如前所述,一體化系統(tǒng)信號處理主要包括發(fā)射端的一體化信號設計與實時生成和接收端的一體化信號分離與協(xié)同處理(如圖1所示)。基于電磁波承載物理信息的本質,雷達探測、無線通信等多功能的同時實現離不開發(fā)射端的一體化信號設計與生成,通過對信號的幅度、頻率、相位、空間導向矢量等可調參數進行編碼設計,使得一體化信號具備高效的頻譜資源利用率和更加靈活的功能配置能力。根據信號資源的利用方式,一體化波形包括共用波形和復用波形兩類,其中共用波形分為基于雷達波形的共用波形[18,27]和基于通信波形的共用波形[17,28-30],復用波形分為時頻復用波形[12-14,31-32]和時空頻多維聯(lián)合波形[15-16,33-34]等。
圖1 基于一體化信號的多功能系統(tǒng)模型Fig.1 Multifunctional system model based on integrated signal
基于雷達波形的共用波形[18,27]通過對常用雷達波形(如線性調頻信號)的相位、幅度或脈沖重復間隔進行編碼以攜帶通信信息,在接收端通過脈沖壓縮等雷達信號處理方法實現雷達探測等功能,并根據編碼方式對接收信號進行解碼獲取通信信息,算力需求與單功能處理方法相當?;谕ㄐ挪ㄐ蔚墓灿貌ㄐ危?7,28-30]可直接利用通信波形(如正交頻分復用(Orthogonal Frequency Division Multiplexing,OFDM)信號)來完成通信和探測功能,其中探測功能主要通過基于匹配濾波或失配濾波[30]的脈沖壓縮來實現,整個過程主要涉及線性卷積(向量乘法)、向量加法和傅里葉變換等運算,算力需求與單功能處理方法相當。
時頻復用波形[12-14,31-32]將時間、頻率等維度資源分割成相互正交的子集,分別加載傳統(tǒng)雷達波形和通信波形。以OFDM 梳狀譜一體化波形實現探測、通信功能[32]為例,在發(fā)射信號生成時,可直接利用逆傅里葉變換完成一體化信號快速生成,在接收端進行接收信號處理時,可直接利用傅里葉變換提取所有子載波的信息,子載波分離難度低,算力需求與單功能處理方法相當。時空頻多維聯(lián)合波形[15-16,33-34]是聯(lián)合時間、頻率、空間等維度資源的一體化信號設計方法,具有在任意空間、任意時間、任意頻段生成任意信號的潛力。該方案不再限制一體化波形所屬類別,充分開發(fā)波形設計可利用的自由度,在空間相參合成各功能的指定波形;接收端聯(lián)合多個節(jié)點進行協(xié)同處理,保留數據空間結構特性,獲得相參處理增益,整個過程中涉及大量矩陣乘法、矩陣分解、矩陣求逆(求偽逆)等算子,算力需求高達TFLOPS甚至PFLOPS量級。
基于雷達波形的共用波形、基于通信波形的共用波形和時頻復用波形在信號生成與處理中,面臨的計算壓力與單功能處理壓力相當,以對長度為N的通信共用波形進行傅里葉變換運算為例,其計算復雜度為O(N?log2N),利用現有處理架構即可快速完成計算;而發(fā)射端的時空頻多維聯(lián)合波形設計和接收端的多維信號處理因信號維度的增加,給一體化系統(tǒng)帶來了巨大的計算壓力。因此,本文將對時空頻多維聯(lián)合波形的信號處理方法、算力需求進行深入分析,在此基礎上提出先進架構實現方案。
在時頻復用的基礎上,為了充分挖掘空域資源,P.M.McCormick 等人提出了一種基于數字陣列天線的遠場輻射發(fā)射設計(Far-Field Radiated Emis?sion Design,FFRED)信號模型[33],通過多通道聯(lián)合波形設計,將雷達信號與通信信號同時輻射至指定方向,其實現方式如圖2所示。
圖2 FFRED模型場景示意圖[33]Fig.2 Schematic diagram of FFRED model scenario[33]
它以相參合成雷達波形和通信波形為目標對一體化波形進行約束,綜合考慮功率放大器的工作效率,建立一體化信號優(yōu)化模型,
其中,X∈CM×N為一體化信號矩陣,C∈CM×K為陣列流行矩陣,G∈CK×N為期望功能波形矩陣,M、N、K分別為陣元個數、采樣點數與多功能目標個數。
在對一體化信號優(yōu)化模型求解時,優(yōu)化模型為非凸模型,故將其拆分為兩個可計算解析解的子凸優(yōu)化模型迭代優(yōu)化,直至滿足收斂條件。FFRED 模型處理流程如表1所示。
表1 FFRED模型處理流程Tab.1 The processing chart of FFRED model
在步驟2 中,主要涉及浮點級精度復數的矩陣乘法和矩陣求逆兩種運算,矩陣乘法的操作數為16MK2+8MNK,矩陣求逆的操作數為16K3;在步驟5中,主要涉及矩陣乘法、矩陣求逆和矩陣加法三種運算,其中矩陣乘法的操作數為8M2N+8M2K+16MK2,矩陣求逆的操作數為16K3,矩陣加法的操作數為2M2+2MN;在步驟6 中,主要涉及恒模運算和標量乘法兩種,它們的操作數為16MN;同時,步驟4至步驟7 共需要迭代執(zhí)行ζ次,對應的計算復雜度也將增大ζ倍。根據實際應用需求,取各參數的典型值如下:M=256、N=1 × 106、K=2、ζ=20,在2 秒的相干處理時間內,整個優(yōu)化過程的算力需求約為5.33 TFLOPS,其中矩陣加法和矩陣求逆等運算的計算壓力較低,利用現有架構即可滿足在線實時生成約束,而矩陣乘法的算力需求巨大,高達5.28 TFLOPS,約占據整個算力需求的99%。
在接收端通過對分布式多節(jié)點接收信號或多通道接收信號進行相參處理,充分挖掘空域維度資源,實現雷達探測和無線通信等能力的提升。以多通道雷達三維成像為例,其主要任務為對距離-方位-俯仰三維信號進行反問題求解處理。面對三維觀測數據,若采用傳統(tǒng)方法,需將三維數據向量化處理,即使利用壓縮感知算法降低采樣率,計算過程中矩陣運算和向量運算仍需要耗費大量的計算和存儲資源。根據回波數據的高維結構特性,邱偉將其定義為三階張量,直接將壓縮感知理論應用于張量數據,充分利用其內在的結構特征進行處理,有利于降低字典矩陣的內存消耗,進一步提高高維數據處理效率[35-36]。下面將對該算法的流程進行簡要介紹。
在壓縮感知框架下,接收數據與目標三維圖像可以表示為
根據壓縮感知理論,X的重構模型為
利用SL0 算法對該模型進行重構,算法流程如表2所示。
表2 張量-SL0法處理流程Tab.2 The processing chart of tensor-SL0 method
在步驟1中,主要涉及張量模式積、矩陣乘法和矩陣求逆三種運算,其中張量模式積的操作數為8 ×(NrMcMvMr+NrNcMvMc+NrNcNvMv),矩陣乘法的操作數為,矩陣求逆的操作數為;在步驟2~步驟4 中,主要涉及標量乘法、張量加法運算,操作數為2NrNcNv;在步驟5 中,主要涉及張量模式積和張量加法兩種運算,其中張量模式積的操作數為8 ×(NrMrMcMv+NrNcMcMv+NrNvNvMv+MrNrNcNv+MrMcNcNv+MrMcMvNv),張量加法的操作數為2 ×(MrMcMv+NrNcNv)。假設Nr=Nc=Nv=800,Mr=Mc=Mv=500,在整個運算中,張量模式積運算幾乎占據了全部的算力開銷,在2 秒的相干處理時間內算力需求為6.2 TFLOPS,而張量模式積的本質仍為矩陣乘法。因此,多維一體化信號處理導致一體化系統(tǒng)面臨較大的計算負擔,需要設計適用于矩陣乘法的處理架構。
一體化信號處理中多維信號涉及大量的矩陣乘法運算,對處理架構提出高算力需求,同時端平臺自身存在SWaP約束,因此一體化信號處理系統(tǒng)的架構需要具備高算力、高能效的能力?,F有主流處理器主要包括以下三個方面:1)通用處理器,如采用馮·諾依曼架構的CPU和GPU、采用哈佛架構的DSP等;2)采用數據流驅動的硬件可編程處理器,如FPGA;3)面向特定領域的專用加速器,如采用脈動陣列架構的TPU。上述三類主流處理器雖然能夠滿足一體化信號處理提出的TFLOPS量級高算力需求,但隨之造成功耗急劇增加,無法滿足端平臺的SWaP 約束,使得基于這幾類處理器的一體化信號系統(tǒng)面臨能效低的問題。而面向未來的先進處理架構,如以模擬信號為信息載體進行計算的存內計算、光子計算,具備兼顧高算力和高能效的潛力。因此,我們分別設計了適用于一體化信號處理的存內計算和光子計算先進架構,并與現有架構實現矩陣乘法運算的能效進行了對比,展示了其在一體化信號處理中的價值。
3.1.1 CPU
CPU 采用的是馮·諾依曼架構,如圖3 所示,馮·諾依曼架構由運算器、控制器、存儲器、輸入設備以及輸出設備組成。在程序的執(zhí)行過程中,計算機先從內存中取出第1 條指令,通過控制器的譯碼器接收指令的要求,再從存儲器中取出數據,將數據給到運算器中,然后進行指定的運算和邏輯操作等,隨后按照指令中的地址把結果送到內存中,接下來取出第2 條指令執(zhí)行,直到遇到停止指令。因此,在馮·諾依曼架構中程序被編碼為數據存儲在存儲器中,需要運行時只需從存儲器中依次取出、執(zhí)行即可,這極大地降低了編程的難度,使得馮·諾依曼架構具有較高地靈活性。然而這種從存儲器中讀取指令和數據執(zhí)行的設計也使得馮·諾依曼架構天然地受到信息傳輸帶寬的影響。以IBM公司的Power9為例,當其進行各種DeepSpeech基準測試的通用矩陣運算時,可以在130 W 功耗下實現486 GFLOPS 的最高算力,對應的性能功耗比為1.62 GFLOPS/W[37]。當利用CPU 進行多維信號處理時,大量的數據搬移將極大地增加馮·諾依曼架構系統(tǒng)的延遲和能量消耗,限制系統(tǒng)的算力和能效。
圖3 馮?諾依曼計算架構[38]Fig.3 Von Neumann computing architecture[38]
3.1.2 GPU
GPU 是當前主流加速器之一,從最初用作圖形處理器到后來用于通用計算加速,在數據中心加速等應用的推動下,GPU的性能有了顯著的提高[23],架構如圖4 所示。與CPU 相比,GPU 去掉了復雜的控制電路和大量的片上高速緩存,能夠集成大量的計算核心,這種通過眾核方式增加并行度的計算架構,使得GPU 更適合大規(guī)模同質化數據的并行處理。以Nvidia公司的V100為例,在進行各種DeepSpeech基準測試的通用矩陣運算時,可以在300 W 功耗下實現7.8 TFLOPS的最高算力,對應的性能功耗比為26 GFLOPS/W。雖然GPU 可以通過集成更多的核心和更大的內存帶寬提高了算力,但由于每個計算核心仍采用串行處理方式,計算核心數量的增加會導致功耗增大,其能效優(yōu)勢并不明顯,不適合一體化信號處理這種需要高能效的應用場景。
圖4 GPU架構示意圖[23]Fig.4 GPU architecture diagram[23]
3.1.3 DSP
DSP 是數字信號處理常用的處理器之一[24],采用如圖5所示的哈佛架構。與CPU指令和數據共用同一存儲器不同,該架構將指令和數據分開存儲,并對指令進行了流水線優(yōu)化設計,同時集成了數字信號處理常用的乘法器硬件電路,使得DSP 完成計算的指令周期大大縮短,提高了對數字信號處理的算力,適用于計算密集型的應用場景。以TI公司的C66XX 系列DSP 組成板卡為例,由6 片DSP 組成的模塊進行矩陣運算時,能夠在267.1 W 功耗下實現938.21 GFLOPS 的算力,對應的性能功耗比為3.51 GFLOPS/W[39]。雖然DSP 能夠為數字信號處理提供高計算精度,但是其串行處理的特點導致算力的提升只能依靠主頻的提高和核心數量的增加,限制了DSP 算力和能效的進一步提高,不能滿足一體化信號處理需求。
圖5 哈佛架構示意圖[40]Fig.5 Harvard architecture diagram[40]
與馮·諾依曼架構的控制流驅動不同,目前主流的FPGA 芯片大多采用島式架構來實現數據流驅動的方式,如圖6所示[25]。邏輯塊(Logic Block,LB)中成孤島式分布,各個LB 之間通過可編程布線資源連接,芯片與外界通過輸入/輸出塊(Input/Output Block,I/O Block)進行數據的傳輸。在FPGA 中,待處理的數據在時鐘信號的驅動下可以直接流入LB中的運算單元進行計算,不再需要通過控制器的指令去進行數據的讀寫,運算單元的利用率相較于傳統(tǒng)的馮·諾依曼得到了提高,而且眾多的LB 可以通過編程實現不同的運算功能也使得FPGA 可以同時進行不同的運算,具有較高的并行度。以Xilinx 公司的Ultrascale+系列的VU3P 為例,在進行各種DeepSpeech 基準測試的通用矩陣運算時,可以在23 W 功耗下實現194 GFLOPS 的最高算力,對應的性能功耗比為8.43 GFLOPS/W。然而FPGA 的島式結構讓其具備硬件編程能力同時,這種靈活編程的能力使得FPGA 的布線資源存在復雜、冗余等問題,增加了額外的功耗與延遲,從而限制了FPGA 的工作頻率與能效的提升。受限于此,FPGA 并不能滿足一體化信號處理的需求。
圖6 通用FPGA架構示意圖[25]Fig.6 A generic architecture of FPGA[25]
DSA 是面向不同特定域需求研發(fā)的專用處理架構,例如TPU 是谷歌研發(fā)的一款面向數據中心卷積神經網絡(CNN)計算特定域的專用加速器[26],其架構框圖如圖7所示。TPU 架構的核心是采用脈動架構實現的矩陣乘法單元,高速緩存為矩陣乘法單元提供高帶寬的數據流,使得TPU 可以持續(xù)不斷地進行矩陣乘法運算,脈動架構提高了矩陣乘法運算的訪存效率,數據復用降低了功耗,使得TPU 具備高算力和低功耗的能力。以TPU-V2 為例,可以在280 W 的功耗下實現將近20 TFLOPS 的算力,性能功耗比可以達到71.43 GFLOPS/W[41]。TPU 滿足了CNN計算中較低精度(通常是Int8)下大量矩陣乘法等矩陣運算的加速需求,算力和能效相比GPU 大幅提升,但由于TPU 是面向CNN 加速應用場景的,其計算精度無法滿足一體化信號處理需求。
圖7 TPU架構示意圖[26]Fig.7 TPU architecture diagram[26]
存內計算、光子計算等以模擬信號作為信息載體進行計算的架構有計算速度快、能耗低等優(yōu)勢,具有很高的應用潛力。然而以模擬信號進行計算的架構受限與硬件技術,存在計算精度低(目前的精度大多是8比特整型)的問題,還無法滿足一體化信號處理32位浮點的需求。但是相信,未來隨著硬件技術的提升,模擬計算的精度會逐漸提升,從而滿足一體化信號處理的需求。
3.4.1 存內計算架構
早在20 世紀90 年代,就已經有了存內計算(Compute in Memory,CIM)的架構概念,受到技術等因素的限制,當時存內計算架構并沒有得到廣泛的應用。后來,隨著CMOS和存儲技術的發(fā)展,以及人工智能的興起,存內計算架構再次受到了人們的關注,其中比較知名的存內計算架構有FlexRAM[42]、
DIVA[43]、Sandwich-RAM[44]、memristor-based CNN[45]等。存內計算架構的原理如圖8 所示,它將計算單元放入存儲單元中,直接使用內存單元(如SRAM、憶阻器等)的電阻、電流與電壓關系進行計算。相較于傳統(tǒng)的馮·諾依曼架構,由于存內計算架構中的計算單元與存儲單元的結合更為密切,因此存內計算架構可以很好地減少數據搬移,從而降低能耗,提升系統(tǒng)性能。
圖8 存內計算架構[46]Fig.8 In-Memory computing architecture[46]
目前,存內計算架構主要還是針對人工智能領域中的算法加速提出的,它們的精度大多是INT8 等[45,47-49],如普林斯頓大學研究團隊[47]提出了基于存內計算架構的深度神經網絡加速器,解決了深度神經網絡中大規(guī)模矩陣向量乘法的數據搬移問題,該架構在1 bit 精度下的能效達到了866 TOPS/W;清華大學研究團隊[45]基于憶阻器實現了卷積神經網絡并用來進行圖像識別,計算能效達到了11.014 TOPS/W;德克薩斯大學研究團隊[48]提出的8 bit 卷積存內計算架構,每個時鐘周期最多可以實現175 次乘累加運算,能效達到14.4 TOPS/W。雖然現有的存內計算架構還無法滿足一體化信號處理的需求,但其表現出的高能效特點使其在一體化信號處理研究中具有巨大的潛力。
3.4.2 光子計算架構
光子計算架構與存內計算架構類似,即數據在硬件系統(tǒng)中的實時位置與進行運算的位置相同,因而規(guī)避了馮·諾依曼瓶頸。此外,寬達數十太赫茲的光譜也為高速運算提供了充足的帶寬,通過密集波分復用、空分復用、時分復用等光電信息技術手段,光子計算架構的并行度也可大幅提升,進而可實現萬億次運算每秒(TOPS)量級的超高單核運算速度。此外,模擬無源的光子架構也具有實現更高能效比的潛力,能量效率可達到1 pJ/運算。因而,光子計算架構在模擬信號智能處理方面有廣闊的應用空間。
目前國內外研究機構已對光子計算架構展開了深入研究,加州大學研究團隊基于空間透鏡光學實現了深度衍射神經網絡[50],牛津大學研究團隊基于相變材料實現了并行矩陣運算[51],麻省理工學院研究團隊基于集成無源光學干涉器陣列實現了矩陣運算[52],法國FEMTO-ST 研究團隊利用時分復用構建了光子水庫運算結構[53],澳大利亞斯威本科技大學團隊提出并實現了基于時間、波長交織的光子卷積加速器[54]。其中澳大利亞斯威本科技大學團隊提出的光子卷積加速器算力可以達到11.3 TOPS,相較于高速的光學神經網絡(Optical Neural Network,ONN),算力提升了500 倍,原理如圖9 所示。輸入向量X被編碼在電信號的強度上,卷積核由一個長度為R的權向量W表示,該向量被編碼在光梳的功率上。將帶有向量X的電信號通過電光調制器(EOM)調制到光頻梳上,然后通過色散延遲傳播,相鄰波長間延遲一個元素的持續(xù)時間,最后通過光電二極管對信號進行求和,即可得到X和W之間卷積的結果Y。
圖9 卷積的工作原理[54]Fig.9 The working principle of convolution[54]
在一體化信號處理中經常需要單精度浮點級的運算,且常常涉及到復數運算,而現有的先進架構無法滿足一體化信號處理技術的需求,因此我們設計了支持浮點級復數矩陣乘法運算的存內計算架構和支持矩陣乘法運算的光子計算架構,并與表3 所示的現有主流處理器的典型器件進行能效對比。
表3 主流處理器的典型器件Tab.3 Typical components of mainstream processors
基于存內計算實現復數矩陣乘法R=X×Y的架構如圖10所示,使用一個脈動陣列來完成復數矩陣的乘法運算時,脈動陣列的每一計算單元需要完成復數的乘加操作,因此可以將復數的乘加操作分解為2個實數的乘加操作,分兩個周期完成,其中實數的乘加主要為浮點數的乘加。浮點數的乘加可分解為指數部分和尾數部分,尾數部分是乘法計算,由存內計算乘加單元完成,指數部分由CMOS電路完成,最后兩部分運算數據經過整合后為浮點乘加運算結果。
圖10 基于存內計算架構的矩陣乘法Fig.10 Matrix multiplication based on In-Memory computing architecture
基于上述架構,我們初步設計了8×8復矩陣乘法運算,并分析BFP16精度和FP32精度下的存內計算性能,其結果如表4 所示,相較于TPU 和FPGA 分別BFP16 精度下提升了6.85 與7.59 倍。存內計算架構的算力可隨著矩陣乘法規(guī)模的擴大進一步增加,例如對于64×64復矩陣乘法運算的存內計算加速器,其算力相較于8×8 的存內計算加速器在算力上提升了64 倍,可以在BFP16 精度下達到745 GFLOPS,通過9片加速器并行處理即可滿足一體化信號處理中TFOPLS 量級的高算力需求,同時芯片規(guī)模的增加對存內計算能效的影響很小,所以存內計算在高算力的同時兼顧了高能效的需求。因此我們認為存內計算架構在一體化信號處理中具有巨大的應用潛力,未來隨著計算精度的進一步提升,存內計算架構會得到廣泛地應用。
表4 存內計算性能分析Tab.4 In-Memory computing performance analysis
光子計算架構實現矩陣乘法的工作原理如圖11 所示,其中列向量A被編碼在光梳的功率上,將矩陣B中的元素進行排列加載至電信號上。將該電信號通過EOM調制到光頻梳上,然后通過色散延遲傳播,相鄰波長間延遲一個元素的持續(xù)時間,最后通過光電二極管進行求和。對光電二極管求和的結果按照相應的間隔進行提取,再進行排列,就可以得到矩陣B與列向量A的計算結果列向量C。因此,通過重復將不同的向量編碼至光梳的功率上,然后重復上述操作,就可以得到兩個矩陣相乘的結果,從而實現矩陣乘法的功能。
圖11 基于光子計算架構的矩陣乘法Fig.11 Matrix multiplication based on photonic computing architecture
我們采用吞吐量對光子計算架構的算力進行評估,即計算輸出數據速率與每個輸出碼元所需運算次數的乘積。光子卷積加速器的輸出數據速率為62.9 GBaud/s,每個卷積核可同時支持9根光梳進行運算,所以每個輸出碼元由9次加法與9次乘法運算得到,該加速器共有十個并行卷積核,因此最終算力為62.9G ×(9+9) × 10=11.322 TOPS。如果用該加速器進行矩陣乘法操作,則有效的輸出碼元為原來的1/9,最終算力仍有1.258 TOPS。未來通過進一步擴展頻域、空間等維度的并行度,可以大幅度提升光子加速器的算力。例如,通過使用S、L、C 三個光通信波段,可利用的頻譜寬度可以達到20 THz,從而支持405個50 GHz間隔的并行波長通道。結合偏振復用與10 路空分復用,整體算力可達62.9G ×405 × 2 × 2 × 10=1.019 POPS。由于光計算架構為存算一體的模擬架構,無需數據往復讀取,因而其功耗主要來源于光源。采用自泵浦克爾光頻梳產生技術,光頻梳所需能耗低至100 mW,總能耗預計小于1 W,因而未來總體能效預計可達1 W/1POPS=1 fJ/OPS。由表5 可知。光子計算架構在算力和能效上均遠高于其他架構,因此在高算力一體化信號處理的應用中具有很高的應用潛力。然而受限于硬件技術,目前光子計算架構的精度只有INT8,還無法滿足一體化信號處理單精度浮點的需求。但是我們相信,未來隨著硬件技術以及算法的改進,光子計算架構終會廣泛地應用于一體化信號處理中。
表5 架構性能功耗比分析Tab.5 Analysis of architecture performance power consumption ratio
多功能一體化系統(tǒng)利用一體化信號,在同一框架下通過硬件復用和波形共享的方式,同時滿足雷達探測和通信信息傳輸等功能需求,可有效緩解頻譜沖突,提高系統(tǒng)的集約性。本文通過分析一體化信號處理的研究現狀和發(fā)展規(guī)律,指出時空頻聯(lián)合多維波形設計是一體化信號研究的發(fā)展方向之一。從發(fā)射端的一體化信號設計與生成、接收端的信號分離與處理兩個方面,對時空頻聯(lián)合多維波形一體化信號處理的計算法復雜度進行了分析,指出其具有高維、高計算復雜度的特征,現有處理架構無法滿足一體化信號處理需求?;诖鎯扔嬎愫凸庾佑嬎愕燃夹g設計的新型先進專用處理架構,具備高算力、高能效的特征,為未來一體化信號處理及其先進處理架構研究提供了技術途徑。