摘 要:為了改善有監(jiān)督學(xué)習(xí)的泛化性較差,只能較好地識別已經(jīng)見過的用于訓(xùn)練的信道數(shù)據(jù)屬于哪種信道場景的問題,文章提出了一種基于偽標簽半監(jiān)督學(xué)習(xí)方法的無線信道場景識別方法,仿真結(jié)果表明,在識別新的信道數(shù)據(jù)(來源不同但屬于模型中的某一類信道場景)所對應(yīng)的信道場景時,半監(jiān)督學(xué)習(xí)方法的識別準確率遠高于有監(jiān)督學(xué)習(xí)方法的識別準確率。由此可見,半監(jiān)督學(xué)習(xí)的方法可以提高無線信道場景識別模型的泛化能力。
關(guān)鍵詞:信道場景識別;半監(jiān)督;偽標簽
中圖分類號:TN92;TP183 文獻標識碼:A 文章編號:2096-4706(2024)08-0001-05
DOI:10.19850/j.cnki.2096-4706.2024.08.001
0 引 言
如今,隨著技術(shù)的快速發(fā)展,手機、電腦等無線智能設(shè)備的使用在很大程度上依賴無線通信。電磁波在無線通信中的傳播會通過無線信道,對信道特性的分析對提高通信性能具有重要意義。以前對信道的研究主要集中在信道特征提取和信道建模上,而近年來,如何對信道場景進行分類的研究也越來越受到關(guān)注。信道場景識別對于許多應(yīng)用都是重要和有益的,例如智能交通系統(tǒng)(ITS)[1]、定位和信道建模[2]。此外,準確地對無線信道場景進行分類以滿足無線通信系統(tǒng)的專用需求成為一個挑戰(zhàn)[3]。無線信道的建模離不開信道測量,而對無線信道進行場景識別,既可以使信道建模更加精確,又可以對測量得到的信道數(shù)據(jù)進行更細致的分析。
信道的場景識別依據(jù)信道數(shù)據(jù),即信道的各種特征。信道數(shù)據(jù)的采集是通過信道測量得到的。進行信道測量需要精密的儀器以及詳細的計劃,人力物力成本較高,所以不易獲取信道實測數(shù)據(jù),目前也沒有公開的信道數(shù)據(jù)集[4]。目前國內(nèi)外有多個團隊為了進行信道的場景識別測量了多種信道場景下的信道,這些場景大多數(shù)為室外的場景。文獻[5]在包括城市地區(qū)、高速公路、隧道、NLOS在內(nèi)的四種典型的車輛通信場景中進行了信道測量,反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Network, BPNN)作為場景識別模型。文獻[6]在美國南加州大學(xué)校園和校園附近的公共道路上進行了測量,獲取了LOS和NLOS場景的信道數(shù)據(jù),比較了三種不同的機器學(xué)習(xí)方法,即支持向量機、隨機森林和人工神經(jīng)網(wǎng)絡(luò)的性能。文獻[7]測量了鄉(xiāng)村場景、車站場景、郊區(qū)場景、多鏈路場景的信道數(shù)據(jù),并用長短時記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)進行識別。也有針對室內(nèi)信道場景的識別研究,文獻[8]對包括實驗室、狹窄走廊、大廳、體育館在內(nèi)的四種環(huán)境進行了信道測量,通過不同的機器學(xué)習(xí)算法:決策樹、支持向量機和K近鄰算法,對室內(nèi)場景進行分類。文獻[9]使用卷積神經(jīng)網(wǎng)絡(luò)基于常見的室內(nèi)障礙物對NLOS場景進行細分,并在真實的室內(nèi)多場景環(huán)境中進行了測試。
但以上采用的都是有監(jiān)督學(xué)習(xí)的方法,其存在的一個普遍的問題為訓(xùn)練得到的識別模型的泛化性較差,泛化性指在面對未曾見過的數(shù)據(jù)時的表現(xiàn)能力。在信道的場景識別中,有監(jiān)督學(xué)習(xí)的方法的該局限性表現(xiàn)為,用多種信道場景的信道數(shù)據(jù)訓(xùn)練得到的信道場景識別模型,只在輸入為用于訓(xùn)練的信道數(shù)據(jù)時達到良好的識別效果,而對于新的未用于模型訓(xùn)練信道數(shù)據(jù),即使該信道數(shù)據(jù)屬于該信道場景識別模型中的一類信道場景,但由于信道測量的地點不完全相同,即與用于模型訓(xùn)練的信道數(shù)據(jù)不同源,有監(jiān)督學(xué)習(xí)得到的模型的信道識別結(jié)果表現(xiàn)不佳。
而半監(jiān)督學(xué)習(xí)可以改善這一問題,本文提出了一種基于偽標簽半監(jiān)督學(xué)習(xí)方法的信道場景識別方法,使得信道場景識別模型不再局限于識別已經(jīng)見過的用于訓(xùn)練的信道數(shù)據(jù)屬于哪種信道場景,實現(xiàn)能較準確地識別不同源但屬于模型中的某一類信道場景的信道數(shù)據(jù)所對應(yīng)的信道場景的效果。本文首先證明原本的監(jiān)督學(xué)習(xí)不適用于新信道數(shù)據(jù)的信道場景識別,然后用偽標簽的半監(jiān)督學(xué)習(xí)的方法提高了對新信道數(shù)據(jù)的識別準確率。其中訓(xùn)練集為在云南采集到的信道數(shù)據(jù),包含城區(qū)、山區(qū)、空地三種場景,測試集為在青島采集到的信道數(shù)據(jù),包含城區(qū)、山區(qū)兩種場景。
1 信道測量和數(shù)據(jù)預(yù)處理
1.1 信道數(shù)據(jù)采集
在多個場景下采用信道探測系統(tǒng)按照所計劃好的路線進行實驗。探測系統(tǒng)平臺由發(fā)射端、接收端及其配套天線系統(tǒng)構(gòu)成,發(fā)射機固定在高樓上,接收機每間隔5 s記錄一條時長1 s的接收樣本,采用ZC序列進行測量。在青島的城區(qū)和山區(qū)分別進行測量,得到不同信道環(huán)境下的數(shù)據(jù),同時在云南采用信道探測儀按照所規(guī)劃好的路線進行實驗,得到的數(shù)據(jù)包括城區(qū)、山區(qū)和空地。
1.2 數(shù)據(jù)去噪
如圖1所示,通過滑動相關(guān)方法獲得的原始測量信道脈沖響應(yīng)(CIR)快照不僅包含明顯的多徑分量,還包含大量的噪聲分量。因此,有必要在收集測量數(shù)據(jù)后對數(shù)據(jù)進行去噪和參數(shù)提取。為了去除噪聲引起的偽峰值,根據(jù)恒虛警率檢測器(CFAR)方法確定噪聲閾值。通過閾值的動態(tài)估計來區(qū)分信號抽頭和噪聲抽頭。這種去噪方法可以通過計算動態(tài)閾值將信號抽頭與噪聲區(qū)分開。
1.3 信道特征提取
提取每個信道快照的多個參數(shù)作為模型的輸入,不同的信道場景下的信道特征存在著明顯的不同。
1.3.1 萊斯K因子
萊斯K因子定義為直射路徑的信號功率與非直射路徑的信號功率比值,文獻[10]提出信道萊斯K因子計算式為:
(1)
式中μ2和μ4分別表示樣本數(shù)據(jù)二階矩和四階矩。由于上式方程求解時可能不存在實數(shù)解,在沒有視距鏈路的場景下也能計算萊斯K因子,所以廣義上的萊斯K因子的計算式如下:
(2)
在本文中,空地的萊斯K因子最大,城區(qū)的萊斯K因子最小,山區(qū)的萊斯K因子介于二者之間。
1.3.2 均方根時延擴展
多徑擴展是指無線通信中,電磁波在多徑衰落信道中傳播,空間傳輸距離與路徑干擾的差異性造成信號到達接收端的時間不一致的現(xiàn)象。通常使用均方根時延擴展(Root Mean Squared-Delay Spread, RMS-DS)參數(shù)對多徑擴展進行描述,其計算式為:
(3)
其中τ表示該徑的時延,Pτ表示該徑的功率。在本文中,城區(qū)的RMS-DS最大,空地的RMS-DS最小,山區(qū)的RMS-DS介于二者之間。
1.3.3 最大接收功率
不同信道場景下中的多徑分量(Multipath Component, MPC)包含的功率不同,因此,每個快照的最大接收功率" 可以用于識別LOS情況。在本文中,空地的最大接收功率最大,城區(qū)的最大接收功率最小,山區(qū)的最大接收功率介于二者之間。
1.3.4 上升時間
上升時間表示為最強MPC和第一個MPC之間的時間間隔:
(4)
其中l(wèi)表示MPC的序號。在視距鏈路少的信道場景中的第一組分可能會因阻擋物體或強衍射而衰減,因此,視距鏈路少的場景下的上升時間通常大于視距鏈路多的場景中的上升時間。在本文中,城區(qū)的上升時間最長,空地的上升時間最短,山區(qū)的上升時間介于二者之間。
1.4 信道數(shù)據(jù)歸一化
采用離差標準化的方法將提取到的信道的多個特征的數(shù)據(jù)進行歸一化處理,具體方法如下:
將全部抽頭的其中一個特征作為序列x1, x2, …, xn中的元素,其中n為抽頭數(shù)量,采用算式" 進行處理,得到的新序列y1, y2, …, yn ∈ [0,1]且無量綱,即是該特征歸一化之后得到的特征值。對選取的4個信道特征均進行歸一化處理,使得其數(shù)值處于[0,1]之間,便于其后將多個數(shù)值差距大的特征共同用于進行信道類型的聚類。
2 信道場景識別
在處理完信道數(shù)據(jù)后,將信道數(shù)據(jù)用于信道場景的識別。
2.1 有監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí)方法的信道場景識別過程如圖2所示。
首先用有監(jiān)督學(xué)習(xí)的方法進行信道場景的識別,作為訓(xùn)練集的樣本數(shù)據(jù)由多個信道快照組成。每個信道快照都是由4個特征值組成的行向量,將第i個樣本被表示為xi = {xi,1, xi,2, xi,3, xi,4},1≤i≤N,第i個樣本所對應(yīng)的信道場景用yi表示。因此在輸入部分的信道數(shù)據(jù)表示為:
(5)
用該數(shù)據(jù)訓(xùn)練好信道識別模型之后,將測試集輸入模型,測試集被表示為:
(6)
模型將根據(jù)特征數(shù)據(jù)預(yù)測其屬于哪一類信道場景,預(yù)測的結(jié)果為 ,1≤i≤NT,將其與測試集數(shù)據(jù)真實的標簽進行對比,得到信道場景識別的準確率。
采用支持向量機(Support Vector Machine, SVM)作為有監(jiān)督學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò),首先訓(xùn)練集和測試集都使用在云南采集到的信道數(shù)據(jù),每類場景都有各2 400個樣本。訓(xùn)練集包含城區(qū)、山區(qū)、空地三種場景,取總樣本中的70%為訓(xùn)練集,其學(xué)習(xí)曲線如圖3所示。
圖3中的學(xué)習(xí)曲線是根據(jù)不同訓(xùn)練集大小,顯示模型在訓(xùn)練集和驗證集上的得分變化的曲線,其反映了信道場景識別模型的訓(xùn)練過程,不代表最終的識別準確率,最終的識別準確率還與待識別的樣本數(shù)據(jù)有關(guān)。測試集為方便后續(xù)的比較,僅采用在云南采集到的城區(qū)和山區(qū)場景,得到的識別結(jié)果如圖4所示。
圖4為用云南的城區(qū)、山區(qū)和空地數(shù)據(jù)進行訓(xùn)練,并用云南的城區(qū)、山區(qū)進行測試的結(jié)果,取總數(shù)中的30%作為測試集,即每個場景各720個信道快照。該結(jié)果由混淆矩陣表示,一行為該信道數(shù)據(jù)實際所屬的類別,一列為該信道數(shù)據(jù)被預(yù)測為的類別。因為沒有用空地數(shù)據(jù)進行測試,所以空地數(shù)據(jù)那一行都為0。黑色方塊表示被準確預(yù)測的信道數(shù)據(jù),白色表示被錯誤預(yù)測的信道數(shù)據(jù)。從圖中可以看出,在城區(qū)場景中有626個信道樣本被準確預(yù)測為城區(qū),有58個信道樣本被錯誤預(yù)測為了山區(qū),有36個樣本被錯誤預(yù)測為空地,準確率為87%;在山區(qū)場景中有634個信道樣本被準確預(yù)測為山區(qū),有58個信道樣本被錯誤預(yù)測為了城區(qū),有28個樣本被錯誤預(yù)測為空地,準確率為88%。
然后使用和圖4所示結(jié)果同樣的訓(xùn)練集和神經(jīng)網(wǎng)絡(luò),但將測試集換成在青島測量得到的城區(qū)和山區(qū)場景的信道數(shù)據(jù),得到的結(jié)果如圖5所示。
圖5為用云南的城區(qū)、山區(qū)和空地數(shù)據(jù)進行訓(xùn)練,用青島的城區(qū)和山區(qū)數(shù)據(jù)測試的結(jié)果,測試集中每個場景各有1 200個信道樣本。從圖中可以看出,在城區(qū)場景中有696個信道樣本被準確預(yù)測為城區(qū),有240個信道樣本被錯誤預(yù)測為了山區(qū),有264個樣本被錯誤預(yù)測為空地,準確率為58%;在山區(qū)場景中有732個信道樣本被準確預(yù)測為山區(qū),有48個信道樣本被錯誤預(yù)測為了城區(qū),有420個樣本被錯誤預(yù)測為空地,準確率為61%。
兩次實驗的結(jié)果不同說明了在有監(jiān)督學(xué)習(xí)中,如果識別的信道樣本和用于訓(xùn)練的信道樣本數(shù)據(jù)同源,信道識別網(wǎng)絡(luò)的性能較好,識別準確率能達到88%。但如果將該信道識別模型用于識別新的信道樣本數(shù)據(jù)(其對應(yīng)的信道場景屬于模型中的信道場景)的話,準確率只有60%??梢缘贸鼋Y(jié)論,將有監(jiān)督學(xué)習(xí)所得到的信道識別網(wǎng)絡(luò)用于新的信道樣本數(shù)據(jù)時,識別的效果較差,體現(xiàn)了有監(jiān)督學(xué)習(xí)的泛化性較差的缺點。
2.2 偽標簽的半監(jiān)督學(xué)習(xí)方法
因此本文提出了用偽標簽的半監(jiān)督學(xué)習(xí)的方法改善有監(jiān)督學(xué)習(xí)中識別模型泛化性較差的缺點,使得信道識別模型在識別新的信道樣本數(shù)據(jù)(其對應(yīng)的信道場景屬于模型中的信道場景)時也能達到較好的效果。使用半監(jiān)督學(xué)習(xí)的方法識別信道場景的具體步驟如圖6所示。
最開始的步驟和有監(jiān)督學(xué)習(xí)一樣,用輸入數(shù)據(jù) 進行訓(xùn)練,得到訓(xùn)練好的信道識別模型。接下來,使用經(jīng)過訓(xùn)練的信道識別網(wǎng)絡(luò)來預(yù)測所有要用于測試的新的信道樣本數(shù)據(jù)的類標簽,但對于一個信道樣本數(shù)據(jù)來說,該標簽不一定是其真實對應(yīng)的信道場景 。設(shè)p(i)為經(jīng)過訓(xùn)練的網(wǎng)絡(luò)在樣本x(i)上的概率輸出,使得" 表示樣本中出現(xiàn)c類的概率。為控制變量,其中神經(jīng)網(wǎng)絡(luò)仍然采用SVM使用這些輸出概率,當" 時,可以為x(i)生成" 的偽標簽。其中γ ∈ (0, 1)是一個用來獲得硬標簽的門限,本文中取γ = 0.8,即當對該信道樣本對應(yīng)的場景的預(yù)測的置信度大于0.8時,就將預(yù)測的標簽作為新的信道樣本數(shù)據(jù)的類標簽。將“偽標記”數(shù)據(jù)與正確標記的訓(xùn)練數(shù)據(jù)連接起來,新的訓(xùn)練數(shù)據(jù)為:
(7)
本實驗中,N = 2 400,NE = 1 200。在組合的“偽標記”和正確標記訓(xùn)練數(shù)據(jù)上重新訓(xùn)練信道識別模型。將測試集即新的信道樣本數(shù)據(jù)(山區(qū)信道和城區(qū)信道數(shù)據(jù)各1 200個)輸入訓(xùn)練后的信道識別模型,將識別結(jié)果和它的真實標簽進行對比,得到的結(jié)果如圖7所示。
圖7與圖5的訓(xùn)練集和測試集都相同。圖7為使用半監(jiān)督學(xué)習(xí)中的偽標簽方法,用云南的山區(qū)、城區(qū)和空地信道數(shù)據(jù)進行訓(xùn)練后,再加入青島的山區(qū)和城區(qū)數(shù)據(jù),并用青島的山區(qū)數(shù)據(jù)和城區(qū)數(shù)據(jù)進行測試所得到的結(jié)果(各有1 200個信道樣本)。從圖中的混淆矩陣可以看到,在城區(qū)場景中有1 092個信道樣本被準確預(yù)測為城區(qū),有84個信道樣本被錯誤預(yù)測為了山區(qū),有24個樣本被錯誤預(yù)測為空地,準確率為91%;在山區(qū)場景中有1 068個信道樣本被準確預(yù)測為山區(qū),有60個信道樣本被錯誤預(yù)測為了城區(qū),有72個樣本被錯誤預(yù)測為空地,準確率為89%。
2.3 結(jié)果對比
將有監(jiān)督學(xué)習(xí)的識別結(jié)果和半監(jiān)督學(xué)習(xí)的識別結(jié)果進行更直觀的對比,如圖8所示,即同樣的用云南測量得到的城區(qū)、山區(qū)、空地信道數(shù)據(jù)訓(xùn)練得到的信道場景識別模型,對在青島測量得到的城區(qū)、山區(qū)的信道數(shù)據(jù)的識別效果的對比。
對比識別結(jié)果可以看出,無論是山區(qū)場景、城區(qū)場景還是總體的信道場景識別準確率,半監(jiān)督學(xué)習(xí)的識別準確率都遠高于有監(jiān)督場景的識別準確率。所以可以得出結(jié)論,運用半監(jiān)督學(xué)習(xí)的方法,可以提高分類網(wǎng)絡(luò)對于新的信道場景樣本數(shù)據(jù)的識別準確率。
3 結(jié) 論
針對有監(jiān)督學(xué)習(xí)的泛化性較差,只能較好地識別已經(jīng)見過的用于訓(xùn)練的信道數(shù)據(jù)屬于哪種信道場景的缺點,本文提出了一種基于偽標簽半監(jiān)督學(xué)習(xí)方法的無線信道場景識別方法,實現(xiàn)能較準確地識別新的信道數(shù)據(jù)(來源不同但屬于模型中的某一類信道場景)所對應(yīng)的信道場景的效果,提高了無線信道場景識別模型的泛化能力。
參考文獻:
[1] 黃家煒.車聯(lián)網(wǎng)中基于信道狀態(tài)信息的輕量化場景識別算法研究 [D].南京:南京郵電大學(xué),2023.
[2] HUANG C,HE R S,AI B,et al. Artificial Intelligence Enabled Radio Propagation for Communications—Part II: Scenario Identification and Channel Modeling [J].IEEE Transactions on Antennas and Propagation,2022,70(6):3955-3969.
[3] ZHANG J C,LIU L,F(xiàn)AN Y Y,et al. Wireless Channel Propagation Scenarios Identification: A Perspective of Machine Learning [J].IEEE Access,2020,8:47797-47806.
[4] 劉祥.基于深度學(xué)習(xí)的無線通信場景識別研究 [D].西安:西安電子科技大學(xué),2018.
[5] YANG M,AI B,HE R S,et al. Machine-Learning-Based Scenario Identification Using Channel Characteristics in Intelligent Vehicular Communications [J].IEEE Transactions on Intelligent Transportation Systems,2021,22(7):3961-3974.
[6] HUANG C,MOLISCH A F,HE R S,et al. Machine Learning-Enabled LOS/NLOS Identification for MIMO Systems in Dynamic Environments [J].IEEE Transactions on Wireless Communications,2020,19(6):3643-3657.
[7] 王英捷,周濤,陶成.基于LSTM與多特征融合的高鐵無線信道場景識別 [J].電波科學(xué)學(xué)報,2021,36(3):453-459+476.
[8] ALHAJRI M I,ALI N T,SHUBAIR R M. Classification of Indoor Environments for IoT Applications: A Machine Learning Approach [J].IEEE Antennas and Wireless Propagation Letters,2018,17(12):2164-2168.
[9] DENG B W,XU T W,YAN M D. UWB NLOS Identification and Mitigation Based on Gramian Angular Field and Parallel Deep Learning Model [J].IEEE Sensors Journal,2023,23(22):28513-28525.
[10] 馮松.無線信道測量參數(shù)提取算法研究 [D].西安:西安電子科技大學(xué),2013.
作者簡介:譚思源(1998.11—),女,土家族,重慶人,碩士研究生在讀,研究方向:信道測量和信道場景識別。
收稿日期:2024-01-12
Wireless Channel Scenario Classification Based on Semi-supervised Learning
TAN Siyuan
(Xi'an Electronic Engineering Research Institute, Xi'an 710000, China)
Abstract: To address the issue of poor generalization of supervised learning, which can only effectively classify which channel scenario the channel data used for training belongs to, this paper proposes a wireless channel scenario classification method based on pseudo-label semi-supervised learning. Simulation results indicate that, when classifying the channel scenario corresponding to new data (originating from different sources but belonging to a known category of channel scenario in the model), the semi-supervised learning approach significantly outperforms supervised learning in terms of classification accuracy. Thus it can be seen, it is concluded that semi-supervised learning can enhance the generalization ability of wireless channel scenario classification models.
Keywords: channel scenario classification; semi-supervised learning; pseudo label