劉曉勇,田宏峰,鄭崇輝
(1.國家無線電監(jiān)測中心檢測中心,北京 100041;2.電子工業(yè)出版社有限公司,北京 100036;3.中國科學院大學杭州高等研究院,浙江 杭州 310024)
隨著移動互聯(lián)網業(yè)務的發(fā)展,智能終端的普及率不斷升高。截至2021年6月,我國網民規(guī)模達10.11億,互聯(lián)網普及率達71.6%,手機網民規(guī)模達10.07 億。網民使用手機上網的比例為99.6%[1]。運營商也不再僅僅承擔語音和簡單的數據業(yè)務,更多的流量壓力來自于繁雜多樣的互聯(lián)網業(yè)務。擴展數據流量,不僅僅局限于提升設備的性能,也需要業(yè)務層面的優(yōu)化[2]。網絡運營商需要逐步優(yōu)化網絡體系結構,以提升數據速率。在這種情況下,針對移動通信流量的識別并進行分析,是進行移動網絡特性研究和優(yōu)化的重要一步。
常規(guī)的移動通信流量識別方法主要基于網絡協(xié)議級或者基于應用層數據等信息來獲得關鍵字段和統(tǒng)計特征。在識別移動流量時,常規(guī)方法識別精度低且識別方法復雜,很難滿足網絡運營商或網絡管理員的流量分類需求。為了解決上述問題,本文采集4G LTE網絡中的DCI,使用3種機器學習模型和LSTM模型對移動通信流量進行識別、測試,并證明了使用DCI可以有效識別移動通信流量。
4G LTE的空口協(xié)議定義了邏輯信道、傳輸信道、物理信道。其中邏輯信道定義了傳輸的信息類型,傳輸信道定義了信息的傳輸方式,物理信道用于物理層具體信號的傳輸[3]。圖1為4G LTE中三類信道的對應關系。
圖1 4G LTE中三類信道的對應關系
圖1中的物理信道可以分為下行物理信道和上行物理信道,物理信道對應于一系列時頻資源的集合,需要承載來自高層的信息。下行物理信道共6種,分別為物理廣播信道(Physical Broadcast Channel,PBCH)、物理下行共享信道(Physical Downlink Shared Channel,PDSCH)、物理控制格式指示信道(Physical Control Format Indicator Channel,PCFICH)、物理HARQ指示信道(Physical Hybrid ARQ Indicator Channel,PHICH)、物理下行控制信道(Physical Downlink Control Channel,PDCCH)、物理多播信道(Physical Multicast Channel,PMCH)[4]。
本文對物理下行控制信道(PDCCH)所攜帶的下行控制信息(DCI)進行解碼,DCI包含一個或者多個UE的資源分配以及其他的控制信息,消息由基站以明文的形式發(fā)送,處于連接狀態(tài)的移動終端DCI包含以下調度信息。
(1)無線網絡臨時標識(Radio Network Temporary Identifier,RNTI)。
(2)資源塊(Resource Block,RB)。
(3)調制和編碼策略(Modulation and Coding Scheme,MCS)。
將DCI作為分類器的輸入,可以對處于連接狀態(tài)的移動終端上執(zhí)行的應用和服務進行分類。
DCI使用RNTI來指定目的地。RNTI是16 bit的標識符,用于在LTE單元中進行移動終端的尋址。RNTI可用于不同的功能,如系統(tǒng)廣播信息(SI-RNTI)、特定UE(P-RNTI)、執(zhí)行隨機訪問程序(RA-RNTI),并識別處于連接狀態(tài)的用戶,即小區(qū)無線網絡臨時標識(C-RNTI)。本文主要研究C-RNTI,它是在移動終端處于無線資源控制(RRC)連接狀態(tài)時臨時分配的標識。
C-RNTI可以是0x003D~0xFFF3范圍內的任意值。一旦C-RNTI分配到一個處于連接狀態(tài)的移動終端上,則定向到該移動終端的DCI使用C-RNTI發(fā)送,后者作為PDCCH的一部分,以明文的形式發(fā)送。因此,跟蹤C-RNTI就可以在無線單元內跟蹤特定的連接用戶。
傳統(tǒng)的移動流量分類方法采用的特征取決于協(xié)議字段的差異,無法區(qū)別差別較小的協(xié)議特征[5],性能較差。深度數據包檢測會遇到大量不包含特征信息的無效數據包,覆蓋率極低。
與傳統(tǒng)的移動流量分類方法不同,本文基于下行控制信道攜帶的DCI來進行分流量分類,主要包含以下三步:采集流量、解碼獲取DCI、訓練流量分類模型。
圖2 實驗框架流程
本文采集了一個4G LTE小區(qū)的無線鏈路流量,獲取的流量包含小區(qū)內所有用戶的流量數據。在4G LTE的PDCCH中,每個移動終端由C-RNTI進行識別,C-RNTI無是線小區(qū)內移動終端的唯一標識。因此,本文使用C-RNTI區(qū)別本實驗用的手機與其他用戶的流量信息。本文只使用4G LTE網絡中的控制信息,所以并沒有采集并獲取其他用戶的隱私信息。
由LTE架構可知,基站通過PDCCH中攜帶的DCI將調度信息傳遞給處于連接狀態(tài)的移動終端。當用戶數據通過加密的專用通道(PDSCH/PDCCH)發(fā)送時,PDCCH是明文傳輸的,可以解碼。假定C-RNTI已經獲取,則可以通過DCI提取出移動終端業(yè)務所分配的資源塊數量、調制階數與調制碼率、傳輸塊大小等信息,這些信息可作為流量分類的特征值。
本文選擇了三種機器學習算法,分別為支持向量機(Support Vector Machines,SVM)、K近鄰算法(K-Near Neighbor,KNN)、隨機森林算法(Random Forest,RF),以及一種深度學習算法,即長短期記憶算法(Long Short-Term Memory,LSTM)。
支持向量機是經典且高效的分類模型,基于統(tǒng)計學習的理論,其模型具有高泛化能力和極強的數學可解釋性,但一般也多用于解決二分類問題。
相比之下,通過K近鄰算法可以將未標記的數據歸類到與之最相近的、帶有標記的樣本數據所在的類,通過投票法可以獲取標簽。
隨機森林算法是Breiman于2001年提出的一種用于分類和預測的機器學習算法[6],以Bagging算法和隨機空間算法為主。隨機森林算法具有較強的非線性模擬能力,且不容易出現過擬合現象。
LSTM網絡是一種特殊的遞歸神經網絡(RNN),能夠跟蹤輸入時間序列中的長期依賴信息,并擺脫RNN網絡中的梯度消失問題[7]。LSTM網絡具有學習長時間依賴信息的能力,是因為其特殊的結構能夠保存或者忘記關于狀態(tài)的整個序列,這使得LSTM適合處理具有長時間依賴性的時間序列。與傳統(tǒng)的RNN網絡不同,LSTM網絡增加了簡單的神經網絡層,使得LSTM網絡有能力通過門限來選通信息,可以刪除或者增加神經元狀態(tài)中的信息,從而保護和控制神經元的狀態(tài)。
本文的實驗采用軟件定義無線電(Software Defined Radio,SDR)設備獲取實時的電磁數據,并將電磁數據上傳至計算機進行解碼,從而獲取DCI;采用Ettus Research公司的USRP B210軟件無線電設備作為射頻前端,采用聯(lián)想的Y9000K筆記本電腦作為數據處理設備。
本文的實驗首先對電磁數據進行了長期的監(jiān)測和采集,收集了超過5 GB的DCI,其中包含了RB和MCS信息;然后在數據采集完成后丟棄了長度過短信號的跟蹤數據,這些長度過短的信號主要是由信令和流量導致的,在數據集中的占比不到總流量的2%;最后將數據集80%的數據作為訓練集,將數據集20%的數據作為測試集。
本文的實驗采用OWL開源軟件進行處理[8],用于對LTE控制信道進行解碼,獲取被監(jiān)控基站的完整信息。OWL軟件非??煽浚梢栽诹畠r的硬件上執(zhí)行,無須大量的計算,可以在一些常見的SDR設備(如BladeRF和USRP等)上運行。
本文的實驗分類目標主要是區(qū)分5種主流的手機應用,分別為QQ語音、QQ視頻、抖音、騰訊視頻、王者榮耀。
為了確定三種基準分類器算法的最優(yōu)參數,本文使用網格搜索對參數進行了調整,對最優(yōu)的模型參數進行了窮舉搜索,選擇性能最好的參數為最終參數,表1為三個分類器的最終參數。
表1 基準分類實驗算法參數設計
設M作為流量采集中獲得的總鏈接數;C-RNTI為每次會話的持續(xù)時間,令L=80 s;D是上行和下行鏈路的通信方向數,D=2;定義X為輸入數據集的M×L×D張量,每一列xm都包含著數據的跡線,分類器的估計函數為c:X→Y;Y為M×K的輸出矩陣,K表示區(qū)分的種類數量;行向量ym=c(xm)=[ym1,ym2,…,ymk];在本文實驗中,K=5。
本文提出的基于LSTM網絡的算法選用三個全連接層,第一層有128個神經元,第二層有64個神經元,第三層有K個神經元和一個softmax激活函數產生最終輸出,最后輸出結果為ym。
本文使用F1得分(F1-score)、準確率(Accuracy)、精確率(Precision)和召回率(Recall)作為四種模型的評價標準。
在式(1)到式(4)中,TP表示預測為真,實際為真;TN表示預測為假,實際為假;FP表示預測為真,實際為假;FN表示預測為假,實際為真。
式中,F1得分越高,標識分類器模型越穩(wěn)定。實驗分類結果如表2所示。
表2 實驗分類結果
從表2可以看出,LSTM網絡比基準分類器的精確度高很多,在四類分類器中識別表現最好。
通過LSTM混淆矩陣(見圖3)可以深入了解其性能。LSTM混淆矩陣的行和列分別表示App的真實標簽和模型預測標簽,并對所有的結果都進行了歸一化。通過圖3可以看出,在App識別任務中,系統(tǒng)誤判主要發(fā)生在QQ語音和QQ視頻中,這是因為語音與視頻的流量模式具有相似之處,容易產生誤判;在其他三種業(yè)務中,可以得到非常高的精確度。
圖3 LSTM混淆矩陣
本文提出了一種算法,該算法允許在不侵犯用戶隱私的情況下,對移動通信用戶的應用流量進行高精確度的分類。通過解碼LTE的PDCCH攜帶的信息,可獲取其中的DCI,從而識別移動終端上執(zhí)行的應用程序。為此,本文建立了LSTM網絡分類模型,并與基準分類器進行了比較。實驗結果表明,LSTM網絡分類模型在流量分類精度方面優(yōu)于基準分類器。