文/謝榮安
(中國移動(dòng)通信集團(tuán)福建有限公司廈門分公司 福建省廈門市 361013)
隨著4G網(wǎng)絡(luò)的規(guī)模部署,移動(dòng)互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的重要手段,在各項(xiàng)移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)中,視頻業(yè)務(wù)是其中尤其重要的一項(xiàng)。根據(jù)艾瑞咨詢統(tǒng)計(jì)報(bào)告,2018年手機(jī)視頻的日使用時(shí)長占總時(shí)長的10%,同比2017年增幅位居所有應(yīng)用類別的首位。如圖1所示。
由于視頻業(yè)務(wù)對(duì)于數(shù)據(jù)傳輸?shù)牧鲿承院头€(wěn)定性要求較高,如果視頻在網(wǎng)絡(luò)傳輸過程中出現(xiàn)擁塞或者波動(dòng)等情況,就可能導(dǎo)致觀看過程中出現(xiàn)卡頓、花屏等問題,從而引起用戶感知不佳。隨著業(yè)務(wù)發(fā)展,用戶對(duì)視頻業(yè)務(wù)的感知已經(jīng)越來越高,以某地市運(yùn)營商統(tǒng)計(jì)月投訴量為例,隨著手機(jī)視頻使用時(shí)長的增多,投訴量也呈上升趨勢,亟需從基于網(wǎng)絡(luò)本身的質(zhì)量管理向注重客戶感知的端到端橫向一體化質(zhì)量保障機(jī)制轉(zhuǎn)變。
根據(jù)3GPP定義,整個(gè)LTE網(wǎng)絡(luò)從接入網(wǎng)和核心網(wǎng)方面分為E-UTRAN和EPC兩個(gè)大的部分。其中EPC 核心網(wǎng)主要由移動(dòng)性管理設(shè)備(MME)、服務(wù)網(wǎng)關(guān)(S-GW)、分組數(shù)據(jù)網(wǎng)關(guān)(P-GW)、存儲(chǔ)用戶簽約信息的HSS、策略控制單元(PCRF)等組成。EPC 核心網(wǎng)架構(gòu)秉承了控制與承載分離的理念,MME 負(fù)責(zé)移動(dòng)性管理、信令處理等功能,S-GW 負(fù)責(zé)媒體流處理及轉(zhuǎn)發(fā)等功能,P-GW 則仍承擔(dān)GGSN 的職能。基站(eNodeB)將直接通過S1 接口與MME、S-GW 互通。視頻業(yè)務(wù)流程圖如圖2所示。
用戶在訪問視頻業(yè)務(wù)的時(shí)候,視頻的數(shù)據(jù)要從SP業(yè)務(wù)平臺(tái)經(jīng)由P-GW、S-GW、傳輸網(wǎng)到達(dá)無線基站后,才會(huì)由基站發(fā)送到終端上,整個(gè)流程需要經(jīng)過多個(gè)網(wǎng)元,這給問題端到端的定位帶來了較大的挑戰(zhàn),現(xiàn)有的移動(dòng)視頻業(yè)務(wù)質(zhì)量評(píng)估體系和方法依然是在移動(dòng)終端或者視頻解碼器中提取的數(shù)據(jù),研究用戶的主觀感知,并沒有和網(wǎng)絡(luò)關(guān)聯(lián)起來。而傳統(tǒng)4G上網(wǎng)問題定界利用深度報(bào)文檢測,只采集http相關(guān)數(shù)據(jù),無法獲得播放流暢度等視頻業(yè)務(wù)的感知指標(biāo),整體效率較低,也不適用于移動(dòng)視頻問題定界。
目前視頻類的問題主要通過外部投訴才能發(fā)現(xiàn),且發(fā)現(xiàn)后需由人工通過后臺(tái)數(shù)據(jù)進(jìn)行分析,定位難度大,整體定位時(shí)間較長,對(duì)人員技能水平要求也較高,據(jù)某運(yùn)營商某月數(shù)據(jù)統(tǒng)計(jì),在100例用戶投訴中,通過人工定位分析能定位的投訴僅占22%,且這些問題會(huì)出現(xiàn)在無線側(cè)、終端側(cè)、SP側(cè)、用戶側(cè)等任意環(huán)節(jié),視頻問題的平均解決時(shí)長為12.3小時(shí),不適用于目前爆發(fā)式增長的業(yè)務(wù)需求。
圖1:各類手機(jī)應(yīng)用使用時(shí)長增幅
圖2:視頻業(yè)務(wù)流程圖
圖3:定界流程層次分析模型示意圖
圖4:數(shù)據(jù)預(yù)處理流程
為了能夠提高視頻類問題定位的效率和準(zhǔn)確率,本文研究了一種基于層次分析和機(jī)器學(xué)習(xí)算法的移動(dòng)視頻端到端定界方法。本方法基于用戶級(jí)的信令大數(shù)據(jù),利用二次識(shí)別出純視頻的單據(jù),并結(jié)合無線指標(biāo)數(shù)據(jù)、用戶套餐流量數(shù)據(jù)、投訴數(shù)據(jù)以及LTE撥測數(shù)據(jù)等信息以及每條XDR數(shù)據(jù)的問題情況,通過機(jī)器學(xué)習(xí)訓(xùn)練一個(gè)適應(yīng)當(dāng)前視頻業(yè)務(wù)體驗(yàn)的問題定界模型算法。通過微觀的、細(xì)粒度的、大數(shù)量的分析,建立移動(dòng)視頻質(zhì)量評(píng)估模型,實(shí)現(xiàn)對(duì)用戶使用移動(dòng)視頻業(yè)務(wù)產(chǎn)生的問題進(jìn)行端到端的定界。首先通過小樣本量建立利用機(jī)器學(xué)習(xí)訓(xùn)練出適應(yīng)當(dāng)前場景的的模型;然后將對(duì)評(píng)估模型輸出的評(píng)估結(jié)果與現(xiàn)網(wǎng)情況進(jìn)行對(duì)比分析,對(duì)評(píng)估模型進(jìn)行校正;最后用現(xiàn)網(wǎng)海量數(shù)據(jù)作為輸入,并對(duì)模型的評(píng)估精度進(jìn)一步驗(yàn)證和校驗(yàn)調(diào)整,提升評(píng)估的準(zhǔn)確率,最終輸出基于層次分析以及機(jī)器學(xué)習(xí)算法的移動(dòng)視頻端到端定界結(jié)果。
圖5:特征構(gòu)造示意圖
上述方法包括以下操作步驟:
(1)以移動(dòng)視頻用戶感知為對(duì)象,確定可能影響用戶感知的端到端中出現(xiàn)的各種原因,依據(jù)從大到小的原則,可以將問題定界為用戶限速、業(yè)務(wù)問題、終端問題、無線問題和非共性問題。
(2)關(guān)聯(lián)端到端過程中的相關(guān)數(shù)據(jù),包含用戶觀看視頻的DPI數(shù)據(jù),用戶的流量套餐數(shù)據(jù),用戶投訴數(shù)據(jù),無線小區(qū)數(shù)據(jù),用戶終端品牌、終端型號(hào)等。
(3)通過投訴、撥測以及模擬在不同問題場景下進(jìn)行分類測試,多次測試和記錄不同問題情況下移動(dòng)視頻的各項(xiàng)指標(biāo)參數(shù)以及用戶觀看的DPI數(shù)據(jù)等進(jìn)行關(guān)聯(lián)。
(4)將投訴、撥測等獲取的問題場景下?lián)軠y的樣本數(shù)據(jù)用不同的數(shù)學(xué)變量分別表示不同問題場景,并抽取流暢不卡頓的用戶數(shù)據(jù)構(gòu)成數(shù)據(jù)集。
(5)構(gòu)建從大到小的層次分析模型,將步驟(4)中得到的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理后,用作層次總模型的總輸入,先把各個(gè)指標(biāo)作為自變量,定界的結(jié)果作為因變量。首先將測試數(shù)據(jù)進(jìn)行預(yù)處理,再把預(yù)處理后的數(shù)據(jù)集分為訓(xùn)練集合測試集,80%作為訓(xùn)練集和余下的20%作為驗(yàn)證集。利用不同的分類算法進(jìn)行多次對(duì)比計(jì)算,得出準(zhǔn)確率和召回率相對(duì)最優(yōu)的算法作為該場景算法。
(6)將步驟(5)已定界出的問題數(shù)據(jù)剔除,剩余數(shù)據(jù)作為下一場景的輸入,重復(fù)步驟(5),直到定界出所有問題。
下面,本文將具體針對(duì)層次分析及機(jī)器學(xué)習(xí)算法進(jìn)行分析:
為了解決在運(yùn)維過程中碰到的移動(dòng)視頻問題定界的技術(shù)缺陷,需要從端到端的角度出發(fā),除了視頻的各個(gè)關(guān)鍵的KQI指標(biāo)并關(guān)聯(lián)無線指標(biāo)、終端信息、用戶流量套餐數(shù)據(jù)、進(jìn)行全程全網(wǎng)分析,并進(jìn)行分析和定界。
基于LTE移動(dòng)業(yè)務(wù)實(shí)現(xiàn)過程,按照業(yè)務(wù)端到端可以分為用戶、終端、小區(qū)、EPC核心網(wǎng)、SP業(yè)務(wù)網(wǎng)絡(luò)等五類功能域。因此,常規(guī)移動(dòng)視頻卡頓原可以定界到細(xì)分為用戶限速、終端問題、無線小區(qū)問題、SP業(yè)務(wù)問題以及非共性問題。具體的定界流程基于移動(dòng)上網(wǎng)的業(yè)務(wù)特點(diǎn),提出了基于從大到小的分層次模型,并結(jié)合分類算法等進(jìn)行仿真實(shí)驗(yàn),實(shí)現(xiàn)移動(dòng)視頻端到端分析預(yù)測。為了能夠確定整體定界分層模型的流程,我們分別對(duì)每個(gè)問題的原因進(jìn)行分析:
2.1.1 用戶限速問題分析
通過獲取用戶的套餐和流量信息,當(dāng)用戶使用達(dá)量限速的套餐時(shí)候,用戶到達(dá)流量門限就會(huì)進(jìn)行限速。由于經(jīng)過多次對(duì)比測試,對(duì)于用戶限速的場景,觀看視頻時(shí)候基本都會(huì)出現(xiàn)卡頓問題。因此,該問題可直接通過指標(biāo)判斷用戶是否限速場景。若非上述質(zhì)差,則進(jìn)一步進(jìn)入下一環(huán)節(jié)進(jìn)行分析。
2.1.2 流暢判斷問題分析
獲取用戶非限速的用戶進(jìn)入下一環(huán)節(jié),根據(jù)集團(tuán)定義的視頻流暢度規(guī)范,通過測試記錄不流暢的XDR,定義流暢度指標(biāo)低于一定值的記錄數(shù)為非流暢記錄進(jìn)入下一環(huán)節(jié)進(jìn)行建模分析,定界出問題點(diǎn),轉(zhuǎn)后續(xù)環(huán)節(jié)處理。
流暢度指標(biāo)定義:
視頻播放流暢度=N1/N2*100%;
N1=∑[(視頻平均下載速率/視頻碼率)>=1.2]的單據(jù)量;
N2=∑視頻單據(jù)量視頻平均下載速率=視頻XDR里的視頻下載數(shù)據(jù)量/視頻下載時(shí)間。
2.1.3 視頻應(yīng)用業(yè)務(wù)問題分析
通過樣本分析獲知視頻應(yīng)用業(yè)務(wù)維度的質(zhì)差會(huì)導(dǎo)致上千個(gè)無線小區(qū)指標(biāo),幾十萬個(gè)用戶流暢度指標(biāo)下降,而且視頻側(cè)的業(yè)務(wù)維度出問題一般影響范圍很大,影響到全省業(yè)務(wù)或者好幾個(gè)地市的業(yè)務(wù),因此將視頻業(yè)務(wù)維度先進(jìn)行建模分析。
2.1.4 終端問題分析
隨著視頻播放的演進(jìn),以及IPv6的不斷推進(jìn),對(duì)于某些終端可能會(huì)出現(xiàn)各種適配問題。從終端維度來說,主要就是終端品牌、終端廠家差異帶來的指標(biāo)的不同,該問題也會(huì)覆蓋多個(gè)用戶甚至影響無線小區(qū)。因此將終端維第二步進(jìn)行建模分析,預(yù)測出終端問題。
圖6:視頻類業(yè)務(wù)場景仿真實(shí)驗(yàn)結(jié)果
2.1.5 無線問題分析
最后進(jìn)行無線小區(qū)維度的定界,一個(gè)無線小區(qū)包含幾個(gè)扇區(qū),關(guān)聯(lián)無線小區(qū)的指標(biāo)通過建模分析,預(yù)測出無線問題,其他無法沒有集中性的問題,則定義為非共性問題輸出。
最終,基于上述分析,我們可將分層定界組合模型的步驟流程確定如下:數(shù)據(jù)表 ->(指標(biāo)判斷) 是否限速問題->(模型預(yù)測) 是否流暢度問題->(模型預(yù)測) 是否視頻平臺(tái)問題->(模型預(yù)測) 是否終端問題->(模型預(yù)測) 是否無線問題。具體如圖3所示。
定界流程確定后,需要對(duì)底層的數(shù)據(jù)進(jìn)行處理,再提交給算法進(jìn)行分析,本方法選取移動(dòng)視頻底層DPI單據(jù)、無線指標(biāo)數(shù)據(jù)、限速用戶、投訴數(shù)據(jù)以及LTE探針以及人工撥測數(shù)據(jù)作為建模樣本數(shù)據(jù)。自變量主要選取了視頻相關(guān)指標(biāo),如下行流量(MB)、上行流量(MB)、合成視頻下載平均速率_加權(quán)分子等,小區(qū)的無線指標(biāo)數(shù)據(jù),如小區(qū)名、地市、區(qū)縣、無線廠家,限速用戶指標(biāo),如ERAB_NU、UP_BYTE、DOWN_BYTE等63項(xiàng)指標(biāo)。具體預(yù)處理流程如圖4。
2.2.1 缺失值處理
針對(duì)列缺失情況:對(duì)缺失占比大于20%的特征進(jìn)行刪除。
針對(duì)行缺失情況:由于行數(shù)據(jù)缺失較少,從優(yōu)化效率角度考慮對(duì)缺失行進(jìn)行刪除處理,量級(jí)不影響機(jī)器學(xué)習(xí)模型的訓(xùn)練。
2.2.2 分類變量處理
啞變量(Dummy Variable),又稱為虛擬變量、虛設(shè)變量或名義變量,從名稱上看就知道,它是人為虛設(shè)的變量,通常取值0或1,來反映某個(gè)變量不同的屬性。對(duì)于有n個(gè)分類屬性的自變量,通常需要選取1個(gè)分類作為參照,因此可以產(chǎn)生n-1個(gè)啞變量。將啞變量引入模型,雖然使得模型變得較為復(fù)雜,但可以更直觀反映該自變量的不同屬性對(duì)因變量的影響,提高了模型的精度和準(zhǔn)確度。針對(duì)是分類變量的特征,進(jìn)行啞變量處理。
2.2.3 歸一化處理
由于不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會(huì)影響到數(shù)據(jù)分析的結(jié)果,因此為了消除指標(biāo)之間的量綱影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià)。
圖7:分層次模型算法選擇結(jié)果
圖8:重抽樣結(jié)果
圖9:參數(shù)摸索結(jié)果
2.2.4 特征構(gòu)造
由于某些指標(biāo)的波動(dòng)變化能體現(xiàn)出用戶使用感知不流暢,因此通過構(gòu)造一些體現(xiàn)指標(biāo)波動(dòng)變化的新特征來進(jìn)入模型。選取HTTP_DOWN、HTTP_UP等23個(gè)指標(biāo)構(gòu)造周均值。如圖5所示。
2.2.5 特征篩選
由于很多特征之間有極高的相關(guān)性,他們的存在會(huì)影響模型的準(zhǔn)確性。計(jì)算在本次樣本數(shù)據(jù)119個(gè)特征的相關(guān)系數(shù)矩陣,把對(duì)角元賦值為0,要是兩兩特征間的相關(guān)系數(shù)絕對(duì)值大于0.75,就將相關(guān)系數(shù)總和最大的特征進(jìn)行剔除;要是最大的相關(guān)系數(shù)絕對(duì)值不大于0.75,則算法停止;經(jīng)過此步驟后,最終篩選出62個(gè)指標(biāo)進(jìn)入模型。
2.3.1 算法選取
移動(dòng)視頻端到端定界結(jié)果涉及SP、無線、終端等多個(gè)環(huán)節(jié),而這幾個(gè)問題是從大到小的分層關(guān)系,無法通過單一的模型就能精確定位問題,通過查遵循從大到小的層次分析方法,結(jié)合本次視頻端到端問題定界特點(diǎn),選取傳統(tǒng)的邏輯回歸、隨機(jī)森林和XGBoost三種算法,通過多次仿真試驗(yàn),對(duì)比得到三個(gè)模型仿真結(jié)果的平均值,選出最優(yōu)的平均值對(duì)應(yīng)的模型,供本次業(yè)務(wù)場景使用。以SP模型為例我們進(jìn)行了1000次的仿真實(shí)驗(yàn),首先排除了準(zhǔn)確率和召回率最低的邏輯回歸,其次,我們發(fā)現(xiàn)另外兩種模型的整體仿真效果差別不大,但從概率密度分布來看,XGBoost更穩(wěn)定均勻,選為本場景的算法。同理,選出終端模型和無線模型的最優(yōu)算法。如圖6所示。
最終各個(gè)步驟的算法篩選如圖7所示。
2.3.2 數(shù)據(jù)重抽樣
樣本出現(xiàn)正負(fù)量級(jí)不平衡的狀況時(shí),通過重抽樣bootstrap方法進(jìn)行反復(fù)抽樣,最終使正負(fù)樣本比例接近1:1,并且整理后的數(shù)據(jù)分布能夠接近總體分布。進(jìn)行1000次bootstrap,求平均值的置信區(qū)間,可以對(duì)每個(gè)偽樣本計(jì)算平均值。獲得1000個(gè)平均值。對(duì)1000個(gè)平均值的分位數(shù)進(jìn)行計(jì)算,得到置信區(qū)間,在初始樣本足夠大的情況下,bootstrap抽樣能夠無限接近總體分布。如圖8所示。
2.3.3 模型超參數(shù)摸索
建立XGBOOST和隨機(jī)森林模型,分別設(shè)置兩個(gè)模型的參數(shù)組合,遍歷所有的參數(shù)組合,每個(gè)組合重復(fù)5次,每次重復(fù)按等比例抽取標(biāo)本方式,隨機(jī)把10%用作測試集,20%用作驗(yàn)證集,剩下的70%用作訓(xùn)練集,用訓(xùn)練集建立當(dāng)前模型,用驗(yàn)證集決定是否提前停止訓(xùn)練,用測試集評(píng)價(jià)當(dāng)前這次建模的準(zhǔn)確率。統(tǒng)計(jì)5次重復(fù)綜合評(píng)價(jià)每種組合的平均準(zhǔn)確率,選取準(zhǔn)確率最高的超參數(shù)組合。如圖9所示。
系統(tǒng)穩(wěn)定上線后,通過對(duì)100例視頻問題的定位進(jìn)行回顧,發(fā)現(xiàn)視頻問題平均定界時(shí)長從12.3小時(shí)縮短至0.44小時(shí),縮短了96%。通過進(jìn)行規(guī)模部署,共覆蓋400萬個(gè)視頻用戶、24萬個(gè)小區(qū)、418款終端。通過移動(dòng)視頻端到端定界分析,月均發(fā)現(xiàn)性能問題130個(gè),月均輸出視頻質(zhì)差小區(qū)800個(gè)重點(diǎn)優(yōu)化提升,有效提高了用戶使用4G觀看視頻的感知。
本方法基于視頻端到端業(yè)務(wù)問題定位開展研究,引入機(jī)器學(xué)習(xí)算法,打破了傳統(tǒng)的基于網(wǎng)元級(jí)別的用戶感知評(píng)估方法,基于用戶粒度的網(wǎng)絡(luò)性能大數(shù)據(jù),實(shí)現(xiàn)細(xì)粒度、微觀級(jí)別的感知客戶,能定界出用戶觀看移動(dòng)視頻的質(zhì)差情況。創(chuàng)新地將二次識(shí)別的視頻底層數(shù)據(jù)、無線指標(biāo)數(shù)據(jù)、限速用戶、投訴數(shù)據(jù)以及LTE探針以及人工撥測數(shù)據(jù)進(jìn)行關(guān)聯(lián)并作為建模樣本數(shù)據(jù)。解決了單一指標(biāo)對(duì)比定界造成的問題局限性,以及端到端指標(biāo)關(guān)聯(lián)難等問題。為運(yùn)營商后續(xù)處理投訴及問題定位可以起到積極的幫助。