李飛 曹雷雷 付永振
摘 要:中國移動VoLTE業(yè)務(wù)基于IMS實(shí)現(xiàn)語音控制,承載于4G網(wǎng)絡(luò)之上,在提供高清語音更短接續(xù)的同時,也面臨著端到端業(yè)務(wù)流程復(fù)雜、多域協(xié)同等問題和挑戰(zhàn)。傳統(tǒng)的語音評測方法存在的多種弊端,難以從感知的角度多方面評測語音質(zhì)量。本文主要研究提取用戶通話語音特征,采用基于機(jī)器學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)大數(shù)據(jù)分析算法,利用智能語音分析技術(shù)建立感知語音質(zhì)量考核指標(biāo)體系、優(yōu)化方法論及措施,實(shí)現(xiàn)對VoLTE用戶感知進(jìn)行更準(zhǔn)確的評估。
關(guān)鍵詞:VoLTE;機(jī)器學(xué)習(xí);評測;質(zhì)量;優(yōu)化
中圖分類號:TN915.18 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2019)05-0042-03
1 研究背景
2015年開啟VoLTE商用服務(wù),為客戶提供更優(yōu)的語音感知體驗(yàn),實(shí)現(xiàn)了語音業(yè)務(wù)由傳統(tǒng)電路域向數(shù)據(jù)域的轉(zhuǎn)變,是運(yùn)營商未來一段時間發(fā)展的關(guān)鍵。
傳統(tǒng)的語音質(zhì)量評測方法存在以下劣勢:
一是ATU路測方法存在劣勢,數(shù)據(jù)直接上傳系統(tǒng)計算評估,數(shù)據(jù)真實(shí)性可靠,但是覆蓋范圍較小,IT化成本高,無法實(shí)現(xiàn)實(shí)際通話場景真實(shí)感知還原。
二是基于S1-U信令分析存在弊端,一定程度上滿足了運(yùn)維人員對于網(wǎng)絡(luò)問題發(fā)現(xiàn)和定界的需求,通過語音丟包、延遲簡單計算MOS值,客觀上反映了VoLTE客戶語音感知,不能真實(shí)反映VoLTE客戶語音單通、斷續(xù)、吞字、抖動情況,缺乏有效的支撐手段。
三是人工智能帶來機(jī)遇,人工智能技術(shù)的不斷成熟,促使我們探索使用先進(jìn)的方法真正體現(xiàn)客戶感知,幫助運(yùn)維人員創(chuàng)新性的解決疑難問題,從而更好的滿足用戶使用需求,提升用戶體驗(yàn)。
本課題通過提取用戶通話語音特征,采用基于機(jī)器學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)大數(shù)據(jù)分析算法,利用智能語音分析技術(shù)建立感知語音質(zhì)量考核指標(biāo)體系、優(yōu)化方法論及措施,實(shí)現(xiàn)對VoLTE用戶感知進(jìn)行更準(zhǔn)確的評估,對單通、斷續(xù)、吞字故障進(jìn)行深度挖掘,進(jìn)而支撐面向用戶感知的端到端VoLTE網(wǎng)絡(luò)優(yōu)化。系統(tǒng)上線以來聚焦MOS質(zhì)差和單通斷續(xù)通話,通過MOS質(zhì)差定界分析方法開展VoLTE語音質(zhì)量優(yōu)化工作,融合MR指紋庫的網(wǎng)絡(luò)問題總體定界率達(dá)到77.5%,目前結(jié)合聲學(xué)特征對終端質(zhì)差定位已發(fā)現(xiàn)十余款具有一定保有量終端問題,對39類覆蓋場景的深度覆蓋不足問題進(jìn)行輸出,同時通過VAD能量檢測和關(guān)鍵詞語譜匹配識別多起時域事件(丟包、抖動引起)和頻域事件(非丟包、抖動引起)引起的單通斷續(xù)問題,進(jìn)一步提升了VoLTE網(wǎng)絡(luò)用戶感知。
2 系統(tǒng)構(gòu)建
2.1 系統(tǒng)整體架構(gòu)
基于聲學(xué)特征提取和深度神經(jīng)網(wǎng)絡(luò)大數(shù)據(jù)建模兩大核心技術(shù),能準(zhǔn)確、高效、全面評估端到端用戶感知,保障用戶語音通話質(zhì)量,提升用戶體驗(yàn),提升網(wǎng)優(yōu)效率的創(chuàng)新型網(wǎng)優(yōu)平臺,平臺分四層架構(gòu):采集層、信令處理層、數(shù)據(jù)處理層、應(yīng)用層。如圖1所示。
2.2 基于深度神經(jīng)網(wǎng)絡(luò)模型的語音質(zhì)量評測方法
依托語音處理技術(shù),基于海量測試樣本的聲學(xué)量化特征信息(時域、頻域參數(shù)),采用基于深度神經(jīng)網(wǎng)絡(luò)大數(shù)據(jù)分析算法,利用移動通信網(wǎng)絡(luò)中的退化語音來客觀評價MOS質(zhì)量,提取對應(yīng)聲學(xué)特征,擬合訓(xùn)練出不同聲學(xué)特征信息與MOS值的對應(yīng)關(guān)系,建立“MOS值與語音聲學(xué)特性信息關(guān)系”模型;將后臺采集的用戶面碼流,通過解析用戶媒體面載荷,提取聲學(xué)特征,還原包括無聲、靜默和背噪等真實(shí)感知,通過已經(jīng)訓(xùn)練完成的模型進(jìn)行處理,實(shí)現(xiàn)評估的準(zhǔn)度與深度。
2.2.1 深度神經(jīng)網(wǎng)絡(luò)建模流程
ePOLQA-MOS算法依托語音聲學(xué)特征信息,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行大數(shù)據(jù)建模,實(shí)際評估效果接近路測POLQA指標(biāo),建模訓(xùn)練流程如圖2所示。
建模數(shù)據(jù)涵蓋商場、寫字樓、道路、居民區(qū)、景點(diǎn)、學(xué)校等各類場景。
2.2.2 語音信號的聲學(xué)特征提取
提取時域和頻域信息,可將復(fù)雜聲音波形分解為簡單的疊加,可精確地衡量波形的“構(gòu)造”,基于聲學(xué)特征信息分析可精準(zhǔn)地評估語音質(zhì)量:
本系統(tǒng)使用的聲學(xué)特征包括9個時域特征,如音色、響度、噪聲等,以及84個頻域特征如共振峰、MFCC參數(shù)、PLP參數(shù)等。
2.2.3 深度神經(jīng)網(wǎng)絡(luò)模型在VoLTE網(wǎng)絡(luò)的應(yīng)用
利用單邊數(shù)據(jù)實(shí)現(xiàn)全網(wǎng)通話感知的精準(zhǔn)評估,感知評估指標(biāo)包括MOS、單通、斷續(xù)及RTP的丟包等完整指標(biāo)體系。數(shù)據(jù)即采即棄,不識別語音內(nèi)容,安全高效,步驟如下:
(1)將已經(jīng)訓(xùn)練好的模型部署。
(2)通過SBC與P-GW間SGi口采集用戶面數(shù)據(jù)。VoIP使用RTP協(xié)議對語音數(shù)據(jù)進(jìn)行傳輸,語音載荷都封裝在RTP包里面,將過濾出的RTP數(shù)據(jù)包發(fā)送至語音解析系統(tǒng)。
(3)進(jìn)行RTP信息的抽樣和還原,進(jìn)一步生成可用于語音質(zhì)量評估的媒體面語音樣本,即抽樣獲取語音信息,提取聲學(xué)特征。
將特征參數(shù)輸入評估模型,即可輸出該通話的語音質(zhì)量MOS評分。
2.3 基于能量檢測及語譜匹配的單通、斷續(xù)算法
斷續(xù)的表現(xiàn)是持續(xù)純無聲狀態(tài),可以通過VAD檢測技術(shù)實(shí)現(xiàn)聲波能量的精準(zhǔn)量化,同時基于關(guān)鍵字匹配技術(shù)和深度學(xué)習(xí)語音特征分析技術(shù),采用斷續(xù)的語音段分析挖掘建模方式和5000余條斷續(xù)撥測樣本,建立起高準(zhǔn)確率的單通和斷續(xù)判斷規(guī)則。
2.3.1 VAD能量檢測
單通斷續(xù)能量檢測流程說明:
(1)輸入層:通過周期性檢測獲取的RTP包采樣解碼片段。(2)中間層:將采樣信號片段分幀,計算每幀的短時能量,最后計算出完整的聲音信號平均能量值。(3)輸出層:根據(jù)聲音信號的平均能量值為采樣點(diǎn)狀態(tài)賦值(狀態(tài)碼=0:Eaver=0;狀態(tài)碼=1:Eaver>0)。
2.3.2 關(guān)鍵字語譜匹配技術(shù)
基于信息安全考慮,采用與語種無關(guān)關(guān)鍵詞語譜檢索技術(shù),通過結(jié)合HMM-Filler+融合置信度的判別方法,實(shí)現(xiàn)單通關(guān)鍵詞的快速準(zhǔn)確檢索匹配,不作語義識別,不獲取用戶通話內(nèi)容。
2.3.3 單通判斷規(guī)則及分類
(1)一端無聲。上行無聲段丟包率低于閾值、對應(yīng)無聲段無語音活動、對應(yīng)無聲段能量方差<=閾值且對端同時段有聲碎片中檢索出滿足關(guān)鍵字語譜>=2個,則判斷為單通1。下行則判斷為單通2。(2)高丟包。無聲段丟包率大于閾值且對端有聲碎片中滿足關(guān)鍵字語譜>=1個,則判斷為單通6,閾值可設(shè)置。(3)全程無能量。無聲片段丟包率低于閾值、無聲段無語音活動且對端同時段有聲碎片中檢索出滿足關(guān)鍵字語譜>=1個,判斷為單通7。
2.3.4 斷續(xù)判斷規(guī)則
基于關(guān)鍵字匹配技術(shù)和成熟的深度學(xué)習(xí)語音特征分析技術(shù),采用斷續(xù)的語音段分析挖掘建模方式,通過5000余條斷續(xù)撥測樣本,建立起高準(zhǔn)確率的斷續(xù)判斷規(guī)則。
2.4 基于用戶位置及分段評估的指標(biāo)問題挖掘方法
利用用戶位置上報信息,關(guān)聯(lián)用戶通話過程的全部占用小區(qū)信息,并結(jié)合分段的語音質(zhì)量及KPI指標(biāo)(8秒分段,可設(shè)置),將一單通話指標(biāo)統(tǒng)計輸出為起呼小區(qū)指標(biāo)算法(每8秒關(guān)聯(lián)一次用戶位置并將指標(biāo)統(tǒng)計輸出為目前占用小區(qū)指標(biāo))。
通過該方法,可將單通、斷續(xù)等語音質(zhì)量問題,以及乒乓切換等問題精確定位至?xí)r間點(diǎn),并保證了占用小區(qū)的正確性,避免移動通話中的指標(biāo)問題及通話故障誤判。
2.4.1 用戶位置信息獲取及關(guān)聯(lián)
(1)通過計費(fèi)單元PCRF的RX、GX接口原始碼流,獲取用戶通話信息及實(shí)時上報的小區(qū)位置信息。該方法對于開啟基站用戶位置信息上報情況下有效,對網(wǎng)內(nèi)X2、S1切換的位置更新均能捕捉,位置關(guān)聯(lián)正確率及完整性95%以上。(2)RX接口包含用戶呼叫信息,可獲取號碼及IP四元組,GX接口包含用戶上報的位置信息及IP四元組,二者關(guān)聯(lián)可獲取完整的用戶話單及位置信息。進(jìn)而通過四元組、時間,與分段的語音質(zhì)量信息關(guān)聯(lián),即可獲得包含用戶位置信息的8秒分段的語音質(zhì)量信息。
2.4.2 指標(biāo)問題挖掘
(1)通過2.4.1獲取的各種信息,將通話過程中的通話故障時間點(diǎn)和地點(diǎn)一一對應(yīng),該方法可以避免將通話故障誤判至A小區(qū),并對通話過程中B小區(qū)發(fā)生的斷續(xù)故障進(jìn)行有效判斷。如表1所示。(2)通過2.4.1獲取的位置更新信息,通過設(shè)定的判斷門限(如8秒內(nèi)發(fā)生3次及以上位置更新),能有效對VoLTE業(yè)務(wù)的乒乓切換進(jìn)行判斷。
2.5 基于融合指紋庫MR數(shù)據(jù)的質(zhì)差用戶位置精準(zhǔn)定位
基于融合指紋庫的MR數(shù)據(jù),通過軟硬采關(guān)聯(lián)算法,實(shí)現(xiàn)用戶話單信息、包含小區(qū)位置信息的分段語音質(zhì)量指標(biāo)精準(zhǔn)定位?;诰珳?zhǔn)定位,既可以為用戶投訴分析定位提供數(shù)據(jù)支撐,又可以通過柵格化指標(biāo)呈現(xiàn)實(shí)現(xiàn)精準(zhǔn)質(zhì)差區(qū)域定位,輔助網(wǎng)優(yōu)日常優(yōu)化工作。
2.5.1 數(shù)據(jù)關(guān)聯(lián)及定位原理
通過TIME、MME_CODE、MME_GROUP_ID、MME_UE_S1AP_ID四個字段關(guān)聯(lián)軟采MR數(shù)據(jù)與S1-MME數(shù)據(jù),將軟采MR數(shù)據(jù)中的LONGITUDE、LATITUDE、RSRP、SINR等信息填至S1-MME數(shù)據(jù)中。
通過TIME和IMSI字段關(guān)聯(lián)S1-MME數(shù)據(jù)與VoLTE語音數(shù)據(jù),將S1-MME數(shù)據(jù)中的LONGITUDE、LATITUDE、RSRP、SINR等信息填至VoLTE語音數(shù)據(jù)中,形成包含用戶(IMSI)在具體時間(TIME)具體位置(經(jīng)緯度)上的通話質(zhì)量(MOS)和所在位置的無線環(huán)境(MR電平RSRP、質(zhì)量RSRQ)關(guān)聯(lián)信息庫。
2.5.2 網(wǎng)絡(luò)覆蓋引起的質(zhì)差用戶挖掘
(1)通過深度神經(jīng)網(wǎng)絡(luò)的用戶感知評估及單通、斷續(xù)、吞字等通話故障的準(zhǔn)確判斷,結(jié)合MR位置信息及小區(qū)無線指標(biāo),利用GIS等呈現(xiàn)手段,實(shí)現(xiàn)無線質(zhì)量問題(如強(qiáng)干擾、弱覆蓋)導(dǎo)致的用戶感知問題快速定位分析。(2)根據(jù)各區(qū)域的話務(wù)模型、用戶價值、感知質(zhì)差發(fā)生次數(shù)及概率,對問題區(qū)域進(jìn)行柵格、建筑物、地理區(qū)域匯聚,輸出重點(diǎn)需要優(yōu)化的VoLTE高價值感知質(zhì)差區(qū)域。
2.5.3 非網(wǎng)絡(luò)覆蓋引起的質(zhì)差用戶挖掘
對于非網(wǎng)絡(luò)覆蓋引起的質(zhì)差,可用系統(tǒng)從網(wǎng)元、終端等維度進(jìn)行聚類分析。目前已從終端維度進(jìn)行了研究。問題主要表現(xiàn)在終端降噪導(dǎo)致的能量損失和終端降噪能力不足兩個方面。
3 VOLTE語音質(zhì)量關(guān)鍵評測技術(shù)
本論文基于機(jī)器學(xué)習(xí)方法進(jìn)行VoLTE語音質(zhì)量評測,規(guī)避了傳統(tǒng)方法存在的劣勢和弊端,方法獨(dú)特,具有很高的實(shí)用性和創(chuàng)新性,具體應(yīng)用效果如下。
3.1 關(guān)鍵技術(shù)一:語音評測關(guān)鍵技術(shù)
利用移動通信網(wǎng)絡(luò)中的退化語音來客觀評價MOS質(zhì)量,根據(jù)人耳的聽覺特性提取聲學(xué)特征,并結(jié)合語音的信噪比、自然度、傳輸RTP指標(biāo)等參數(shù),通過神經(jīng)網(wǎng)絡(luò)回歸算法,深度學(xué)習(xí)這些聲學(xué)特征參數(shù)與MOS分之間的非線性關(guān)系,最終實(shí)現(xiàn)提取單邊退化語音樣本,直接評估出語音MOS分。
3.2 關(guān)鍵技術(shù)二:VOLTE單通判斷關(guān)鍵技術(shù)
通過VAD檢測技術(shù)獲取符合制定規(guī)則的語音,并結(jié)合能量特征檢測與關(guān)鍵詞語譜匹配技術(shù)獲取單通通話,對丟包及非丟包情況的單通均能有效判斷,并在無線、核心網(wǎng)、終端等維度的定界定位均較傳統(tǒng)方法具有優(yōu)勢。
3.3 關(guān)鍵技術(shù)三:斷續(xù)判斷關(guān)鍵技術(shù),提高語音質(zhì)量分析準(zhǔn)確率
基于大數(shù)據(jù)量的斷續(xù)撥測訓(xùn)練集,人工標(biāo)注斷續(xù)特征段,通過各種特性指標(biāo)訓(xùn)練獲取SVM分類模型,最后結(jié)合斷續(xù)在能量上的感知落差的事件檢測,建立起高準(zhǔn)確率的感知斷續(xù)判斷規(guī)則。
3.4 關(guān)鍵技術(shù)四:分段評估關(guān)鍵技術(shù)
傳統(tǒng)DPI系統(tǒng)的語音質(zhì)量評估,僅支持評估話單級平均語音質(zhì)量,位置信息僅包含起呼和掛機(jī)小區(qū),評估結(jié)果無法體現(xiàn)用戶真實(shí)感知,無法準(zhǔn)確定位質(zhì)差區(qū)域。利用精細(xì)化的評估結(jié)果,將話單級指標(biāo)轉(zhuǎn)變?yōu)槊爰墪r間粒度、準(zhǔn)確實(shí)時小區(qū)空間粒度的新指標(biāo),支撐新型網(wǎng)絡(luò)指標(biāo)考核體系建設(shè),同時也提升了質(zhì)差小區(qū)優(yōu)化效率和投訴處理效率。
分段語音質(zhì)量評估思路:
(1)利用RTP組包技術(shù),實(shí)現(xiàn)任意時長的分段語音質(zhì)量評估,分段輸出MOS、單通、斷續(xù)等核心指標(biāo);(2)解析RX、GX口計費(fèi)策略中的實(shí)時上報位置信息,獲取VoLTE通話中系統(tǒng)內(nèi)位置的全量信息,實(shí)現(xiàn)通話中占用小區(qū)信息遍歷;(3)將實(shí)時位置信息填充至分段的語音質(zhì)量評估結(jié)果中,實(shí)現(xiàn)指標(biāo)精確到秒、位置準(zhǔn)確至占用小區(qū)的統(tǒng)計。
4 應(yīng)用效果
目前,基于人工智能的VoLTE語音質(zhì)量評測優(yōu)化方法的系統(tǒng)已上線,應(yīng)用效果覆蓋某運(yùn)營商地市分公司的全部區(qū)域,實(shí)現(xiàn)小區(qū)、用戶級別語音感知質(zhì)量綜合評估、語音質(zhì)差區(qū)域定界、業(yè)務(wù)指標(biāo)統(tǒng)計、語音感知質(zhì)量場景監(jiān)控、投訴分析及處理等功能。
4.1 MOS應(yīng)用效果
項目聚焦MOS質(zhì)差通話,通過MOS質(zhì)差定界分析方法開展VoLTE語音質(zhì)量優(yōu)化工作,結(jié)合MR數(shù)據(jù)的網(wǎng)絡(luò)問題總體定界率達(dá)到77.5%;結(jié)合聲學(xué)特征對終端質(zhì)差定位已發(fā)現(xiàn)十余款具有一定保有量終端問題;對39類覆蓋場景的深度覆蓋不足問題進(jìn)行輸出。
4.2 單通應(yīng)用效果
從某運(yùn)營商地市分公司的現(xiàn)網(wǎng)驗(yàn)證,單通質(zhì)差占比0.34%、準(zhǔn)確率85%,其中識別類型為時域事件(丟包、抖動引起)占比32%,頻域事件(非丟包、抖動引起)占比68%左右。
單通質(zhì)差定界從11項語音質(zhì)量問題根因排查,定位至網(wǎng)內(nèi)、異網(wǎng)、終端、無線環(huán)境4大維度。
參考文獻(xiàn)
[1] 魏宗靜.VOLTE語音質(zhì)量優(yōu)化方法研究[J].科技經(jīng)濟(jì)導(dǎo)刊,2016(05):33.
[2] 孫平強(qiáng).VoLTE業(yè)務(wù)的性能分析及優(yōu)化研究[D].北京郵電大學(xué),2015.
[3] 張永飛,郭寶,張陽.基于端到端的VoLTE通話質(zhì)量優(yōu)化方法[J].科技經(jīng)濟(jì)導(dǎo)刊,2016(06):17-22.
[4] 任君明.VoLTE語音呼叫時延優(yōu)化的研究與實(shí)踐[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2016,29(05):57-60.
[5] 樓舒慧.面向客戶感知的提升VoLTE通話質(zhì)量的研究[D].浙江工業(yè)大學(xué),2017.
[6] 姜先貴,李勇輝,朱斌.VoLTE語音質(zhì)量研究[J].郵電設(shè)計技術(shù),2015(10):51-55.
[7] 吳修權(quán),鐘其柱,候德濠.一種基于IMGW接口的VoLTE語音質(zhì)量評估方案[J].通信技術(shù),2017,50(05):973-978.
[8] 姚玉華.探究VOLTE語音質(zhì)量的評價方法及測試方案[J].通信設(shè)計與應(yīng)用,2017(04):36-37.