楊英杰 , 趙萬馬 ,王 沖
(1.東北電力大學(xué) 信息工程學(xué)院,吉林 吉林 132012; 2. 國網(wǎng)內(nèi)蒙古東部電力有限公司 信息通信分公司,內(nèi)蒙古 呼和浩特 010020)
引入包分析的E-Model語音質(zhì)量評價模型改進(jìn)
楊英杰1, 趙萬馬1,王 沖2
(1.東北電力大學(xué) 信息工程學(xué)院,吉林 吉林 132012; 2. 國網(wǎng)內(nèi)蒙古東部電力有限公司 信息通信分公司,內(nèi)蒙古 呼和浩特 010020)
為了能夠更加準(zhǔn)確地評價語音包丟失對基于IP的語音傳輸(voice over internet protocol,VoIP)的語音質(zhì)量的損傷,對ITU-T G.107建議書提出的語音質(zhì)量預(yù)測模型E-Model中計算丟包與編碼造成的損傷Ie-eff的方法作出改進(jìn),在綜合考慮語音包的內(nèi)部特性和存在突發(fā)連續(xù)丟包情況后,提出利用在固定語音長度下,語音實際損失時間Tloss來衡量語音包丟失造成的語音損傷。仿真結(jié)果表明,相比原有模型,改進(jìn)后的模型得到的語音質(zhì)量評分同主觀語音質(zhì)量評估方法(perceptual evaluation of speech quality,PESQ)評分相比,皮爾森相關(guān)系數(shù)平均提高了0.045 8,均方根誤差平均降低了0.053 4,改進(jìn)后的E-Model模型在評價語音質(zhì)量時與PESQ更具有一致性,可以更為準(zhǔn)確地預(yù)測VoIP通信的語音質(zhì)量。
基于IP的語音傳輸(VoIP);E-Model;語音包;丟包
E-Model是國際電信聯(lián)盟遠(yuǎn)程通信標(biāo)準(zhǔn)化組織(ITU telecommunication standardization sector,ITU-T)在G.107建議書中提出的用來預(yù)測基于IP傳輸?shù)?voice over internet protocol,VoIP)語音質(zhì)量的一種方法,通過將影響VoIP語音質(zhì)量的主要因素(如延時、抖動、回音、編碼器性能、丟包等)進(jìn)行量化后得到最終的語音質(zhì)量量化值,這種方法的優(yōu)點是能夠直觀地分析影響VoIP語音質(zhì)量的相關(guān)因素,缺點是不夠準(zhǔn)確[1]。由文獻(xiàn)[2]可知,在實際網(wǎng)絡(luò)的傳輸過程中,語音包丟失是影響VoIP語音質(zhì)量的主要因素,文獻(xiàn)[3]結(jié)合主觀語音質(zhì)量評估方法(perceptual evaluation of speech quality,PESQ)(ITU-T P.862建議書提供的主觀語音質(zhì)量評估方法)對丟包損傷進(jìn)行了重新擬合,由于并未考慮到數(shù)據(jù)包類型的影響,其采用丟包率來評價丟包造成的損傷會造成很大的誤差。由文獻(xiàn)[4]可知,目前基于IP傳輸?shù)耐ㄐ畔到y(tǒng)在應(yīng)用中廣泛采用了靜音抑制(voice activity detection,VAD)技術(shù),實際通話網(wǎng)絡(luò)中的數(shù)據(jù)包可分為語音包和靜音包,而靜音包和語音包的丟失對VoIP語音質(zhì)量的損傷是不一樣的;由文獻(xiàn)[5]可知,語音包的打包幀數(shù)隨著網(wǎng)絡(luò)負(fù)載的變化也在不斷變化,如果采用丟包率來衡量語音質(zhì)量,很顯然會造成評估語音質(zhì)量時不夠準(zhǔn)確;每次網(wǎng)絡(luò)通話的丟包分布情況是不一樣的,相同丟包率下連續(xù)突發(fā)丟包對語音質(zhì)量的損傷顯然要大于短時多次丟包對語音質(zhì)量的損傷[6]。
針對以上問題,文獻(xiàn)[7]提出在丟包率的基礎(chǔ)上引入了丟包次數(shù)來減小由于突發(fā)連續(xù)丟包造成的誤差,這種方法雖然減小了部分誤差,卻沒有根本性地解決問題。文獻(xiàn)[8-9]通過對包頭信息的分析將數(shù)據(jù)包類型進(jìn)行了區(qū)分,去除了靜音包的影響,使計算結(jié)果更為準(zhǔn)確,但是并其沒有考慮到由于語音包打包幀數(shù)差異造成的影響。本文提出利用固定語音長度下的語音實際損失時間Tloss來衡量丟包造成的損傷Iloss,這種方法能夠很好地解決以上的問題,具體的思路是:首先,通過對數(shù)據(jù)包的包頭分析,區(qū)分出數(shù)據(jù)包類型,去除靜音包的干擾;再參考丟包前后的包類型對已經(jīng)丟失數(shù)據(jù)包的類型進(jìn)行預(yù)測;然后,計算出由于丟包造成的語音實際損失時間Tloss,將PESQ測得的平均意見值(mean opinion score,MOS)轉(zhuǎn)化為Iloss;最后,通過擬合獲得Tloss和Iloss的映射關(guān)系式。對于突發(fā)丟包情況,本文將突發(fā)丟包模式下的語音實際損失時間Tl轉(zhuǎn)化為短時丟包模式下的虛擬語音損失時間進(jìn)行計算,避免由于連續(xù)突發(fā)丟包帶來的評估誤差。
E-Model在ITU-T規(guī)范G.107建議書中定義為一個端到端的語音質(zhì)量計算模型,其計算結(jié)果是一個R值,基本公式為
R=R0-Is-Id-Ie-eff-Ij+A
(1)
(1)式中:R0為基本信噪比,表示在沒有網(wǎng)絡(luò)延時、丟包、回聲、抖動以及環(huán)境噪聲等影響下的信噪比;Is表示語音傳輸時所產(chǎn)生的同步損傷;Id表示語音信號在傳輸時帶來的延時所造成的損傷;Ie-eff為語音編碼解碼和丟包造成的損傷;Ij為延時抖動造成的損傷;A為優(yōu)勢補償因素,一般取值[10]為0。
E-Model模型中原有Ie-eff的計算公式為
(2)
(2)式中:Ie為語音編解碼損傷;Ppl為丟包率;Bpl表示與語音編解碼相關(guān)的信息包丟失強度系數(shù),以音頻編碼G.711為例,G.113中對該編碼方式給出的Bpl建議值為25.1;BurstR表示網(wǎng)絡(luò)丟包突發(fā)比率,一般取值[11]為1。
在ITU-TP.800和P.830中定義了衡量通信系統(tǒng)語音質(zhì)量的重要指標(biāo)MOS值,不管采用何種語音質(zhì)量評價方法最終都會對應(yīng)到具體的MOS分?jǐn)?shù)值[12]。E-Model中計算出的R值最終可以根據(jù)(3)式轉(zhuǎn)換成通用的評估分?jǐn)?shù)MOS分值,表示為
0 R≥100 (3) 為了能夠方便地對2種方法進(jìn)行比較,本文利用泰勒公式對(3)式的反函數(shù)進(jìn)行逼近,生成了一個簡化的三次多項式,該三次多項式產(chǎn)生的R值誤差正負(fù)不超過2.8,因此,可以利用(4)式將MOS值轉(zhuǎn)化為R值,表示為 (4) 2.1 靜音檢測 在實際的網(wǎng)絡(luò)傳輸中可以根據(jù)數(shù)據(jù)包的包頭信息來判斷數(shù)據(jù)包的類型,在接收端從接收到的數(shù)據(jù)包的包頭信息提取時間戳Ti,數(shù)據(jù)包有效載荷的持續(xù)時間可以用該數(shù)據(jù)包與相鄰數(shù)據(jù)包的時間戳差值表示為 Tr=Ti-Ti-1 (5) 由于自適應(yīng)多速率(adaptive multi-rate,AMR)音頻編碼器產(chǎn)生的每幀持續(xù)時間固定為Tl,因而可以得到數(shù)據(jù)包包含的幀數(shù)為 (6) 利用數(shù)據(jù)包頭信息可以得到數(shù)據(jù)包的有效載荷長度l1,再通過計算可以得到每幀的編碼字節(jié)數(shù)為 (7) ARM音頻編碼器產(chǎn)生的靜音幀編碼字節(jié)數(shù)遠(yuǎn)遠(yuǎn)小于語音幀的編碼字節(jié)數(shù),一般靜音幀的編碼字節(jié)數(shù)僅為6或1,可以根據(jù)編碼字節(jié)數(shù)u來區(qū)分是語音幀還是靜音幀。對于已經(jīng)丟失的數(shù)據(jù)包,可以利用語音信號具有短時相關(guān)性來預(yù)測丟失包的類型,主要通過相鄰未丟失包的類型來判斷丟失包的類型,如果丟失包前后相鄰的2個包為語音包則將丟失包類型判斷為語音包;反之,如果為靜音包,則將丟失包類型判斷為靜音包;如果丟失包前后相鄰2個包類型不一致,則將丟失包類型判斷為語音包,因為實際傳輸中的數(shù)據(jù)包絕大多數(shù)為語音包。 2.2 丟包失真評價 在實際通話中,不同數(shù)據(jù)包的丟失對語音質(zhì)量的影響是不一樣的,丟包對語音質(zhì)量的實際損傷受到丟包率和丟失包類型的雙重影響,相同丟包率條件下,靜音包和語音包丟失對語音質(zhì)量的影響如圖1所示。 在對Ie-eff進(jìn)行計算時,分別考慮語音編解碼損傷和丟包造成的損傷2個部分。在實際語音編解碼時,不管采用的是何種方式都會對語音質(zhì)量帶來損傷,因此,在計算Ie-eff時保留編解碼造成的損失Ie部分。對于丟包造成的語音損傷本文不再用丟包率作為衡量標(biāo)準(zhǔn),而是將原有的丟包率替換為丟包造成的語音實際損失時間Tloss,通過擬合獲得語音實際損失時間Tloss與由于丟包造成的語音損傷Iloss之間的映射關(guān)系,改進(jìn)后的E-Model模型的Ie-eff可表示為 Ie-eff=Ie+Iloss=Ie+f(Tloss) (8) 圖1 相同丟包率條件下靜音包和語音包丟失對語音質(zhì)量的影響Fig.1 Effect of silent packet loss and voice packet loss to voice quality under the same packet loss rate 利用(1)式求解丟包造成的語音損傷Iloss步驟如下。 步驟1 選取通話語音片段,利用PESQ對語音質(zhì)量進(jìn)行評價,得出相應(yīng)的MOS分?jǐn)?shù)值。 步驟2 將MOS值代入到(4)式計算出R值,利用(9)式計算出延時損傷Id,Is和Ij的取值使用G.107推薦的默認(rèn)值,分別為6.4和0.8。 Id=0.024d+0.11(d-177.3)H(d-177.3) (9) (9)式中,當(dāng)x<0時,H(x)=0;當(dāng)x≥0時,H(x)=1。 步驟3 將步驟2中計算出的參數(shù)值分別代入到(1)式中便可以計算出Ie-eff,編解碼造成的語音損傷Ie相對較小,以音頻編碼G.711為例, G.107推薦的Ie默認(rèn)值為0.3,再利用(8)式便可計算出丟包造成的語音損傷Iloss。 設(shè)某一次通話中語音的采樣頻率為fs,每個采樣值采用N比特位來編碼,則原始編碼速率為R=Nfs,利用包頭信息提取的語音包序列號分別為1,2,3,…,n,編碼碼速率壓縮比為r1,r2,…,rn,載荷部分長度分別為l1,l2,…,ln,假設(shè)傳輸過程中丟失的語音包為x1,x2,…,xm,m≤n。這樣,語音實際損失的碼流長度為 (10) 由于語音時長=語音碼流長度/原始編碼速率,則語音的實際損失時間可表示為 (11) (11)式中,Tloss的單位為ms。對于丟包造成的語音的實際損失時間Tloss與丟包造成的語音損傷間的映射關(guān)系可以建模為 (12) (12)式中,c1~c4均為常數(shù),c1~c4的計算方法如圖2所示。 但在實際的數(shù)據(jù)包傳輸中存在著突發(fā)連續(xù)丟包現(xiàn)象,相同丟包率下,突發(fā)連續(xù)丟包顯然比短時多次丟包對語音質(zhì)量的損傷更大,在這種情況下,如果直接將Tloss代入到(12)式中,計算出的語音損傷便會存在誤差,因此,在實際計算中需要在突發(fā)丟包和隨機丟包之間建立一種等價的轉(zhuǎn)換的關(guān)系式,即將連續(xù)突發(fā)丟包情況下的實際丟包損失時間轉(zhuǎn)換為虛擬的短時丟包模式下的損失時間。為了研究突發(fā)丟包和短時丟包之間的關(guān)系,實驗分別設(shè)置不同的突發(fā)長度,并利用PESQ測得不同突發(fā)長度下的語音質(zhì)量MOS值,再將記錄下的MOS值利用(1)式和(4)式計算出Iloss,將Iloss代入到(12)式,解得Tloss,即為該突發(fā)丟包長度下的虛擬的短時丟包語音損失時間。虛擬的短時丟包語音損失時間Tv與突發(fā)連續(xù)丟包時語音實際損失時間Tl的關(guān)系如圖3所示,兩者成線性關(guān)系 Tv=c5Tl+c6 (13) (13)式中:Tl為連續(xù)突發(fā)丟包下的實際語音損失時間,Tl≥20 ms;c5,c6為待定系數(shù)。以G.711編碼方式為例,c5,c6的具體數(shù)值可以通過圖3的數(shù)據(jù)最小二乘擬合得到,分別為c5=1.724 8,c6=-4.942 9。 圖3 連續(xù)突發(fā)丟包和短時丟包下的語音損失時間關(guān)系Fig.3 Time relation of voice loss under continuous burst loss and short time packet loss 綜上所述,當(dāng)語音包丟失為短時丟包時可以直接利用(11)式計算出丟包造成的語音實際損失時間Tloss,再將計算出的Tloss代入到(12)式計算出語音的實際損傷,當(dāng)出現(xiàn)突發(fā)連續(xù)丟包時,應(yīng)利用(13)式將連續(xù)丟包造成的語音實際損失時間Tloss轉(zhuǎn)化為虛擬的短時丟包造成的語音損失時間Tv,再利用(12)式計算出語音的實際損傷。 為了測試修改后模型的性能,實驗使用了3個開源軟件:ITU-T PESQv2.0,Openphone和Voicebox matlab,從ITU-T語音數(shù)據(jù)庫supplement23中隨機選取10個男聲和10個女聲語音文件。為了確保實驗的準(zhǔn)確性,需要分別對20個語音樣本進(jìn)行測試,實驗將壓縮碼流打包后模擬網(wǎng)絡(luò)短時、多次丟包情況進(jìn)行發(fā)送,不斷對丟包率調(diào)整,最后對生成的語音進(jìn)行測試。以G.711編碼方式為例,采用的語音壓縮算法為ulaw,語音時長為8.2 s,將固定測試語音長度設(shè)置為2 s,為了方便測得短時丟包模式下的語音實際損失時間與語音質(zhì)量的關(guān)系,實驗將E-Model模型中其他參數(shù)設(shè)置為ITU-TG.107中推薦使用的默認(rèn)值,則(1)式可變?yōu)?/p> Iloss=92.8-Id-R (14) 利用圖2提供的方法,測得短時丟包情況下語音實際損失時間Tloss與丟包損傷Iloss的關(guān)系如圖4所示。 圖4 語音實際損失時間Tloss與丟包損傷Iloss的關(guān)系Fig.4 Relationship between real time loss Tlossand packet loss Iloss 則c1=0.838 0,c2= 0.5001,c3=-2×10-3,c4=3.125×10-6,Iloss與Tloss的映射關(guān)系式為 (15) 如果在傳輸過程中存在連續(xù)突發(fā)丟包情況,則利用(13)式將連續(xù)突發(fā)丟包模式下的實際語音損失時間轉(zhuǎn)換為短時丟包模式下的虛擬語音損失時間再進(jìn)行計算,這樣可以盡量避免由于丟包分布不同帶來的語音質(zhì)量評估誤差。 為了驗證改進(jìn)后模型在實際情況下的性能,將改進(jìn)后的E-Model模型與原模型進(jìn)行了比較,實驗?zāi)M采用VAD技術(shù)的VoIP通話過程加入了部分靜音包,同時,模擬連續(xù)突發(fā)丟包情況對語音進(jìn)行了預(yù)處理,對20個語音樣本總共進(jìn)行了500次測試,然后將PESQ測得的MOS分?jǐn)?shù)值作為參考,分別將改進(jìn)前后的E-Model模型估算的MOS值與PESQ測得的MOS值進(jìn)行比較,改進(jìn)后的E-Model模型同原模型對比散點圖如圖5所示。 由圖5a,圖5b可以看出,圖5b中的MOS分?jǐn)?shù)值比圖5a更加集中在對角線附近,因此,修改后的E-Model模型在評價語音質(zhì)量時與PESQ更具有一致性。 為了更加準(zhǔn)確地比較改進(jìn)前后的E-Model性能,選取皮爾森相關(guān)系數(shù)(pearson correlation coefficient,PCC)和均方根誤差(root-mean-square error,RMSE)作為評價模型性能的指標(biāo)。表1給出了改進(jìn)前后模型的具體性能。 表1 模型性能比較 可以看到,改進(jìn)后的模型同原模型相比,PCC平均提高了0.045 8,同時,RMSE平均降低了0.053 4,因此,改進(jìn)后的E-Model模型在性能上明顯優(yōu)于原來的模型。 圖5 PESQ評分與修改前后的E-Model模型對比散點圖Fig.5 Compare scatter plots between the scores acquired by PESQ vs the scores predicted by the E-Model or improved E-Model 綜上所述,改進(jìn)后的E-Model模型表現(xiàn)最突出的3點:①對采用VAD技術(shù)的VoIP而言,能夠去除由于丟失的語音包中存在靜音包而帶來的語音質(zhì)量評估誤差;②在評估語音質(zhì)量時能夠避免由于語音包打包幀數(shù)不同造成的評估誤差;③為研究VoIP語音丟包分布對語音質(zhì)量的影響提供了一條新的途徑。 [1] 胡志國,張大陸,張俊升. 一種VoIP語音質(zhì)量評價模型[J]. 計算機科學(xué),2011,38(5):49-54. HU Zhiguo,ZHANG Dalu,ZHANG Junsheng. Perceived Speech Quality Estimation Model for VoIP-based Networks[J].Computer Science,2011,38(5):49-54. [2] 李騰,楊霄鵬,楊朝陽. 基于模糊邏輯控制的VoIP 抖動緩沖控制算法[J]. 重慶郵電大學(xué)學(xué)報:自然科學(xué)版,2015,27(1):117-122. LI Teng,YANG Xiaopeng,YANG Zhaoyang. Adaptive jitter buffer algorithm of VoIP using fuzzy logic control[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition,2015,27(1):117-122. [3] WUTTIDITTACHOTTI P,DAENGSI T. VoIP-quality of experience modeling:E-model and simplified E-model enhangcement using bias factor[J]. Multimedia Tools and Applications,2016,21(2):1-26. [4] 胡斌,黃冰,伍建輝,等.自適應(yīng)多速率語音編碼中VAD2算法的改進(jìn)及仿真[J].桂林電子科技大學(xué)學(xué)報,2010,30(2):118-121. HU Bin,HUANG Bin,WU Jianhui,et al.Simulation and improvement of VAD2 in AMR[J]. Journal of Guil in University of El ectronic Technology,2010,30(2):118-121. [5] 李騰,楊霄鵬,楊朝陽. 基于E-Model的語音幀分組傳輸性能研究[J]. 測控技術(shù),2014,33(5):35-39. LI Teng,YANG Xiaopeng,YANG Zhaoyang.Analysis on the Transmission Perference of Grouping Voice Frame Based on Extended E-Model[J]. Measurement & Control Technology,2014,33(5):35-39. [6] TIAN Hui,ZHOU Ke,F(xiàn)ENG Dan. Dynamic matrix encoding strategy for voice over IP steganography[J]. J Cent South Univ Technol,2010,22(17):1285-1292. [7] VOZNAK M. Non-instrusive speech quality assessment in simplified E-model[J].WSEAS Transactions on Systems,2012,11(8):315-325. [8] YANG Fuzheng,JIANG Liangliang,LI Xiao. Real-time quality assessment for voice over IP[J]. Concurrency and Computation:Practice and Experience,2012,24(11):1192-1199. [9] EGI N,HAYASHI T,TAKAHASHI A. Parametric packet-layer model for evaluation audio quality in multimedia streaming services[J].IEICE Ttransadtions on Communications,2010,E93-B(6):1359-1366. [11] 江亮亮,李雪敏,楊付正.引入內(nèi)容特性分析的包層語音質(zhì)量評價模型[J].四川大學(xué)學(xué)報:工程科學(xué)版,2013,45(3):103-107. JIANG Liangliang,LI Xuemin,YANG Fuzheng. A Packet-layer Model for Speech Quality Assessment Introducing the Analysis of Content Feature[J]. Journal of Sichuan University:Engineering Science Edition,2013,45(3):103-107. [12] de PESSEMIER Toon,STEVENS Isabelle,de MAREZ Lieven,et al. Quality assessment and usage behavior of a mobile voice-over-IP service[J]. Telecommunication Systems,2016,61(3):417-432. (編輯:王敏琦) Improved E-Model of speech quality evaluation model based on packet analysis YANG Yingjie1,ZHAO Wanma1,WANG Chong2 (1. College of Information Engineering,Northeast Dianli University,Jilin 132012,P.R.China;2. State Grid East Inner Mongolia Electric CO.LTD. Information & Telecommunication Branch Company,Hohhot 010020,P.R.China) In order to evaluate the voice quality damage of IP-based voice over internet protocol (VoIP) caused by the loss of voice packets more accurately, we improved the method of calculatingIe-eff, (the damage caused by encoding, decoding and packet loss) in E-Model proposed by ITU-T G.107 recommendations. After considering the internal characteristics of voice package and the situation of unexpected continuous packet loss, we proposed to useTloss, the actual loss time of voice using fixed voice length, to measure the voice damage caused by the loss of voice packet. The simulation results show that compared with the original model, the pearson’s correlation coefficient between the voice quality value using the improved model and the value using perceptual evaluation of speech quality (PESQ) are improved by an average of 0.045 8, and the RMSE are reduced by an average of 0.053 4. Therefore, the improved E-Model is more consistent with PESQ, and more accurate to predict the quality of VoIP voice communication. voice over internet protocol (VoIP);E-Model;voice packet;packet loss 10.3979/j.issn.1673-825X.2017.02.002 2016-03-02 2016-06-10 通訊作者:趙萬馬 393379487@qq.com TN912 A 1673-825X(2017)02-0149-06 楊英杰(1956-),男,吉林人,副教授,研究生導(dǎo)師,主要研究方向為電力系統(tǒng)通信、超寬帶。E-mail:yyj56042@163.com。 趙萬馬(1990-),男,江蘇鹽城人,碩士研究生,主要研究方向為電力系統(tǒng)通信、超寬帶。E-mail:393379487@qq.com。 王 沖(1988-),男,遼寧本溪人,國網(wǎng)蒙東電力有限公司信息通信分公司專責(zé),主要研究方向為電力系統(tǒng)信息化、電力信息調(diào)度、超寬帶。2 對E-Model的改進(jìn)
3 仿真實驗與結(jié)果
4 結(jié)束語