魏耀都,謝湘,匡鏡明,韓辛璐
(北京理工大學(xué) 信息與電子學(xué)院,北京 100081)
進(jìn)入 21世紀(jì),多媒體通信的蓬勃發(fā)展使溝通和交流變得更加輕松方便,然而多媒體業(yè)務(wù)的質(zhì)量卻參差不齊,在信道不穩(wěn)定時(shí)常常無(wú)法提供讓人滿(mǎn)意的質(zhì)量。對(duì)多媒體質(zhì)量進(jìn)行準(zhǔn)確的評(píng)價(jià)能夠規(guī)范多媒體服務(wù)水平,促進(jìn)行業(yè)健康發(fā)展?,F(xiàn)有的多媒體質(zhì)量評(píng)價(jià)方法集中在單獨(dú)對(duì)視頻或者音頻的評(píng)價(jià)上,然而在大多數(shù)多媒體業(yè)務(wù)中用戶(hù)都會(huì)同時(shí)使用音頻和視頻,因此對(duì)音視頻質(zhì)量進(jìn)行綜合評(píng)價(jià)能夠更準(zhǔn)確地描述用戶(hù)感知體驗(yàn)。
目前,國(guó)際上對(duì)音視頻質(zhì)量綜合評(píng)價(jià)已經(jīng)有一些研究,Andrew Rimell等分析了音視頻質(zhì)量間的相互影響[1],Hands提出了一種基本的音視頻質(zhì)量評(píng)價(jià)模型[2],該模型在音視頻同步的假設(shè)下提出,當(dāng)音視頻不同步時(shí)沒(méi)有給出評(píng)價(jià)方法。對(duì)音視頻同步感知質(zhì)量的研究可以完善現(xiàn)有音視頻質(zhì)量評(píng)價(jià)模型。
在對(duì)音視頻同步的研究方面,Steinmetz定義了同步、失步和暫態(tài)區(qū)間,用于描述感知質(zhì)量在不同同步誤差范圍內(nèi)的性質(zhì)[3]。隨后針對(duì)幾種音視頻研究了同步區(qū)間的寬度,結(jié)果表明同步區(qū)間的寬度受到音視頻內(nèi)容的影響。但 Steinmetz沒(méi)有指出如何在內(nèi)容和感知質(zhì)量之間建立聯(lián)系。Nishibori等利用格式塔心理學(xué)中的同時(shí)性和同向性作為判斷音頻與視頻事件是否出自同一事件的準(zhǔn)則[4]。Bredin等總結(jié)了音頻和視頻相關(guān)性的衡量方法[5]。在音視頻相關(guān)性的基礎(chǔ)上,Gillet和Liu等分別提出了自動(dòng)恢復(fù)音視頻同步的方法[6,7]。Enrique等利用隱馬爾科夫模型和協(xié)慣量分析(CoIA, co-inertia analysis)對(duì)失步的音視頻進(jìn)行自動(dòng)同步[8]。Eveno等通過(guò)對(duì)同步的檢測(cè)設(shè)計(jì)了一種活性評(píng)分機(jī)制,用以檢測(cè)語(yǔ)音是否由視頻中的人物實(shí)時(shí)說(shuō)出[9]。Kumar等研究了臉部正面圖像與語(yǔ)音的同步檢測(cè)方法[10]。雖然目前已經(jīng)有多種自動(dòng)恢復(fù)同步的方法,但實(shí)際業(yè)務(wù)中仍然常會(huì)出現(xiàn)音視頻同步誤差,所以仍然需要在質(zhì)量評(píng)價(jià)模型中加入同步質(zhì)量評(píng)價(jià)指標(biāo)。然而目前對(duì)音視頻同步的研究并沒(méi)有對(duì)同步誤差與感知質(zhì)量之間的關(guān)系進(jìn)行分析。
本文針對(duì)QVGA分辨率的視頻進(jìn)行研究。首先將待測(cè)序列的音視頻分別與參考序列進(jìn)行對(duì)齊,利用對(duì)齊結(jié)果得到待測(cè)序列的同步誤差。由于感知質(zhì)量受到音視頻內(nèi)容的影響,所以根據(jù)音頻內(nèi)容將音視頻分為純凈語(yǔ)音、無(wú)語(yǔ)音和有背景語(yǔ)音3類(lèi),純凈語(yǔ)音類(lèi)進(jìn)一步劃分為視頻中出現(xiàn)說(shuō)話(huà)人和不出現(xiàn)說(shuō)話(huà)人2個(gè)子類(lèi)。對(duì)各類(lèi)分別提取不同的特征。利用CoIA尋找使音頻和視頻特征協(xié)方差最大的映射,并將該映射結(jié)果的協(xié)方差系數(shù)作為相關(guān)程度參數(shù)。將參考序列的音頻進(jìn)行小范圍的移位,每次移位后均進(jìn)行CoIA計(jì)算,從而得到相關(guān)程度參數(shù)曲線。利用該曲線估計(jì)同步誤差與感知質(zhì)量之間的映射關(guān)系,從而在主觀質(zhì)量與同步誤差之間建立質(zhì)量評(píng)價(jià)模型。模型中各參數(shù)由主觀實(shí)驗(yàn)結(jié)果確定。為驗(yàn)證模型有效性,選擇不同類(lèi)型的序列進(jìn)行了驗(yàn)證實(shí)驗(yàn),驗(yàn)證結(jié)果表明本模型與主觀質(zhì)量有較好相關(guān)性。
人類(lèi)對(duì)音視頻是否同步的判斷主要依靠視頻事件和對(duì)應(yīng)的音頻事件是否同時(shí)發(fā)生,因此本模型通過(guò)計(jì)算音頻和視頻特征在時(shí)間上的關(guān)聯(lián)對(duì)感知質(zhì)量進(jìn)行估計(jì)。評(píng)價(jià)模型包括2部分,第1部分獲得同步誤差,第2部分通過(guò)對(duì)音視頻內(nèi)容的分析獲得同步誤差與感知質(zhì)量之間的映射關(guān)系,從而通過(guò)同步誤差對(duì)感知質(zhì)量進(jìn)行估計(jì)。
計(jì)算音視頻的同步誤差需要使用參考序列。假設(shè)參考序列的音視頻完全同步,根據(jù) ITU-T P.931標(biāo)準(zhǔn)建議的方法將待測(cè)序列的視音頻分別與參考序列進(jìn)行對(duì)齊,從而得到視頻延遲的幀數(shù)fvideo和音頻延遲的幀數(shù)faudio。若相鄰視頻幀間隔時(shí)間為tvideo,音頻幀長(zhǎng)度為taudio,則待測(cè)序列的音視頻同步誤差tskew為
其中,tskew為負(fù)值時(shí)表示音頻的播放領(lǐng)先于視頻,為正值時(shí)表示視頻的播放領(lǐng)先于音頻。
感知質(zhì)量通常采用平均意見(jiàn)分(MOS,mean opinion score)進(jìn)行定量描述。MOS的評(píng)分范圍一般為5等級(jí)。然而主觀評(píng)價(jià)中測(cè)試人對(duì)評(píng)分表兩端的使用較為慎重,導(dǎo)致實(shí)際評(píng)分的可區(qū)分度不高。因此本評(píng)價(jià)模型采用9等級(jí)評(píng)分,在獲得評(píng)價(jià)數(shù)據(jù)之后對(duì) MOS分值進(jìn)行去除隱含參考條件操作(HRR,hidden reference removal),得到ACR-HRR分值。ACR-HRR分值能夠提供與使用失真等級(jí)評(píng)定(DCR,differential category rating)方法進(jìn)行實(shí)驗(yàn)相同的信息,同時(shí)使測(cè)試時(shí)間僅為 DCR實(shí)驗(yàn)的一半[11]。
音視頻的特征通常為多維異構(gòu)特征,對(duì)多維異構(gòu)特征的關(guān)聯(lián)性計(jì)算方法有典型相關(guān)方法(CANCOR, canonical correlation)和 CoIA 方法。CANCOR方法可以從多維特征中找到相關(guān)系數(shù)最大的映射,CoIA可以找到協(xié)方差最大的映射,二者都可以分析音頻與視頻的關(guān)聯(lián)。CoIA由Doledec和 Chessel在關(guān)于物種與環(huán)境關(guān)系的研究中提出,但直到近年才被引入到多媒體分析中[12]。CoIA能夠?qū)?個(gè)具有不同維數(shù)的多元隨機(jī)變量X、Y尋找到矩陣A和B,使得X和Y分別在A和B上的投影具有最大的協(xié)方差。Enrique等人給出了CoIA的詳細(xì)計(jì)算過(guò)程,隨后比較了CANCOR與CoIA 2種方法在音視頻同步分析中的效果,結(jié)果表明 CoIA更適于分析音視頻之間的關(guān)聯(lián)性[8]。另一方面,CANCOR的計(jì)算中需要多次對(duì)音視頻特征的協(xié)方差矩陣求逆,在協(xié)方差矩陣不可逆的情況下無(wú)法求得結(jié)果。而CoIA則不需要求逆矩陣,適用性更好。因此本模型采用CoIA進(jìn)行音視頻關(guān)聯(lián)性的計(jì)算。
由于音視頻內(nèi)容對(duì)同步感知質(zhì)量有明顯的影響,所以需要對(duì)內(nèi)容進(jìn)行分類(lèi),根據(jù)各類(lèi)的性質(zhì)分別構(gòu)建評(píng)價(jià)模型[3],分類(lèi)方法如圖1所示。視頻的內(nèi)容非常靈活,分類(lèi)方法和所分類(lèi)別眾多;對(duì)視頻內(nèi)容進(jìn)行自動(dòng)識(shí)別和歸類(lèi)所需要的計(jì)算資源較多,同時(shí)可識(shí)別的種類(lèi)很少,因此很難根據(jù)視頻內(nèi)容對(duì)音視頻進(jìn)行有效的分類(lèi)。然而音頻信號(hào)的分析、識(shí)別與歸類(lèi)則較為容易。同時(shí),語(yǔ)音在人類(lèi)感知中有著特殊的作用,人類(lèi)對(duì)語(yǔ)音和唇型的同步感知比其他內(nèi)容更為敏感。因此根據(jù)音頻內(nèi)容將音視頻分為3類(lèi):純凈語(yǔ)音類(lèi)、無(wú)語(yǔ)音類(lèi)和有背景語(yǔ)音類(lèi),其中純凈語(yǔ)音類(lèi)根據(jù)視頻內(nèi)容中是否出現(xiàn)與語(yǔ)音對(duì)應(yīng)的嘴進(jìn)一步分為有說(shuō)話(huà)人和無(wú)說(shuō)話(huà)人2個(gè)子類(lèi)。
圖1 音視頻內(nèi)容分類(lèi)
由于語(yǔ)音只能由嘴的運(yùn)動(dòng)發(fā)出,嘴部視頻與其所發(fā)出的語(yǔ)音具有很強(qiáng)的關(guān)聯(lián)性,所以唇型與語(yǔ)音的不同步很容易被察覺(jué)。而當(dāng)視頻中沒(méi)有出現(xiàn)與語(yǔ)音對(duì)應(yīng)的唇型時(shí),語(yǔ)音與視頻內(nèi)容的關(guān)聯(lián)性則較弱,用戶(hù)對(duì)同步誤差也較為不敏感。因此純凈語(yǔ)音類(lèi)根據(jù)視頻中是否出現(xiàn)與語(yǔ)音相對(duì)應(yīng)的嘴分為2個(gè)子類(lèi):有說(shuō)話(huà)人和無(wú)說(shuō)話(huà)人。由于視頻鏡頭切換可能會(huì)造成視頻中人物的變化,所以對(duì)純凈語(yǔ)音類(lèi)的評(píng)價(jià)以一個(gè)視頻鏡頭為單位進(jìn)行。
造成視頻中沒(méi)有說(shuō)話(huà)人的原因有2種:①視頻中的人物在聽(tīng)鏡頭外其他人說(shuō)的話(huà),例如正在聽(tīng)記者問(wèn)題的被采訪對(duì)象;②視頻中不存在人物或者沒(méi)有清晰可辨的嘴,例如視頻為風(fēng)光或者體育節(jié)目中的遠(yuǎn)景鏡頭。在這2種情況下語(yǔ)音與視頻內(nèi)容都不存在嚴(yán)格的時(shí)間關(guān)聯(lián),音視頻同步誤差tskew的增大對(duì)主觀質(zhì)量分值(ACR_HRR)的影響較小。所以無(wú)說(shuō)話(huà)人子類(lèi)的評(píng)價(jià)模型采用一條較為平坦的高斯曲線來(lái)進(jìn)行描述。
其中,σ為高斯曲線的標(biāo)準(zhǔn)差。
嘴部特征可以分為形狀特征和整體特征,形狀特征包括嘴的高度、寬度、面積和輪廓等,整體特征包括DCT系數(shù)等。Bredin等比較了2種特征與音頻的相關(guān)性,結(jié)果表明采用整體特征優(yōu)于形狀特征[5]。因此對(duì)于有說(shuō)話(huà)人子類(lèi),首先進(jìn)行嘴部檢測(cè)找到視頻中嘴部的位置。對(duì)每個(gè)鏡頭分別用一個(gè)包含嘴部的固定尺寸矩形作為嘴部范圍,對(duì)嘴部矩形范圍內(nèi)的亮度圖形進(jìn)行二維8×8 DCT變換后按照Z(yǔ)字型掃描順序選取前30個(gè)DCT系數(shù),這30個(gè)系數(shù)和它們的一、二階差分一起作為視頻特征。
音頻按照 20ms的長(zhǎng)度進(jìn)行分幀,幀間疊接10ms。對(duì)每個(gè)音頻幀計(jì)算短時(shí)能量和梅爾倒譜系數(shù)(MFCC, mel-frequency cepstral coefficients),采用短時(shí)能量和MFCC前12個(gè)系數(shù)及其一、二階倒數(shù)作為音頻特征。由于音頻幀和視頻幀的長(zhǎng)度不同,所以對(duì)每個(gè)視頻幀長(zhǎng)度范圍內(nèi)的音頻特征求平均,使得音頻特征與視頻特征的長(zhǎng)度相同。
將縮短后的音頻特征在±20視頻幀范圍內(nèi)進(jìn)行逐幀移位。每次移位后均對(duì)視頻特征與移位后的音頻特征進(jìn)行協(xié)慣量分析。協(xié)慣量分析的2個(gè)第一維特征為使音頻與視頻特征協(xié)方差最大的映射結(jié)果,將2個(gè)第一維特征的協(xié)方差作為音視頻的相關(guān)程度參數(shù)。通過(guò)音頻的移位可以得到相關(guān)程度參數(shù)曲線,對(duì)該曲線進(jìn)行歸一化。如果音頻與視頻內(nèi)容存在關(guān)聯(lián),相關(guān)程度曲線會(huì)在靠近中心的位置出現(xiàn)凸起,在兩側(cè)逐漸下降;而當(dāng)音視頻內(nèi)容不存在關(guān)聯(lián)時(shí)則不會(huì)出現(xiàn)明顯的凸起[9]。因此本模型通過(guò)相關(guān)程度曲線的凸起程度估計(jì)主觀質(zhì)量隨tskew的上升程度。為描述相關(guān)程度曲線,采用高斯曲線對(duì)其進(jìn)行擬合,擬合公式為
其中,β為相關(guān)程度曲線峰值位置,σobj為標(biāo)準(zhǔn)差,描述了相關(guān)程度曲線的凸起程度。隨后再次利用高斯曲線對(duì)主觀質(zhì)量與 tskew之間的映射關(guān)系進(jìn)行建模,高斯曲線為
其中,σsub由σobj通過(guò)線性或者非線性映射得到。最后通過(guò)待測(cè)序列的音視頻同步誤差tskew得到該序列的感知質(zhì)量ACR-HRR評(píng)分。模型中各參數(shù)通過(guò)主觀實(shí)驗(yàn)結(jié)果確定。
無(wú)語(yǔ)音類(lèi)的評(píng)價(jià)以一個(gè)或數(shù)個(gè)無(wú)語(yǔ)音類(lèi)鏡頭為單位進(jìn)行。評(píng)價(jià)模型的構(gòu)造方法與有說(shuō)話(huà)人子類(lèi)的方法在音視頻特征選取上有明顯的區(qū)別,其余部分完全相同。
在無(wú)語(yǔ)音類(lèi)音視頻當(dāng)中,用戶(hù)通常只在出現(xiàn)鏡頭切換、沖擊音、節(jié)奏變換等音頻或者視頻內(nèi)容有顯著變化的時(shí)刻才會(huì)感受到音視頻的不同步。所以在視頻特征的選取中需要選取能夠反映視頻運(yùn)動(dòng)狀態(tài)變化的特征。運(yùn)動(dòng)矢量的統(tǒng)計(jì)量可以較好地反映視頻內(nèi)容的狀態(tài)[13]。光流法可以提供與運(yùn)動(dòng)矢量類(lèi)似的結(jié)果,同時(shí)能夠反映視頻中光線的變化,利用光流矢量的統(tǒng)計(jì)結(jié)果可以更全面地描述視頻中的運(yùn)動(dòng)狀態(tài)。因此本模型對(duì)于待測(cè)序列首先進(jìn)行鏡頭切換檢測(cè),得到鏡頭切換時(shí)刻。隨后通過(guò)Horn & Schunck方法得到每幀視頻的光流矢量圖。最后統(tǒng)計(jì)光流幅度的方差、光流幅度非零塊的個(gè)數(shù)、非零光流的幅度方差、光流幅度最大2個(gè)塊間的距離。將光流的統(tǒng)計(jì)量與鏡頭切換點(diǎn)一起作為視頻特征。
在音頻中引入Gillet等提出的段落相似程度指標(biāo)[6]。該指標(biāo)比較當(dāng)前時(shí)刻的前后 2段音頻,將 2段音頻的各種特征映射到再生核希爾伯特空間中,在該空間中各特征均可被認(rèn)為服從正態(tài)分布。隨后計(jì)算2段音頻特征分布的Kullback-Leibler距離作為2段音頻的段落相似程度。該指標(biāo)在音頻中旋律和段落變化的時(shí)刻會(huì)出現(xiàn)峰值,從而反映音頻性質(zhì)的改變情況。得到段落相似程度指標(biāo)后進(jìn)行能量檢測(cè),獲得沖擊音發(fā)生的時(shí)刻,同時(shí)進(jìn)行基音檢測(cè)以提取旋律特征。最后計(jì)算音頻響度。將段落指標(biāo)、沖擊音發(fā)生時(shí)刻、基音以及響度作為音頻特征。
在有背景語(yǔ)音類(lèi)中同時(shí)存在著純凈語(yǔ)音和非語(yǔ)音的背景,因此音頻與視頻的相關(guān)性既可以存在于語(yǔ)音與圖像之間又可以存在于非語(yǔ)音的音頻和圖像之間。即有背景語(yǔ)音類(lèi)可以看作純凈語(yǔ)音類(lèi)與非語(yǔ)音類(lèi)的疊加,2種類(lèi)別的音頻與視頻之間的相關(guān)都可以使有背景語(yǔ)音類(lèi)的音頻和視頻之間產(chǎn)生相關(guān)性。因此,有背景語(yǔ)音類(lèi)可以利用純凈語(yǔ)音類(lèi)與無(wú)語(yǔ)音類(lèi)的評(píng)價(jià)模型進(jìn)行評(píng)價(jià)。
首先對(duì)待測(cè)序列的視頻內(nèi)容進(jìn)行判斷,根據(jù)判斷結(jié)果分別使用不同的評(píng)價(jià)模型。如果待測(cè)序列中沒(méi)有出現(xiàn)清晰的嘴,則采用無(wú)語(yǔ)音類(lèi)的方法進(jìn)行評(píng)價(jià);如果待測(cè)序列存在清晰的嘴,但嘴沒(méi)有說(shuō)話(huà),則使用純凈語(yǔ)音類(lèi)中無(wú)說(shuō)話(huà)人子類(lèi)的方法;如果序列中存在說(shuō)話(huà)的嘴則使用純凈語(yǔ)音類(lèi)中有說(shuō)話(huà)人子類(lèi)的方法。
各類(lèi)評(píng)價(jià)模型的流程如圖2所示。
圖2 評(píng)價(jià)模型流程
主觀實(shí)驗(yàn)的測(cè)試環(huán)境符合ITU-T P.911標(biāo)準(zhǔn)的規(guī)定。實(shí)驗(yàn)采用4臺(tái)三星T220P(1920×1200)液晶顯示器進(jìn)行視頻播放。音頻播放使用 4個(gè)Sennhesier HD25耳機(jī)進(jìn)行。視頻序列采用QVGA分辨率在顯示器中央進(jìn)行顯示,顯示器其余部分顯示中灰色作為背景。每組測(cè)試由4名測(cè)試人同時(shí)進(jìn)行,對(duì)各組分別使用不同的隨機(jī)播放順序。根據(jù)ITU-T P.911的建議,測(cè)試人可以在視頻高度的1~8倍距離內(nèi)自行調(diào)節(jié)觀看距離。對(duì)純凈語(yǔ)音類(lèi)的測(cè)試使用32名測(cè)試人,對(duì)無(wú)語(yǔ)音類(lèi)的測(cè)試使用20名測(cè)試人,男女測(cè)試人員各占測(cè)試人數(shù)的一半。測(cè)試人年齡在22~29歲之間,全部具有正常聽(tīng)力、視力或矯正視力且均不是音頻或視頻方面的專(zhuān)家。由于實(shí)驗(yàn)規(guī)模較大,測(cè)試分為3階段進(jìn)行,階段之間均間隔兩周以上。
實(shí)驗(yàn)采用ITU-T P.911建議的9等級(jí)絕對(duì)等級(jí)評(píng)分(ACR, absolute category rating)獲得平均意見(jiàn)分,評(píng)分準(zhǔn)則如圖3所示。在獲得評(píng)價(jià)數(shù)據(jù)之后對(duì)MOS分值進(jìn)行去除隱含參考條件操作得到ACR-HRR分值。
圖3 ACR評(píng)分準(zhǔn)則
測(cè)試序列均由高質(zhì)量源視頻通過(guò)雙3次插值轉(zhuǎn)換為320×240的無(wú)壓縮avi格式視頻。音頻轉(zhuǎn)換為48kHz采樣,16比特量化的PCM單聲道音頻。實(shí)驗(yàn)采用10條有說(shuō)話(huà)人序列、3條無(wú)說(shuō)話(huà)人序列以及5條無(wú)語(yǔ)音序列。測(cè)試序列名稱(chēng)及內(nèi)容在表1中詳細(xì)列出。有背景語(yǔ)音類(lèi)由于可以利用純凈語(yǔ)音類(lèi)與無(wú)語(yǔ)音類(lèi)的評(píng)價(jià)模型,故在本階段實(shí)驗(yàn)中沒(méi)有進(jìn)行測(cè)試,只在驗(yàn)證實(shí)驗(yàn)中進(jìn)行測(cè)試。
將測(cè)試序列的音頻進(jìn)行移位,對(duì)移位后的序列進(jìn)行主觀質(zhì)量的評(píng)分,音頻的移位時(shí)間量分別為±1 000ms、±800ms、±720ms、±640ms、±560ms、±480ms、±400ms、±320ms、±240ms、±160ms、±80ms和0ms。
各序列的ACR-HRR實(shí)驗(yàn)結(jié)果如圖4所示。從圖4可以看出,當(dāng)同步誤差增加時(shí),所有序列的主觀質(zhì)量均下降,下降趨勢(shì)與高斯曲線基本吻合,但下降的速度各不相同,表明內(nèi)容對(duì)評(píng)價(jià)結(jié)果有明顯的影響。所以主觀質(zhì)量曲線可以利用具有不同標(biāo)準(zhǔn)差的高斯函數(shù)進(jìn)行擬合,擬合方法采用非線性最小均方誤差法。擬合結(jié)果在表2中列出,擬合為式(4)。純凈語(yǔ)音類(lèi)擬合的R2>0.8,無(wú)語(yǔ)音類(lèi)R2>0.7。同時(shí)可以看出“對(duì)話(huà)節(jié)目”、“鑒寶節(jié)目”與“足球2”3條序列曲線都非常平坦,如果將3條曲線通過(guò)平移使得中心一致的話(huà),3條曲線的變化趨勢(shì)非常接近,可以用一條固定的高斯曲線對(duì)它們進(jìn)行統(tǒng)一描述。
表1 測(cè)試序列
圖4 測(cè)試結(jié)果
對(duì)有說(shuō)話(huà)人子類(lèi)和無(wú)語(yǔ)音類(lèi),分別對(duì)各測(cè)試序列進(jìn)行移位和協(xié)慣量分析,得到相關(guān)程度曲線,百家講壇、交響樂(lè)會(huì)1和大河之舞3條序列的相關(guān)程度曲線如圖5所示。由于測(cè)試使用的參考序列本身的音視頻并不是完全準(zhǔn)確同步,所以相關(guān)程度曲線的凸起中心有一定偏移。隨后用式(3)對(duì)相關(guān)程度曲線中的凸起部分進(jìn)行擬合。純凈語(yǔ)音類(lèi)與無(wú)語(yǔ)音類(lèi)的σobj與σsub的映射關(guān)系如圖6所示,對(duì)2類(lèi)分別進(jìn)行映射關(guān)系的曲線擬合,純凈語(yǔ)音類(lèi)的擬合式為
無(wú)語(yǔ)音類(lèi)的擬合公式為
圖5 相關(guān)程度曲線
圖 6 σobj與 σsub的映射關(guān)系
無(wú)說(shuō)話(huà)人子類(lèi)各序列的主觀質(zhì)量曲線非常接近,因此采用同樣的高斯曲線對(duì)其進(jìn)行回歸分析,并將擬合得到的曲線直接作為同步誤差與主觀質(zhì)量間的映射曲線。擬合結(jié)果為回歸分析的R2>0.9。
表2 驗(yàn)證實(shí)驗(yàn)測(cè)試序列
圖7 驗(yàn)證實(shí)驗(yàn)結(jié)果
因此,對(duì)于待測(cè)的音視頻序列,可以首先計(jì)算其相關(guān)程度曲線,然后通過(guò)相關(guān)程度曲線得到 σobj對(duì)σsub進(jìn)行估計(jì),從而得到主觀質(zhì)量與同步誤差時(shí)間之間的映射關(guān)系。
為了驗(yàn)證所提出模型的性能,另外選擇了5條有背景語(yǔ)音序列、3條無(wú)語(yǔ)音序列以及3條純凈語(yǔ)音序列使用同樣的測(cè)試人員進(jìn)行了驗(yàn)證實(shí)驗(yàn)。驗(yàn)證實(shí)驗(yàn)的實(shí)驗(yàn)設(shè)計(jì)除測(cè)試序列外與上一次實(shí)驗(yàn)相同。驗(yàn)證實(shí)驗(yàn)的測(cè)試序列內(nèi)容如表 2所示。
圖7顯示了部分序列的高斯曲線擬合結(jié)果,可以看出高斯曲線可以較好地描述主觀測(cè)試結(jié)果。分別利用有說(shuō)話(huà)人子類(lèi)、無(wú)說(shuō)話(huà)人類(lèi)和無(wú)說(shuō)話(huà)人子類(lèi)對(duì)驗(yàn)證實(shí)驗(yàn)各序列的主觀質(zhì)量曲線進(jìn)行客觀估計(jì),估計(jì)結(jié)果如圖7所示。在有背景語(yǔ)音類(lèi)型序列中,演唱會(huì)片斷1和演唱會(huì)片斷2按照有說(shuō)話(huà)人子類(lèi)方法處理,紀(jì)錄片和武打片斷按照無(wú)語(yǔ)音類(lèi)方法處理,閱兵式按照無(wú)說(shuō)話(huà)人子類(lèi)方法處理。由圖7可以看出估計(jì)結(jié)果與主觀曲線本身的擬合結(jié)果很接近,也能較好地描述主觀質(zhì)量曲線。
為了比較評(píng)價(jià)模型的結(jié)果與主觀實(shí)驗(yàn)結(jié)果,分別計(jì)算主觀質(zhì)量擬和曲線與評(píng)價(jià)模型擬和曲線對(duì)主觀質(zhì)量曲線之間的均方根誤差。各序列的均方根誤差比較結(jié)果如表3所示。
表3 均方根誤差比較
從表3可以看出,用高斯曲線對(duì)主觀評(píng)價(jià)結(jié)果進(jìn)行擬和可以獲得較小的均方根誤差,說(shuō)明高斯曲線可以較好地?cái)M和主觀質(zhì)量隨同步誤差時(shí)間增加而下降的趨勢(shì)??陀^擬和曲線與主觀實(shí)驗(yàn)結(jié)果的均方根誤差與主觀擬和曲線非常接近,表明所提出的模型可以較好地對(duì)各種類(lèi)型的音視頻序列進(jìn)行同步質(zhì)量估計(jì)。
對(duì)音視頻質(zhì)量進(jìn)行評(píng)價(jià)需要對(duì)各種導(dǎo)致質(zhì)量下降的因素進(jìn)行定量分析。音視頻不同步作為當(dāng)前音視頻業(yè)務(wù)常見(jiàn)的失真方式之一,將導(dǎo)致用戶(hù)的感知體驗(yàn)受到損傷,從而降低音視頻質(zhì)量。已有的研究集中在如何對(duì)音視頻質(zhì)量進(jìn)行融合上,對(duì)同步帶來(lái)的損傷沒(méi)有進(jìn)行定量的分析與描述。
本文提出一種利用協(xié)慣量分析進(jìn)行的全參考音視頻同步質(zhì)量感知評(píng)價(jià)模型,模型通過(guò)對(duì)齊算法獲得音視頻同步的時(shí)間誤差,隨后針對(duì)不同類(lèi)型音視頻內(nèi)容,通過(guò)協(xié)慣量分析獲得同步誤差與主觀質(zhì)量之間的映射關(guān)系從而得到質(zhì)量評(píng)分。實(shí)驗(yàn)結(jié)果表明,采用9等級(jí)評(píng)分制時(shí),11條測(cè)試序列中的9條序列由本模型獲得的評(píng)價(jià)結(jié)果與主觀實(shí)驗(yàn)結(jié)果的均方根誤差小于 1,其余 2條序列的均方根誤差略大于 1,說(shuō)明本模型的評(píng)價(jià)結(jié)果與主觀結(jié)果的偏離程度較小,可以較好地描述主觀感知質(zhì)量。
由于采用高斯曲線對(duì)同步誤差與主觀質(zhì)量的映射關(guān)系進(jìn)行建模,本模型對(duì)音頻和視頻存在周期性的音視頻內(nèi)容尚無(wú)法給出較準(zhǔn)確的質(zhì)量估計(jì)結(jié)果。另外,如果音視頻分類(lèi)出現(xiàn)錯(cuò)誤,會(huì)在質(zhì)量估計(jì)結(jié)果中引入很大的誤差,因此對(duì)于音視頻的自動(dòng)分類(lèi)方法還需要進(jìn)行進(jìn)一步的研究。為實(shí)現(xiàn)本模型,還需要引入有效的嘴部區(qū)域檢測(cè)算法以支持純凈語(yǔ)音類(lèi)和有背景語(yǔ)音類(lèi)中的特征提取方法。
[1] RIMELL A, OWEN A. The effect of focused attention on audio-visual quality perception with applications in multi-model codec design[A].ICASSP 2000[C]. Istanbul, Turkey, 2000. 2377-2380.
[2] HANDS D S. A basic multimedia quality model[J]. IEEE Transactions on Multimedia,2004 ,12 (6): 806-816.
[3] STEINMETZ R. Human perception of jitter and media synchronization[J]. IEEE Journal on Selected Areas in Communications, 1996,14(1): 61-72.
[4] NISHIBORI K, TAKEUCHI Y, MATSUMOTO T, et al. Finding the correspondence of audiovisual events by object manipulation[J]. Electronics and Communications, 2009, 92(5): 1-13.
[5] BREDIN H, CHOLLET G. Audiovisual speech synchrony measure:application to biometrics[J]. Eurasip Journal on Advances in Signal Processing, 2007, (3): 1-11.
[6] GILLET O, ESSID S, RICHARD G. On the correlation of automatic audio and visual segmentations of music videos[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007,3(17): 347-355.
[7] LIU Y Y, SATO Y. Recovery of audio-to-video synchronization through analysis of cross-modality correlation[J]. Pattern Recognition Letters, 2010 ,31 (8): 696-701.
[8] ENRIQUE A R, BREDIN H, GARCIA M C, et al. Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models[J]. Pattern Analysis & Applications,2009,9(12):271-284.
[9] EVENO N, BESACIER L. Co-inertia analysis for “l(fā)iveness” test in audio-visual biometrics[A]. Proceedings of the 4th International Symposium on Image and Signal Processing and Analysis[C]. Zagreb,Croatia, 2005. 257-261.
[10] KUMAR K, NAVEATIL J, MARCHERET E, et al. Audio-visual speech synchronization detection using a bimodal linear prediction model[A]. 2009 IEEE Conference on Computer Vision and Pattern Recognition[C]. 2009. 53-59.
[11] QUAN H T, GHANBARI M. A comparison of subjective video quality assessment methods for low-bit rate and low-resolution video[A]. The 7th IASTED International Conference on Signal & Image Processing[C].2005.70-76.
[12] DOLEDEC S, CHESSEL D. Co-inertia analysis: an alternative method for studying pecies-environment relationships[J]. Freshwater-Biology, 1994,31: 277-294.
[13] JEANNIN S, DIVAKARAN A. MPEG-7 visual motion descriptors[J].IEEE Transactions on Circuits and Systems for Video Technology,2001, 6(11):720-724.