宋 巍,肖 毅,杜艷玲,張明華
上海海洋大學(xué) 信息學(xué)院,上海201306
在水下環(huán)境中獲取清晰圖像是海洋工程中的一個重要問題[1]。水下視頻在海洋生物探測跟蹤、海洋種類研究和海洋生態(tài)研究中發(fā)揮著關(guān)鍵作用,是海洋研究的載體。視頻在經(jīng)過采集、壓縮、處理、傳輸?shù)炔襟E中都可能產(chǎn)生質(zhì)量退化的情況。針對水下視頻的質(zhì)量評價方法可對水下視頻的質(zhì)量進行評估,保證水下視頻質(zhì)量將為水下研究提供一個良好的開端。評估水下視頻的質(zhì)量是計算機視覺領(lǐng)域中重要的研究問題。視頻質(zhì)量評價(video quality assessment)根據(jù)其類型可以分為主觀質(zhì)量評價和客觀質(zhì)量評價。主觀質(zhì)量評價是通過測試者對不同質(zhì)量的視頻做出評價并進行處理得到主觀視頻分?jǐn)?shù)。由于主觀視頻質(zhì)量評價需要人工標(biāo)注,具有效率低下和成本高等問題。客觀質(zhì)量評價通過建立算法模型來自動計算視頻質(zhì)量,能夠快速、低成本、穩(wěn)定地進行評價。國際電信聯(lián)盟(International Telecommunication Union)[2]根據(jù)對原始視頻的需要程度,將客觀視頻質(zhì)量評價分為全參考視頻質(zhì)量評價(full-reference)、部分參考視頻質(zhì)量評價(reduced-reference)和無參考視頻質(zhì)量評價(no-reference)。
光在水介質(zhì)中傳播時介質(zhì)的物理特性導(dǎo)致了水下拍攝的視頻存在退化效應(yīng)[3]。一方面,光線在水中傳播時呈指數(shù)衰減導(dǎo)致水下視頻質(zhì)量損失;另一方面,受到水下復(fù)雜拍攝環(huán)境(例如水流和水壓等)的影響造成視頻的不穩(wěn)定性??紤]到水下視頻的這兩個特性,通常無法獲得理想的參考圖像/視頻,全參考和部分參考評價方法在水下視頻質(zhì)量評價中的實用性有限,因此在水下視頻質(zhì)量評價中一般采用無參考評價的方法。
目前自然場景的評價方法在評價水下視頻時適應(yīng)性差,水下場景質(zhì)量評價方法只考慮了空間維度,忽視了時間維度的不穩(wěn)定性對于視頻質(zhì)量的影響。本文旨在將水下視頻特有的時空特征和運動特征進行分析并與深度學(xué)習(xí)的理論思想結(jié)合,發(fā)展基于深度特征學(xué)習(xí)的水下視頻質(zhì)量評價模型。本文的貢獻可以概述如下:(1)通過實驗分析設(shè)計了一個雙流網(wǎng)絡(luò)對水下視頻特征進行提取,從時空特征和運動特征的角度獲取視頻質(zhì)量的相關(guān)特征,考慮多種特征融合方式,建立了TS-UVQA(two-stream underwater video quality assessment)模型。(2)驗證了光流圖對水下視頻質(zhì)量分析的有效性。(3)與多種優(yōu)秀的質(zhì)量評價模型進行了對比實驗,取得了更高的相關(guān)系數(shù)。
水下場景不同于傳統(tǒng)自然場景,水介質(zhì)對光具有特殊吸收和散射特性,這些特性使得在自然場景的圖像視頻質(zhì)量評價方法不能直接應(yīng)用在水下場景中,針對自然場景提出質(zhì)量評價方法在水下數(shù)據(jù)集中通常表現(xiàn)出不適應(yīng)性。相關(guān)工作將從自然場景質(zhì)量評價方法和水下場景質(zhì)量評價方法兩方面展開。
目前,許多學(xué)者對自然場景的質(zhì)量評價進行了研究,為研究水下場景質(zhì)量評價提供了大量的理論基礎(chǔ)。Saad 等人[4]設(shè)計了一個依靠離散余弦變換域中視頻場景的時空模型以及表征場景中發(fā)生的運動類型的模型來預(yù)測視頻質(zhì)量。Xu 等人[5]提出了一種用于無參考視頻質(zhì)量評價的可感知系統(tǒng),通過無監(jiān)督學(xué)習(xí)提取特征應(yīng)用到支持向量回歸(support vector regression,SVR)上計算視頻質(zhì)量。Men 等人[6]使用自然視頻質(zhì)量數(shù)據(jù)庫KoNViD-1k 提出一種無參考視頻質(zhì)量評價方法,該方法組合視頻的模糊性、色彩性、對比度、空間和時間信息多種特征來形成特征向量,最后通過SVR 映射到主觀質(zhì)量分?jǐn)?shù)。Kang等人[7]提出一個卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)預(yù)測圖像質(zhì)量并以圖像patch 作為輸入,該網(wǎng)絡(luò)由一個具有最大池和最小池的卷積層、兩個完全連接層和一個輸出節(jié)點組成,將特征學(xué)習(xí)和回歸集成到一個優(yōu)化過程中從而形成更有效的圖像質(zhì)量估計模型。Jia 等人[8]提出基于PCANet進行圖像質(zhì)量評價,取得比CNN 網(wǎng)絡(luò)更高的精度。Bianco 等人[9]以CNN 網(wǎng)絡(luò)架構(gòu)將圖像分塊進行質(zhì)量評價,使用平均池化對分塊質(zhì)量分?jǐn)?shù)進行處理得到總體質(zhì)量評價。Yan 等人[10]采用雙流CNN 網(wǎng)絡(luò)分別捕獲輸入圖像和梯度圖像的信息進行質(zhì)量評價。Li 等人[11]將視頻序列進行分塊,借助3D-shearlet 變換提取特征,基于這些特征向量,采用CNN 和logistics對視頻質(zhì)量進行預(yù)測。Liu 等人[12]在視頻多任務(wù)端到端優(yōu)化神經(jīng)網(wǎng)絡(luò)(video multi-task end-to-end optimized neural network,V-MEON)使用了一個多任務(wù)神經(jīng)網(wǎng)絡(luò)框架,同時對視頻感知質(zhì)量和編碼類型的概率進行預(yù)測,能夠適應(yīng)于各種編解碼器壓縮的視頻。Varga 和Szirányi[13]利用預(yù)先訓(xùn)練的CNN和LSTM(long short-term memory)網(wǎng)絡(luò)提取深度特征并將特征映射到質(zhì)量分?jǐn)?shù)上。Li等人[14]提出了一種客觀的無參考視頻質(zhì)量評估方法,將內(nèi)容依賴性和時間記憶效應(yīng)集成到一個深度神經(jīng)網(wǎng)絡(luò)中來預(yù)測視頻質(zhì)量。這些基于深度學(xué)習(xí)的質(zhì)量評價方法都能取得與人類視覺感知相關(guān)性很高的預(yù)測結(jié)果。
許多學(xué)者也對水下場景的質(zhì)量評價做了研究。Schechner 等人[15]提出了將對比度應(yīng)用于度量水下圖像質(zhì)量。Hou 等人[16]提出了基于加權(quán)灰度尺度角(weight gray scale angle,WGSA)的圖像清晰度評價標(biāo)準(zhǔn)對受噪聲影響的水下圖像進行評價。Yang等人[17]提出水下彩色圖像質(zhì)量評價指標(biāo)(underwater color image quality evaluation,UCIQE),該指標(biāo)提取CIELab空間統(tǒng)計特征中與觀察者感知相關(guān)度最高的三個質(zhì)量度量:色度、飽和度和對比度。將這些參數(shù)線性組合用來預(yù)測圖像質(zhì)量。Panetta 等人[18]提出了一種無參考的水下圖像質(zhì)量評價方法(underwater image quality measure,UIQM),采用三種水下圖像屬性測量(水下圖像色彩測量UICM、水下圖像清晰度測量UISM、水下圖像對比度測量UIConM)來表征水下圖像質(zhì)量。Moreno-Roldán 等人[19]針對水聲網(wǎng)絡(luò)傳輸?shù)乃乱曨l,提出了一種基于自然視頻統(tǒng)計的矢量量化算法,該方法將6 個自然視頻統(tǒng)計(natural video statistics,NVS)特征作為評價指標(biāo)。郭繼昌等人[20]將深度學(xué)習(xí)網(wǎng)絡(luò)框架與隨機森林回歸模型相結(jié)合,無需參考圖像就能得到與觀察者感知質(zhì)量相關(guān)性很高的預(yù)測結(jié)果。宋巍等人[21]考慮水下視頻特性,提出一種適用小樣本的結(jié)合空域統(tǒng)計特性與編碼的水下視頻質(zhì)量評價方法NR-UVQA(no-reference underwater video quality assessment)。該方法針對空間域計算圖像失真統(tǒng)計特性,結(jié)合視頻編碼參數(shù)訓(xùn)練線性模型。
目前傳統(tǒng)場景的質(zhì)量評價方法的研究已經(jīng)有數(shù)十年的發(fā)展,但針對水下場景的質(zhì)量評價研究比較缺乏,并且傳統(tǒng)場景的方法不能很好地適應(yīng)水下場景,相關(guān)研究只是提取簡單的手工特征和淺層特征,無法反映水下場景的特點。另外,大部分研究只考慮了空間維度,未將時間維度對于視頻質(zhì)量的影響考慮在內(nèi)。因此,設(shè)計針對水下視頻場景的質(zhì)量評價方法是目前一個待解決的問題。
針對目前研究的不足,考慮到光線在水下傳播時導(dǎo)致的質(zhì)量損失以及水下復(fù)雜的拍攝環(huán)境的影響造成的不穩(wěn)定性特點,根據(jù)不同特點分別做不同的處理,設(shè)計雙流網(wǎng)絡(luò)分別從時空維度和運動信息維度中提取特征,學(xué)習(xí)視頻質(zhì)量與特征間的關(guān)系并預(yù)測視頻質(zhì)量。
視頻可以看成由空間信息和時間信息組成,單幀圖像體現(xiàn)的是視頻的空間信息,例如空間場景和主體;時間信息則由多幀的圖像組成,幀間變化體現(xiàn)了視頻主體的運動情況,幀間光流是體現(xiàn)幀間變化的一種方式。為了充分提取視頻的相關(guān)信息,本文借鑒了Two-Stream[22]方法的雙流結(jié)構(gòu)概念,針對時空特征和運動特征分別設(shè)計相應(yīng)的網(wǎng)絡(luò)來提取對應(yīng)的特征,并考慮多種特征融合方式將特征進一步融合,提出具有雙流結(jié)構(gòu)的水下視頻質(zhì)量評價模型(TS-UVQA)。網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
由于原始視頻四周含有人工添加的文字標(biāo)注等,為避免對模型效果的影響,同時提高特征學(xué)習(xí)的效率,將視頻統(tǒng)一裁剪為224×224 像素大小。原始視頻的絕大部分信息分布在視頻的中間部分,故裁剪圍繞視頻中心進行。光流場圖進行相同裁剪。
以雙流網(wǎng)絡(luò)學(xué)習(xí)水下視頻中的特征,需要對原始水下視頻進行不同的處理。圖1(a)中Spatialtemporal Net 從原始視頻流中學(xué)習(xí)時空特征。為此,將原始視頻流按一定的間隔抽取視頻幀,組成視頻幀組。由于本文數(shù)據(jù)集中的視頻序列均為10~13 s,為獲得相同長度的視頻幀組,以1.0~1.3 s為間隔進行抽取,獲得10 幀。為了加快模型的訓(xùn)練,將數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)模式,對輸入圖像做歸一化處理。
圖1(a)中的Motion Net 的目的是從能夠描述整個視頻運動信息的光流場塊中學(xué)習(xí)視頻的運動特征。光流圖的獲取通常使用光流法對幀間光流進行提取,光流法是利用圖像在時間域上相鄰幀之間相關(guān)性計算物體的運動信息的一種方法。本文計算視頻的稠密光流(dense optical flow)[23],將每5 個相鄰幀的稠密光流信息疊加,得到能夠描述短時視頻運動變化的光流場圖,對于整個視頻序列,按一定間隔T提取10 幀光流場圖,獲得一個維度為10 的光流場塊以描述整個視頻運動信息。
圖1 雙流網(wǎng)絡(luò)的水下視頻質(zhì)量評價框架Fig.1 Two-stream network structure for underwater video quality assessment
為了提取到視頻的時間維度信息,需要將包含時間信息的多視頻幀堆疊在一起輸入到神經(jīng)網(wǎng)絡(luò)中。通過預(yù)處理獲得的視頻幀組是從連續(xù)幀之間按照一定間隔提取的,具有一定的時序性。二維(2D)卷積網(wǎng)絡(luò)能夠很好地捕獲空間上的信息,但缺乏捕獲時序信息的能力。相較于二維,三維(3D)卷積神經(jīng)網(wǎng)絡(luò)更適合提取處理帶時間維度的信息。研究已經(jīng)表明三維卷積神經(jīng)網(wǎng)絡(luò)能夠通過堆疊連續(xù)的多視頻幀學(xué)習(xí)部分時間信息。因此,本文根據(jù)時空特征特點設(shè)計了一個學(xué)習(xí)視頻時空特征的卷積神經(jīng)網(wǎng)絡(luò),命名為Spatial-temporal Net,結(jié)構(gòu)如圖1(a)所示。該網(wǎng)絡(luò)由3 個Conv3D Block,1 個全局平均池化層(global average pooling,GAP)以及1 個全連接層(Fc)組成。
(1)Conv3D Block 模塊
Conv3D Block 模塊如圖1(b)所示,包含Conv3D層、SN(switchable normalization)層[24]和MaxPooling 3D層。Conv3D 層通過三維卷積能夠同時提取視頻中的空間和時間維度的特征。在Spatial-temporal Net中,3 個Conv3D Block 中的Conv3D 層卷積核數(shù)分別為8、16 和32。
數(shù)據(jù)歸一化對模型的性能提升有重要的影響。SN 歸一化方法使用可微分學(xué)習(xí),為深度學(xué)習(xí)網(wǎng)絡(luò)中的每一個歸一化層確定合適的歸一化操作。SN 相較于其他的歸一化方法,如BN(batch normalization)[25]、IN(instance normalization)[26]和LN(layer normalization)[27]魯棒性更好,對batch size 的設(shè)置不敏感,使模型能夠在各種batch size 的設(shè)計下保持穩(wěn)定。SN算法如式(1)所示:
其中,hncij和分別是歸一化前后的像素點的值;γ和β分別是位移變量和縮放變量;?是一個非常小的數(shù),用以防止除0;μk和σk分別是均值和方差;Ω={in,ln,bn}是三種歸一化方法的集合。
(2)慢融合策略
為了更有效地融合時間維度的特征,本文采用了一種在時間維度上卷積的慢融合策略[28]來更有效地學(xué)習(xí)長時間序列數(shù)據(jù)與視頻質(zhì)量分?jǐn)?shù)之間的相關(guān)性。
慢融合策略如圖2 所示。區(qū)別于一次性通過Conv3D 對10 幀進行特征提取,該策略將時間信息在3 維卷積層中逐漸融合。具體來說,第一個卷積層將10 幀壓縮為5 幀,第二個卷積層將5 幀壓縮為3 幀,第三個卷積層將前一層的3 幀融合為2 幀。通過這種方式融合復(fù)雜的時間維度特征。通過該策略控制卷積核在時間維度的步幅,緩慢地融合時間維度特征,使得模型能夠提取到更復(fù)雜的特征。
圖2 慢融合策略圖Fig.2 Slow fusion strategy diagram
與2.2 節(jié)中的時空特征提取不同,光流特征主要表達的是視頻中主體的運動特征。雖然Conv3D 結(jié)構(gòu)可以通過三維卷積核同時提取視頻幀組中的時空特征,但在時間維度信息的描述上,本質(zhì)是通過局部卷積來表達時間關(guān)系,這種時間特征提取對于水下視頻質(zhì)量的評價是不充分的,因此從光流場塊中提取運動特征是更加合理的選擇。在光流特征提取中,輸入的是疊加的光流場塊,通過二維卷積神經(jīng)網(wǎng)絡(luò)提取其中特征。因此,本文根據(jù)運動特征的特點設(shè)計了一個Conv2D Block 模塊,如圖1(c)所示,包含Conv2D 層、SN 層 和MaxPooling2D 層。在Conv2D Block 的基礎(chǔ)上設(shè)計了一個包含3 個Conv2D Block模塊的二維卷積神經(jīng)網(wǎng)絡(luò)Motion Net,如圖1(a)所示。同時將Motion Net 網(wǎng)絡(luò)與經(jīng)典的二維特征提取網(wǎng) 絡(luò)——AlexNet、VGG16、InceptionV1、ResNet50、ResNet18 進行了對比實驗。
本文通過實驗對比(詳見3.3.2 小節(jié))表明了Motion Net 網(wǎng)絡(luò)作為運動特征提取器的優(yōu)勢。相較于VGG16、InceptionV1、ResNet18 來說,Motion Net網(wǎng)絡(luò)使用了3×3 的卷積核和SN 層,具有參數(shù)量小和自適應(yīng)選擇正則化的優(yōu)點。而ResNet50 網(wǎng)絡(luò)太深,需要更多的數(shù)據(jù)量才能很好地訓(xùn)練。Motion Net 網(wǎng)絡(luò)能夠有效提取光流場中的特征,所提取的特征與主觀質(zhì)量分?jǐn)?shù)有較高的相關(guān)性。
為了獲得更有效表達水下視頻質(zhì)量的特征,需要將雙流網(wǎng)絡(luò)提取的不同類型的特征進行融合。本文考慮了三種融合方式對實驗結(jié)果的影響,分別為:決策級平均融合、決策級線性融合和特征級SVR(support vector regression)融合。決策級平均融合如式(2),將雙流模型得到的預(yù)測結(jié)果作平均池化得到?jīng)Q策級平均融合的結(jié)果。決策級線性融合如式(3),雙流模型結(jié)果通過線性加權(quán)得到融合后的預(yù)測結(jié)果,加權(quán)權(quán)重通過訓(xùn)練得到。特征級SVR 融合如式(4)。取雙流模型中最后一層全連接層的輸出作為特征向量,將兩個特征向量做拼接操作后輸入到SVR 中(使用RBF(radial basis function)核函數(shù)),由SVR 進一步融合特征信息,并建立與質(zhì)量評分之間的映射關(guān)系,實現(xiàn)視頻質(zhì)量預(yù)測。
其中,i∈1,2,…,N,N為測試集的大??;si為第i個視頻的預(yù)測結(jié)果;fi為時空特征提取網(wǎng)絡(luò)的預(yù)測結(jié)果;hi為光流特征提取網(wǎng)絡(luò)的預(yù)測結(jié)果;α、β為權(quán)重系數(shù);V f為時空特征提取網(wǎng)絡(luò)最后一個全連接層輸出的特征向量;Vh為光流特征提取網(wǎng)絡(luò)最后一個全連接層輸出的特征向量。
網(wǎng)絡(luò)的總體損失函數(shù)為Logcosh,該函數(shù)應(yīng)用于回歸任務(wù),相較于L2 損失函數(shù)更加平滑。Logcosh 損失函數(shù)公式如式(5):
其中,y表示label值,yp表示模型的預(yù)測值。
本章通過綜合實驗對本文提出的TS-UVQA 方法的性能進行了全面分析。首先,針對TS-UVQA 的三個主要模塊——時空特征提取網(wǎng)絡(luò)、運動特征提取網(wǎng)絡(luò)和特征融合策略,通過實驗分析了特征提取網(wǎng)絡(luò)的有效性,以及不同特征融合方式對于實驗結(jié)果的影響(實驗結(jié)果見3.3.1~3.3.3 小節(jié))。其次,通過對比光流運動特征在水下視頻和自然場景視頻質(zhì)量評價的不同表現(xiàn),驗證了光流對于水下視頻質(zhì)量評價的作用(實驗結(jié)果見3.3.4 小節(jié))。最后,與目前最先進視頻質(zhì)量評價方法進行對比實驗,檢驗了本文方法在水下視頻評價方面的優(yōu)良性能,以及用于其他自然場景視頻質(zhì)量評價的泛化能力(實驗結(jié)果見3.3.5 小節(jié))。
目前,針對水下場景的視頻客觀質(zhì)量評價模型的構(gòu)建缺乏公開的水下視頻數(shù)據(jù)集。本文使用了之前研究中建立的水下數(shù)據(jù)集[21]。該數(shù)據(jù)集中的視頻序列涵蓋了水下動態(tài)、靜態(tài)動植物以及海底巖石等場景,包含廣泛的時間空間維度變化。該數(shù)據(jù)集對25 個原始視頻選擇不同比特率(96 Kbit/s、200 Kbit/s、500 Kbit/s)和不同幀率(5 FPS、10 FPS、25 FPS)參數(shù)采用H.264 進行模擬失真壓縮。由15 名觀測者為水下視頻進行質(zhì)量打分,將每個視頻的平均意見得分(MOS)作為視頻的質(zhì)量標(biāo)注。除了上述水下數(shù)據(jù)集外,本文將方法在公開的非水下視頻數(shù)據(jù)集ECVQ[29]、EVVQ[30]、LIVE[31-32]上也進行了實驗。ECVQ 包含8 個原始CIF 視頻,通過H.264 和MPEG4-Visual 壓縮成90個視頻。EVVQ包含8個VGA原始視頻,通過H.264 和MPEG4-Visual壓縮成90個視頻。LIVE 數(shù)據(jù)集包含15 個原始視頻,通過無線失真、IP 失真、H.264 和MPEG-2 失真壓縮成150 個視頻。
為評估視頻客觀質(zhì)量評價網(wǎng)絡(luò)的性能,將每個數(shù)據(jù)集隨機劃分為80%的訓(xùn)練集和20%的測試集,實驗重復(fù)10 次取平均值作為實驗的最終結(jié)果。訓(xùn)練階段采用Adam 優(yōu)化,參數(shù)為beta1=0.9,beta2=0.999,epsilon=1E-07。初始學(xué)習(xí)率為0.000 3,采用早停(Early-Stopping)策略。
視頻客觀質(zhì)量評價的評價指標(biāo)是基于預(yù)測值與主觀評分之間的相關(guān)性。本文采用的評價指標(biāo)為:皮爾森線性相關(guān)系數(shù)(Pearson linear correlation coefficient,PLCC)和斯皮爾曼秩序相關(guān)系數(shù)(Spearman rank order correlation coefficient,SROCC),PLCC 和SROCC 在質(zhì)量評價領(lǐng)域廣泛使用。
PLCC 描述兩個變量之間的線性相關(guān)性。
其中,集合S和集合L分別表示視頻數(shù)據(jù)集的質(zhì)量預(yù)測值和標(biāo)簽值。Sˉ、Lˉ為S和L的平均值。
SROCC 是非線性相關(guān)指標(biāo),描述序列中元素的排列關(guān)系。
3.3.1 時空特征提取網(wǎng)絡(luò)性能分析
為獲取與水下視頻主觀質(zhì)量分?jǐn)?shù)相關(guān)性高的時空特征,對Spatial-temporal Net 中的Conv3D Block 模塊進行探索,開展了消融實驗,實驗結(jié)果如表1 所示。表中的模型名稱分別為:(1)c3d,僅使用三維卷積神經(jīng)網(wǎng)絡(luò)Conv3D 提取特征并預(yù)測;(2)c3d-sn,在三維卷積網(wǎng)絡(luò)的基礎(chǔ)加上SN 層;(3)c3d-sn-slow,在三維卷積神經(jīng)網(wǎng)絡(luò)加上SN 層的基礎(chǔ)上再加上慢融合策略。同時,實驗也對比了輸入圖像為灰度圖和RGB 圖的情況,其中,灰度圖是模型的默認(rèn)輸入,rgb表示輸入圖像為RGB 圖。
表1 不同策略下時空特征提取網(wǎng)絡(luò)的評價結(jié)果Table 1 Results of spatial-temporal feature extraction networks under different strategies
從表1 中給出的結(jié)果可見,僅使用三維卷積神經(jīng)網(wǎng)絡(luò)提取的特征(c3d)不能很好地反映水下特征,在相關(guān)系數(shù)上取得了最低的分值。SN 層能自適應(yīng)選擇正則化方式,緩解梯度消失問題加快模型收斂,因此c3d-sn 方法加快了模型的訓(xùn)練,并大大提升了模型的性能,取得了比c3d 更好的效果。添加慢融合策略的c3d-sn-slow 加強了時間信息的學(xué)習(xí),使得時空維度的特征更豐富,能夠更準(zhǔn)確地反映視頻的質(zhì)量特征,因此取得了最佳的評價結(jié)果。
表1 中c3d-sn-slow 和c3d-sn-slow-rgb 的對比,顯示了輸入為灰度圖和RGB 三通道彩色圖對結(jié)果的影響。實驗表明,RGB 彩色圖像和單通道灰度圖像對于視頻質(zhì)量的影響無顯著變化,但使用灰度圖可以減少模型參數(shù)的計算量,加快模型的訓(xùn)練速度,因此,本文在數(shù)據(jù)預(yù)處理中將RGB 圖轉(zhuǎn)化為灰度圖。
3.3.2 運動特征提取網(wǎng)絡(luò)性能分析
為了提取能夠反映水下視頻運動的特征,以光流場的幀流作為輸入,選擇二維卷積神經(jīng)網(wǎng)絡(luò)獲取其中的信息。實驗對比了所設(shè)計網(wǎng)絡(luò)Motion Net 與經(jīng)典的二維特征提取網(wǎng)絡(luò)——AlexNet、VGG16、InceptionV1、ResNet18 和ResNet50,結(jié)果如表2 所示。
從表2 中可以知道,AlexNet、VGG16、Inception V1、ResNet18 等網(wǎng)絡(luò)預(yù)測結(jié)果與主觀質(zhì)量評價的相關(guān)性均低于Motion Net(PLCC=0.822 0 和SROCC=0.825 6)。ResNet50 模型太過復(fù)雜,而所使用數(shù)據(jù)的量太小,導(dǎo)致模型不能很好地擬合,得到了最低的相關(guān)性系數(shù)。
表2 不同網(wǎng)絡(luò)對于光流特征提取的對比結(jié)果Table 2 Comparison results of different networks for optical flow feature extraction
3.3.3 融合策略分析
在3.3.1 小節(jié)和3.3.2 小節(jié)中分別驗證了時空特征和運動特征對于水下視頻質(zhì)量評價的有效性,本小節(jié)進一步對時空特征和運動特征進行融合,期望獲得更高精度的質(zhì)量評價模型。
在特征融合前,先以熱力圖的形式對兩個網(wǎng)絡(luò)提取的特征進行直觀展示,如圖3 所示。圖3(a)中,左圖為Spatial-temporal Net 輸入視頻幀組中的一幀,右圖為第二個ConvBlock 塊中卷積層后輸出的特征圖;圖3(b)中,左圖為Motion Net 輸入的光流場圖,右圖為第二個卷積塊后輸出的特征圖??梢杂^察到,時空特征圖關(guān)注了視頻空間上的細節(jié)特征以及部分時間信息(如變化的數(shù)字),而運動特征圖關(guān)注了視頻中主體對象的運動輪廓,二者具有一定的互補性。
圖3 特征圖Fig.3 Feature maps
本文對比了三種融合方式的效果:決策級平均融合(average decision fusion)、決策級線性融合(linear decision fusion)、特征級SVR融合(SVR feature fusion)。三種融合方式的比較結(jié)果如表3 所示。
表3 不同融合策略的PLCC 和SROCCTable 3 PLCC and SROCC of different integration strategies
從表3 中可以知道,特征級SVR 融合取得相關(guān)系數(shù)較低,決策級平均融合與決策級線性融合結(jié)果相近,決策級線性融合取得了最高的相關(guān)性系數(shù)(PLCC=0.866 4,SROCC=0.866 6)。同時,線性融合的結(jié)果優(yōu)于未融合的結(jié)果。相較于Spatial-temporal Net 的結(jié)果,PLCC 提高了0.031 6,SROCC 提高了0.031 2;相較于光流特征提取網(wǎng)絡(luò)的結(jié)果PLCC 和SROCC 分別提高了0.044 4 和0.041 0。
3.3.4 運動特征對水下視頻質(zhì)量評價的影響
為進一步驗證基于光流圖的運動特征對水下視頻質(zhì)量評價的作用,在自然場景數(shù)據(jù)集上開展了對比實驗。實驗結(jié)果如表4 所示,其中Spatial-temporal Net 代表只提取時空特征,Motion Net 代表只提取光流特征,Aggregate表示融合時空特征與光流特征。
表4 自然場景數(shù)據(jù)集上不同網(wǎng)絡(luò)模型的評價結(jié)果Table 4 Evaluation results of different networks on natural scene datasets
根據(jù)表4 中的相關(guān)系數(shù)PLCC 和SROCC 可知,在不同的自然場景數(shù)據(jù)集(ECVQ、EVVQ 和LIVE)中,時空特征(由Spatial-temporal Net 提?。σ曨l質(zhì)量預(yù)測的貢獻遠遠大于運動特征(由Motion Net 提?。?,且運動特征與時空特征相融合后也未能取得比原始僅時空特征更好的預(yù)測結(jié)果。但是,在水下數(shù)據(jù)集中,基于光流圖的運動特征與水下視頻質(zhì)量有很強的相關(guān)性(如表2 所示),且與時空特征結(jié)合后進一步提高了模型預(yù)測精度,這說明本文所設(shè)計的雙流網(wǎng)絡(luò)對于水下視頻質(zhì)量評價的有效性。
3.3.5 對比實驗
(1)模型性能對比
為驗證本文所提出的雙流水下視頻質(zhì)量評價模型的整體性能,與13 種目前最先進的自然場景圖像/視頻質(zhì)量評價方法和水下場景的圖像/視頻質(zhì)量評價方法進行了比較。其中,包括3 種針對水下圖像的質(zhì)量評價方法,2 種針對水下視頻的質(zhì)量評價方法,8 種針對自然場景的圖像/視頻的質(zhì)量評價方法。圖像質(zhì)量評價方法包括:通用彩色圖像的質(zhì)量評價方法CIQI 和CQE[33],基于NSS 特征的無參考空間域圖像質(zhì)量評價方法BRISQUE[34],針對水下彩色圖像質(zhì)量評價方法的線性模型UCIQE[17]和UIQM[18],基于深度學(xué)習(xí)的圖像質(zhì)量評價方法PCANet[8]和水下圖像質(zhì)量評價方法Guo[20]。視頻質(zhì)量評價方法包括:通用失真視頻的質(zhì)量評價方法VIIDEO[35]和V-BLIINDS[4],基于NVS 特征的水下視頻質(zhì)量評價方法Moreno-Roldán[19],基于統(tǒng)計和編碼特征的水下視頻質(zhì)量評價模型NR-UVQA[21],基于深度學(xué)習(xí)框架的視頻質(zhì)量評價模型V-MEON[12]和采用CNN+LSTM 相結(jié)合視頻質(zhì)量評價方法[13]。所有對比方法將在相同的水下視頻數(shù)據(jù)集中以隨機劃分的80%的訓(xùn)練集和20%的測試集重新訓(xùn)練,實驗重復(fù)多次取平均值。所有的測試數(shù)據(jù)未出現(xiàn)在訓(xùn)練數(shù)據(jù)中,保證方法間的公平比較。需要說明的是,V-MEON 方法是面向視頻失真類型判定和視頻質(zhì)量評分多任務(wù)的網(wǎng)絡(luò),根據(jù)不同的失真類型對視頻質(zhì)量損失的評價進行了優(yōu)化。由于本文使用的水下視頻沒有相應(yīng)的失真類型標(biāo)簽,本文僅復(fù)現(xiàn)V-MEON 基于C3D 慢融合的特征學(xué)習(xí)網(wǎng)絡(luò)和質(zhì)量分?jǐn)?shù)預(yù)測的部分。對比實驗結(jié)果如表5所示。
從表5 中可知,大部分圖像質(zhì)量評價模型,如CIQI、CQE、UCIQE、UIQM 等,雖然是針對大氣圖像和水下圖像的質(zhì)量評價方法,但由于圖像和視頻存在顯著差異性,對于水下視頻質(zhì)量的評價都不能取得與主觀分?jǐn)?shù)很好的相關(guān)系數(shù)(PLCC<0.5),基于圖像統(tǒng)計特征的評價指標(biāo),如BRISQUE 能獲得相對較高的相關(guān)系數(shù),這說明水下視頻質(zhì)量與自然場景下的統(tǒng)計特性有強關(guān)聯(lián)。視頻質(zhì)量評價模型中,除VIIDEO 方法最差外,總體上優(yōu)于圖像質(zhì)量評價模型,PLCC 和SROCC 相關(guān)系數(shù)均大于0.5,這表明僅依賴空間維度特征的圖像質(zhì)量評價不能充分表達視頻的質(zhì)量特征。
基于深度學(xué)習(xí)的方法,不論是圖像質(zhì)量評價模型Guo 和PCANet,還是視頻質(zhì)量評價模型V-MEON、CNN+LSTM 及本文方法,均取得較其他方法更好的結(jié)果。其中,Guo 的方法采用了VGG 和隨機森林相結(jié)合,在充分提取空間特征的情況下,用集成學(xué)習(xí)方法對決策進行了優(yōu)化;V-MEON 模型直接學(xué)習(xí)視頻幀的時空聯(lián)合特征;CNN+LSTM 方法先使用預(yù)訓(xùn)練CNN 提取視頻幀的空間特征,再用LSTM 進一步提取時間特征。本文方法在多重特征(時空和運動特征)學(xué)習(xí)和信息融合方面更優(yōu)秀。表5 中NR-UVQA方法同樣取得了很高的相關(guān)系數(shù),且方法較為簡單,但該方法是否具有普適性待驗證。
表5 14 種圖像、視頻質(zhì)量評價方法的結(jié)果Table 5 Results of 14 quality assessment methods for image and video
(2)泛化性能分析
為驗證各類方法的泛化性能,選擇了五種視頻質(zhì)量評價方法,在自然場景的數(shù)據(jù)集ECVQ[29]、EVVQ[30]和LIVE[31-32]上分別做了實驗,結(jié)果如表6 所示。從表6 中可以看出,通用的視頻質(zhì)量評價方法VIIDEO 在ECVQ 和EVVQ 中表現(xiàn)較差,在LIVE 上表現(xiàn)較好,VBLIINDS 在ECVQ、EVVQ、LIVE 數(shù)據(jù)集中表現(xiàn)穩(wěn)定,且在LIVE 數(shù)據(jù)集上取得了最高的相關(guān)系數(shù)。NR-UVQA 方法在水下視頻質(zhì)量評價中獲得了很高的相關(guān)系數(shù),但在幾個自然場景數(shù)據(jù)集中表現(xiàn)不太穩(wěn)定。針對自然場景的V-MEON 方法在ECVQ、EVVQ 數(shù)據(jù)集上取得了最高的相關(guān)系數(shù),在LIVE 上表現(xiàn)一般。TS-UVQA 方法在三個自然場景數(shù)據(jù)集中都能表現(xiàn)穩(wěn)定,且在自然場景數(shù)據(jù)集中能夠取得和其他優(yōu)秀方法相近的結(jié)果。綜上所述,本文方法不僅適用于水下數(shù)據(jù)集,在自然場景數(shù)據(jù)集中也能取得和其他最優(yōu)秀方法相近的相關(guān)系數(shù)。
表6 自然場景數(shù)據(jù)集上的視頻質(zhì)量評價結(jié)果對比Table 6 Comparison of video quality assessment results on natural scene datasets
通過建立水下視頻客觀質(zhì)量評價模型,有利于解決自然場景質(zhì)量評價方法在水下場景中表現(xiàn)不適用性問題,推動當(dāng)前水下視頻質(zhì)量評價的優(yōu)化。本文針對水下視頻的質(zhì)量損失和視頻不穩(wěn)定性特點,提出了一種面向水下視頻的客觀無參考質(zhì)量評價方法TS-UVQA。TS-UVQA 從時空維度、運動信息維度方面提取相關(guān)特征,利用三維卷積、自適應(yīng)正則化和慢融合策略從多視頻幀中提取時空特征,用二維卷積和自適應(yīng)正則化對光流場塊提取相關(guān)運動特征。使用決策級融合策略將時空特征和運動特征相融合,建立了能夠快速高效預(yù)測水下視頻質(zhì)量的評價模型,同時驗證了光流圖對于水下視頻質(zhì)量評價的有效性。模型預(yù)測結(jié)果與主觀質(zhì)量評分取得了很高的相關(guān)性。
由于實驗條件的限制,本文還存在許多不足。本文用于訓(xùn)練的數(shù)據(jù)集量比較小,不能涵蓋水下視頻各種各樣的情形,不能很好地評價極端環(huán)境下的水下視頻,如果有更大的數(shù)據(jù)量以供學(xué)習(xí),模型將取得更好的性能。下一步工作將深入研究水下視頻的特點,優(yōu)化網(wǎng)絡(luò),提取更加能反映水下視頻質(zhì)量的特征,增強模型的性能。