集美大學(xué) 謝曉婷 吳佳棟 周俊丞 黃勛 黃斌
FVD 是一種評估機器自動生成視頻質(zhì)量的評估指標(biāo),在可見光視頻生成領(lǐng)域已經(jīng)得到了較為廣泛的應(yīng)用。現(xiàn)有文獻在計算FVD 數(shù)值時,需要通過一個預(yù)訓(xùn)練模型提取視頻數(shù)據(jù)的關(guān)鍵特征。然而,這個預(yù)訓(xùn)練模型是通過可見光視頻數(shù)據(jù)集訓(xùn)練得到的,目前仍缺少對其在非可見光領(lǐng)域視頻質(zhì)量評估可行性的探索。為了研究FVD對非可見光視頻生成的評估效果,本文基于I3D 模型,使用非可見光領(lǐng)域數(shù)據(jù)集分別微調(diào)預(yù)訓(xùn)練模型和重新訓(xùn)練模型,采用紅外和紫外視頻數(shù)據(jù)集模擬出不同質(zhì)量的生成視頻,剖析FVD 在非可見光視頻質(zhì)量評估的應(yīng)用表現(xiàn)。本文通過實驗發(fā)現(xiàn):(1)將可見光領(lǐng)域預(yù)訓(xùn)練模型直接遷移到非可見光領(lǐng)域,評估效果較差,無法吻合人眼觀看感受;(2)當(dāng)使用非可見光數(shù)據(jù)集訓(xùn)練出提取特征的預(yù)訓(xùn)練模型,F(xiàn)VD 的評估結(jié)果更為準(zhǔn)確。
隨著基于自注意力的深度生成模型的發(fā)展,人們從圖像生成領(lǐng)域逐步關(guān)注到難度更大的視頻生成領(lǐng)域,并在視頻生成領(lǐng)域取得了一定的進展,如Video Transformer[1]模型在Kinetics-400[2]數(shù)據(jù)集上對真實人物的復(fù)雜行為實現(xiàn)了較好的預(yù)測,該模型根據(jù)輸入的初始視頻幀,自動生成未來若干幀的人物動作,從而達到行為預(yù)測的目的。Fréchet Video Distance(FVD)[3]是一種視頻質(zhì)量評估指標(biāo),它根據(jù)模型生成的視頻與真實視頻的相似程度,以此來衡量生成視頻質(zhì)量的好壞。在理想的情況下,使用兩段真實的視頻計算出的FVD 值為0;隨著生成視頻的質(zhì)量的下降,F(xiàn)VD 的值逐步上升。與PSNR 和SSIM等指標(biāo)相比,F(xiàn)VD 考慮了整個視頻的分布,從而彌補了幀級指標(biāo)的缺點,使評估結(jié)果更加符合人眼感受[3]。
FVD 被提出時主要考慮可見光(波長在380 ~780nm)領(lǐng)域的視頻質(zhì)量評估,使用者需要從基于可見光數(shù)據(jù)訓(xùn)練的I3D 模型[4]提取能夠表征視頻質(zhì)量的特征,并用該特征計算FVD 值。因此,F(xiàn)VD 評估結(jié)果的準(zhǔn)確性依賴于預(yù)訓(xùn)練I3D 模型能否提供可靠的特征?,F(xiàn)有文獻通常采用DeepMind 在Kinetics-400 數(shù)據(jù)集上預(yù)訓(xùn)練的I3D 模型提取視頻特征計算FVD,該預(yù)訓(xùn)練I3D 模型能夠在UCF-101[5]數(shù)據(jù)集上達到93.4%的預(yù)測準(zhǔn)確率[4]。
隨著視頻領(lǐng)域的進一步發(fā)展,人們對視頻生成的研究從可見光逐漸拓展到非可見光領(lǐng)域。非可見光波長與可見光波長不同,在實際應(yīng)用中紅外光和紫外光較為常見。比如,在光電探測領(lǐng)域中,紅外探測可用于遠距離檢測和跟蹤空中飛行目標(biāo)等[6]。在電氣設(shè)備的放電檢測領(lǐng)域中,基于240-280nm“日盲區(qū)”波段紫外光信號的“日盲”紫外放電檢測得到了較廣泛的應(yīng)用[7]。這些應(yīng)用場景均存在著通過機器自動生成視頻達到擴充數(shù)據(jù)集或進行目標(biāo)運動軌跡預(yù)測的需要。因此,非可見光視頻的生成和質(zhì)量評估具有重要的意義。
然而,F(xiàn)VD 是否適用于非可見光的生成視頻質(zhì)量評估還未得到充分的研究。本文從研究基于可見光的預(yù)訓(xùn)練I3D 模型是否適用于提取非可見光視頻的特征入手,分析通過不同方法得到的I3D 模型對FVD 計算所帶來的影響,進而研究I3D 模型提取特征的位置將在何種程度上影響FVD 值的計算,逐步剖析FVD 這一評估指標(biāo)的特性。同時提出FVD 在非可見光視頻領(lǐng)域使用方法的建議和改進,使得FVD 的評估結(jié)果更具準(zhǔn)確性。
與圖像生成相比,建立視頻生成模型是一個更為復(fù)雜的任務(wù),不僅需要捕捉物體的視覺表現(xiàn),而且需要捕捉時間維度上的信息,即視頻幀與幀之間的時間動態(tài)。自然視頻的復(fù)雜性要求在高維的輸入上,對空間和時間的相關(guān)性進行建模,這使得高保真自然視頻生成方面的進展無法同圖像、文本的生成達到同樣的水平。
VideoGPT[8]是一個概念上簡單的架構(gòu),將基于似然的生成模型拓展到視頻生成領(lǐng)域。使用Vector Quantised Variational AutoEncoder(VQ-VAE)通過3D 卷積和軸向自注意力學(xué)習(xí)原始視頻的下采樣隱變量表示,同時使用類似GPT 的架構(gòu)對隱變量進行時空上的建模。
VideoTransformer[1]是一個基于三維自注意力機制的自回歸視頻生成模型。為降低自注意力機制的一般二次空間復(fù)雜度,它將子尺度的概念擴展到視頻中,將視頻切分成多個更小的視頻,對視頻切片進行建模,并對視頻切片應(yīng)用Block-local Self-attention。
NüWA[9]是一個統(tǒng)一的多模態(tài)預(yù)訓(xùn)練模型,使用3D Transformer Encoder-decoder Frame 框架和三維鄰近注意力(3D Nearby Attention),將局部稀疏注意力(Localwise Sparse attention)拓展到圖像和視頻領(lǐng)域,驗證了局部稀疏注意力與軸向稀疏注意力(Axial-wise Sparse Attention)更適用于生成領(lǐng)域。模型的訓(xùn)練數(shù)據(jù)涵蓋了圖像和視頻數(shù)據(jù),能夠適應(yīng)語言、圖像和視頻生成等多樣的下游任務(wù)。
1.2.1 PSNR——Peak Signal Noise Ratio
PSNR 一般用于衡量圖像經(jīng)過壓縮處理后的品質(zhì),它的值是峰值信號的能量與噪聲的平均能量之比,值越大代表失真越少。PSNR 雖然計算復(fù)雜度較低,但由于其并未考慮到人眼的視覺特性,因而經(jīng)常出現(xiàn)評價結(jié)果與人的主觀感覺不一致的情況。
1.2.2 SSIM——Structural Similarity Index Measure
SSIM 是一種衡量兩幅圖像相似度的指標(biāo),從亮度、對比度與結(jié)構(gòu)來對兩幅圖像的相似性進行評估。在實現(xiàn)上,亮度用均值來表示,對比度用均值歸一化的方差表示,結(jié)構(gòu)用相關(guān)系數(shù)即統(tǒng)計意義上的協(xié)方差與方差乘積比值來表征,SSIM 的取值在[0,1]之間,值越大代表失真越少。SSIM 的優(yōu)點是通過感知結(jié)構(gòu)信息來評價失真,和PSNR 相比可以較好地反映人眼的主觀質(zhì)量感受,缺點在于當(dāng)影像出現(xiàn)非結(jié)構(gòu)性失真(例如位移、縮放、旋轉(zhuǎn))的時候無法有效運作。
1.2.3 IS——Inception Score
IS[10]從生成圖片的質(zhì)量和多樣性兩個方面評價一個生成模型,IS 的值越高說明該生成模型越好。(1)將生成的圖片送入Inception-Net V3(圖片分類網(wǎng)絡(luò))中,得到一個多維向量y,y 中每個元素的值表示x 在某一類別的概率。當(dāng)生成的圖片質(zhì)量較好時,其在某一類別的概率應(yīng)該明顯區(qū)別于其他類別,也就是說,p(y|x)的熵應(yīng)該很小。這評價了生成圖片的質(zhì)量。(2)如果一個模型只能生成有限類別的高質(zhì)量圖片,那該模型也不足以成為好的生成模型。如果模型生成多樣性較強的圖片,那么生成的圖片在各個類別上的分布應(yīng)該是均勻的,也就是說所有類別概率的邊緣分布p(y)熵很大。這評價了生成圖片的多樣性。
1.2.4 FID——Fréchet Inception Distance
IS 的一個缺點是沒有將真實圖片與生成圖片進行比較,F(xiàn)ID[11]同樣基于Inception-Net V3,IS 進行了改進。它將真實樣本和生成樣本送進分類器獲得特征向量,再求該向量的均值和協(xié)方差矩陣,最終進行FID 的計算,F(xiàn)ID 值越小,說明生成圖像與真實圖像越接近,模型生成的圖片質(zhì)量越好,如式(1)所示。
FVD——Fréchet Video Distance,是一個用于評估生成視頻質(zhì)量的指標(biāo),它基于FID 在三維空間上進行擴展,利用視頻幀與幀之間的聯(lián)系,以此達到評估視頻質(zhì)量的目的。使用者通過獲取生成視頻和真實視頻的特征,由它們的均值和協(xié)方差矩陣計算FVD(Eq.1),F(xiàn)VD 值越小,說明模型生成的視頻質(zhì)量越好。
μR、ΣR:真實視頻的均值和協(xié)方差矩陣
μG、ΣG:生成視頻的均值和協(xié)方差矩陣
在實際計算FVD 的流程中,以Inflated 3D Convnet(I3D)作為分類器,在Kinetics-400 數(shù)據(jù)集上訓(xùn)練I3D;訓(xùn)練出的I3D 模型可以用于在真實的有挑戰(zhàn)的YouTube視頻中識別人體行為。使用訓(xùn)練好的I3D 模型分別對真實樣本和生成樣本進行特征提取,取模型最后一層輸出作為特征,特征向量中的“400”代表輸入數(shù)據(jù)在400 種行為類別中的分類概率,由該特征得到均值和協(xié)方差矩陣,進行FVD 的計算(如圖1所示)。
圖1 FVD 計算流程Fig.1 Calculation flow of FVD
本文旨在研究FVD 在非可見光視頻領(lǐng)域的使用方法,為保證FVD 評估準(zhǔn)確性,需要I3D 模型提供準(zhǔn)確可靠的特征。首先使用預(yù)訓(xùn)練I3D 模型對非可見光視頻進行特征提取并計算FVD 數(shù)值,判斷在大型可見光數(shù)據(jù)集上訓(xùn)練的I3D 模型能否為非可見光視頻的FVD 計算提供準(zhǔn)確特征;其次使用通過不同途徑得到的I3D 模型提取非可見光數(shù)據(jù)集的特征并計算FVD 數(shù)值,分析何種途徑能夠計算出較為合理的FVD 數(shù)值;最后我們針對I3D 模型不同層所提取的特征分別計算FVD 數(shù)值,根據(jù)結(jié)果優(yōu)化特征提取策略。
2.1 節(jié)描述了本篇論文中所使用的數(shù)據(jù)集、模型和實驗的相關(guān)配置。2.2 節(jié)研究預(yù)訓(xùn)練I3D 模型是否能夠直接遷移到其他類型的數(shù)據(jù)集上。2.3 節(jié)探究不同模型對計算FVD 數(shù)值產(chǎn)生的影響。2.4 節(jié)分析模型不同層的特征如何影響FVD 值。
我們選擇I3D 模型作為研究對象,在自制紫外數(shù)據(jù)集、KAIST[12]數(shù)據(jù)集上進行所有實驗的研究。其中,自制紫外數(shù)據(jù)集來自于對紫外目標(biāo)模擬源進行拍攝所得,圖像中的目標(biāo)隨著時間流逝產(chǎn)生大小變化的亮斑。所有數(shù)據(jù)集中的視頻幀均被處理成224×224 大小。其中紫外數(shù)據(jù)集包含2 大類別(目標(biāo)和干擾),2544 個紫外視頻,每個視頻100 幀;KAIST 數(shù)據(jù)集包含41 個在白天和晚上捕獲的校園、街道以及鄉(xiāng)下各種常規(guī)交通場景的視頻,共95328 張圖片,每張圖片都包含RGB 彩色圖像和紅外圖像兩個版本。
本論文使用FVD 作為評估模型提取特征能力的標(biāo)準(zhǔn)。在計算FVD 時,將數(shù)據(jù)集均分成兩份,分別為S1和S2,其中S1 作為參考集不做任何處理,S2 會做以下兩類處理模擬生成視頻(如圖2所示)。
圖2 數(shù)據(jù)集處理流程Fig.2 Dataset processing flow
(1)對每個視頻幀I 加入高斯噪聲如式(2)所示:
(2)對每個視頻幀I 在隨機區(qū)域S(大小在64×64至128×128 之間)上進行遮擋(遮擋區(qū)域像素值為I 的平均像素值)。
圖3 KAIST 可見光數(shù)據(jù)集(從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲)Fig.3 KAIST visible light dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)
Sx:被遮擋區(qū)域的寬度 Sy:被遮擋區(qū)域的高度
圖4 KAIST 紅外數(shù)據(jù)集(從上至下依次為原圖、遮擋、輕度高斯噪聲、重度高斯噪聲)Fig.4 KAIST infrared dataset (from top to bottom,original image,occlusion,light Gaussian noise,heavy Gaussian noise)
(xstart,ystart):被遮擋區(qū)域在I 中的左上角坐標(biāo)如式(3)所示:
分別從S1 和S2 中隨機選擇多段連續(xù)16 幀的視頻,送入I3D 模型進行特征提取,重復(fù)1000 次得到1000 組FVD 值。
對實驗使用的不同數(shù)據(jù)集計算FVD 數(shù)值時,都進行下述三種實驗配置:
(1)baseline:S1 和S2 都不做任何處理,使用S1和S2 計算FVD,得到的FVD 值作為實驗的baseline。這種配置用于模擬出生成視頻的質(zhì)量等同于真實視頻的質(zhì)量的場景。
(2)遮擋:對S2 加入大小隨機、位置隨機的遮擋,使用S1 和S2 計算FVD。這種配置用于模擬出生成視頻的質(zhì)量不高、存在遮擋的場景。
(3)高斯噪聲:對S2 加入不同強度的高斯噪聲,使用S1 和S2 計算FVD。這種配置用于模擬出生成視頻的質(zhì)量不高、存在噪聲的場景。
在提出I3D 的原始論文中,我們知道在Kinetics-400數(shù)據(jù)集上預(yù)訓(xùn)練的I3D 模型具有較好的提取視頻特征的能力。在本實驗中,我們希望知道將該預(yù)訓(xùn)練模型遷移到其他類型的數(shù)據(jù)集上(尤其是非可見光數(shù)據(jù)集),該模型是否仍具有較好的特征提取能力。我們在KAIST 原始數(shù)據(jù)集上計算FVD,其中輕度高斯噪聲:μ=0,σ=0.005,重度高斯噪聲:μ=0,σ=0.01,得到的FVD 值如圖6所示。
圖6 對KAIST 可見光數(shù)據(jù)集計算的FVD 值Fig.6 FVD values calculated for the KAIST visible light dataset
如圖6所示,對數(shù)據(jù)進行不同類型的處理(遮擋和加噪),所得FVD 值整體較baseline 有所上升。同時,不同強度的高斯噪聲所得FVD 有明顯差異,這說明FVD 能夠在一定程度上檢測注入的噪聲。然而從整體上看,使用在Kinetics-400 上預(yù)訓(xùn)練的I3D 模型對KAIST可見光數(shù)據(jù)集進行特征提取,計算FVD 所得的baseline值相較于原始論文對機械臂運動視頻評估的FVD 值[3]高出了一個數(shù)量級,這說明在可見光領(lǐng)域的不同數(shù)據(jù)集之間,預(yù)訓(xùn)練I3D 模型的遷移仍具有一定的局限性。
為研究使用可見光數(shù)據(jù)進行預(yù)訓(xùn)練的I3D 模型是否能夠直接遷移到非可見光數(shù)據(jù)集進行特征提取,我們還在KAIST 紅外數(shù)據(jù)集、紫外視頻等數(shù)據(jù)集上計算FVD。其中KAIST 紅外數(shù)據(jù)集的輕度高斯噪聲:μ=0,σ=0.001,重度高斯噪聲μ=0,σ=0.005,紫外數(shù)據(jù)集的輕度高斯噪聲:μ=0,σ=0.01,重度高斯噪聲μ=0,σ=0.2,得到的FVD 值如圖7所示。
根據(jù)圖7,將使用可見光數(shù)據(jù)集預(yù)訓(xùn)練的I3D 模型遷移到非可見光數(shù)據(jù)集上,對于KAIST 數(shù)據(jù)集,通過FVD 值的分布發(fā)現(xiàn)該預(yù)訓(xùn)練模型遷移到KAIST(可見光)的FVD 值反而要比遷移到KAIST(紅外)的FVD值要差。通過baseline 的箱型圖可以發(fā)現(xiàn),對于兩份質(zhì)量相似度很高的數(shù)據(jù),計算所得的FVD 值仍然較高。而對于紫外數(shù)據(jù)集,baseline 相對偏高,gaussian_better 的FVD 值比gaussian_worse 更高,這與主觀視覺感受不符,無法準(zhǔn)確地評估視頻質(zhì)量。因此使用可見光領(lǐng)域模型進行非可見光數(shù)據(jù)集的特征提取目前仍具有一定挑戰(zhàn)。
圖7 KAIST 紅外數(shù)據(jù)集(上)和紫外數(shù)據(jù)集(下)的FVD 值Fig.7 FVD values for KAIST infrared dataset (top) and UV dataset (bottom)
為進一步研究FVD 對非可見光視頻的評估能力,我們在紫外視頻數(shù)據(jù)集上進行研究,微調(diào)和訓(xùn)練時只取每個視頻的后79 幀。
在本實驗中,首先使用未經(jīng)訓(xùn)練的I3D 模型,將模型參數(shù)隨機初始化,用其計算紫外數(shù)據(jù)的FVD,以此作為本實驗的參考值;其次,使用紫外數(shù)據(jù)集對在Kinetics-400上預(yù)訓(xùn)練的I3D 模型進行微調(diào);最后,將紫外數(shù)據(jù)集以視頻為單位,按照7:2:1 的比例劃分出訓(xùn)練集、驗證集和測試集,重新訓(xùn)練I3D 模型。
基于以上方法,得到以下三個模型:
(1)不經(jīng)訓(xùn)練,參數(shù)隨機初始化的I3D 模型;
(2)使用紫外數(shù)據(jù)進行微調(diào)的I3D 模型;
(3)在紫外數(shù)據(jù)集上從隨機初始化權(quán)重開始訓(xùn)練的I3D 模型。
使用上述三個模型提取紫外視頻的特征計算FVD值,其中輕度高斯噪聲:μ=0,σ=0.01,重度高斯噪聲μ=0,σ=0.2,所得實驗結(jié)果如圖8所示。
根據(jù)圖8,發(fā)現(xiàn)使用參數(shù)隨機初始化的I3D 模型在紫外數(shù)據(jù)上進行特征提取計算FVD,baseline 呈現(xiàn)接近于0 的數(shù)值,同時無論對視頻進行遮擋或加噪處理,計算所得的FVD 值均接近于0。盡管baseline 的FVD 數(shù)值在理論上應(yīng)該越接近0 越好,但加上了遮擋和噪聲的視頻產(chǎn)生的FVD 值應(yīng)該越大越好。這說明了一個隨機初始化權(quán)重的I3D 模型不具備有提取可靠視頻特征的能力,因而無法呈現(xiàn)出高質(zhì)量視頻和低質(zhì)量視頻之間的差異。
圖8 使用隨機初始化模型(上)、微調(diào)模型(中)和重新訓(xùn)練模型(下)計算的FVD 值Fig.8 FVD values calculated using the random initialization model(top),fine-tuned model (middle) and re-trained model (bottom)
使用微調(diào)的I3D 模型提取特征進行FVD 計算,baseline 呈現(xiàn)較低的值,occlusion 的FVD 值比baseline高但較為接近,從遮擋的視頻和原始視頻的視覺效果上看,兩者的FVD 值差距比預(yù)想中小,這說明微調(diào)模型區(qū)分遮擋噪聲的能力較弱。加入高斯噪聲計算得到的FVD值相比baseline 呈現(xiàn)顯著差異,隨著高斯強度的增加,F(xiàn)VD 值也有明顯的增加,說明微調(diào)模型能夠檢測不同強度的高斯噪聲??傮w上看,高斯噪聲的FVD 值均比遮擋處理高,然而從視覺效果上觀察,遮擋對視頻質(zhì)量的干擾程度更大,計算所得FVD 應(yīng)更高,因此所呈現(xiàn)的FVD 值與可視化效果不符。
最后使用重新訓(xùn)練的I3D 模型,計算經(jīng)過遮擋所得出的FVD 值比baseline 和高斯噪聲高,且差值明顯,這與可視化效果一致,說明重新訓(xùn)練的I3D 模型檢測遮擋噪聲的能力較強。然而,高斯噪聲計算所得FVD 與baseline 呈現(xiàn)不出差異,且隨著高斯強度的增加,F(xiàn)VD值變化不明顯。事實上,紫外數(shù)據(jù)的一大特征在于亮斑的面積及其位置,高斯噪聲不足以對亮斑這兩個特性造成較大的干擾,因此所得FVD 值與baseline 呈現(xiàn)不出較大差異。當(dāng)高斯噪聲逐漸上升,使得肉眼難以分辨紫外亮斑邊界時(如圖9所示),F(xiàn)VD 值會有較為明顯的上升(如圖10所示)。
圖9 不同強度高斯噪聲下紫外圖像的可視化效果Fig.9 Visualization of UV images with different intensity Gaussian noise
圖10 不同高斯強度下的FVD 值Fig.10 FVD values at different Gaussian intensities
綜合上述分析,F(xiàn)VD 在非可見光領(lǐng)域具備視頻質(zhì)量評估的能力,但同時應(yīng)采用相應(yīng)領(lǐng)域的數(shù)據(jù)集重新訓(xùn)練模型,提升模型提取特征的能力。合適的模型和FVD 二者相互結(jié)合,能使視頻質(zhì)量評估的結(jié)果更為準(zhǔn)確。
從視頻分類模型的不同層提取特征,是否會影響FVD 的計算結(jié)果,為研究這一問題,本實驗以下述三個模型作為研究對象,分別為:
(1)在Kinetics-400 上預(yù)訓(xùn)練的I3D 模型;
(2)使用紫外數(shù)據(jù)對預(yù)訓(xùn)練I3D 模型進行微調(diào)后得到的模型;
(3)在紫外數(shù)據(jù)集上從隨機初始化權(quán)重開始訓(xùn)練的I3D 模型。
其中預(yù)訓(xùn)練模型的分類數(shù)為400,其余兩個模型的分類數(shù)與紫外視頻類別數(shù)相等均為2(即目標(biāo)和干擾)。將紫外數(shù)據(jù)送入各個模型,根據(jù)I3D 模型特點,分別提取每個模型的最后兩層特征計算FVD,結(jié)果如圖11所示。
根據(jù)圖11(上)發(fā)現(xiàn),對于預(yù)訓(xùn)練模型,無論是baseline 還是經(jīng)過遮擋和加噪的數(shù)據(jù),在使用倒數(shù)第二層的特征計算FVD 值時均接近0,即FVD 無法評估視頻質(zhì)量,而使用倒數(shù)第一層的特征,F(xiàn)VD 值會有較為明顯的差異,但加入高斯噪聲的FVD 值比加入遮擋的FVD值更高,這與人眼感受不符,因此預(yù)訓(xùn)練模型仍無法準(zhǔn)確評估二者質(zhì)量好壞。
圖11 使用預(yù)訓(xùn)練模型(上)、微調(diào)模型(中)和重新訓(xùn)練模型(下)計算的FVD 值Fig.11 FVD values calculated using the pre-trained model (top),fine-tuned model (middle) and re-trained model (bottom)
對微調(diào)模型,取倒數(shù)第一層特征計算出的FVD 值區(qū)分度太小,不具備評估價值。這可能是因為,I3D 模型的最后一層輸出是輸入數(shù)據(jù)在目標(biāo)和干擾這兩個類別上的概率,已經(jīng)丟失了大部分能夠表征視頻原始特征的信息。如果取倒數(shù)第二層特征計算出的FVD 值,便能夠觀察到FVD 值明顯的差別。然而加入遮擋的FVD 值比加入高斯噪聲的FVD 值更低,這與人的視覺感受不符,因此微調(diào)模型在這種情況下也無法準(zhǔn)確判斷視頻質(zhì)量差異。
對于重新訓(xùn)練的I3D 模型,提取倒數(shù)第一層的特征計算出的FVD 值均較低,但使用其倒數(shù)第二層的特征所計算出的FVD 值能準(zhǔn)確地區(qū)分出不同視頻的質(zhì)量,其中加入遮擋的FVD 值最高,加入高斯噪聲的FVD 值與baseline 相差不大,這與視覺感受較為貼近。相比前兩個模型,使用重新訓(xùn)練的I3D 模型提取倒二層特征計算FVD,能夠得到更為準(zhǔn)確的評估結(jié)果。
本文研究了基于I3D 模型的FVD 在非可見光領(lǐng)域的應(yīng)用表現(xiàn),并根據(jù)對比實驗提出了FVD 使用方法的優(yōu)化。在使用FVD 這一評估指標(biāo)分析非可見光視頻質(zhì)量時,由于在大型可見光數(shù)據(jù)集上訓(xùn)練的I3D 模型并不能很好地提取非可見光視頻的特征,應(yīng)盡量使用相關(guān)領(lǐng)域的數(shù)據(jù)集重新訓(xùn)練I3D 模型。當(dāng)數(shù)據(jù)集的視頻類別數(shù)較少時,I3D 模型最后一層的特征向量長度也較小,因此提取I3D 模型最后一層的特征所計算的FVD 并不能清晰準(zhǔn)確地區(qū)分出視頻質(zhì)量差異,而選取倒數(shù)第二層或者更接近于模型輸入端的特征能讓FVD 的評估結(jié)果更為準(zhǔn)確。