董奇峰,郁梅*,蔣志迪,魯子昂,蔣剛毅
(1.寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211;2.寧波大學(xué) 科學(xué)技術(shù)學(xué)院 信息工程學(xué)院,浙江 寧波 315212)
虛擬現(xiàn)實(shí)(Virtual Reality,VR)技術(shù)作為數(shù)字世界元宇宙的重要基礎(chǔ),在教育、專業(yè)培訓(xùn)、醫(yī)療和娛樂等領(lǐng)域有著廣泛應(yīng)用[1]。然而,阻礙VR 進(jìn)一步發(fā)展的一個(gè)重要因素是沉浸式VR 體驗(yàn)可能對(duì)用戶造成視覺誘發(fā)暈動(dòng)癥(Visually Induced Motion Sickness,VIMS)[2],也被稱為網(wǎng)絡(luò)?。–ybersickness)、模擬器?。⊿imulator Sickness)等[3]。其主要表現(xiàn)為視覺不適、迷失方向甚至惡心嘔吐等[4]。當(dāng)用戶沉浸式觀看VR 時(shí),其視覺感知到的是虛擬運(yùn)動(dòng)而非物理運(yùn)動(dòng),前庭系統(tǒng)無法感知沉浸式顯示器視覺誘導(dǎo)的自我運(yùn)動(dòng)[5],這種視覺和前庭感官的不匹配誘發(fā)了暈動(dòng)癥。讓用戶預(yù)知所要觀看的VR 內(nèi)容潛在的暈動(dòng)程度有助于避免暈動(dòng)癥的發(fā)生、保障用戶的健康。因此,評(píng)價(jià)VR 內(nèi)容可能誘發(fā)的暈動(dòng)癥等級(jí)是一個(gè)亟待解決課題。
目前,主流的VIMS 評(píng)價(jià)方式可分為基于主觀問卷、生理信號(hào)、視覺內(nèi)容及三者之間結(jié)合的方式。主觀問卷方式,如模擬器疾病問卷(Simulator Sickness Questionnaire,SSQ)[6]等,耗時(shí)長(zhǎng)且受限于VR 內(nèi)容數(shù)量,難以實(shí)時(shí)應(yīng)用?;谏硇盘?hào)的評(píng)價(jià)方式依賴于佩戴式儀器測(cè)量結(jié)果,如腦電圖、皮膚電反應(yīng)、胃電圖、心率等[7],對(duì)受試者易產(chǎn)生除視覺內(nèi)容外的不舒適感。因此,建立有效的不依賴于主觀或生理信號(hào)的客觀VIMS評(píng)價(jià)模型對(duì)VR 內(nèi)容生成與體驗(yàn)質(zhì)量改善有十分重要意義。
基于視覺內(nèi)容的VIMS 評(píng)價(jià)研究尚不成熟,文獻(xiàn)[8]建立了一個(gè)包括36 個(gè)虛擬場(chǎng)景的VR 病數(shù)據(jù)庫,利用交互模型提出了一個(gè)VR 疾病預(yù)測(cè)器框架。文獻(xiàn)[9]建立了名為網(wǎng)絡(luò)病參考的數(shù)據(jù)庫,包含兩個(gè)參考場(chǎng)景并考慮多因素創(chuàng)建了52 個(gè)不同的VR 場(chǎng)景;提出了一種兩階段網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)神經(jīng)表征和時(shí)空表征。文獻(xiàn)[10]為了優(yōu)化VR病與VR 沉浸感,建立了包含10 個(gè)參考虛擬現(xiàn)實(shí)場(chǎng)景的VR-SP 數(shù)據(jù)庫,并通過兩種運(yùn)動(dòng)類型和四種水平速度將參考場(chǎng)景拓展10 種變化。同時(shí),設(shè)計(jì)時(shí)空旋轉(zhuǎn)幀差圖的統(tǒng)計(jì)模型預(yù)測(cè)VIMS,通過視覺活動(dòng)、內(nèi)容特征捕捉VR 內(nèi)容沉浸感。文獻(xiàn)[4]建立了包含52 個(gè)不同內(nèi)容屬性的VR 場(chǎng)景,統(tǒng)計(jì)各項(xiàng)因素對(duì)暈動(dòng)程度的重要程度。文獻(xiàn)[11]構(gòu)建了10 種類型兩種幀速率的VR 疾病數(shù)據(jù)庫,并提出了一種新的生理融合深度網(wǎng)絡(luò),通過內(nèi)容刺激和生理反應(yīng)來估計(jì)個(gè)體VR 疾病。文獻(xiàn)[12]提出的SACA Net 分別從VR 內(nèi)容和人體生理信號(hào)中提取癥狀特征以預(yù)測(cè)暈動(dòng)癥。文獻(xiàn)[13]重點(diǎn)考慮VR 內(nèi)容中的異常運(yùn)動(dòng),建立的全景視頻測(cè)試數(shù)據(jù)庫包含3 種運(yùn)動(dòng)模式,9 個(gè)場(chǎng)景;所提網(wǎng)絡(luò)模型將原始視頻和生成視頻之間的差異投影至主觀評(píng)分空間來預(yù)測(cè)VIMS。文獻(xiàn)[14]針對(duì)視頻拍攝中相機(jī)抖動(dòng)引起的VR 疾病,建立了包含20 個(gè)不同程度相機(jī)抖動(dòng)的全景視頻數(shù)據(jù)庫,將VR 視頻場(chǎng)景方向和速度的變化作為特征預(yù)測(cè)VR 疾病。文獻(xiàn)[15]側(cè)重于預(yù)測(cè)VR 疾病的主要癥狀的水平,而非VR 疾病的總體程度;建立了包含20 個(gè)基準(zhǔn)視頻,4 種不同幀速率,共80個(gè)視頻的全景視頻數(shù)據(jù)庫。文獻(xiàn)[16]設(shè)計(jì)了內(nèi)容刺激引導(dǎo)器以模仿人類感受VR 疾病。文獻(xiàn)[17]考慮人類視覺來學(xué)習(xí)信息的特征,并模擬VR 內(nèi)容被接受時(shí)的學(xué)習(xí)過程,通過虛擬內(nèi)容學(xué)習(xí)重構(gòu)器和疾病評(píng)分預(yù)測(cè)器預(yù)測(cè)分?jǐn)?shù)。上述工作所涉及的虛擬現(xiàn)實(shí)中VIMS 評(píng)價(jià)的研究均為基于非立體全景視頻內(nèi)容,因而未考慮人眼立體感知特性。
文獻(xiàn)[18]建立了一個(gè)包含19 個(gè)場(chǎng)景的立體全景視頻內(nèi)容及其相應(yīng)的暈動(dòng)程度評(píng)級(jí)的數(shù)據(jù)集,手工提取特征訓(xùn)練機(jī)器學(xué)習(xí)算法。文獻(xiàn)[19]建立了目前包含基準(zhǔn)場(chǎng)景最多的立體全景視頻數(shù)據(jù)庫,共包含116 個(gè)不同的立體全景視頻內(nèi)容。作者采用深度學(xué)習(xí)的方式考慮人類視覺系統(tǒng)的注意力機(jī)制和視網(wǎng)膜的多通道特性,對(duì)虛擬環(huán)境中的感官?zèng)_突以及雙目立體感知的三階段過程進(jìn)行仿真建模;并在時(shí)間池化模塊利用LSTM(Long Short-Term Memory)模擬人眼的時(shí)間記憶效應(yīng)。然而,基于視覺內(nèi)容的評(píng)價(jià)方案大多考慮的要素不夠全面,對(duì)運(yùn)動(dòng)信息的提取較為簡(jiǎn)單,同時(shí)少有考慮時(shí)域上的突變對(duì)暈動(dòng)癥的影響。
針對(duì)上述問題,本文從人眼感知特性和視頻時(shí)空特征的角度考慮,提出了一種基于時(shí)空多特征的虛擬現(xiàn)實(shí)中視覺誘發(fā)暈動(dòng)癥評(píng)價(jià)模型。實(shí)驗(yàn)結(jié)果表明,該模型在立體全景視頻數(shù)據(jù)庫SPVCD 上取得了優(yōu)良的預(yù)測(cè)性能,預(yù)測(cè)結(jié)果與人眼所感知的暈動(dòng)程度有較好的一致性。
本文從人眼感知特性和視頻時(shí)空特征的角度考慮,提出了一種基于時(shí)空多特征的虛擬現(xiàn)實(shí)中視覺誘發(fā)暈動(dòng)癥評(píng)價(jià)模型,其框架如圖1 所示。該模型分為預(yù)處理模塊、特征提取模塊及時(shí)域聚合與回歸模塊。預(yù)處理模塊利用左、右視點(diǎn)的中心視口IL,IR求取光流圖F、顯著圖S和視差圖D用于特征提取。運(yùn)動(dòng)特征提取模塊用于前背景加權(quán)運(yùn)動(dòng)特征M和加速度特征U的提取;視差特征提取模塊用于視差強(qiáng)度特征E和視差梯度能量特征G提?。豢沼蚋兄卣魈崛∧K包含一階色度亮度特征H1,V1,二階色度亮度特征H2,V2及空間感知信息特征SI的提取。時(shí)域突變特征提取模塊分別對(duì)所提取的前背景加權(quán)運(yùn)動(dòng)特征M、視差強(qiáng)度特征E、一階色度亮度特征H1,V1計(jì)算最大運(yùn)動(dòng)突變特征Cmax_M、運(yùn)動(dòng)突變特征和Csum_M、最大視差強(qiáng)度突變特征Cmax_E、視差強(qiáng)度突變特征和Csum_E、最大色度、亮度突變特征Cmax_H,Cmax_V,色度、亮度突變特征和Csum_H,Csum_V。最終,將提取的幀級(jí)特征進(jìn)行時(shí)域聚合并對(duì)其與突變特征采用支持向量回歸(Support Vector Regression,SVR)得到VIMS 評(píng)價(jià)值。
圖1 視覺誘發(fā)暈動(dòng)癥評(píng)價(jià)模型Fig.1 Assessment model of visually induced motion sickness
在立體全景視頻數(shù)據(jù)庫SPVCD 的主觀評(píng)分實(shí)驗(yàn)中,為避免頭部旋轉(zhuǎn)而非視頻內(nèi)容引起暈動(dòng),受試者只對(duì)每個(gè)視頻的前中央視口進(jìn)行評(píng)分。因此,本文將原始的立體全景視頻序列投影為立方體投影格式,并取正面投影面作為中央左視口、右視口。對(duì)獲取的左、右視口IL,IR通過文獻(xiàn)[19]中的方法計(jì)算得到顯著圖S,并通過文獻(xiàn)[20]中的方法計(jì)算得到視差圖D與光流圖F,用于后續(xù)的特征提取。
其中:Mk,MkB和MkO分別為第k幀的加權(quán)運(yùn)動(dòng)強(qiáng)度、背景運(yùn)動(dòng)強(qiáng)度和前景目標(biāo)運(yùn)動(dòng)強(qiáng)度。MkB和MkO分別通過二值化后的顯著圖Sbk和非顯著圖1-Sbk加權(quán)光流圖Fk得到,ωB和ωO分別為背景運(yùn)動(dòng)向量強(qiáng)度和前景目標(biāo)運(yùn)動(dòng)向量強(qiáng)度的權(quán)重,滿足條件:ωB和ωO∈[0,1],ωB+ωO=1。
其中:NkB,Nk分別為第k幀背景部分和視口中運(yùn)動(dòng)強(qiáng)度非零的像素?cái)?shù),ω1表示運(yùn)動(dòng)密度,反映運(yùn)動(dòng)的空間分布。該值越大,運(yùn)動(dòng)分布越廣,越關(guān)心背景中所發(fā)生的運(yùn)動(dòng)。ω2表示背景運(yùn)動(dòng)強(qiáng)度,反映背景運(yùn)動(dòng)能量。該值越大,背景所包含的運(yùn)動(dòng)能量越高。
作為實(shí)例,圖2 給出了前背景加權(quán)運(yùn)動(dòng)特征提取過程,圖2 為SPVCD 中兩個(gè)不同運(yùn)動(dòng)類型場(chǎng)景其中一幀的中心視口圖,上圖為序列47(MOS:4.09)的第53 幀中心視口,下圖為序列18(MOS:1.95)的第296 幀視口,圖2(b)~圖2(e)分別為兩視口所對(duì)應(yīng)光流圖、顯著圖、背景運(yùn)動(dòng)強(qiáng)度圖、目標(biāo)運(yùn)動(dòng)強(qiáng)度圖。其中,序列47 第53 幀的背景運(yùn)動(dòng)強(qiáng)度權(quán)重ωB為0.28,前景目標(biāo)運(yùn)動(dòng)強(qiáng)度權(quán)重ωO為0.72;序列18 第296幀ωB為0.88,ωO為0.12。采用背景與前景目標(biāo)運(yùn)動(dòng)加權(quán)的方式,對(duì)于序列47 此類前景目標(biāo)運(yùn)動(dòng)而背景幾乎不運(yùn)動(dòng)的視頻序列,用戶會(huì)更關(guān)注其前景目標(biāo)的運(yùn)動(dòng)狀態(tài)。而對(duì)于序列18 此類前景目標(biāo)與背景都處于運(yùn)動(dòng)狀態(tài)的序列,前景目標(biāo)會(huì)受到關(guān)注,同時(shí)更需關(guān)注背景的運(yùn)動(dòng)狀態(tài),因?yàn)榇藭r(shí)背景的運(yùn)動(dòng)狀態(tài)與視覺誘導(dǎo)的自我運(yùn)動(dòng)具有更高的關(guān)聯(lián)性,是影響暈動(dòng)程度的重要因素。
圖2 前背景加權(quán)運(yùn)動(dòng)特征提取Fig.2 Foreground-background weighted motion feature extraction
圖3 展示了本文所提出的前背景加權(quán)運(yùn)動(dòng)特征與SPVCD 中70 個(gè)(數(shù)據(jù)庫共包含116 個(gè)視頻序列)視頻序列平均主觀得分差異(Differential Mean Opinion Score,DMOS)之間的關(guān)系。DMOS 越大代表視頻在主觀實(shí)驗(yàn)中暈動(dòng)程度越嚴(yán)重,反之,暈動(dòng)程度越輕。SPVCD 中采用平均主觀意見分(Mean Opinion Score,MOS),由于運(yùn)動(dòng)強(qiáng)度越大往往所對(duì)應(yīng)視頻序列的MOS 越低,因此,此處采用DMOS 用于展示本文所提前背景加權(quán)運(yùn)動(dòng)特征與主觀評(píng)價(jià)之間的一致性。由圖3 可知,本文所提的前背景加權(quán)運(yùn)動(dòng)特征與SPVCD中大部分的視頻序列的主觀評(píng)分存在較高的一致性,對(duì)暈動(dòng)程度預(yù)測(cè)具有較好的表征能力。
圖3 前背景加權(quán)運(yùn)動(dòng)特征與SPVCD 部分視頻序列DMOS 之間的關(guān)系Fig.3 Relationship between pre-background weighted motion features and DMOS of partial videos in SPVCD
2.2.2 加速度特征
對(duì)于連續(xù)幀的視頻序列來說,若未發(fā)生加速度等異常運(yùn)動(dòng),那么連續(xù)幀間的光流變化很??;反之則連續(xù)幀之間就會(huì)出現(xiàn)較明顯的光流變化[26]?;谠撍枷?,通過相鄰幀之間的速度變化差異計(jì)算序列的加速度,當(dāng)視頻場(chǎng)景中出現(xiàn)加速或減速時(shí),兩幀之間會(huì)出現(xiàn)較為明顯的速度差別。對(duì)由預(yù)處理得到的光流圖像F,計(jì)算得到每一幀內(nèi)像素點(diǎn)對(duì)應(yīng)的水平和垂直位移,并根據(jù)水平、垂直位移矩陣和幀間間隔計(jì)算每一幀上每一個(gè)像素點(diǎn)的速度。通過相鄰兩幀的速度差表示加速度,得到基于幀間差的加速度特征。根據(jù)水平、垂直位移和幀間隔n計(jì)算第k幀速度Vk:
其中:Δxi_k,Δyi_k分別為每個(gè)像素點(diǎn)的水平與垂直位移量,N為視口中的總像素?cái)?shù),n為兩幀之間間隔,n取1。通過計(jì)算相鄰兩幀圖像的速度差的絕對(duì)值表示第k幀的加速度特征Uk。
雙眼視差過大是誘發(fā)視覺不適的主要原因之一,比起直接采用整張視差圖像素的均值作為視覺不適特征,DCT 系數(shù)能夠更好地表達(dá)圖像中的特征信息[27]。對(duì)分塊后的視差圖進(jìn)行多尺度二維離散余弦變換,每個(gè)塊的2D-DCT 系數(shù)由DC 系數(shù)和AC 系數(shù)組成,其中DC 系數(shù)表示塊的平均強(qiáng)度。因此,使用位于DCT 塊左上角的DC系數(shù)代表整塊視差強(qiáng)度特征E。將所有塊對(duì)應(yīng)的DC 系數(shù)之和作為整個(gè)視差圖的視差強(qiáng)度特征E。因此,第k幀中心視口圖所對(duì)應(yīng)的視差強(qiáng)度特征Ek計(jì)算為:
其中,g表示DCT 塊的尺度級(jí)別,對(duì)于g=1,2,3,4 分別對(duì)應(yīng)于塊的數(shù)量M×N=1×1,4×4,8×8,16×16;IJ為分塊視差圖中第J塊,J=M×N;DC(·)表示取DC 系數(shù)。
2.3.2 視差梯度能量特征
空間方向上的快速視差變化同樣容易引起輻輳調(diào)節(jié)沖突,視差梯度能量特征是為了捕捉壓縮域中相鄰塊之間的局部視差能量變化。首先,使用整個(gè)塊的DCT 系數(shù)之和來表示每個(gè)視差塊的能量,并計(jì)算當(dāng)前DCT 塊與其上、下、左、右塊之間的能量差來獲得視差梯度能量。因此,尺度級(jí)別為g的第k幀中心視口圖所對(duì)應(yīng)特征計(jì)算為:
其中:E(m,n)表示位于空間位置(m,n)的DCT塊Amn的能量,g表示DCT 塊的尺度級(jí)別,J代表視差圖中DCT 塊的數(shù)量。
2.4.1 亮度、色度特征
人類視覺系統(tǒng)對(duì)顏色和亮度的感知非常敏感,在觀看視覺內(nèi)容時(shí)顏色分布的不均勻以及過亮或過暗的內(nèi)容都會(huì)在觀看過程中產(chǎn)生不舒適的體驗(yàn)感,進(jìn)而產(chǎn)生暈動(dòng)。
圖像的顏色分布主要集中在低階矩中,其中,一階矩反映圖像明暗程度、二階矩描述了顏色整體分布范圍。一階矩是計(jì)算所有像素點(diǎn)的均值,二階矩是計(jì)算所有像素點(diǎn)的方差。將RGB顏色空間轉(zhuǎn)化到與人類描述彩色方式更為一致的HSV 顏色空間,并在HSV 顏色空間分別提取左右視口一、二階的亮度矩和色度矩。以色度分量為例,公式如下:
其中:Hk為第k幀HSV 顏色空間中的色度分量,H1_k為第k幀的色度一階矩,H2_k為第k幀色度二階矩,(x,y)為色度分量的坐標(biāo),P為視口大小。亮度分量一、二階矩V1_k,V2_k由相同方式求得。
2.4.2 空間感知信息特征
空間感知信息(SI,Spatial-perceptual Information)量化了視頻序列中存在的空間細(xì)節(jié)的復(fù)雜程度,它隨著視覺畫面內(nèi)容豐富程度增加而增加。對(duì)于虛擬運(yùn)動(dòng)強(qiáng)度相似的兩個(gè)視頻序列,更高的暈動(dòng)程度可能是由于更高的空間感知信息所造成的??臻g感知信息通過計(jì)算梯度向量得到。首先,利用Sobel 算子計(jì)算得到梯度向量,對(duì)于每個(gè)視頻幀計(jì)算梯度向量幅度的標(biāo)準(zhǔn)差。第k幀的空間感知信息計(jì)算公式為:
以圖4 中兩序列為例,圖4(a)的上下圖分別為SPVCD 中序列3 和序列53 的中心視口圖,圖4(b)的上下圖分別為所對(duì)應(yīng)梯度計(jì)算結(jié)果。
圖4 SPVCD 中相似序列空間感知信息比較Fig.4 Comparison of SI of similar videos in SPVCD
序列3 的MOS 值為4.86,平均前背景加權(quán)運(yùn)動(dòng)特征M為4 276;序列53 的MOS 值為4.27,M為4 084。通過計(jì)算,序列3 的空間感知信息特征SIk的均值為0.04,而序列53 的空間感知信息特征SIk的均值為0.10。當(dāng)兩個(gè)視頻序列的運(yùn)動(dòng)強(qiáng)度相近且均未出現(xiàn)場(chǎng)景切換以及大幅度的視差變化時(shí),空間感知信息成為影響視覺舒適度的因素之一。畫面內(nèi)容豐富的視頻序列相比于畫面內(nèi)容簡(jiǎn)單的視頻序列往往更容易在觀看時(shí)產(chǎn)生暈動(dòng)的感受,但相比于運(yùn)動(dòng)所造成的不舒適,空間感知信息的增大所造成的暈動(dòng)程度較為有限。
上述的三類特征均為對(duì)待評(píng)價(jià)的視頻序列的每一幀進(jìn)行提取所得,稱為幀級(jí)特征。通過時(shí)域聚合將幀級(jí)特征計(jì)算為用以描述視頻序列整體暈動(dòng)程度的特征。對(duì)幀級(jí)的前背景加權(quán)運(yùn)動(dòng)特征Mk、加速度特征Uk、空間感知信息特征SIk,3 個(gè)幀級(jí)特征在時(shí)域上進(jìn)行平均值、最大值、中值、方差聚合,得到對(duì)應(yīng)的12 維立體全景視頻中心視口序列特征;對(duì)4 個(gè)尺度的幀級(jí)視差強(qiáng)度特征Ek、視差梯度能量特征Gk,在時(shí)域上進(jìn)行平均值聚合得到對(duì)應(yīng)的8 維立體全景視頻中心視口序列特征;對(duì)幀級(jí)的一階亮度、色度特征V1_k,H1_k,二階亮度、色度特征V2_k,H2_k,在時(shí) 域上進(jìn)行平均值聚合得到相應(yīng)的8 維立體全景視頻中心視口序列特征。最終通過時(shí)域聚合共獲得28維特征作為模型的部分特征用于評(píng)價(jià)立體全景視頻的暈動(dòng)癥。將用于時(shí)域聚合的幀級(jí)特征記為Fk,在時(shí)域上實(shí)現(xiàn)平均值、最大值、中值、方差聚合的公式如下:
其中:Favg,F(xiàn)max,F(xiàn)mid和Fvar分別為幀級(jí)特征時(shí)域平均值、最大值、中值和方差聚合結(jié)果。K為視頻序列幀數(shù),SPVCD 中序列統(tǒng)一為K=400。(·)max為取最大值,(·)median為取中值。
視覺內(nèi)容的運(yùn)動(dòng)強(qiáng)度一定程度反映了視覺前庭不匹配的程度,在沉浸式的視覺環(huán)境中,運(yùn)動(dòng)的平滑度對(duì)VIMS 的影響也很大[28]??焖?、突然的運(yùn)動(dòng)變化在運(yùn)動(dòng)強(qiáng)度一定的基礎(chǔ)上更容易導(dǎo)致視前庭不協(xié)調(diào),從而引發(fā)暈動(dòng)癥。為了衡量快速、突然的運(yùn)動(dòng)變化,并同時(shí)延伸考慮視差、亮度、色度的突然變化對(duì)觀看者可能引起的暈動(dòng)程度,本文提取時(shí)域突變特征用于評(píng)價(jià)此類因素所帶來的VIMS。
對(duì)得到的幀級(jí)前背景加權(quán)運(yùn)動(dòng)特征Mk、視差強(qiáng)度特征Ek、一階色度、亮度特征H1_k,V1_k分別進(jìn)行時(shí)域突變特征的提取。首先,對(duì)幀級(jí)特征在時(shí)域上做窗口W大小為16 的滑動(dòng)平均處理,以減少在特征圖提取過程以及幀級(jí)特征計(jì)算過程中所帶來的誤差?;瑒?dòng)平均后的前背景加權(quán)運(yùn)動(dòng)特征值并求取幀級(jí)特征值的極值(局部最大、最小值)。圖5 展示了滑動(dòng)平均處理前后SPVCD 序列32 的前背景加權(quán)運(yùn)動(dòng)特征值。
圖5 幀級(jí)運(yùn)動(dòng)特征值滑動(dòng)平均處理Fig.5 Frame level motion feature value through sliding averaging processing
以運(yùn)動(dòng)強(qiáng)度突變?yōu)槔?,在一段時(shí)間內(nèi)運(yùn)動(dòng)強(qiáng)度變化越大,所造成的暈動(dòng)程度越大,在統(tǒng)計(jì)上表示為相鄰的兩極值點(diǎn)所在直線的斜率的絕對(duì)值越大,所對(duì)應(yīng)運(yùn)動(dòng)強(qiáng)度變化越快。簡(jiǎn)化算法默認(rèn)在兩個(gè)極值點(diǎn)間各點(diǎn)之間的斜率值保持不變。在相同斜率變化下,所持續(xù)時(shí)間越長(zhǎng),所造成的的運(yùn)動(dòng)程度也會(huì)越大,因此通過計(jì)算相鄰的兩極值點(diǎn)所在直線的斜率與兩極值點(diǎn)之間的距離的比率表示第m段運(yùn)動(dòng)突變值:
其中:Dm_M代表線性歸一化后第m組局部最大運(yùn)動(dòng)特征值max(Mm)和最小運(yùn)動(dòng)特征值min(Mm)之間的歐氏距離,dM與dk用于表示最大、最小特征值之間的強(qiáng)度差以及幀間隔。K表示兩相鄰極大極小運(yùn)動(dòng)特征值點(diǎn)之間的斜率的絕對(duì)值。Cm_M為第m組運(yùn)動(dòng)強(qiáng)度突變值,km_max,km_min分別表示局部最大運(yùn)動(dòng)特征值和最小運(yùn)動(dòng)特征值所對(duì)應(yīng)的幀數(shù),即兩者之差dm表示一次運(yùn)動(dòng)強(qiáng)度突變所持續(xù)的時(shí)間間隔。當(dāng)一次突變所持續(xù)的時(shí)間間隔過短時(shí)(dm<8)默認(rèn)對(duì)用戶所造成的暈動(dòng)感可以忽略不計(jì)。
最終對(duì)一個(gè)視頻中得到的多段運(yùn)動(dòng)強(qiáng)度突變值求取總和Csum_M以及最大值Cmax_M,作為表示一個(gè)視頻序列中由于運(yùn)動(dòng)突變所造成的暈動(dòng)程度的運(yùn)動(dòng)突變特征值。圖6(a)和圖6(b)展示了SPVCD 中序列32 和序列39 的前背景加權(quán)運(yùn)動(dòng)特征值與運(yùn)動(dòng)突變特征值結(jié)果。序列32 的MOS=1.59,屬于暈動(dòng)程度較大的視頻序列;序列39 的MOS=4.00,屬于暈動(dòng)程度較小的視頻序列。通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),兩個(gè)序列的前背景加權(quán)運(yùn)動(dòng)特征平均值接近,但序列32 的運(yùn)動(dòng)突變總和(Csum_M=37.50)與運(yùn)動(dòng)突變最大值(Cmax_M=6.17)大于序列39 的運(yùn)動(dòng)突變總和(Csum_M=22.28)與運(yùn)動(dòng)突變最大值(Cmax_M=3.80)。由此證明對(duì)于整體運(yùn)動(dòng)強(qiáng)度接近的視頻序列,存在更多運(yùn)動(dòng)變化的視頻序列更容易造成VIMS。
圖6 運(yùn)動(dòng)強(qiáng)度相似序列運(yùn)動(dòng)突變特征比較Fig.6 Comparison of motion mutation feature in videos with similar Mk
利用上述相同方法求得視頻序列的視差強(qiáng)度突變特征值Csum_E,Csum_E,亮度突變特征值Csum_V,Csum_V,色度突變特征值Csum_H,Csum_H。最終,提取通過時(shí)域聚合的28 維特征以及8 維時(shí)域突變特征,共36 維特征用于立體全景視頻VIMS評(píng)價(jià)。
采用SVR 作為映射函數(shù)對(duì)特征進(jìn)行回歸以得到最終的客觀評(píng)價(jià)分?jǐn)?shù)??紤]一組訓(xùn)練數(shù)據(jù){(x1,y1),…,(xl,yl)},其中xi∈F為提取的VIMS感知特征,yi是相應(yīng)的MOS。給定參數(shù)C>0和ε>0,SVR 的標(biāo)準(zhǔn)形式表示為:
其中,K(xi,xj)=φTφ為核函數(shù)。本文使用核函數(shù)為K(xi,xj)=exp(-γ‖xi-xj‖2)的徑向基函數(shù)。
所提出的預(yù)測(cè)模型在SPVCD 立體全景視頻數(shù)據(jù)庫上進(jìn)行了測(cè)試。立體全景視頻數(shù)據(jù)庫(SPVCD)[19]共包含116 個(gè)時(shí)長(zhǎng)為20 s 的立體全景視頻,其中既包含自然場(chǎng)景,也包含人工合成場(chǎng)景。該數(shù)據(jù)庫涵蓋豐富的場(chǎng)景類型、運(yùn)動(dòng)類型,包含各種可能造成不同程度暈動(dòng)的立體全景視頻。SPCVCD 數(shù)據(jù)庫部分視頻首幀如圖7所示。
圖7 SPVCD 數(shù)據(jù)庫部分視頻示例Fig.7 Sample videos in SPVCD database
為了檢驗(yàn)?zāi)P偷念A(yù)測(cè)性能,本文在SPVCD立體全景視頻數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn)。數(shù)據(jù)庫中的116 個(gè)視頻,80% 用于訓(xùn)練,20% 用于測(cè)試,并確保用于訓(xùn)練與測(cè)試的視頻序列互不重疊。采用皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient, PLCC)、斯皮爾曼相關(guān)系數(shù)(Spearman Rank-order Correlation Coefficient,SROCC)、均方根誤差(Root Mean Square Error,RMSE)三個(gè)性能指標(biāo)來衡量所提出模型的性能,計(jì)算公式如下:
其中:N表示樣本個(gè)數(shù),Xi和Yi分別表示第i個(gè)樣本的客觀模型預(yù)測(cè)值和主觀評(píng)分值和分別表示客觀模型預(yù)測(cè)均值和主觀評(píng)分均值。PLCC是用于衡量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度的指標(biāo),其取值范圍為-1~1。當(dāng)PLCC 接近1 時(shí),表示兩個(gè)變量之間存在強(qiáng)正線性關(guān)系。
其中:RXi和RYi分別表示主觀評(píng)分值和客觀模型預(yù)測(cè)值按相同順序排序后,第i個(gè)分?jǐn)?shù)在各自序列中的索引。SROCC 用于衡量?jī)蓚€(gè)變量之間的單調(diào)關(guān)系強(qiáng)度,當(dāng)其接近1 時(shí),表示兩個(gè)變量之間存在強(qiáng)正單調(diào)關(guān)系。
RMSE 是衡量預(yù)測(cè)值與實(shí)際值差異的指標(biāo),數(shù)值越小代表預(yù)測(cè)值與實(shí)際值越接近。
同時(shí),為了驗(yàn)證本文所提出模型的性能以及各特征的有效性,表1 給出了本文所提出的VIMS 評(píng)價(jià)模型以及去除其中一個(gè)類型特征后在SPVCD 數(shù)據(jù)庫上的性能指標(biāo),并比較了將本文所提出的加權(quán)運(yùn)動(dòng)特征提取方法改為僅使用簡(jiǎn)單非加權(quán)的顯著區(qū)域光流統(tǒng)計(jì)提取運(yùn)動(dòng)特征后的性能指標(biāo)。為了盡量保證實(shí)驗(yàn)中訓(xùn)練集與測(cè)試集的隨機(jī)性,對(duì)SPVCD 立體全景視頻數(shù)據(jù)庫共進(jìn)行1 000 次8∶2 比例的訓(xùn)練-測(cè)試集劃分,并取1 000 次結(jié)果的RMSE 的中值所對(duì)應(yīng)模型的預(yù)測(cè)結(jié)果作為最終預(yù)測(cè)性能指標(biāo)。
表1 不同特征集在SPVCD 上測(cè)試的性能指標(biāo)Tab.1 Performance indicators of different feature sets when tested on SPVCD
通過表1 實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在去除任何一個(gè)類型的特征后模型性能均出現(xiàn)了不同程度的下降,說明在沉浸式視覺內(nèi)容觀看過程中視覺內(nèi)容的運(yùn)動(dòng)強(qiáng)度、視差、色彩類型、時(shí)域突變等都是影響暈動(dòng)癥程度的要素。其中,在不包含運(yùn)動(dòng)特征時(shí),模型性能出現(xiàn)了最大程度的下降,這說明在觀看VR 內(nèi)容的過程中,視覺內(nèi)容中的運(yùn)動(dòng)強(qiáng)度對(duì)暈動(dòng)癥的產(chǎn)生起著主導(dǎo)作用,這也印證了產(chǎn)生暈動(dòng)癥的主要原因?yàn)橐曈X和前庭感官感知運(yùn)動(dòng)的不匹配。同時(shí),視差特征的缺失對(duì)模型性能產(chǎn)生的影響最小,一方面的原因可能是相比于立體圖像、立體視頻中備受關(guān)注的視差特征,在立體全景視頻中由于觀看方式的改變,沉浸式的觀看使得受試者更多地受到運(yùn)動(dòng)等更為主觀的因素的影響;另一方面,由于觀看方式的不同,立體全景視頻采用頭戴式顯示器的觀看方式,容易發(fā)生在立體圖像、視頻中的焦點(diǎn)調(diào)節(jié)和會(huì)聚沖突現(xiàn)象有所減少。通過對(duì)比不同的運(yùn)動(dòng)特征提取,相比于以往簡(jiǎn)單的對(duì)顯著區(qū)域的光流進(jìn)行統(tǒng)計(jì)以表示視覺內(nèi)容的運(yùn)動(dòng)強(qiáng)度,采用本文所提出的顯著區(qū)域內(nèi)外加權(quán)的運(yùn)動(dòng)特征提取方式在性能指標(biāo)上也得到了提升,由此也說明在觀看過程中觀看者的暈動(dòng)程度不僅受顯著區(qū)域的運(yùn)動(dòng)情況所影響,也會(huì)受到顯著區(qū)域外的運(yùn)動(dòng)情況所引起的自我運(yùn)動(dòng)影響。
考慮到數(shù)據(jù)庫場(chǎng)景的多樣性,難以遍歷每一種訓(xùn)練-測(cè)試集劃分結(jié)果所對(duì)應(yīng)的模型性能。因此,此處以多種統(tǒng)計(jì)方式對(duì)模型性能進(jìn)行驗(yàn)證與對(duì)比。本文采用SVR 對(duì)特征空間進(jìn)行回歸,回歸時(shí)對(duì)數(shù)據(jù)集進(jìn)行1 000 次的8∶2 比例訓(xùn)練-測(cè)試集劃分,并分別取三個(gè)指標(biāo)所對(duì)應(yīng)的中值作為最終的結(jié)果。最終,進(jìn)行50 次實(shí)驗(yàn)分別以RMSE、SROCC 作為中值取對(duì)應(yīng)的指標(biāo)結(jié)果以及50 次實(shí)驗(yàn)的指標(biāo)平均值。對(duì)比算法[19]為深度學(xué)習(xí)方法,將數(shù)據(jù)庫視頻隨機(jī)劃分為50 對(duì)訓(xùn)練集和測(cè)試集在其網(wǎng)絡(luò)模型上進(jìn)行訓(xùn)練測(cè)試,并選擇50 次實(shí)驗(yàn)結(jié)果中RMSE 中值所對(duì)應(yīng)的模型代表最終性能。本文統(tǒng)計(jì)了對(duì)比算法50 次實(shí)驗(yàn)結(jié)果中SROCC 中值所對(duì)應(yīng)的模型性能及50 次實(shí)驗(yàn)結(jié)果的均值。表2 為不同的統(tǒng)計(jì)方式得到的兩個(gè)模型的性能指標(biāo)。
表2 不同統(tǒng)計(jì)方式下性能對(duì)比Tab.2 Performance comparison under different statistical methods
實(shí)驗(yàn)結(jié)果表明,在以多種統(tǒng)計(jì)方式對(duì)模型性能進(jìn)行比較時(shí),兩個(gè)模型的各項(xiàng)指標(biāo)均存在一定程度的波動(dòng)。這與SPVCD 的特點(diǎn)有關(guān),SPVCD包含了目前用于VIMS 評(píng)價(jià)中數(shù)量最多的場(chǎng)景類型。因此,不同的訓(xùn)練、測(cè)試場(chǎng)景選擇對(duì)模型預(yù)測(cè)結(jié)果的影響較大。本文所提出的方法在三種統(tǒng)計(jì)方式中PLCC 和RMSE 均優(yōu)于對(duì)比算法,SROCC 低于對(duì)比算法。這與對(duì)比算法網(wǎng)絡(luò)訓(xùn)練時(shí)以最高SROCC 值選取最優(yōu)網(wǎng)絡(luò)模型參數(shù)存在一定關(guān)聯(lián)。
為驗(yàn)證所提出模型的泛化性,在斯坦福大學(xué)的數(shù)據(jù)庫上進(jìn)行了跨數(shù)據(jù)庫實(shí)驗(yàn)[18]。Stanford 數(shù)據(jù)庫包含19 個(gè)立體全景視頻場(chǎng)景,每個(gè)場(chǎng)景持續(xù)60 s。幀速率分別為24 fps,25 fps 和30 fps,分辨率為1 K,2 K 或4 K。以SPVCD 數(shù)據(jù)庫中的116個(gè)視頻序列作為訓(xùn)練集,對(duì)Stanford 數(shù)據(jù)庫的19個(gè)視頻序列進(jìn)行測(cè)試,預(yù)測(cè)得到最終的性能指標(biāo)。
值得注意的是,在SPVCD 數(shù)據(jù)庫中的主觀得分越高,暈動(dòng)病的程度越低。這與Stanford 數(shù)據(jù)庫的主觀分?jǐn)?shù)相反,Stanford 數(shù)據(jù)庫的MOS 范圍為4.3~41.1,遠(yuǎn)遠(yuǎn)超過了SPVCD 庫的最大MOS(MOS 范圍:1.318 2~4.863 6)。因此,在跨數(shù)據(jù)庫實(shí)驗(yàn)中,首先將Stanford 數(shù)據(jù)庫的MOS映射到SPVCD 的得分空間。將Stanford 數(shù)據(jù)庫的最大MOS 對(duì)應(yīng)SPVCD 數(shù)據(jù)庫的最小MOS,Stanford 數(shù)據(jù)庫的最小MOS 對(duì)應(yīng)SPVCD 數(shù)據(jù)庫的最大MOS。
表3 顯示了所提出的暈動(dòng)病程度預(yù)測(cè)模型在Stanford 數(shù)據(jù)庫上的跨數(shù)據(jù)庫實(shí)驗(yàn)結(jié)果以及與文獻(xiàn)[19]的對(duì)比結(jié)果。所提出模型在Stanford 數(shù)據(jù)庫上的PLCC,SROCC 和RMSE 分別為0.678,0.633 和0.672,取得了較為良好的預(yù)測(cè)性能,各項(xiàng)性能指標(biāo)均高于文獻(xiàn)[19],原因可能是文獻(xiàn)[19]所提出的方法為深度學(xué)習(xí)方法,在針對(duì)規(guī)模較小數(shù)據(jù)集時(shí),模型容易過擬合導(dǎo)致模型性能不佳。
表3 所提出模型在Stanford 數(shù)據(jù)庫上的總體及對(duì)比性能指標(biāo)Tab.3 Overall and comparative performance indicators of the proposed model on Stanford database
目前對(duì)于虛擬現(xiàn)實(shí)中VIMS 評(píng)價(jià)的研究多是基于非立體內(nèi)容,而對(duì)于立體全景視頻的VIMS 評(píng)價(jià)研究還較少。表4 給出了兩個(gè)團(tuán)隊(duì)各自數(shù)據(jù)庫的簡(jiǎn)單介紹。分別為延世大學(xué)團(tuán)隊(duì)和韓國科學(xué)技術(shù)院團(tuán)隊(duì)。延世大學(xué)團(tuán)隊(duì)和韓國科學(xué)技術(shù)院團(tuán)隊(duì)均是研究非立體全景內(nèi)容的VIMS評(píng)價(jià),其中,各團(tuán)隊(duì)使用數(shù)據(jù)庫不同且多樣。截至目前,延世大學(xué)團(tuán)隊(duì)建立了三個(gè)用于VR 暈動(dòng)癥研究的主觀數(shù)據(jù)庫,但數(shù)據(jù)庫均尚未公開。韓國科學(xué)技術(shù)院團(tuán)隊(duì)建立了四個(gè)用于VR 暈動(dòng)癥研究的主觀數(shù)據(jù)庫,數(shù)據(jù)庫均包含生理信號(hào),可以獲取基準(zhǔn)視頻,但數(shù)據(jù)庫中所包含的基準(zhǔn)視頻的變體沒有直接提供。例如,文獻(xiàn)[15]中的數(shù)據(jù)庫包含80 個(gè)視頻,該數(shù)據(jù)庫具有20 個(gè)基準(zhǔn)視頻,可以直接獲?。欢總€(gè)基準(zhǔn)視頻又具有三種變體視頻,不可直接獲取。
表4 所提方法與其他模型的結(jié)果匯總Tab.4 Summary of results the proposed method and other model
因目前已公開的數(shù)據(jù)庫均是非立體全景視頻數(shù)據(jù)庫且不可完全獲取,與包含生理信號(hào)的方法對(duì)比不公平,致使本文所提模型未在其數(shù)據(jù)庫上進(jìn)行相關(guān)實(shí)驗(yàn),暫時(shí)不能完全驗(yàn)證本文所提模型的泛化性。延世大學(xué)團(tuán)隊(duì)和韓國科學(xué)技術(shù)院團(tuán)隊(duì)所提出的模型大多使用了生理信號(hào),這在本文所使用的SPVCD 基準(zhǔn)數(shù)據(jù)中是不存在的,因此也無法將其所提模型在SPVCD 數(shù)據(jù)庫上進(jìn)行驗(yàn)證。不同的數(shù)據(jù)庫配置導(dǎo)致設(shè)計(jì)和建立VIMS評(píng)價(jià)模型的出發(fā)點(diǎn)不同,無法在同一數(shù)據(jù)庫上直接對(duì)比模型的性能優(yōu)劣,因此,表4 僅對(duì)已有的相關(guān)研究結(jié)果進(jìn)行了匯總。由于相關(guān)數(shù)據(jù)庫不同,其結(jié)果僅用于對(duì)客觀VIMS 評(píng)價(jià)模型的分析,不能直接通過表4 中指標(biāo)值來比較判斷客觀評(píng)價(jià)模型間的優(yōu)劣。只有文獻(xiàn)[19]的方法與本文方法同在SPVCD 數(shù)據(jù)庫上進(jìn)行了性能測(cè)試。表4中,本文所提模型得到的性能指標(biāo)采用與其相同的模型選取方式:對(duì)數(shù)據(jù)庫隨機(jī)劃分進(jìn)行測(cè)試并選取RMSE 為中值所對(duì)應(yīng)的模型結(jié)果作為最終的性能指標(biāo)。對(duì)比結(jié)果發(fā)現(xiàn)本文所提出的模型在PLCC,RMSE 兩項(xiàng)指標(biāo)上取得了更優(yōu)異的指標(biāo),在SROCC 上有所不足。文獻(xiàn)[19]采用深度學(xué)習(xí)的方法,同時(shí)考慮了雙目感知、運(yùn)動(dòng)特征等特征,然而對(duì)運(yùn)動(dòng)特征的考慮較為單一,且未考慮時(shí)域上的突變的影響。
本文針對(duì)立體全景視頻中存在的視覺誘發(fā)暈動(dòng)癥這一問題,綜合考慮可能導(dǎo)致視覺誘發(fā)暈動(dòng)癥的各項(xiàng)因素,設(shè)計(jì)了基于時(shí)空多特征的虛擬現(xiàn)實(shí)中視覺誘發(fā)暈動(dòng)癥評(píng)價(jià)模型。同時(shí),在運(yùn)動(dòng)特征提取方面基于視覺感知沖突理論,設(shè)計(jì)了前背景加權(quán)運(yùn)動(dòng)特征提取。在時(shí)域突變信息度量方面,在時(shí)域聚合的基礎(chǔ)上,分別對(duì)運(yùn)動(dòng)信息、視差信息、空域感知信息等特征提取突變特征。在SPVCD 數(shù)據(jù)庫上,所提方法展現(xiàn)出了與最先進(jìn)的深度學(xué)習(xí)方法相當(dāng)?shù)念A(yù)測(cè)性能。在下一階段工作中,如何將本文中提取特征方式與深度學(xué)習(xí)聯(lián)合,構(gòu)造自動(dòng)進(jìn)行對(duì)應(yīng)特征提取學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)將成為研究的重點(diǎn)。