錢(qián)立輝,王斌*,鄭云飛,章佳杰,李馬丁,于冰
(1.清華大學(xué) 軟件學(xué)院,北京 100084;2.北京快手科技有限公司,北京 100085)
如今,短視頻由于較好地利用了娛樂(lè)生活中的碎片時(shí)間,受到了人們的追捧。其中,利用單反等相機(jī)拍攝的景深效果視頻因其高清、美觀,具有較好的藝術(shù)觀賞性,廣受大眾喜愛(ài)。用戶在視頻分享平臺(tái)上傳、分享視頻時(shí),往往需要對(duì)景深視頻類型進(jìn)行篩選,以方便后續(xù)進(jìn)一步操作,如視頻推薦算法、視頻超分辨率去噪等應(yīng)用。同時(shí),在海量數(shù)據(jù)時(shí)代,靠人力在平臺(tái)后端服務(wù)器逐個(gè)鑒別、篩選是不現(xiàn)實(shí)的,因此,研究能自動(dòng)檢測(cè)視頻數(shù)據(jù)庫(kù)中景深視頻的算法具有一定的現(xiàn)實(shí)意義和價(jià)值。
在視頻分析、分類中,傳統(tǒng)算法通常側(cè)重于啟發(fā)式特征設(shè)計(jì),運(yùn)行速度較快,但識(shí)別精度較低。深度學(xué)習(xí)技術(shù)能高效地學(xué)習(xí)視頻中的時(shí)空域特征和高級(jí)視覺(jué)特征,目前,已有較多應(yīng)用深度學(xué)習(xí)的算法,并獲得了較傳統(tǒng)算法更優(yōu)秀的性能。然而,將深度學(xué)習(xí)算法直接用于景深視頻檢測(cè)尚存在一些問(wèn)題,第1,已有的應(yīng)用深度學(xué)習(xí)的景深視頻算法[1-2]大多為分割算法(即逐像素分類算法),輸出的分割結(jié)果圖譜,不能直接應(yīng)用于視頻分類檢測(cè)任務(wù);第2,景深視頻數(shù)據(jù)集較少,而過(guò)小的訓(xùn)練集易使網(wǎng)絡(luò)發(fā)生過(guò)擬合。由于數(shù)據(jù)集的數(shù)據(jù)分布(如視頻內(nèi)容、風(fēng)格)存在差異,當(dāng)在某些數(shù)據(jù)集中訓(xùn)練的深度網(wǎng)絡(luò),在其他數(shù)據(jù)集中進(jìn)行測(cè)試時(shí),網(wǎng)絡(luò)性能通常會(huì)降低。
此外,在景深視頻中,幀圖像通常具有很強(qiáng)的視覺(jué)語(yǔ)義深度信息,圖像中各個(gè)物體隨其與相機(jī)焦平面的距離遠(yuǎn)近出現(xiàn)的模糊差異具有一定的邏輯性。同時(shí),在快手app 視頻數(shù)據(jù)集中,存在大量由某些編輯特效形成的與場(chǎng)景景深無(wú)關(guān)的偽景深視頻,即部分清晰、部分模糊,影響模型識(shí)別的性能。若在深度網(wǎng)絡(luò)訓(xùn)練中,應(yīng)用注意力機(jī)制,顯式地使模型“注意”到與圖像的場(chǎng)景深度相關(guān)的特征,則可在一定程度上提高景深視頻分類的性能。
針對(duì)上述問(wèn)題,本文提出基于圖像深度預(yù)測(cè)的兩階段景深視頻檢測(cè)算法。第1 階段為預(yù)測(cè)視頻幀圖像中各個(gè)語(yǔ)義物體的深度,即其與相機(jī)的相對(duì)距離,然后利用該深度信息,輔助第2 階段構(gòu)建景深分類網(wǎng)絡(luò),以提升網(wǎng)絡(luò)模型的檢測(cè)速率。第1 階段使用的是DeepLens 圖像深度預(yù)測(cè)網(wǎng)絡(luò)模型[3],第2 階段使用的是經(jīng)過(guò)輕量化處理的改善后的ResNet18網(wǎng)絡(luò)模型[4]。本文還設(shè)計(jì)了一種在新視頻數(shù)據(jù)庫(kù)中收集景深視頻數(shù)據(jù)的迭代算法,能快速地獲取新的同數(shù)據(jù)分布的景深視頻數(shù)據(jù)集,所需的人力成本較低;同時(shí),這些新搜集的數(shù)據(jù)集還可用于提升本文網(wǎng)絡(luò)模型的性能。本文算法在快手線上的景深視頻數(shù)據(jù)集中識(shí)別準(zhǔn)確率達(dá)85.7%。
相關(guān)工作主要包括視頻質(zhì)量評(píng)價(jià)(video quality assessment,VQA)算法和視頻分割(像素級(jí)分類)算法。
在景深視頻幀圖像中,焦平面內(nèi)(即景深內(nèi))被拍攝的物體是清晰的,焦平面外被拍攝的物體由于入射光線發(fā)生聚集和擴(kuò)散,影像較模糊,形成一個(gè)圓形區(qū)域,通常稱為彌散圓[5]。這類幀圖像(包含模糊部分和清晰部分)與失真圖像(模糊)部分類似,所以可以借鑒VQA 算法的思路,通過(guò)視頻質(zhì)量分?jǐn)?shù),判斷其是否為景深類型視頻。傳統(tǒng)的VQA 算法有:峰值信噪比(peak signal-to-noise ratio,PSNR)[6]法、結(jié)構(gòu)相似性指數(shù)法(structural similarity index method,SSIM)[7]和三維數(shù)據(jù)可視化matlab 工具ViS3d[8]等。目前基于深度學(xué)習(xí)的VQA 算法較為流行,其性能亦不斷被優(yōu)化,如文獻(xiàn)[9-10]。但由于景深模糊和壓縮失真模糊存在一定的視覺(jué)差異,前者往往為局部模糊,后者為整體模糊,因此,用此類算法篩選的景深視頻錯(cuò)誤率較高。
也有一些可直接預(yù)測(cè)景深視頻像素的分割算法,如文獻(xiàn)[11-12]手工設(shè)計(jì)了景深像素敏感的特征描述子,其中,文獻(xiàn)[11]側(cè)重于模糊邊緣部分的特征提取,基于稀疏表示和圖分解,建立稀疏邊緣表示和失真估計(jì)之間的關(guān)系。文獻(xiàn)[13]利用端到端的全卷積網(wǎng)絡(luò)學(xué)習(xí)圖像中的高級(jí)視覺(jué)語(yǔ)義特征,預(yù)測(cè)圖像景深外模糊區(qū)域??紤]深層網(wǎng)絡(luò)特征更抽象,該方案選用了較深的網(wǎng)絡(luò)模型。然而很難將該方法直接應(yīng)用于景深視頻分類,首先,其僅預(yù)測(cè)了模糊分割結(jié)果,與視頻是否有景深效果不相關(guān)(有可能為偽景深視頻),需要做進(jìn)一步后處理,如利用分割結(jié)果圖譜或中間特征圖譜預(yù)測(cè)視頻類型。其次,分割算法需要人工進(jìn)行精細(xì)標(biāo)注,其收集成本遠(yuǎn)高于分類任務(wù)所需的標(biāo)注數(shù)據(jù)。文獻(xiàn)[1]通過(guò)訓(xùn)練與U-Net[14]類似的深度網(wǎng)絡(luò),檢測(cè)圖像中的景深外模糊和運(yùn)動(dòng)模糊。文獻(xiàn)[2]針對(duì)模糊的好壞提出了分類預(yù)測(cè)的統(tǒng)一框架(如景深效果中的模糊是好的,壓縮模糊是壞的)。此類算法屬于分割算法,預(yù)測(cè)了景深外側(cè)模糊像素,經(jīng)改善,可將其應(yīng)用于景深視頻分類篩選。但此類算法均未考慮景深視頻幀圖像中各語(yǔ)義物體的深度差異。
本文在文獻(xiàn)[1-2]算法的基礎(chǔ)上,將幀圖像分割結(jié)果轉(zhuǎn)變?yōu)橐曨l類型預(yù)測(cè),但在后處理過(guò)程中會(huì)導(dǎo)致精度降低??紤]景深視頻幀圖像中各語(yǔ)義物體與相機(jī)的相對(duì)距離存在一定的邏輯關(guān)系,本文利用注意力機(jī)制,提出了一種基于圖像深度預(yù)測(cè)的新的兩階段景深視頻分類算法,該算法的網(wǎng)絡(luò)模型如圖1 所示。此外,提出了可大幅降低人力成本的迭代式景深視頻數(shù)據(jù)集收集算法。
圖1 整體網(wǎng)絡(luò)模型Fig.1 Overview network model
2.1.1 幀圖像深度與景深類型的邏輯關(guān)系
在景深視頻幀圖像中,各語(yǔ)義物體與相機(jī)的相對(duì)距離不同,在景深范圍內(nèi)的物體成像較為清晰,而在景深范圍外的物體成像較為模糊。這意味著,在景深類型的視頻幀圖像中,包含較為明顯的深度特征信息,如圖2 所示。圖2 中,紅框?yàn)榫吧罘秶鷥?nèi)物體的成像,藍(lán)框?yàn)榫吧罘秶馕矬w的成像??梢?jiàn),兩個(gè)框中的物體具有明顯的距離差,紅框中的物體與相機(jī)的距離更近。
圖2 景深類型圖像樣例Fig.2 Depth-of-field image samples
根據(jù)相機(jī)成像原理[5],不同物距的物體成像后清晰度不同。因此,在景深視頻幀圖像中,清晰部分對(duì)應(yīng)的物距是類似的。這為深度網(wǎng)絡(luò)預(yù)測(cè)幀圖像景深類型提供了新思路,即在深度網(wǎng)絡(luò)預(yù)測(cè)幀圖像類型時(shí),如果事先得到該圖像的景深信息,并將其作為顯式特征指導(dǎo)后續(xù)預(yù)測(cè)算法,那么可進(jìn)一步降低誤檢率。通過(guò)顯式的圖像景深信息,新網(wǎng)絡(luò)能判定的邏輯關(guān)系更豐富,見(jiàn)表1。
表1 判定邏輯比較Table 1 Decision logic comparison
例如,在圖2(a)中,葉尖(紅框部分)與葉根(藍(lán)框部分)具有不同的物距深度,如果均為高清像素,則可判定其為非景深視頻幀;而以往的深度網(wǎng)絡(luò)如果僅學(xué)習(xí)到了中間部分為高清,邊緣部分為模糊,就會(huì)判定其為景深視頻幀,則出現(xiàn)了誤判。
2.1.2 幀圖像深度預(yù)測(cè)網(wǎng)絡(luò)
幀圖像的深度預(yù)測(cè)模塊選用的是DeepLens 網(wǎng)絡(luò)模型中的深度預(yù)測(cè)模塊。輸入某圖像后,該模塊將輸出對(duì)應(yīng)的深度預(yù)測(cè)熱力圖,部分結(jié)果如圖3 所示,其中,左側(cè)為輸入的圖像,右側(cè)為對(duì)應(yīng)的深度預(yù)測(cè)結(jié)果熱力圖,偏紅的區(qū)域表示深度較小,偏藍(lán)的區(qū)域表示深度較大。
圖3 深度預(yù)測(cè)網(wǎng)絡(luò)結(jié)果示意Fig.3 Depth prediction results
分割任務(wù)中的深度網(wǎng)絡(luò)模塊包含編碼器和解碼器兩部分,編碼器采用預(yù)訓(xùn)練的ResNet 50 架構(gòu)[4],解碼器則由一系列上采樣模塊構(gòu)成,同時(shí)包含來(lái)自編碼器的跳躍連接。與跳躍連接對(duì)應(yīng)的2 個(gè)層分辨率相同,分別用于減少在網(wǎng)絡(luò)正向計(jì)算時(shí)下采樣操作中的特征損失和防止網(wǎng)絡(luò)梯度傳播中出現(xiàn)梯度消失現(xiàn)象。該模塊采用多任務(wù)訓(xùn)練方式,同時(shí)訓(xùn)練網(wǎng)絡(luò)預(yù)測(cè)深度估計(jì)和前景分割數(shù)據(jù)集,以提升網(wǎng)絡(luò)的泛化能力。
考慮景深檢測(cè)任務(wù)和失真問(wèn)題的相似性,本文借鑒多任務(wù)聯(lián)合訓(xùn)練的方法,在將該模塊用于景深深度提取的同時(shí),預(yù)測(cè)圖像是否失真(獨(dú)立于景深類型的一個(gè)人工標(biāo)簽),即增加一個(gè)分類損失,從而進(jìn)一步增加多任務(wù)訓(xùn)練的多樣性,提升性能。其損失函數(shù)為
其中,Loss 表示該模塊的總損失;Lossdeep表示深度預(yù)測(cè)的損失[3],λ表示協(xié)調(diào)損失權(quán)重的參數(shù),y1表示樣本是否為失真類型的標(biāo)簽,Y1表示網(wǎng)絡(luò)該分支的輸出。因此,此處深度預(yù)測(cè)模塊有2 個(gè)輸出:深度預(yù)測(cè)結(jié)果熱力圖和圖像失真情況分類。
2.1.3 視頻景深類型預(yù)測(cè)網(wǎng)絡(luò)
通過(guò)幀圖像深度預(yù)測(cè)模塊得到幀圖像深度信息,并將其用于執(zhí)行景深分類任務(wù),以提高預(yù)測(cè)網(wǎng)絡(luò)性能。這里并不需要為景深設(shè)計(jì)特定的特征描述子,只需將其作為指導(dǎo)性特征,輸入景深分類網(wǎng)絡(luò)。
本文將原幀圖像和預(yù)測(cè)的深度預(yù)測(cè)結(jié)果熱力圖按通道合并作為輸入。由于深度預(yù)測(cè)模塊輸出的維度與圖像輸入的維度不同,如果對(duì)輸入幀圖像做縮放處理,易導(dǎo)致變形,使圖像語(yǔ)義發(fā)生變化,混淆網(wǎng)絡(luò)提取特征,為此,首先,將輸入圖像以其短邊為基準(zhǔn),裁剪成長(zhǎng)、寬相等,再縮放至224×224×3 的特定尺寸。隨后將深度預(yù)測(cè)結(jié)果的尺寸也縮放為224×224×3,按照通道維度合并拼接,得到新的輸入圖像,維度為224×224×6??紤]在景深類型分類任務(wù)中需要一定的高級(jí)語(yǔ)義特征,但較深的網(wǎng)絡(luò)運(yùn)行速率低,本文選擇ResNet 18 架構(gòu)[4],對(duì)其做一定修改后作為本文的深度網(wǎng)絡(luò),結(jié)構(gòu)見(jiàn)表2。表2中,Bottleneck 代表殘差模塊,重復(fù)次數(shù)表示相同殘差模塊的連接個(gè)數(shù)。該深度網(wǎng)絡(luò)相對(duì)于ResNet 18結(jié)構(gòu)的主要不同在于輸入、輸出的維度和中間各殘差模塊的重復(fù)次數(shù)。在實(shí)際應(yīng)用中,網(wǎng)絡(luò)消耗越深,計(jì)算資源越多,而預(yù)測(cè)性能的提升卻有限,因此,做了折中處理。
該模塊的損失函數(shù)為預(yù)測(cè)的景深分類結(jié)果和真實(shí)標(biāo)注之間的交叉熵,記為
其中,Lossc表示景深分類預(yù)測(cè)損失,y2為樣本是否為景深類型的標(biāo)簽,Y2表示網(wǎng)絡(luò)的輸出。
通常,公開(kāi)的景深數(shù)據(jù)集很少,大多為圖像類數(shù)據(jù)集,且規(guī)模較小,與實(shí)際應(yīng)用中的待測(cè)試數(shù)據(jù)分布差異較大。如數(shù)據(jù)集CUHK[1]幾乎全為風(fēng)景類,而在快手線上,人物影像類視頻居多。然而,由于景深視頻在線上出現(xiàn)的概率較低,如果直接用人工篩選打標(biāo)則費(fèi)時(shí)費(fèi)力,因此需要一種可以在新的數(shù)據(jù)集上低成本地收集打標(biāo)所需數(shù)據(jù)的方法。為此,提出迭代式景深視頻數(shù)據(jù)集收集算法,流程如圖4 所示。
表2 深度網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Depth network structure
圖4 迭代式景深視頻數(shù)據(jù)集收集流程Fig.4 Iterative depth-of-field video collection
記隨機(jī)初始化的模型參數(shù)為M0。首先,將模型在其他數(shù)據(jù)分布的公開(kāi)數(shù)據(jù)集S0中訓(xùn)練,使用Early Stopping[15]的思想訓(xùn)練若干代數(shù),得到模型參數(shù)M1。隨后在快手線上隨機(jī)篩選K個(gè)數(shù)據(jù)視頻集S1作為測(cè)試集,這時(shí)將模型M1對(duì)S1中預(yù)測(cè)判定為“景深”的視頻數(shù)據(jù),即其子集Z1做人工篩選。相較于直接在S1中做人工篩選,Z1中出現(xiàn)景深視頻的概率p更大(p等于模型對(duì)于S1預(yù)測(cè)的正確率),從而降低了人力成本。隨后將新搜索得到的有標(biāo)數(shù)據(jù)(包括景深視頻和非景深視頻)加入S0中,重新訓(xùn)練網(wǎng)絡(luò)模型,得到M2,繼續(xù)以同樣方法,在新的一批線上視頻S2中做預(yù)測(cè)、搜索和打標(biāo),依次迭代,直至網(wǎng)絡(luò)性能無(wú)明顯提升或不再提升。通過(guò)該算法迭代實(shí)際完成了2 個(gè)任務(wù):(1)通過(guò)增加訓(xùn)練數(shù)據(jù)和改善訓(xùn)練數(shù)據(jù)分布,進(jìn)一步提升了深度網(wǎng)絡(luò)的性能;(2)以較低成本得到了大量景深視頻數(shù)據(jù),用于進(jìn)一步研究。
實(shí)驗(yàn)比較的數(shù)據(jù)集包括在快手線上收集的景深視頻數(shù)據(jù)集和文獻(xiàn)[1]中的景深圖像數(shù)據(jù)集CUHK,其中,快手線上收集的景深視頻共350 個(gè),包含171 個(gè)景深類型視頻和179 個(gè)普通視頻。在景深視頻類型中,對(duì)光圈大小和焦深不作要求,唯一標(biāo)準(zhǔn)是景深;而普通視頻類,包括模糊視頻和清晰非景深視頻兩類。
模型訓(xùn)練的批大?。╞atch size)設(shè)置為32,網(wǎng)絡(luò)模型使用Adam[16]優(yōu)化器訓(xùn)練,初始的學(xué)習(xí)率設(shè)置為0.001,后續(xù)每50 個(gè)epoch 學(xué)習(xí)率降為之前的0.1倍。大量實(shí)驗(yàn)表明,宜將式(1)中的λ設(shè)置為0.9。在快手線上的視頻數(shù)據(jù)集中,用140 個(gè)景深視頻和140 個(gè)非景深視頻作為訓(xùn)練集,余下數(shù)據(jù)用于測(cè)試。訓(xùn)練中,首先對(duì)視頻做采樣幀處理,對(duì)于輸入的視頻,每間隔10 幀采樣一幀,以降低計(jì)算量。測(cè)試時(shí),將所有采樣幀輸入網(wǎng)絡(luò),并將所有結(jié)果的均值作為網(wǎng)絡(luò)對(duì)視頻的分類預(yù)測(cè)。而CUHK 圖像數(shù)據(jù)集則無(wú)須該處理。網(wǎng)絡(luò)為回歸輸出,即為(0,1)內(nèi)的分?jǐn)?shù),值越大表示為景深視頻的概率越高,以T=0.4作為閾值。在迭代式數(shù)據(jù)集收集訓(xùn)練中,迭代次數(shù)設(shè)為4,每次迭代收集的數(shù)據(jù)集大小為K=1 000。
首先,需加載DeepLens 模塊預(yù)訓(xùn)練的參數(shù),以提高初始參數(shù)分布的有效性,同時(shí),快手線上景深視頻數(shù)據(jù)不包含分割網(wǎng)絡(luò)所需要的標(biāo)注,無(wú)法計(jì)算該模塊的損失函數(shù),模型僅在首次訓(xùn)練時(shí)以學(xué)習(xí)率0.000 1 微調(diào)DeepLens 模塊,在后續(xù)的迭式訓(xùn)練中凍結(jié)DeepLens 模塊中的參數(shù),只訓(xùn)練分類網(wǎng)絡(luò)模塊。
由于文獻(xiàn)[1]和文獻(xiàn)[2]均為分割算法預(yù)測(cè)像素分類,無(wú)法直接預(yù)測(cè)視頻類型。為公平比較,本文先對(duì)預(yù)測(cè)結(jié)果做進(jìn)一步處理,然后再進(jìn)行預(yù)測(cè)視頻分類。對(duì)于文獻(xiàn)[1],由于其預(yù)測(cè)圖像中每個(gè)像素模糊的種類(未失真、運(yùn)動(dòng)模糊、景深外模糊)不同,因此將其預(yù)測(cè)結(jié)果中景深范圍外模糊占比高于20%或沒(méi)有運(yùn)動(dòng)模糊只有景深范圍外模糊的幀圖像判定為景深視頻幀;對(duì)于文獻(xiàn)[2],將預(yù)測(cè)結(jié)果為“好模糊”的幀圖像判定為景深幀。此外,考慮快手線上數(shù)據(jù)無(wú)分割標(biāo)簽,無(wú)法用于訓(xùn)練文獻(xiàn)[1]和文獻(xiàn)[2],因此僅在CUHK 數(shù)據(jù)集中做了比較。所有實(shí)驗(yàn)均重復(fù)20 次,取均值作為最終結(jié)果,見(jiàn)表3。
表3 快手線上景深視頻數(shù)據(jù)實(shí)驗(yàn)結(jié)果Table 3 Experimental results of Kuaishou depth of field video
表3 中,本文算法表示與其他方案一致的訓(xùn)練數(shù)據(jù)集(即訓(xùn)練中沒(méi)有加入快手?jǐn)?shù)據(jù)集),本文算法+表示迭代式地利用快手視頻數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。由表3可知,本文算法在準(zhǔn)確率和召回率上均較文獻(xiàn)[1]方法和文獻(xiàn)[2]方法好。其中,文獻(xiàn)[1]方法表現(xiàn)較差的主要原因是其只做了分割任務(wù)的訓(xùn)練學(xué)習(xí),不適用于直接視頻分類任務(wù)。同時(shí),在訓(xùn)練集中加入快手線上數(shù)據(jù)后,可看到本文算法的性能得到了進(jìn)一步提升,這也證實(shí)了迭代式景深數(shù)據(jù)集收集算法的作用。
為驗(yàn)證深度預(yù)測(cè)模塊的有效性,進(jìn)行消融對(duì)照實(shí)驗(yàn),即刪去DeepLens 深度預(yù)測(cè)模塊,在網(wǎng)絡(luò)模型中只輸入224×224×3 的原始幀裁剪圖像,結(jié)果如表4 所示。進(jìn)一步,在文獻(xiàn)[1]方法中,嘗試將深度預(yù)測(cè)的結(jié)果,如本文方案中的按通道合并,加入輸入中,即只改變網(wǎng)絡(luò)的輸入和第1 層的輸入維度,并在同樣的景深像素分割任務(wù)中進(jìn)行訓(xùn)練測(cè)試,觀察其分割性能指標(biāo)的變化,結(jié)果如表4 所示。
表4 深度預(yù)測(cè)特征有效性實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the validity of depth features
由表4 可知,在與景深強(qiáng)相關(guān)的任務(wù)中,加入景深深度信息可有效增加模型特征的感知能力,從而提高模型的性能。
為驗(yàn)證迭代式景深收集算法的性能,收集了不同迭代次數(shù)的算法性能,如表5 所示。隨著迭代次數(shù)的增加,算法的性能得到逐步提升,迭代之初提升較快,之后提升變慢。多次迭代后,算法訓(xùn)練的數(shù)據(jù)集瓶頸得到消除。
表5 迭代式景深視頻收集算法性能變化Table 5 Performance versus number of iterations in the iterative depth-of-field video collection algorithm
同時(shí),按照本文算法在較短時(shí)間(2 h,只統(tǒng)計(jì)人工篩選的時(shí)間)內(nèi)在快手線上收集到了105 個(gè)景深視頻。
表6 可視化地展示了迭代式景深視頻收集算法帶來(lái)的性能提升(分?jǐn)?shù)越高,為景深視頻的概率越大)。表6 中,第1 和第3 行為景深視頻截圖,2 個(gè)方案都預(yù)測(cè)準(zhǔn)確。第2 行為偽景深視頻幀,臉部同時(shí)存在清晰、模糊,未使用深度特征的算法發(fā)生了誤判。第4 行也為偽景深視頻幀,場(chǎng)景有較強(qiáng)層次感,但遠(yuǎn)、近處清晰度相似。
表6 本文算法預(yù)測(cè)分?jǐn)?shù)可視化比較Table 6 Visualization of prediction score
可見(jiàn),本文算法可較好地識(shí)別景深深度邏輯存在問(wèn)題的偽景深視頻幀。
研究了景深視頻分類算法的線上應(yīng)用問(wèn)題和深度學(xué)習(xí)分類應(yīng)用的幾個(gè)問(wèn)題。針對(duì)景深視頻分類任務(wù),由景深成像原理,在景深視頻幀圖像中,根據(jù)景深預(yù)測(cè)結(jié)果,可解決預(yù)測(cè)邏輯問(wèn)題,從而降低誤檢率。針對(duì)線上數(shù)據(jù)集較少的問(wèn)題,設(shè)計(jì)了迭代式景深視頻數(shù)據(jù)集收集算法,以較低的勞動(dòng)成本實(shí)現(xiàn)快速收集所需數(shù)據(jù),具有一定的應(yīng)用價(jià)值。