吳澤民 劉 濤 姜青竹 胡 磊
?
視頻編碼參數(shù)對目標(biāo)識別性能影響的研究
吳澤民 劉 濤*姜青竹 胡 磊
(中國人民解放軍理工大學(xué)通信工程學(xué)院 南京 210007)
國內(nèi)外研究人員對圖像目標(biāo)分類識別和視頻編碼傳輸問題都分別進行了大量研究,但是對于視頻編碼參數(shù)對目標(biāo)識別性能影響的定量關(guān)系,還沒有公開的文獻報導(dǎo)。針對這一問題,該文選擇典型的目標(biāo)識別算法可變部件模型(DPM)和最常用的視頻編碼方法H.264/AVC作用測試對象,通過設(shè)計的編碼和檢測實驗,研究了碼率和分辨率參數(shù)對視頻目標(biāo)識別性能的影響,并擬合了識別性能隨碼率和分辨率變化的函數(shù)關(guān)系。通過選取編碼器合適的碼率和分辨率工作參數(shù),可以獲得信道帶寬與視頻目標(biāo)識別性能的折中,為設(shè)計不同視頻應(yīng)用的編碼優(yōu)化目標(biāo)函數(shù)提供了依據(jù)。
計算機視覺;目標(biāo)識別;視頻編碼;碼率;分辨率
目標(biāo)識別是計算機視覺的熱門領(lǐng)域,在軍事和民用領(lǐng)域都受到越來越多的重視,得到極大發(fā)展和應(yīng)用。視頻目標(biāo)識別是其重要應(yīng)用之一。但是在網(wǎng)絡(luò)化應(yīng)用環(huán)境中,由于信道實際帶寬的限制,視頻必須經(jīng)過壓縮編碼再傳輸。不同的視頻編碼參數(shù)形成的接收端重構(gòu)數(shù)據(jù),它對目標(biāo)識別性能的影響還不太清楚。這也是本文的中心研究問題。
在戰(zhàn)場、搶險等低傳輸帶寬的應(yīng)用環(huán)境中,視頻碼率是關(guān)鍵的性能參數(shù),它與分辨率、感知失真、量化步長等參數(shù)交互作用,構(gòu)成系統(tǒng)最優(yōu)化問題。當(dāng)考慮視頻目標(biāo)識別這樣的應(yīng)用時,應(yīng)用性能指標(biāo)與視頻編碼參數(shù)的關(guān)系變得更加復(fù)雜。需要尋找應(yīng)用性能指標(biāo)與編碼參數(shù)的函數(shù)關(guān)系,從而在原有的優(yōu)化框架中實現(xiàn)視頻應(yīng)用的編碼目標(biāo)。本文考慮實驗參數(shù)的可選擇性和編解碼工具的可控性,重點分析了目標(biāo)識別性能與編碼速率與分辨率的關(guān)系。第2節(jié)回顧相關(guān)工作,并介紹目標(biāo)識別算法和視頻編碼器;在第3節(jié)和第4節(jié),分別試驗和總結(jié)了碼率、分辨率對目標(biāo)識別性能的影響;在第5節(jié),完成了碼率和分辨率對目標(biāo)識別性能的聯(lián)合影響曲線的實驗和擬合。
目前,圖像目標(biāo)識別技術(shù)主要采用詞包[1,2](Bag Of Feature, BOF)、方向梯度直方圖[3,4](Histogram of Oriented Gradient, HOG)和可變部件模型[5](Deformable Part Model, DPM)3種方式,它們在視頻目標(biāo)識別[6,7]和視頻人體目標(biāo)識別[8]得到了廣泛的應(yīng)用,并實現(xiàn)了無監(jiān)督方法對視頻目標(biāo)識別[9,10];視頻編碼參數(shù)對視頻質(zhì)量的影響[11,12]也得到研究人員的關(guān)注。但是,對于視頻編碼參數(shù)對目標(biāo)識別性能影響的定量關(guān)系,還沒有公開的文獻報導(dǎo)。
2.1目標(biāo)識別算法
詞包模型基于中層特征對場景語義建模,它無需分析場景圖像中的具體目標(biāo)組成,而是應(yīng)用圖像場景的整體統(tǒng)計信息,將量化后的圖像低層特征視為單詞,通過圖像的單詞分布來表達圖像場景內(nèi)容[1]。方向梯度直方圖模型使用HOG特征來表達人體,提取人體的外形信息和運動信息,形成豐富的特征集[3]。HOG的主要思想為在一幅圖像中,局部目標(biāo)的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。
可變部件模型為這幾年最為流行的圖像目標(biāo)檢測算法。文獻[13]為了在特征描述階段定義物體形變而提出了DPM模型。DPM模型使用星型結(jié)構(gòu)的部件模型,此模型由一個根濾波器、一系列部件濾波器以及相應(yīng)的可變形模型構(gòu)成。根濾波器包含目標(biāo)的整體信息,而部件濾波器采用高分辨率的細節(jié)建模。星型模型在圖像特定位置和尺度的得分,等于根濾波器的得分加上各個部件的得分的總和。每個部件的得分等于此部件在所有空間位置的得分的最大值,而部件在某位置的得分等于部件濾波器在此位置的得分減去此位置的變形代價。變形代價衡量了部件偏離其理想位置的程度,即部件偏離與根濾波器的最優(yōu)相對位置程度。
通過定位每個部件和定量部件之間的相對位置關(guān)系,DPM模型容許目標(biāo)出現(xiàn)較大程度的外觀形變。從而使得DPM模型可以識別各種多變的目標(biāo),大大提高了檢測正確率。文獻[5]利用DPM進行圖像目標(biāo)識別,并利用級聯(lián)技術(shù)加速目標(biāo)識別[14]。為了提高目標(biāo)識別精度,文獻[15]將語法模型添加到DPM目標(biāo)識別算法中。模型使用判別分類器完成目標(biāo)識別,有監(jiān)督的訓(xùn)練過程需要用到圖片集中標(biāo)注的目標(biāo)矩形框。訓(xùn)練完成的分類器既高效又精確,能夠在PASCAL VOC 2006, 2007, 2008等測試集上達到目前最佳結(jié)果[5]。故本文選DPM作為識別算法進行實驗。
2.2視頻編碼器
H.264/AVC是由聯(lián)合視頻組(JVT)所開發(fā)的最新的視頻編碼技術(shù)國際標(biāo)準(zhǔn),被國際電信聯(lián)盟標(biāo)準(zhǔn)化組織(ITU-T)的視頻編碼專家組(VCEG)和國際標(biāo)準(zhǔn)化組織(ISO/IEC)的運動圖像專家組(MPEG)共同認可。它以計算復(fù)雜度增加和編碼結(jié)構(gòu)復(fù)雜為代價,取得了比其他標(biāo)準(zhǔn)更高的編碼效率[16]。因H.264/AVC具有壓縮視頻圖像清晰、壓縮比率大、低碼率易于傳輸?shù)葍?yōu)點,使其成為被廣泛使用的視頻編碼標(biāo)準(zhǔn)。故本文選H.264/AVC作為編碼工具進行實驗。
本文中使用的視頻編碼器是X.264,是由法國巴黎中心學(xué)校的中心研究所于2004年6月發(fā)起的項目,由許多視頻愛好者共同完成的項目。X.264注重實效性。在不明顯降低編碼性能的前提下,降低編碼的復(fù)雜度[17],同時它在碼率控制算法中具有靈活性、實時性和高效性的優(yōu)點。而且X.264編碼器控制簡單,可以根據(jù)預(yù)設(shè)的編碼速率,自動生成指定速率的視頻碼流。故本文選X.264作為視頻編碼器進行實驗。
碼率是視頻編碼最常見最重要的參數(shù)之一,表示視頻流在單位時間內(nèi)產(chǎn)生的數(shù)據(jù)流量,其單位通常為kbps(千比特每秒)。碼率控制就是有效地控制視頻編碼器,使其輸出碼流的速率穩(wěn)定在一定范圍,滿足傳輸信道實際帶寬的限制。通過試驗的方式,統(tǒng)計出感興趣物理量之間的關(guān)系,在視頻分析和應(yīng)用是普遍的方法[18,19]。本節(jié)通過碼率控制,測試碼率參數(shù)與目標(biāo)識別性能的關(guān)系。
3.1碼率對識別性能影響實驗方法
本文實驗使用VIRAT視頻數(shù)據(jù)庫,它由美國國防高級研究計劃局(DARPA)下屬信息處理技術(shù)辦公室(IPTO)資助建立。VIRAT視頻數(shù)據(jù)庫主要提供目標(biāo)為街道行人、道路車輛及停車場等的監(jiān)控視頻,還包括目標(biāo)為坦克、汽車等的無人機航拍視頻,視頻分辨率大小為1280×720。數(shù)據(jù)庫中同時還包含各個視頻的手工標(biāo)注信息,包括目標(biāo)的種類和位置。如果目標(biāo)為人,則還包括目標(biāo)行為類別。本實驗使用該數(shù)據(jù)庫的街道行人和車的監(jiān)控視頻及其位置標(biāo)注信息,通過測試行人和車的檢測成功率,建立視頻編碼參數(shù)與檢測器性能的關(guān)系。
本文實驗對DPM模型的訓(xùn)練分別使用Pascal VOC 2012 和INRIA Datasets 兩個圖像數(shù)據(jù)集。Pascal VOC數(shù)據(jù)集有10000幅圖像,包含有人、汽車等20個種類的目標(biāo),并給出了目標(biāo)的種類和位置人工標(biāo)注,本文使用該圖像集分別訓(xùn)練出人和汽車的DPM模型。INRIA Datasets含有人、汽車和馬的圖像集,本文使用其人和汽車圖像集分別訓(xùn)練出人和汽車的DPM模型。本文分別使用Pascal VOC和INRIA Datasets圖像集訓(xùn)練出的DPM模型檢測VIRIA視頻中的行人和車。
實驗分為兩部分,如圖1所示。第1部分直接使用DPM算法對原YUV視頻進行目標(biāo)識別,將識別結(jié)果作為對比的基準(zhǔn)。第2部分,在其它編碼參數(shù)相同的條件下,對原視頻采用H.264/AVC編碼器進行不同的碼率下的壓縮編碼,使得生成的碼率能適應(yīng)不同的傳輸信道帶寬。然后使用H.264解碼器完成對視頻幀的重建,在重建后的圖像幀中使用DPM算法進行目標(biāo)識別的測試,用平均正確率(Average Precision, AP)指標(biāo)值衡量目標(biāo)識別性能。本實驗中,視頻編碼速率取值從50 kpbs開始,直到1000 kpbs結(jié)束,每次調(diào)整編碼速率時步進50 kpbs。
圖1 碼率對識別性能影響的實驗流程
3.2碼率對識別性能影響實驗結(jié)果
圖2不同視頻編碼碼率的解碼后識別性能
表1不同編碼碼率對識別性能影響的函數(shù)擬合結(jié)果
3.3編碼速率對識別性能影響的實驗結(jié)果分析
由式(1)和圖2得到,當(dāng)碼率在區(qū)間50~300 kbps時,隨著碼率的上升,識別性能指標(biāo)AP值上升較快;當(dāng)碼率在區(qū)間300~700 kbps時,隨著碼率的上升,AP值上升緩慢;當(dāng)碼率超過700 kbps后,隨著碼率的上升,AP值趨于穩(wěn)定在0.71。
對于本文使用的監(jiān)控視頻,在實驗中使用的最大碼率1000 kbps時,由YUV得到的H.264文件壓縮比達到330倍,實驗中使用的最小碼率50 kbps時,壓縮比更是達到了3640倍。壓縮比越大,解碼后的視頻失真越嚴(yán)重。當(dāng)編碼參數(shù)變化時,本文也觀察并分析了DPM識別算法性能下降的原因。
如圖3(a)所示,碼率50 kbps編碼后的視頻解碼后每幀圖像失真非常嚴(yán)重,塊效應(yīng)嚴(yán)重,而且圖中人體出現(xiàn)了大的塊效應(yīng)。DPM算法進行全局模板匹配時,在大的塊效應(yīng)作用下,得到的人體邊緣梯度直方圖誤差非常大,影響人體目標(biāo)整體識別,而人體目標(biāo)整體識別得分在人體識別最終得分比例最高,所以大的塊效應(yīng)對識別性能影響非常大。故監(jiān)控視頻以碼率50 kbps編碼,其傳輸解碼后的人體目標(biāo)識別性能遠低于原始YUV視頻,識別性能指標(biāo)低于一半,大的塊效應(yīng)為最大影響因素。
圖3(b)為碼率300 kbps編碼后的與圖3(a)相同幀的圖像。與圖3(a)相比,它的圖像質(zhì)量顯著上升,雖然沒有明顯的大的塊效應(yīng),但小的塊效應(yīng)廣泛存在。DPM算法進行局部部件模板匹配時,小的塊效應(yīng)干擾小尺度精細特征的提取,使算法不能得到正確的人體部件和部件位置。所以小的塊效應(yīng)影響人體目標(biāo)部件的識別,因為部件識別得分占人體識別最終得分相對低于整體識別得分,所以小的塊效應(yīng)對識別性能影響小于大的塊效應(yīng)。編碼碼率在區(qū)間50~300 kbps時,影響AP值的主要因素為大的塊效應(yīng),它對識別性能影響非常大,因此隨著碼率的上升識別性能指標(biāo)AP值上升較快。
圖3(c)為碼率700 kbps編碼后的與圖3(a)相同幀的圖像。將它與圖3(b)進行仔細對比,發(fā)現(xiàn)圖3(c)的圖像質(zhì)量上升,小的塊效應(yīng)也基本消失。顯然編碼碼率在區(qū)間300~700 kbps時,小的塊效應(yīng)為識別性能的最大影響因素,而小的塊效應(yīng)對識別性能影響小于大的塊效應(yīng),因此在區(qū)間內(nèi)隨著碼率的上升AP值上升相對較慢。
圖3 不同編碼碼率的解碼視頻同一幀的圖像
圖3(d)為碼率1000 kbps編碼后的與圖3(a)相同幀的圖像,它的圖像質(zhì)量與圖3(c)基本相同,小的塊效應(yīng)徹底消失。因此編碼碼率在區(qū)間700~1000 kbps時影響識別性能的主要因素為DPM目標(biāo)識別算法和原始視頻,隨著碼率的上升,AP值趨于穩(wěn)定,略小于。
根據(jù)以上分析,在原視頻及其它編碼參數(shù)一定的條件下,通過在視頻編碼時選取合適的碼率,則既可以節(jié)約信道,又能保證視頻具有較高的識別性能。
視頻分辨率代表每幀圖像的精細程度,通常用每幀圖像的像素個數(shù)表示。本文實驗采用的VIRAT數(shù)據(jù)庫視頻分辨率大小為1280×720。在視頻編碼器的工作參數(shù)中,可以選擇不同的視頻分辨率,它對最終的編碼速率和率失真影響也很大[20]。這里,在編碼前對原始視頻進行下采樣,減小視頻的分辨率,為視頻質(zhì)量的控制增加一個可調(diào)參數(shù)。解碼重建后的視頻需要進行上采樣恢復(fù)相同的視頻分辨率,然后再進行目標(biāo)識別檢測。下采樣時使用高斯平滑濾波器進行像素濾波,上采樣時使用雙線性濾波進行插值。實驗的其它步驟與第3節(jié)相同,這里不再描述。
4.1分辨率對識別性能影響的實驗原理
如圖4所示,本文首先將原YUV視頻A進行下采樣,下采樣尺度比為,得到分辨率大小為YUV視頻;然后使用H.264/AVC算法將壓縮編碼,限制碼率大小為,得到H.264文件H;將傳輸后的文件解碼得到Y(jié)UV文件,顯然分辨率大小和相同;最后將上采樣,上采樣尺度比為,得到與A分辨率大小相同的YUV視頻B。
圖4 采樣編碼流程圖
其中為下采樣數(shù)據(jù),為上采樣數(shù)據(jù),為編碼產(chǎn)生的誤差。
視頻B識別性能AP被分解為采樣AP項和編碼AP誤差項。為了研究分辨率大小對識別性能的影響,則需要將編碼誤差降到最小。在理想狀態(tài)下,編碼誤差為0。在本節(jié)實驗中,通過去除圖4實驗流程中的編碼和解碼模塊,可以模擬編碼誤差為0的條件。此時的目標(biāo)識別性能只是采樣尺度比的函數(shù):
下采樣后的編碼視頻經(jīng)解碼后,如果形成的YUV圖像不經(jīng)過上采樣而直接進行目標(biāo)識別,得到的識別性能很差,其中在采樣尺度比為時AP值已經(jīng)等于0。經(jīng)過分析,這與VIRAT數(shù)據(jù)庫監(jiān)控視頻和DPM模型相關(guān)。由于監(jiān)控畫面的角度大,范圍廣,人在視頻中所占的比例較小,當(dāng)對視頻下采樣分辨率大小減小后,人體目標(biāo)所占的像素隨之減小;使用的DPM模型需要對人體各個部分進行識別,當(dāng)人體所占像素較小時則人體部件所占像素過小而識別性能變差甚至不能識別。所以在實驗中,將解碼后的視頻進行上采樣,使其分辨率大小恢復(fù)原始的尺度。
4.2 分辨率對識別性能影響實驗結(jié)果及分析
經(jīng)過實驗,得到的擬合結(jié)果如圖5。根據(jù)樣本點的分布情況,分別對其進行負指數(shù)函數(shù)和多項式函數(shù)擬合,擬合結(jié)果如表2所示。通過對比得到負指數(shù)函數(shù)擬合式(4)擬合效果更好。
圖5 視頻在不同采用尺度比的識別性能
表2采樣尺度比對識別性能影響的函數(shù)擬合結(jié)果
結(jié)合圖5與式(4),可以直觀得到分辨率大小與AP值之間的關(guān)系。隨著的增大,AP值先增加,
視頻下采樣后,生成的碼流速率將減小,對傳輸信道的帶寬要求降低。因此,在原視頻及其它參數(shù)不變的條件下,通過對視頻進行合適采樣尺度比的下采樣后再傳輸,既可以節(jié)約信道,又能保證視頻具有較高的識別性能。這樣可以為視頻編碼參數(shù)的優(yōu)化提供一個新的思路。
經(jīng)過測試和分析,發(fā)現(xiàn)通過選取合適碼率編碼或者合適分辨率大小采樣,可以在保持較高識別性能情況下減小視頻傳輸所需的帶寬。本節(jié)結(jié)合前面的實驗,同時改變碼率和分辨率大小,希望在識別性能和視頻傳輸帶寬之間尋找更合適的平衡點。
5.1 碼率和分辨率對識別性能聯(lián)合影響的實驗方法
本節(jié)的實驗流程設(shè)計與第4節(jié)相同。因為需要同時研究碼率和分辨率對識別性能影響,因此實驗操作步驟中,與第4節(jié)的主要區(qū)別是編碼和解碼模塊不再省略。為了方便對比,離散選取的編碼速率與第3節(jié)相同,而采樣尺度比選取與第4節(jié)相同。
5.2碼率和分辨率對識別性能聯(lián)合影響的結(jié)果及分析
實驗結(jié)果如圖6中點所示。圖6(a)以碼率為橫坐標(biāo),為了便于觀察,本文只畫出了采樣尺度比為1/8, 3/8, 5/8和7/8的實驗結(jié)果。圖6(b)以采樣尺度比為橫坐標(biāo),畫出了碼率為100 kbps, 300 kbps, 500 kbps和700 kbps的實驗結(jié)果。第4節(jié)由式(3)知,視頻B的識別性能由視頻采樣AP項和編碼AP誤差項組成,結(jié)合式(4)得到
圖6 視頻在不同碼率和分辨率大小條件下編碼傳輸解碼后的識別性能
在只進行編碼而不進行下采樣的模式下,由式(1)可得編碼誤差項:
圖7 y1, y2的計算值和擬合曲線
將式(10)代入式(5),得到采樣尺度比、編碼速率及AP之間的關(guān)系的擬合式(11)。驗證得到式(11)與原數(shù)據(jù)的相關(guān)系數(shù)為0.9688。圖6(a)和圖6(b)分別是以碼率和采樣尺度比為橫坐標(biāo)的擬合曲線。
綜合分析碼率和分辨率大小,本文發(fā)現(xiàn):在編碼前先將視頻用合適的尺度比進行下采樣,然后在接收端進行上采用恢復(fù),能夠在保證視頻具有較高識別性能前提下進一步降低碼率。因此,選取合適的碼率和分辨率大小,可以在傳輸帶寬和目標(biāo)識別性能之間獲得平衡。
在網(wǎng)絡(luò)化應(yīng)用環(huán)境中,視頻編碼的編碼速率和分辨率參數(shù),對接收端目標(biāo)識別性能有重要影響。本文通過實驗,獲得了檢測性能與編碼速率和分辨率的函數(shù)關(guān)系。在實際應(yīng)用中,可以通過選取合適的碼率和分辨率大小,來降低傳輸所需的帶寬,同時保證視頻具有較高的識別性能。這也為針對不同的視頻應(yīng)用,設(shè)計更合理的率失真優(yōu)化函數(shù)提供了依據(jù)。但是由于該函數(shù)關(guān)系具有較強的非線性,為優(yōu)化算法提出了新的問題。下一步將繼續(xù)細化統(tǒng)計特征的分析和驗證,另一方面也將進行聯(lián)合優(yōu)化算法的研究。
[1] Li L J and Li F F. What, where and who? classifying events by scene and object recognition[C]. Proceedings of the IEEE 11th International Conference on Computer Vision, Rio de Janeiro, Brazil, 2007: 1-8.
[2] Lei B, Wang T, Chen S,. Object recognition based on adapative bag of feature and discriminative learning[C]. Proceedings of the 20th IEEE International Conference on Image Processing, Melbourne, Australia, 2013: 3390-3393.
[3] Dalal N and Triggs B. Histograms of oriented gradients for human detection[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, USA, 2005, 1: 886-893.
[4] Wei D, Zhao Y, Cheng R,. An enhanced histogram of oriented gradient for pedestrian detection[C]. Proceedings of the 4th IEEE International Conference on Intelligent Control and Information Processing,Beijing, China, 2013: 459-463.
[5] Felzenszwalb P F, Girshick R B, McAllester D,. Object detection with discriminatively trained part-based models[J]., 2010, 32(9): 1627-1645.
[6] Ding Y, Zhang J, Li J,. A bag-of-feature model for video semantic annotation[C]. Proceedings of the 6th IEEE International Conference on Image and Graphics, Hefei, China, 2011: 696-701.
[7] Huang D K, Chen K Y, and Cheng S C. Video object detection by model-based tracking[C]. Proceedings of the 20th IEEE International Symposium on Circuits and Systems, Beijing, China, 2013: 2384-2387.
[8] Blair C, Robertson N M, and Hume D. Characterizing a heterogeneous system for person detection in video using histograms of oriented gradients: power versus speed versus accuracy[J]., 2013, 3(2): 236-247.
[9] Liu Y, Jang Y, Woo W,. Video-based object recognition using novel set-of-sets representations[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Columbus, USA, 2014: 533-540.
[10] Sharma P, Huang C, and Nevatia R. Unsupervised incremental learning for improved object detection in a video[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 3298-3305.
[11] Wu Q and Li H. Mode dependent down-sampling and interpolation scheme for high efficiency video coding[J].:, 2013, 28(6): 581-596.
[12] Wang T, Chen Y, He Y,. A real-time rate control scheme and hardware implementation for H. 264/AVC
encoders[C]. Proceedings of the 5th IEEE International Congress on Image and Signal Processing, Chongqing, China, 2012: 5-9.
[13] Felzenszwalb P F and Huttenlocher D P. Pictorial structures for object recognition[J]., 2005, 61(1): 55-79.
[14] Felzenszwalb P F, Girshick R B, and McAllester D. Cascade object detection with deformable part models[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,San Francisco, USA, 2010: 2241-2248.
[15] Girshick R B, Felzenszwalb P F, and Mcallester D A. Object detection with grammar models[C]. Proceedings of the 25th IEEE Conference on Advances in Neural Information Processing Systems, Granada, Spain, 2011: 442-450.
[16] 袁武, 林守勛, 牛振東, 等. H. 264/AVC 碼率控制優(yōu)化算法[J]. 計算機學(xué)報, 2008, 31(2): 329-339.
Yuan W, Lin S X, Niu Z D,..Efficient rate control schemes for H.264/AVC[J]., 2008, 31(2): 329-339.
[17] 魏江, 劉迪. 基于DM642的X.264編碼器優(yōu)化[J]. 現(xiàn)代電子技術(shù), 2011, 34(14): 68-70.
Wei J and Liu D.Optimization of X.264 encoder based on DM642 platform[J]., 2011, 34(14): 68-70.
[18] Huang Y H, Ou T S, and Su P Y. Perceptual rate distortion optimization using structural similarity index as quality metric[J]., 2010, 20(11): 1614–1624.
[19] Ou T S, Huang Y H, and Chen H H. SSIM-based perceptual rate control for video coding[J]., 2011, 21(5): 682–691.
[20] Wang R, Huang C, and Chang P. Adaptive downsampling video coding with spatially scalable rate-distortion modeling [J]., 2014, 24(11): 1957-1968.
Video Coding Parameters Effect on Object Recognition
Wu Ze-min Liu Tao Jiang Qing-zhu Hu Lei
(,,210007,)
Researchers have done a great number of studies on the object recognition and the video coding transmission respectively. However, there are still no public reports about the influence on the object recognition raised by the video encoding parameters. For this issue, the Deformable Part Model (DPM), a typical object recognition algorithm and the most commonly-used video encoding methods-H.264/AVC are chosen as the test objects. In order to study how the code rates and the resolution affect the performance of video object recognition, the coding and detection experiments are designed and the function of recognition performance changes caused by the code rates and the resolution is fitted. The result shows that the compromise can be achieved between the channel bandwidth and the video object recognition performance through selecting the appropriate the code rates and the resolution parameters for the encoder which provides basis for encoding optimization object function of different video applications.
Computer vision; Object recognition; Video code; Code rates; Resolution
TP391.4
A
1009-5896(2015)08-1906-07
10.11999/JEIT141613
劉濤 ltaoliu_tao@foxmail.com
2014-12-18收到,2015-01-22改回,2015-05-11網(wǎng)絡(luò)優(yōu)先出版
航空科學(xué)基金(18265)資助課題
吳澤民: 男,1973年生,博士,副教授,研究方向為數(shù)據(jù)融合、圖像分析.
劉 濤: 男,1991年生,碩士生,研究方向為圖像分析、目標(biāo)識別.
姜青竹: 男,1987年生,碩士生,研究方向為視頻編碼與傳輸.