楊大慎,陳科圻,馬翠霞
一種面向無人機視頻的多尺度摘要的設計與實現(xiàn)
楊大慎1,陳科圻2,3,馬翠霞2,3
(1. 中國石化銷售有限公司華南分公司,廣東 廣州 510000;2.中國科學院大學計算機科學與技術學院,北京 100190;3. 中國科學院軟件研究所人機交互北京市重點實驗室,北京 100190)
無人機視頻是利用無人機航拍得到的一類重要的視頻資源,被廣泛運用于地面目標的監(jiān)測。但是,無人機視頻的視野遼闊、不具有目標針對性的拍攝特點,使其存在大量時空冗余,傳統(tǒng)的視頻交互手段顯得十分低效。為此,提出了一種面向無人機視頻的多尺度螺旋摘要。首先,基于YOLOv3算法,訓練能檢測無人機視角的行人、車輛等目標的模型。然后,提出了基于關鍵幀的視頻目標檢測算法,根據(jù)改進后的基于顏色特征的關鍵幀提取算法提取涵蓋視頻關鍵信息的關鍵幀,并將檢測模型應用于關鍵幀,高效獲取整個視頻的目標檢測結果。之后,從關鍵幀中提取相應的關鍵區(qū)域,作為摘要的呈現(xiàn)單元,并以螺旋的形式從內向外地將摘要單元逐一呈現(xiàn),輔以基于關鍵幀的視頻定位和尺度縮放功能。最后,開發(fā)了草圖注釋、目標分布螺旋、雙螺旋播放等新穎的交互工具,滿足用戶的潛在需求,共同實現(xiàn)面向無人機視頻的高效交互。
無人機;視頻摘要;視頻目標檢測;小目標檢測;螺旋摘要;視頻交互
無人機視頻是利用無人機航拍得到的一類重要的視頻資源,被廣泛運用于地面目標的監(jiān)測。其具有監(jiān)控視頻類似的特點:含有大量的時空冗余;反映特定時間、空間內的整體信息,不具有目標針對性。和監(jiān)控視頻的區(qū)別在于:無人機視頻的鏡頭是移動的,不存在固定背景,且目標往往比監(jiān)控視頻的目標小得多。如何讓用戶與無人機視頻進行高效交互,從中獲取關鍵內容,是當前的一個重要研究課題。
傳統(tǒng)的視頻信息獲取方式是順著時間軸逐幀播放視頻,并輔以快進、快退、拖拽進度條等交互手段。但是,無人機視頻豐富的語義信息、不明確的目標十分考驗人的認知水平,長時間的用眼負荷也會顯著降低人的注意力,快進、快退等加速手段又存在著跳過關鍵信息的風險,這些因素導致獲取視頻信息的常規(guī)手段顯得十分低效。因此,為了提高視頻信息的獲取效率,用于提煉視頻關鍵信息的視頻摘要技術便應運而生,摘要內容可作為視頻交互的媒介。目前通用的視頻摘要技術普遍是基于關鍵幀,而關鍵幀算法核心在于如何衡量視頻幀的重要性?;陬伾?、紋理等底層視覺特征,能夠從圖像的客觀統(tǒng)計特性的角度將視頻幀之間的差異量化;針對無人機視頻的感興趣目標提取語義信息,能夠更精確地判斷視頻的時空冗余。
獲得關鍵幀后,需要考慮以怎樣的形式將這些摘要信息呈現(xiàn)出來,并提供給用戶與這一摘要形式相搭配的交互手段,輔助信息獲取。BARNES等[1]提出將視頻摘要以長矩形條的形式展示,LIU等[2]將視頻摘要以螺旋的形式由內到外排布,兩者均基于關鍵幀實現(xiàn)視頻定位與尺度縮放,且具有良好的可拓展性。相較而言,螺旋摘要在有限的空間內能展現(xiàn)更豐富的內容,且以螺旋線為時間軸保證了視覺上的連續(xù)性,在高效的同時兼顧了更加自然、美觀的視覺效果。
因此,本文提出了一種面向無人機視頻的多尺度螺旋摘要。首先,采用YOLOv3算法[3]訓練了能檢測無人機視角下的行人和車輛等小目標的模型??紤]到逐幀檢測整個視頻既耗時,檢測結果也會大量重復,本文提出了基于關鍵幀的視頻目標檢測算法:運用改進的基于顏色特征的關鍵幀提取算法,從視頻中提取出關鍵幀,再將目標檢測模型應用于這些關鍵幀上,得到整個無人機視頻的檢測結果。之后,根據(jù)檢測結果從關鍵幀中提取包含檢測目標的摘要單元,并以螺旋的形式從內向外將摘要單元逐一呈現(xiàn),繪制出完整的螺旋摘要,輔以基于關鍵幀的視頻定位、尺度縮放等功能。最后,還設計了草圖注釋、目標分布螺旋和雙螺旋播放等新穎的交互手段,共同實現(xiàn)對無人機視頻的高效交互。
視頻摘要的主要研究是基于關鍵幀。經(jīng)典的關鍵幀提取算法主要通過分析視頻的底層視覺特征(包括顏色、紋理、運動等)來量化視頻幀之間的差異。例如,WOLF[4]通過計算光流,篩選出運動強度較小的幀作為視頻的關鍵幀;ZHANG等[5]采用顏色等視覺標準,選擇顯著變化的幀作為關鍵幀;ZHUANG等[6]對視頻幀聚類,則從每一類中選擇有代表性的幀作為關鍵幀。
近年來,AlexNet[7],VGGNet[8],ResNet[9]等算法的涌現(xiàn),讓圖像語義理解的發(fā)展達到了空前的高度,并可直接作為視頻摘要的選擇依據(jù)。例如,F(xiàn)aster R-CNN[10],YOLO[11]等網(wǎng)絡在目標檢測問題上表現(xiàn)優(yōu)異,R-C3D[12],TAL-Net[13]等網(wǎng)絡則在時序動作定位問題上嶄露頭角。
傳統(tǒng)的視頻交互手段單一,主要是通過拖拽視頻的進度條和快進、快退實現(xiàn)定位。其交互比較盲目,既難以定位自己想要的位置,又容易遺失重要信息。DRAGICEVIC等[14]對界面交互的直接性做了分析,并提出了一種直接拖拽視頻目標的交互手段。GOLDMAN等[15]綜合考慮了更多視頻交互的輔助性手段,比如引入視頻注釋,包括描述性標簽、說明性草圖等。
除了在原始視頻上直接進行交互外,也有學者利用視頻摘要作為交互媒介,研究多樣化的摘要呈現(xiàn)形式,并開發(fā)對應的視頻交互手段:文獻[1]將視頻的關鍵幀以長矩形條的形式呈現(xiàn),允許用戶通過關鍵幀進行視頻定位、自由縮放關鍵幀的尺度;文獻[2]提出了螺旋摘要,同樣支持基于關鍵幀的視頻定位與尺度縮放,在兼顧自然與美觀的視覺效果的同時,更充分地利用了空間。
無人機視頻由于在拍攝時只遵循固定的路線、不針對具體目標,且拍攝角度高、視野遼闊,用戶真正感興趣的行人、車輛等小目標的信息總是被大量的時空冗余所淹沒。為此,本文提出通過目標檢測來提取關鍵信息,最終選擇了權衡速度與精度的YOLOv3算法[3]。
無人機視角下的目標具有以下特點:外觀上均為俯瞰視角;尺度上只有極端多的小目標。為了解決外觀差異,采用了VisDrone數(shù)據(jù)集[16]對模型進行訓練。該數(shù)據(jù)集由7 000多張無人機視角的圖片組成,囊括了pedestrian,car,van,truck,bus 5類常見目標,包含了豐富的場景,且符合本文需求。為了解決尺度差異,使模型能更適應無人機數(shù)據(jù)集“小”的特點,本文主要做了3種處理:①擴大輸入圖片的尺寸,使模型更充分地學習到小目標的特征;②運用k-means聚類算法,根據(jù)訓練集中目標的尺寸,確定YOLO模型的Anchor;③對網(wǎng)絡結構進行了微調,將模型中FPN架構的第二次上采樣由2倍改為4倍,使網(wǎng)絡能夠將深層特征與更加淺層的特征結合,進而檢測到更小的目標。
最后訓練得到的模型在無人機視頻幀上取得了不錯的表現(xiàn),具有良好的泛化能力,部分檢測結果如圖1所示。
獲得能夠檢測無人機視角的目標模型后,雖然可直接逐幀進行檢測,但這么做卻過于耗時,且檢測結果大量重復。為此,本文提出了基于關鍵幀的視頻目標檢測,顧名思義,即先從視頻中提取關鍵幀,然后再對其進行目標檢測,得到整個視頻的檢測結果。這樣能大幅減少目標檢測所需時間,也避免了重復性的檢測結果,但同時對關鍵幀提取算法提出了2個要求:①計算簡便,如耗時比YOLOv3逐幀檢測視頻長,則是得不償失;②具有一定魯棒性,保證算法在面對不同的視頻時均能涵蓋到大多數(shù)目標。提取關鍵幀的常用算法是基于視頻每一幀的底層視覺特征,其中顏色信息相對而言最為穩(wěn)定,且計算代價也很小。因此,本文采取了基于顏色特征的關鍵幀提取算法。
圖1 無人機視頻的目標檢測
基于顏色特征提取關鍵幀的傳統(tǒng)算法主要有2種:①選擇視頻第一幀作為關鍵幀,依次計算下一幀與上一關鍵幀的顏色差值,若大于閾值,則選擇此幀作為新的關鍵幀,以此類推,直到視頻遍歷完畢[5];②對視頻幀進行聚類,選取每一類中最具代表性的幀,組合得到整個視頻的關鍵幀[6]。第1種算法是將視頻拆分成片段,將每一片段的第1幀作為關鍵幀,因此其關鍵幀反映了視頻的時序信息,但數(shù)量無法精確控制,只能通過改變閾值控制幀的密集程度。第2種算法的每一類視頻幀具有跳躍性,因此提取出的關鍵幀不具備時序信息,但關鍵幀之間的差異整體更大,且數(shù)量能夠根據(jù)設定的聚類數(shù)量實現(xiàn)精確控制(自適應聚類則另當別論)。
經(jīng)過權衡,本文采取了第一種基于顏色特征的關鍵幀提取方法,主要原因有:①關鍵幀數(shù)量的精確控制并不具備實際意義,因為用戶通常不知道從一個視頻中提取多少關鍵幀才合適;②視頻的時序信息很重要,能夠反映前后關鍵幀所代表的視頻片段之間的內在聯(lián)系;③該算法能夠通過改變閾值簡單地實現(xiàn)關鍵幀數(shù)量和涵蓋的信息量之間的權衡,而聚類算法的類別數(shù)和視頻的時長、幀率息息相關,調節(jié)起來較煩索。
但是,該算法的主要缺陷為,閾值需用戶給定,但具體取值多少,只能反復嘗試。為此,本文提出了一種給定最小/最大間隔幀數(shù)的關鍵幀提取算法加以改進。新算法不再需要給定閾值,而是讓用戶給出相鄰關鍵幀的最小/最大間隔幀數(shù)(MinFrames/MaxFrames),且閾值可根據(jù)其值動態(tài)調整。此外,還引入了參數(shù)Step,表示每隔Step幀進行一次視頻幀的顏色計算和比較,這樣能在對關鍵幀的選取影響較小的情況下,顯著提高算法的運行效率。步驟流程如下:
步驟1.初始化閾值,定義緩沖變量TempD為零,定義關鍵幀集合KeyFrames,將視頻的第1幀作為關鍵幀加入KeyFrames。
步驟2.從視頻中獲取第Step幀后的圖像幀,并計算該幀和KeyFrames中最后一個關鍵幀的顏色直方圖歸一化后的差值。
步驟3.令為當前幀和最后一個關鍵幀的間隔幀數(shù)。當
步驟4.若視頻第Step幀后不為空,則返回第2步,否則算法結束。
提取出關鍵幀后,將3.1節(jié)訓練得到的模型應用于其中,檢測圖像中是否存在pedestrian,car,van,truck,bus這5類目標,最終得到的整個視頻是基于關鍵幀的目標檢測結果。
3.1.1 摘要單元提取
為了實現(xiàn)無人機視頻的可視分析,需要將關鍵幀以螺旋的形式呈現(xiàn)。關鍵幀提取去除了視頻的時間冗余,從關鍵幀中提取關鍵區(qū)域,去除空間冗余。傳統(tǒng)提取圖像關鍵區(qū)域的算法是基于圖像的顯著性檢測[17],對于普通圖像的效果尚可,但是對無人機圖像的效果卻很差。究其原因,普通視頻的鏡頭通常是精心把控的,考慮構圖和色彩對比,關鍵目標很醒目。而無人機在拍攝時沒有明確目標,只遵循固定的拍攝路線,感興趣目標占的空間比例小,色彩對比也要微弱。為了能夠更好地提取無人機視頻的關鍵區(qū)域,必須引入語義信息。
當獲得了無人機視頻的關鍵幀的目標檢測結果,即可根據(jù)目標的方位,確定能夠包圍這些目標的最小矩形框,進而確定關鍵幀的關鍵區(qū)域。但最小矩形框不能直接作為最終的摘要單元,因為每一關鍵幀的目標均不同,矩形框的長寬比存在著很大差異,但摘要呈現(xiàn)時,每一單元的分辨率是固定的。如果直接將矩形框強行拉伸為需要的分辨率,將出現(xiàn)嚴重的圖片變形。因此,本文提出將矩形框的長或寬進行一定程度的擴大,保證摘要單元有一個固定的長寬比,再將得到的關鍵區(qū)域統(tǒng)一為固定的分辨率,就得到了視頻摘要的呈現(xiàn)單元。
3.1.2 螺旋摘要繪制
螺旋摘要的呈現(xiàn)是基于螺線的螺距恒定不變的性質。因此,在繪制螺旋摘要時,在螺旋線上每經(jīng)過固定的弧長確定一個關鍵點,即可將螺旋劃分為面積相似的區(qū)域,進而容納摘要單元。
雖然螺旋摘要的呈現(xiàn)順序是由內到外旋轉,但考慮人的視覺習慣,摘要本身不能有任何旋轉。因此,將基于關鍵點確定正放的矩形框來容納關鍵幀。以圖2(a)中的第個矩形框為例,將第和第+1個關鍵點K和K+1相連,得到線段KK+1,并作出中垂線。在中垂線上取靠近螺旋中心且和線段KK+1的距離為1.25 d的點P,根據(jù)K,K+1,P這3個點,確定一個最小的矩形,即為第個摘要單元的矩形框。以此類推,根據(jù)關鍵點計算出螺線上所有的矩形框后,即順利完成了螺旋區(qū)域的劃分。再將摘要單元依次放入矩形框中,本文規(guī)定將摘要單元的中心和對應矩形框的中心位置相對應和將摘要單元整體進行縮放,保證其長或寬與矩形框的長或寬相等,且面積更大。最后,需對摘要進行邊界處理,避免相鄰的摘要彼此重疊或溢出螺旋線外,如圖2(b)所示。圖中B區(qū)域的像素點因為溢出螺旋線外,需直接剔除。A,C區(qū)域位于螺旋線內,被起始點和關鍵點相連的線分為兩部分。按照螺線由內到外的旋轉方向,A區(qū)域往螺旋外,像素點保持不變;C區(qū)域往螺旋內,屬于過渡區(qū)域。過渡區(qū)域內,像素點隨著離A,C區(qū)域分界線的距離越遠,透明度逐漸線性過渡到零,完成平滑過渡。將所有經(jīng)過邊界處理后的摘要單元置于螺旋中,可得到了螺旋摘要的完整形狀。螺旋摘要能夠預覽相應位置的原始關鍵幀,也支持基于關鍵幀的視頻定位。
圖2 繪制螺旋摘要
3.1.3 螺旋摘要尺度縮放
雖然螺旋摘要已經(jīng)極大地利用了空間,但在面向較長的視頻時,要想完整地將上百張關鍵幀同時呈現(xiàn),顯然是不現(xiàn)實的。因此,需引入尺度縮放的操作,實現(xiàn)多尺度螺旋摘要。當用戶想要以盡可能少的關鍵幀概括視頻的整體情況時,可以在一定范圍內將尺度放大,做法是將每間隔一幀的關鍵幀隱藏;當用戶想要仔細察看更詳細的關鍵內容時,可在范圍內將尺度縮小,即將幀與幀之間未顯示的隱藏幀顯示出來。
為了實現(xiàn)尺度縮放的平滑的動態(tài)過程,本文設計了相應的動態(tài)縮放算法。首先根據(jù)縮放范圍,記錄縮放前、后關鍵幀的移動路程Num,計算關鍵幀的移動步長StepNum=0.1×Num。對于縮放前的移動關鍵幀,將螺旋摘要擦除并重繪5次,每次重繪時關鍵幀會移動步長StepNum的距離。從第6次開始,重繪縮放后的移動關鍵幀,同樣是相對于上一次繪制的關鍵幀位置移動步長StepNum,直到第10次重繪結束后,關鍵幀相對于縮放前移動了距離Num,整個動態(tài)縮放過程完成。圖3展示了全局尺度縮小的動態(tài)過程,其中陰影部分為動態(tài)縮放過程中顯現(xiàn)的隱藏幀。
圖3 螺旋摘要全局動態(tài)尺度縮小,陰影部分為隱藏幀的顯現(xiàn)
可以看出,螺旋摘要的動態(tài)縮放過程是一個將摘要反復擦除再重繪的過程,這就引出了一個關鍵問題:每一次重繪摘要時,關鍵幀在螺線上的位置均在變化,因此需重新進行像素級別的摘要邊界處理,十分耗時。一旦重繪無法在0.1 s內完成,將會被肉眼察覺到斷斷續(xù)續(xù)的縮放過程,無法得到需求的平滑效果。因此,考慮到螺旋上的所有關鍵幀的分辨率均是相同的,不同關鍵幀在螺線的同一位置的邊界處理均是套用相同的模板,本文提出了以空間換時間的模板加載摘要的算法。所謂模板,即螺線上某一位置的關鍵幀區(qū)域在進行邊界處理時的Alpha值的集合。初次運行程序時,將計算并保存螺線上不同位置的所有關鍵幀區(qū)域的模板。再次運行時,則直接讀取文本文件的內容,將模板數(shù)據(jù)寫入內存,直接根據(jù)關鍵幀位置套用對應的模板數(shù)據(jù)繪制螺旋。實驗證明,采用模板加載摘要的算法大大加快了繪制螺旋摘要的時間,實現(xiàn)了平滑的動態(tài)縮放過程。
螺旋視頻摘要是由關鍵幀按照時序排布而成,但關鍵幀所能直接傳遞的信息有限,幀與幀的內在聯(lián)系無法體現(xiàn)。為了彌補這一缺陷,可在螺旋摘要中額外拓展了草圖注釋的功能。
所謂草圖注釋,是指以草圖的形式對視頻中某一關鍵幀進行注釋。在使用螺旋摘要時,若發(fā)現(xiàn)某一關鍵幀有額外信息需進行補充,可以繪制草圖注釋并建立起該關鍵幀和注釋的聯(lián)系,還可以讓一個草圖注釋與多個關鍵幀相關聯(lián),體現(xiàn)不同的關鍵幀的內在聯(lián)系。例如,圖4中標注了多個含有卡車的關鍵幀,當播放到具有草圖注釋的關鍵幀時,草圖會自動顯現(xiàn),提示用戶相應信息(此處有卡車)。直到播放到下一關鍵幀時,草圖和連線才會消失。
草圖注釋并非一次性使用。每一次在螺旋摘要上構建好相應的草圖注釋后,草圖的墨跡文件和與之關聯(lián)的關鍵幀序號均會被自動保存到本地。當重新打開螺旋摘要時,系統(tǒng)會自動讀取本地文件的內容,將之前畫好的草圖注釋及其關聯(lián)信息寫入內存,在播放時予以顯示。
螺旋摘要中每一個關鍵幀的呈現(xiàn)空間是有限的,為了讓語義信息能夠更加明確,本文提出用目標分布螺旋來反映目標的類型和密集程度。
圖4 草圖注釋卡車出現(xiàn)的關鍵幀
所謂目標分布螺旋,是指在和螺旋摘要的每一關鍵幀區(qū)域一一對應的另一個螺旋上,用繪制實心圓的方式來反映每一關鍵幀中的目標分布。其中,圓的顏色表示目標的類型,圓的半徑表示目標的數(shù)量,半徑越大,數(shù)量越多,如圖5所示。
圖5 目標分布螺旋
目標分布螺旋呈現(xiàn)的不再是關鍵幀,而是與關鍵幀對應的目標檢測結果。在繪制實心圓時,本文規(guī)定不同目標的圓為不同的顏色,如圖例所示。點擊任意一種目標的顏色條,即顯示出該類別的目標分布。借助目標分布螺旋,用戶能夠看出哪種目標的數(shù)量最多且集中在哪個時間段。和螺旋摘要一樣,目標分布螺旋也具備關鍵幀預覽和視頻定位的功能。當螺旋摘要的尺度發(fā)生變化后,目標分布螺旋的尺度也會有相應的改變。
螺旋摘要雖然能最大化利用空間呈現(xiàn)摘要,但摘要的關鍵幀時序是由內旋轉到外,和人直觀的從左到右認知信息的方式存在一定的差異,需要用戶對此進行適應。為了保留螺旋摘要的優(yōu)勢,需進一步省去這種認知差異帶來的適應時間,本文提出了雙螺旋播放的交互形式。
雙螺旋是由2個鏡面對稱的單螺旋和直線橋梁搭接而成,如圖6所示。其整體繪制過程與3.1.2節(jié)的步驟一致。可將雙螺旋看作是一個磁帶,直線橋梁的正中央是當前正在播放的關鍵幀,用一個箭頭指示。左螺旋顯示的是尚未播放的關鍵幀,右螺旋顯示的是已播放了的關鍵幀,前后溢出的關鍵幀會隱藏在左右螺旋的中心處。當視頻播放到下一關鍵幀的時候,雙螺旋上所有的關鍵幀會集體向右移動一個關鍵幀的距離,實現(xiàn)類似于磁帶播放的動態(tài)滾動效果,與3.1.3節(jié)實現(xiàn)螺旋摘要的動態(tài)尺度縮放效果的算法一致。
圖6 雙螺旋播放
總體而言,雙螺旋和單螺旋都可以視作一種以關鍵幀為單位的時間軸的變體,都支持基于關鍵幀的預覽和視頻定位。但是,雙螺旋對稱的形式更符合用戶的認知習慣,降低了用戶的理解和使用門檻。此外,雙螺旋正在播放的關鍵幀始終顯示于箭頭指示的正中央,也保證了用戶能注意到當前播放位置附近的關鍵內容。
對于時長16分3秒、幀率為50幀/秒、分辨率為1920×1080的無人機視頻,采用基于給定最小/最大間隔幀數(shù)的關鍵幀提取算法,在i5-8300H CPU的電腦上進行測試,結果見表1??梢钥闯?,MinFrames/MaxFrames保持不變,將Step從3增加為30時,計算耗時整體減少了47.4%,而最終得到的關鍵幀數(shù)量只減少了1.41%;Step保持30不變,MinFrames/MaxFrames從100/500降為100/300時,計算耗時整體減少了11.9%,而最終得到的關鍵幀數(shù)目卻增加了20.0%。
由此得出結論,Step參數(shù)的引入可在對關鍵幀數(shù)目影響不大的情況下,大幅加快計算效率;MinFrames/MaxFrames參數(shù)則能夠非常直觀而有效地控制關鍵幀密度,且并不對計算耗時產(chǎn)生較大影響。
本文可以計算基于關鍵幀的視頻目標檢測算法相較于對逐幀檢測視頻的時間優(yōu)勢。該無人機視頻總共有48 150幀,以提取出251張關鍵幀為例(表1)。在Titan X上,根據(jù)輸入圖片大小的不同,YOLOv3檢測單張圖片的耗時在20~50 ms之間[2]。假設耗時為20 ms,在目標檢測環(huán)節(jié)中,基于關鍵幀的視頻目標檢測算法節(jié)省了957.98 s;假設耗時為50 ms,則在目標檢測環(huán)節(jié)節(jié)省了2 394.95 s。從表1可以看出,只要控制好Step參數(shù),提取關鍵幀所需的額外耗時與目標檢測節(jié)省的時間相比,是微不足道的。在實際應用中,GPU配置往往達不到Titan X那樣的水平。本文在配置差一些的GTX 1050Ti電腦上進行測試,YOLOv3檢測一張416×416的圖耗時約60 ms,檢測一張608×608的圖耗時約120 ms。顯然,目標檢測計算耗時的差距會更大。而隨著無人機視頻的時長增加,差距則會被進一步拉大??梢姡疚奶岢龅乃惴▽τ谝曨l目標檢測的效率而言是有著實際意義的。
表1 不同參數(shù)提取關鍵幀的數(shù)量與耗時對比
對于無人機視頻中提取的關鍵幀,分別基于全局對比度的顯著性檢測算法和YOLOv3目標檢測算法進行關鍵區(qū)域的提取。從圖7(a)~(c)的對比可以看出,由于原圖內容復雜,基于全局對比度的算法幾乎判定了整張圖均為顯著性區(qū)域,提取了過多的關鍵區(qū)域,以致于重點不突出;而YOLOv3算法則成功檢測了圖中車輛目標的位置,關鍵信息一目了然。在圖7(d)~(f)中,基于全局對比度的算法錯誤地將顏色鮮艷的房屋判定為關鍵區(qū)域;YOLOv3算法卻成功檢測到了人的肉眼很難注意到的車輛目標,鎖定了圖中真正的關鍵信息??梢?,對于無人機視頻的關鍵幀,通過無人機視角的小目標檢測引入語義信息,運用基于目標檢測的關鍵區(qū)域提取算法,能夠取得比傳統(tǒng)算法更好的結果。
圖7 基于全局對比度和基于目標檢測的無人機視頻關鍵幀的關鍵區(qū)域提取對比
本文以無人機視頻的目標檢測為中心,設計并實現(xiàn)了一種面向無人機視頻的多尺度螺旋摘要。首先,為了獲取無人機視頻的語義信息,本文基于VisDrone數(shù)據(jù)集和YOLOv3目標檢測算法,訓練了能夠檢測無人機視角下的行人、車輛等小目標的神經(jīng)網(wǎng)絡模型,具有良好的泛化性。然后,考慮對視頻每一幀進行目標檢測會耗時較長且檢測結果大量重復,本文提出了一種基于關鍵幀的視頻目標檢測算法,以關鍵幀的目標檢測結果代表整個視頻的檢測結果,大幅提高效率。而為了提取視頻的關鍵幀,本文在傳統(tǒng)的基于顏色特征的關鍵幀提取算法的基礎上作出改進,提出了一種給定最小/最大間隔幀數(shù)的自適應閾值的關鍵幀提取算法,該算法能夠直觀地控制關鍵幀的提取密度和計算效率。然后,將訓練好的網(wǎng)絡模型應用于篩選出的關鍵幀上,就得到了整個視頻的目標檢測結果。以此為基礎,為了實現(xiàn)對無人機視頻的可視分析,本文根據(jù)關鍵幀的目標檢測結果,提取出其中的關鍵區(qū)域作為視頻摘要的呈現(xiàn)單元,并以螺旋的形式從內到外地將其呈現(xiàn),輔以基于關鍵幀的視頻定位和尺度縮放功能。最后,本文開發(fā)了基于螺旋摘要的草圖注釋、目標分布螺旋、雙螺旋播放等新穎的交互工具,拓展螺旋摘要的潛力。
整個面向無人機視頻的多尺度摘要的設計,是基于無人機視頻的目標檢測結果的可視交互,是對視頻關鍵信息的提煉和呈現(xiàn),使得用戶能夠在短時間內從無人機長視頻中高效獲取自己感興趣的信息,因此在無人機地面監(jiān)控領域具有良好的應用前景。而在視頻交互中引入目標檢測這樣的語義信息,使計算機能夠更準確地理解視頻畫面的含義,同樣也是將來人機交互領域的研究方向。
[1] BARNES C, GOLDMAN D B, SHECHTMAN E, et al. Video tapestries with continuous temporal zoom[J]. ACM Transactions on Graphics, 2010, 29: 4.
[2] LIU Y J, MA C, ZHAO G, et al. An interactive spiraltape video summarization[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1269-1282.
[3] REDMON J, FARHADI A. Yolov3: an incremental improvement[EB/OL]. [2019-12-10]. http://xueshu.baidu. com/usercenter/paper/show?paperid=e02671f7b0527c6ecee43ce8bd7918b6&site=xueshu_se&hitarticle=1.
[4] WOLF W. Key frame selection by motion analysis[C]//1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. New York: IEEE Press, 1996: 1228-1231.
[5] ZHANG H J, WU J, ZHONG D, et al. An integrated system for content-based video retrieval and browsing[J]. Pattern Recognition, 1997, 30(4): 643-658.
[6] ZHUANG Y, RUI Y, HUANG T S, et al. Adaptive key frame extraction using unsupervised clustering[C]// Proceedings 1998 International Conference on Image Processing. ICIP98 (Cat. No. 98CB36269). New York: IEEE Press, 1998: 866-870.
[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems. 2012, 25(2): 1097-1105.
[8] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-12-10]. http://xueshu.baidu. com/usercenter/paper/show?paperid=2801f41808e377a1897a3887b6758c59&site=xueshu_se.
[9] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.
[10] REN S, HE K, GIRSHICK R, et al. Fasterr-CNN: towards real-time object detection with region proposal networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. New York: IEEE Press, 2017: 1137-1149.
[11] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.
[12] XU H J, DAS A, SAENKO K. R-C3D: region convolutional 3D network for temporal activity detection[C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 5783-5792.
[13] CHAO Y W, VIJAYANARASIMHAN S, SEYBOLD B, et al. Rethinking the faster R-CNN architecture for temporal action localization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1130-1139.
[14] DRAGICEVIC P, RAMOS G, BIBLIOWITCZ J, et al. Video browsing by direct manipulation[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York: ACM Press, 2008: 237-246.
[15] GOLDMAN D B, GONTERMAN C, CURLESS B, et al. Video object annotation, navigation, and composition[C]//Proceedings of the 21st Annual ACM Symposium on User Interface Software and Technology. New York: ACM Press, 2008: 3-12.
[16] ZHU P F, WEN L Y, BIAN X, et al. Vision meets drones: a challenge[EB/OL]. [2019-12-10]. https://arxiv.org/ abs/1804.07437.
[17] CHENG M M, ZHANG G X, MITRA N J, et al. Global contrast based salient region detection[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2011: 409-416.
Design and implementation of a multi-scale summarization for unmanned aerial vehicle videos
YANG Da-shen1, CHEN Ke-qi2,3, MA Cui-xia2,3
(1. South China Branch of Sinopec Sales Co., Ltd., Guangzhou Guangdong 510000, China;2. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100190, China;3. Beijing Key Laboratory of Human-Computer Interaction, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
Unmanned aerial vehicle (UAV) videos, an important video resources captured by unmanned aerial vehicles, are now being widely used in ground target monitoring. However, there’s usually a large amount of space-time redundancy in UAV videos due to their grand view and unspecified targets, making the traditional methods of video interaction inefficient to get usable details. To solve the problem, a multi-scale spiral summarization for UAV videos was proposed. Firstly, we trained a detection model based on YOLOv3 algorithm to detect the small targets including pedestrians and vehicles from the UAV’s perspective. Then, we proposed a key-frame-based video object detection algorithm, by first extracting the key frames of the videos according to the improved color-feature-based key-frame-extraction algorithm, and then applying the model on the key frames to get the target detection results of the whole video. The key areas from the key frames were extracted as the displaying units of video summarization in a spiral form from the inside out with basic functions including key-frame-based video location and dynamic scaling. At last, some novel extended interaction tools were developed including sketch annotation, object distribution spiral and double spiral player, aiming to meet the users’ potential needs, and help them interact with the UAV videos more efficiently.
unmanned aerial vehicle; video summarization; video object detection; small object detection; spiral summarization; video interaction
TP 391
10.11996/JG.j.2095-302X.2020020224
A
2095-302X(2020)02-0224-09
2019-12-10;
2019-12-16
國家自然科學基金項目(2018YFC0809303)
楊大慎(1979-),男,山東德州人,工程師,本科。主要研究方向為管道管理、無人機圖像研究等。E-mail:527667227@qq.com
馬翠霞(1975–),女,山東高唐人,研究員,博士。主要研究方向為人機交互、媒體大數(shù)據(jù)可視分析。E-mail:cuixia@iscas.ac.cn