廣東省機(jī)械高級技工學(xué)校 黃誠壬
?
基于視覺識別的視頻跟拍系統(tǒng)
廣東省機(jī)械高級技工學(xué)校 黃誠壬
【摘要】在互聯(lián)網(wǎng)時代,隨著多媒體的推廣應(yīng)用,利用實時視頻進(jìn)行展示的場合越來越多。本文針對利用實時視頻進(jìn)行展示過程中拍攝技術(shù)要求高,費時費力,拍攝和展示效果差等問題,研制出基于視覺識別的視頻跟拍系統(tǒng)。該系統(tǒng)可以智能跟隨拍攝對象移動實現(xiàn)穩(wěn)定視頻拍攝,根據(jù)手勢進(jìn)行拉近和推遠(yuǎn)拍攝視頻,根據(jù)手勢拍攝特寫圖,還可以根據(jù)現(xiàn)場光線自動調(diào)節(jié)拍攝燈光亮度。借助該跟拍系統(tǒng),展示者可以專心于展示而不用分心分力于拍攝,哪怕完全不懂拍攝技術(shù),也可以呈現(xiàn)出滿意的展示視頻。
【關(guān)鍵詞】視覺識別;自動跟拍;視頻拍攝
在互聯(lián)網(wǎng)和多媒體成為主要展示載體的當(dāng)下,利用實時視頻進(jìn)行展示的場合越來越多。尤為突出的是企業(yè)的產(chǎn)品展示,學(xué)校的一體化教學(xué)的操作展示。以往的做法就是事先錄制展示的視頻,展示的時候再通過多媒體播放出來。這樣可以事先對視頻進(jìn)行處理,可以達(dá)到較好的展示效果。但是必須花費大量的時間提前錄制和視頻處理,更加無法做到實時與互動。
在“互聯(lián)網(wǎng)+”的互聯(lián)網(wǎng)新思維與“工業(yè)4.0”工業(yè)發(fā)展新思潮推動下,學(xué)校購進(jìn)了大批多媒體設(shè)備:每個實訓(xùn)室配置兩臺大電視,一臺投影儀,一臺演示展臺。還把實訓(xùn)室與理論課室接通了互聯(lián)網(wǎng),實現(xiàn)了課室可以實時通過電視觀看實訓(xùn)車間的操作。實訓(xùn)操作通過視頻展示可以大大提高課堂效率,但主流做法只是用于播放動畫或相關(guān)視頻。主要原因是視頻實時拍攝技術(shù)要求高,還需要專人拍攝及調(diào)整,所以往往拍攝展示效果差,達(dá)不到實訓(xùn)操作展示目的。
結(jié)合一體化教學(xué)實訓(xùn)內(nèi)容展示要求,最大化實現(xiàn)所有多媒體設(shè)備功能,學(xué)校決定要對現(xiàn)有設(shè)備進(jìn)行升級改造,要求輕松實現(xiàn)實時視頻展示功能,把一體化實訓(xùn)視頻展示提升到一定高度,以彌補(bǔ)大班教學(xué)實訓(xùn)操作展示不足的通病。
根據(jù)改造要求制定設(shè)計方案。設(shè)計一款實時視頻跟拍系統(tǒng),解決拍攝技術(shù)要求高,需要專人跟拍的難題。
方案一:采用機(jī)械導(dǎo)軌實現(xiàn)人工視頻跟拍。這個方案實現(xiàn)較簡單,無需任何電氣線路輔助,只需要鋪設(shè)運動導(dǎo)軌就可以實現(xiàn)。由于拍攝設(shè)備是在固定軌道上平行移動,大大降低了拍攝技術(shù)要求,只需要安排一個人配合講解員進(jìn)行拍攝就可以實現(xiàn)實時視頻跟拍。
方案二:采用導(dǎo)軌加遙控器實現(xiàn)半自動視頻跟拍。采用遙控器控制電機(jī)帶動攝像頭移動實現(xiàn)實時視頻跟拍。采用這個方案,實現(xiàn)技術(shù)較簡單,實現(xiàn)成本較低。只需要紅外發(fā)送接收器、導(dǎo)軌、舵機(jī)以及單片機(jī)控制系統(tǒng)等常用電路就可以實現(xiàn)半自動視頻跟拍功能。
方案三:采用導(dǎo)軌加智能控制實現(xiàn)全自動視頻跟拍。采用智能控制技術(shù)實現(xiàn)全程視頻自動智能跟拍。更省時省心省力,無需專人跟拍,無需要專業(yè)拍攝技術(shù),就可以實現(xiàn)實時視頻跟拍、定焦、拍攝圖片以及放大或縮小拍攝等功能。
方案一成本較低,實現(xiàn)較簡便,克服了定機(jī)位,顫抖等因素帶來的不良拍攝效果。但仍需要專人來負(fù)責(zé)拍攝,負(fù)責(zé)配合講解者的動作及意圖。這無疑會增加展示工作量以及影響到拍攝效果。方案二在方案一的基礎(chǔ)上增加了遙控裝置,初步實現(xiàn)了半自動化。講解員只需要根據(jù)展示的內(nèi)容一邊講解一邊使用遙控器操縱機(jī)器跟拍,無需要增加專門拍攝的人員,大大減少了工作量,也能達(dá)到一定的跟拍效果。但也存在很大的不便性,講解員不得不兼顧講解及調(diào)節(jié)拍攝效果。這無疑會讓講解員分神或不得不停下講解把拍攝設(shè)備遙控到位。另外隨著拍攝位置的變動,又不得不時時人為調(diào)焦。即使使用了自動變焦模式,如果移動幅度過大,超過了機(jī)器拍攝范圍,還得人為調(diào)整拍攝效果。方案三智能化程度最高,完全實現(xiàn)全自動智能拍攝,包括跟蹤拍攝,自動縮放,自動定焦,超越拍攝范圍自動調(diào)節(jié),自動燈光以及拍照特寫圖片等功能。完全無需講解者進(jìn)行任何管理及操作,就可以拍攝出比較專業(yè)的實時視頻。由于增加了智能化控制系統(tǒng),增加了相關(guān)硬件及軟件開發(fā)成本,方案三無疑是智能化最高,但成本也是三者中最高的。根據(jù)學(xué)校的要求以及成本預(yù)算,決定采用方案三,采用智能控制實現(xiàn)全自動視頻跟拍。
智能實時視頻跟拍系統(tǒng)主要包括如下幾部分:運動導(dǎo)軌部分,運動控制部分,拍攝控制部分,智能控制部分。核心是智能控制部分。
運動導(dǎo)軌,分為實際軌道和虛擬軌道。實際軌道是有形軌道,拍攝設(shè)備只能沿著鋪設(shè)好的軌道行走。鋪設(shè)軌道前需要根據(jù)常用展示對象來設(shè)定軌道方位以及大小。虛擬軌道是無形軌道,主要通過無線傳感技術(shù)通過算法來約束拍攝設(shè)備行走路徑。根據(jù)引導(dǎo)源不同,可以分為光循跡,磁循跡,GPS導(dǎo)航等方式。這里考慮到安裝環(huán)境和保修的便捷性,采用有形軌道。結(jié)合一體化教學(xué)展示的場地和實際使用要求,采用懸掛機(jī)位鋪設(shè)方式。即在展示工作區(qū)上方鋪設(shè)橢圓運動軌道,軌道大小根據(jù)專業(yè)及展示物體大小而定。
運動控制,是指通過電機(jī)和傳動機(jī)構(gòu)讓拍攝設(shè)備在運動軌道上運行的控制機(jī)構(gòu)。雖然拍攝設(shè)備位置無需高精度定位,但是要克服跟拍過程中慣性的影響,這里采用直流電機(jī)和齒輪齒條來實現(xiàn)運動控制。運動控制主要包括:控制拍攝設(shè)備沿著橢圓軌道運行,控制拍攝設(shè)備升降。
拍攝控制,是拍攝設(shè)備位置的微調(diào)控制。主要包括:攝影機(jī)左右旋轉(zhuǎn),攝影機(jī)上下旋轉(zhuǎn),攝影機(jī)前后伸縮。這些調(diào)控都屬于小范圍動作,所以驅(qū)動電機(jī)選擇舵機(jī)。
智能控制,是整個跟拍系統(tǒng)的核心部分。它包括兩方面功能:一方面通過傳感和運算實現(xiàn)識別拍攝對象的移動,從而控制拍攝設(shè)備移動實現(xiàn)跟隨;另一方面通過控制拍攝功能實現(xiàn)自動縮放,自動定焦,超越拍攝范圍自動調(diào)節(jié),自動燈光以及拍照特寫圖片等相關(guān)動作。
采用什么設(shè)備,采用何種算法,如何識別拍攝對象移動?解決這一問題成為實現(xiàn)跟拍系統(tǒng)功能的關(guān)鍵所在。常用的方法是采用超聲波測距實現(xiàn)跟拍。通過精密角度安裝超聲波發(fā)送和接收頭,不斷掃描測量距離,通過保持測量距離值一定范圍內(nèi)不變的方法實現(xiàn)跟拍功能。這種方法實現(xiàn)起來比較容易,算法容易實現(xiàn)。但是超聲波發(fā)送接收器的角度要求嚴(yán)格,聲波又容易受人體或其他障礙物干擾,對使用環(huán)境和使用者要求較嚴(yán)格。換句話說,采用超聲波測距的方法實現(xiàn)視頻跟拍功能,很難保拍攝效果。
視覺識別,是最近才興起的新技術(shù)。它在智能時代可以稱得上機(jī)器的眼睛,可以代替?zhèn)鹘y(tǒng)傳感器的應(yīng)用,實現(xiàn)類似人腦及眼睛的功能。它被科學(xué)家稱為智能化時代以及工業(yè)4.0時代最具備時代標(biāo)志的創(chuàng)新技術(shù)。雖然由于種種原因高精度的視覺識別系統(tǒng)價格比較高,使用率和普及率不高,但是類似的識別技術(shù)圖片識別早已普遍運用在各行各業(yè)。這些年形狀和顏色等方面的視覺識別在精度要求不高的場所也得到了推廣和應(yīng)用。實時視頻跟拍系統(tǒng)采用視覺識別作為控制依據(jù)是否可以實現(xiàn)?無需要高精度小尺度的識別效果,只需要識別展示過程中的指定形狀、顏色或固定姿態(tài)。采用視覺識別無需要安裝任何傳感器,只需要一個攝像頭就可以實現(xiàn),安裝和調(diào)試要求大大降低。
視覺識別對系統(tǒng)的要求包括兩方面:一是擁有強(qiáng)大的運算能力,二是具備較大的數(shù)據(jù)存儲空間?;谶@兩點,視覺識別常常依靠計算機(jī)和軟件來實現(xiàn)。這里選用Raspberry Pi,在中國音譯為樹莓派。樹莓派是英國慈善組織為學(xué)生計算機(jī)編程教育而設(shè)計,只有信用卡大小的卡片式電腦,其系統(tǒng)基于Linux。樹莓派雖然外表“嬌小”,內(nèi)“心”卻很強(qiáng)大,它集成強(qiáng)大視頻、音頻功能,還配置HDMI高清視頻輸出接口。開放式的開發(fā)系統(tǒng)讓越來越多的其它應(yīng)用不斷被開發(fā)出來。采用樹莓派作控制器,硬件方面:一個樹莓派主板,一個8G內(nèi)存卡,一個攝像頭,一條視頻連接線,一個7英寸的顯示屏。系統(tǒng)和軟件方面運用到Linux嵌入式系統(tǒng),需要編寫實現(xiàn)這幾方面的功能:第一,手環(huán)的形狀和顏色視覺識別;第二,手勢的視覺識別;第三,攝影功能的控制;第四,直流電機(jī)和舵機(jī)的控制。和舵機(jī)實現(xiàn)位置跟隨,控制拍攝功能實現(xiàn)實時變焦和定焦。當(dāng)手環(huán)在一定活動空間內(nèi)移動或被阻礙消失的時候,攝影機(jī)不進(jìn)行位置調(diào)整和變焦動作,有效保證了視頻的拍攝效果。這就是實時視頻智能跟拍功能,但是任何的機(jī)器智能程度都是有限的,為了解決智能跟拍過程中不盡人意的問題,系統(tǒng)設(shè)計了手勢視覺識別功能。展示者可以通過幾組手勢來調(diào)整體拍攝設(shè)備的位置以及拉近和推遠(yuǎn)拍攝視頻,根據(jù)手勢拍攝特寫圖(見圖1)等。
圖1 基于視覺識別的視頻跟拍系統(tǒng)結(jié)構(gòu)圖與控制框圖
安裝方面主要是導(dǎo)軌的安裝需要根據(jù)展示對象來定,比如汽車專業(yè)展示汽車整車的拆裝,導(dǎo)軌安裝必須考慮到拍攝設(shè)備可以跟拍到各個位置。如果是機(jī)電專業(yè)進(jìn)行機(jī)床拆裝與維修展示,則需要根據(jù)機(jī)床的大小以及高度來選擇導(dǎo)軌。系統(tǒng)調(diào)試方面主要考慮到軟件編寫與硬件運動位置的誤差,還要注意是否可以跟拍,手勢是否可以識別等方面。
參考文獻(xiàn)
[1]Sam Nazarko.樹莓派應(yīng)用速成:Raspbmc媒體中心[M].符鵬飛,譯.科學(xué)出版社,2014.5.
[2]王江偉,劉青.玩轉(zhuǎn)樹莓派Raspberry Pi[M].北京航天航空大學(xué)出版社,2013.9.