溫洪念 劉 洋 韓朵朵
(石家莊鐵路職業(yè)技術(shù)學(xué)院 河北石家莊 050041)
移動(dòng)增強(qiáng)現(xiàn)實(shí)關(guān)鍵技術(shù)綜述
溫洪念 劉 洋 韓朵朵
(石家莊鐵路職業(yè)技術(shù)學(xué)院 河北石家莊 050041)
移動(dòng)增強(qiáng)現(xiàn)實(shí)將虛擬的增強(qiáng)現(xiàn)實(shí)信息應(yīng)用到真實(shí)世界,改變用戶觀察周圍世界的方式。傳統(tǒng)的基于文本輸入的WEB頁面瀏覽查詢模式,將轉(zhuǎn)變?yōu)榛诩虞d在移動(dòng)智能終端的多種傳感器進(jìn)行熱點(diǎn)捕獲,將熱點(diǎn)的增強(qiáng)信息疊加在真實(shí)場景上的下一代信息展現(xiàn)模式,極大提升用戶體驗(yàn)。
移動(dòng)增強(qiáng)現(xiàn)實(shí) 視覺搜索 目標(biāo)注冊(cè)與跟蹤 內(nèi)容渲染
增強(qiáng)現(xiàn)實(shí)(Augmented Reality,簡稱AR)是在虛擬現(xiàn)實(shí)(Virtual Reality,簡稱VR)技術(shù)基礎(chǔ)上發(fā)展起來的一種綜合了計(jì)算機(jī)視覺、圖形學(xué)、圖像處理、多傳感器技術(shù)、顯示技術(shù)的新興計(jì)算機(jī)應(yīng)用和人機(jī)交互技術(shù)[1]。
隨著無線互聯(lián)網(wǎng)技術(shù)的發(fā)展,帶寬不斷増加,移動(dòng)智能終端的處理能力越來越強(qiáng),越來越多的互聯(lián)網(wǎng)用戶開始習(xí)慣于使用移動(dòng)智能終端訪問互聯(lián)網(wǎng)。多種傳感器裝備到手機(jī)上為 AR業(yè)務(wù)的普及提供了終端基礎(chǔ),為分層次打造個(gè)性化的信息服務(wù)提供了必要的支撐條件。AR技術(shù)的普及為傳統(tǒng)的業(yè)務(wù)領(lǐng)域巧展出了很多創(chuàng)新業(yè)務(wù),同時(shí)促進(jìn)移動(dòng)互聯(lián)網(wǎng)在教育、社交網(wǎng)絡(luò)、旅游、游戲等業(yè)務(wù)的創(chuàng)新。
“增強(qiáng)現(xiàn)實(shí)”技術(shù)的應(yīng)用與推廣,將激發(fā)用戶對(duì)內(nèi)容的潛在需求,如大型場景的三維虛實(shí)融合等,從而對(duì)無線網(wǎng)絡(luò)的帶寬資源提出更高的要求,促進(jìn)LTE的產(chǎn)業(yè)化進(jìn)程。因此,對(duì)增強(qiáng)現(xiàn)實(shí)的深入研究可以很好地拓寬無線移動(dòng)通信網(wǎng)業(yè)務(wù)的應(yīng)用,讓無線移動(dòng)通信網(wǎng)參與人們生活學(xué)習(xí)和工作的方方面面,從而提高無線移動(dòng)通信網(wǎng)在人們生活中的重要性。而只有對(duì)應(yīng)用變得廣泛和迫切,才會(huì)對(duì)無線移動(dòng)網(wǎng)絡(luò)的其它方面提出更多的需求:比如需要LTE等更快更可靠的傳輸方式,以及新型無線技術(shù)作為補(bǔ)充,應(yīng)付更大帶寬更大容量的媒體展示。同時(shí)又要求更加寬廣的覆蓋范圍,做到可以隨時(shí)隨地提供服務(wù),所寬帶無線接入與短距離互聯(lián)技術(shù)也有需求。而且基于物聯(lián)網(wǎng)和泛在網(wǎng)技術(shù)的近場通信(NFC)是對(duì)AR的定位和身份識(shí)別的有力支撐。
2.1 虛擬現(xiàn)實(shí)
虛擬現(xiàn)實(shí)涉及計(jì)算機(jī)圖形學(xué)、人機(jī)交互技術(shù)、傳感技術(shù)、人工智能等領(lǐng)域,利用電腦繪制三維虛擬世界,并對(duì)視、聽、嗅覺等感覺進(jìn)行高真實(shí)感模擬,使用者通過虛擬現(xiàn)實(shí)設(shè)備,自然地與虛擬世界進(jìn)行交互,其如同身歷其境,可化及時(shí)、沒有限制地觀察三度空間內(nèi)的事物。
2.2 增強(qiáng)現(xiàn)實(shí)
增強(qiáng)現(xiàn)實(shí)是利用計(jì)算機(jī)產(chǎn)生的虛擬信息對(duì)用戶所觀察的真實(shí)環(huán)境進(jìn)行融合,真實(shí)環(huán)境和虛擬物體實(shí)時(shí)地疊加到了同一個(gè)畫面或空間同時(shí)存在,拓展和增強(qiáng)用戶對(duì)周圍世界的感知。增強(qiáng)現(xiàn)實(shí)的目的在于將計(jì)算機(jī)生成的虛擬物體準(zhǔn)確地疊加到真實(shí)場景中并實(shí)現(xiàn)真實(shí)與虛擬場景無縫融合,進(jìn)而完成對(duì)真實(shí)場景的增強(qiáng)。
2.3 混合現(xiàn)實(shí)
混合現(xiàn)實(shí)(Mixed Reality,簡稱MR),即增強(qiáng)現(xiàn)實(shí)和增強(qiáng)虛擬)指的是合并現(xiàn)實(shí)和虛擬世界而產(chǎn)生的可視化環(huán)境,其中物理世界真實(shí)對(duì)象和數(shù)字世界虛擬對(duì)象共存,并實(shí)時(shí)互動(dòng)。
2.4 移動(dòng)增強(qiáng)現(xiàn)實(shí)
隨著iOS、Android等智能終端及寬帶移動(dòng)通信技術(shù)的成熟和商用,增強(qiáng)現(xiàn)實(shí)技術(shù)開始走進(jìn)人們的生活之中,以移動(dòng)定位與狀態(tài)感知、多媒體技術(shù)、3D渲染為基礎(chǔ)的增強(qiáng)現(xiàn)實(shí)應(yīng)用開始出現(xiàn),這就是移動(dòng)增強(qiáng)現(xiàn)實(shí)(Mobile Augmented Reality,MobAR)應(yīng)用。MobAR一經(jīng)出現(xiàn),就成為技術(shù)研究和標(biāo)準(zhǔn)化的熱點(diǎn)[2]。
隨著移動(dòng)增強(qiáng)現(xiàn)實(shí)市場規(guī)模不斷擴(kuò)大,用戶對(duì)增強(qiáng)現(xiàn)實(shí)的應(yīng)用體驗(yàn)要求日益提高:流暢展現(xiàn)、實(shí)時(shí)交互、持久運(yùn)行,都對(duì)移動(dòng)終端設(shè)備的計(jì)算能力、媒體處理能力等提出挑戰(zhàn)。然而,如何高效調(diào)用移動(dòng)終端硬件能力,如何在不同業(yè)務(wù)執(zhí)行環(huán)境中迅速識(shí)別和捕捉增強(qiáng)現(xiàn)實(shí)目標(biāo),如何實(shí)時(shí)疊加并流暢展現(xiàn)各種媒體類型的增強(qiáng)現(xiàn)實(shí)內(nèi)容,這些都極大影響用戶體驗(yàn),并最終決定市場成敗。為增強(qiáng)現(xiàn)實(shí)應(yīng)用提供技術(shù)支撐的增強(qiáng)現(xiàn)實(shí)關(guān)鍵技術(shù),包括:視覺搜索技術(shù)、目標(biāo)注冊(cè)跟蹤技術(shù)和內(nèi)容實(shí)時(shí)渲染技術(shù)。
3.1 視覺搜索技術(shù)
移動(dòng)視覺搜索技術(shù)屠指以移動(dòng)智能終端側(cè)的攝像頭作為信息捕獲設(shè)備,以實(shí)時(shí)獲取圖像或視頻作為查詢對(duì)象去搜索用戶感興趣的關(guān)聯(lián)信息的檢索技術(shù)[3,4]。隨著無線互聯(lián)網(wǎng)技術(shù)的發(fā)展以及移動(dòng)智能終端的處理能力越來越強(qiáng),這使得在移動(dòng)終端進(jìn)行一些復(fù)雜的圖像處理工作成為可能。在移動(dòng)終端側(cè)進(jìn)行特征點(diǎn)提取、描述子生成以及描述子編碼,向服務(wù)器端上傳描述子信息,而在服務(wù)器端進(jìn)行描述子解碼和圖像檢索。然而實(shí)際應(yīng)用中由于無線網(wǎng)絡(luò)環(huán)境的帶寬有限、帶寬不穩(wěn)定化及時(shí)延等問題,需要在不損失檢索性能前提下如何實(shí)現(xiàn)快速、低內(nèi)存開銷以及緊湊的描述子聚合方法。視覺搜索按照樣本集規(guī)模的不同可以分為兩類,對(duì)于規(guī)模較小的情況可以采用窮舉法或暴力匹配法,即將每個(gè)圖像的特征數(shù)據(jù)與樣本圖像特征逐一進(jìn)行距離比較,對(duì)于局部特征計(jì)算成功匹配的特征數(shù)目占樣本圖像特征數(shù)目的百分比,對(duì)于全局特征計(jì)算特征向量間的歐式距離、余弦距離等相似性度量方法,然后進(jìn)行排序,獲得搜索結(jié)果,這種方法的優(yōu)點(diǎn)是沒有離線訓(xùn)練過程,操作也很簡單,有效識(shí)別率很高,但耗時(shí)會(huì)隨著樣本圖像的增多而近似線性增加,檢索效率比較低。對(duì)于擁有海量樣本集的視覺搜索應(yīng)用,業(yè)界普遍采用 BOW(Bag Of Words)算法來進(jìn)行系統(tǒng)實(shí)現(xiàn),該算法的主要優(yōu)點(diǎn)就是其提取特征后檢索時(shí)間比較快速,并且檢索時(shí)間不會(huì)隨著樣本數(shù)目增加而發(fā)生大幅波動(dòng)。算法分為離線訓(xùn)練和在線檢索兩個(gè)階段,離線訓(xùn)練階段主要進(jìn)行碼本的訓(xùn)練,其碼本的訓(xùn)練過程訓(xùn)練時(shí)系統(tǒng)內(nèi)存占用較高,且由于算法本身不利于并行化處理導(dǎo)致耗時(shí)較長,同時(shí)碼本訓(xùn)練不支持增量訓(xùn)練,每新加入圖像,都需要對(duì)碼本進(jìn)行重新訓(xùn)練,在線檢索階段主要的問題是其召回率不高。
3.2 目標(biāo)注冊(cè)跟蹤技術(shù)
增強(qiáng)現(xiàn)實(shí)的最終結(jié)果就是將虛擬信息準(zhǔn)確地注冊(cè)到真實(shí)場景中,為實(shí)現(xiàn)虛擬信息與真實(shí)場景的完美融合,必須實(shí)時(shí)地跟蹤攝像機(jī)與真實(shí)物體間的位姿信息,建立觀測模型,進(jìn)而通過動(dòng)態(tài)三維顯示技術(shù)迅速地將虛擬信息疊加到真實(shí)物體之上,這就是跟蹤注冊(cè)技術(shù)[5-7]。跟蹤注冊(cè)技術(shù)可分為基于標(biāo)識(shí)物的跟蹤注冊(cè)技術(shù)和無標(biāo)志點(diǎn)跟蹤注冊(cè)技術(shù)。
基于標(biāo)識(shí)物的跟蹤注冊(cè)技術(shù)是當(dāng)前增強(qiáng)現(xiàn)實(shí)系統(tǒng)中最為成熟和實(shí)際應(yīng)用最為廣泛的注冊(cè)技術(shù),技術(shù)成熟度較高,但是其需要事先在真實(shí)環(huán)境中事先放置特別制作的標(biāo)識(shí)物,這導(dǎo)致了其應(yīng)用場景及其有限,且用戶體驗(yàn)并不好。
無標(biāo)識(shí)點(diǎn)跟蹤注冊(cè)技術(shù)指的是直接利用攝像頭實(shí)時(shí)獲取的視頻傾進(jìn)行跟蹤注冊(cè),實(shí)時(shí)獲取位置信息,完成虛擬物體與真實(shí)場景的疊加,可以應(yīng)用于戶外自然場景下的增強(qiáng)現(xiàn)實(shí)應(yīng)用中。目前無標(biāo)識(shí)點(diǎn)跟蹤注冊(cè)技術(shù)的發(fā)展仍停留在實(shí)驗(yàn)階段,并沒有非常完善的、廣泛的應(yīng)用。主要問題和難點(diǎn)有以下幾方面:首先,由于無標(biāo)注冊(cè)算法的技術(shù)難度非常大,算法復(fù)雜,其運(yùn)算效率是一個(gè)重要的問題,很多無標(biāo)注冊(cè)算法的效率較差,很難達(dá)到實(shí)時(shí)運(yùn)行,即使可以實(shí)時(shí)運(yùn)行的算法,留給 3D渲染的時(shí)間往往也很少。其次,無標(biāo)注冊(cè)中往往需要利用場景中的對(duì)應(yīng)特征集合進(jìn)行計(jì)算,而特征匹配很難避免外點(diǎn),因此算法的魯棒性也是一個(gè)難點(diǎn)。很多算法都無法在復(fù)雜多變的場景中運(yùn)行,當(dāng)背景過于復(fù)雜、運(yùn)動(dòng)過于劇烈、光照條件變化顯著時(shí),很多算法會(huì)失敗,因此無標(biāo)注冊(cè)對(duì)魯椿性要求很高。最后,無標(biāo)注冊(cè)算法往往需要很多復(fù)雜的預(yù)處理操作,如基于模型的注冊(cè)算法需要事先對(duì)場景準(zhǔn)確建模,基于特征的算法往往需要在算法初始化時(shí)給出初始估計(jì)等。目前業(yè)界比較常用的無標(biāo)識(shí)點(diǎn)跟蹤注冊(cè)技術(shù)有光流法、基于場景平面的増強(qiáng)現(xiàn)實(shí)跟蹤注冊(cè)方法、基于模型和關(guān)鍵憤的跟蹤注冊(cè)方法、基于SIFT特征匹配的跟蹤注冊(cè)算法等,均面臨在移動(dòng)智能終端側(cè)實(shí)時(shí)性和魯椿性不能兼得的問題。
3.3 內(nèi)容實(shí)時(shí)渲染技術(shù)
增強(qiáng)渲染是在真實(shí)場景中疊加增強(qiáng)顯示的三維物體,幫助用戶理解周圍環(huán)境[8,9]。由于智能移動(dòng)終端存在帶寬和計(jì)算能力這兩個(gè)因素的限制,要保證流暢的 AR體驗(yàn),需要輕量高效的渲染引擎支持。增強(qiáng)現(xiàn)實(shí)系統(tǒng)中渲染模塊的主要功能是完成對(duì)增強(qiáng)內(nèi)容進(jìn)行增強(qiáng)渲染,渲染模塊相對(duì)于其它模塊是一個(gè)比較獨(dú)立的模塊。輸入為位置矩陣,輸出為渲染效果。對(duì)于2D圖像、簡單3D模型和文字等增強(qiáng)內(nèi)容,一般使用OpenGLES進(jìn)行移動(dòng)增強(qiáng)現(xiàn)實(shí)繪制,對(duì)于復(fù)雜3D模型或者動(dòng)畫、視頻等増強(qiáng)內(nèi)容,一般采用專業(yè)的渲染引擎來處理。目前業(yè)界主要是應(yīng)用一些性能較好的開源或商業(yè)引擎來進(jìn)斤3D模型等增強(qiáng)內(nèi)容的渲染,如 Total Immersion使用的渲染引擎為開源渲染引擎 OGRE,通過 ARSDK和MetaioSDK提供Unity3D的擴(kuò)展可以進(jìn)行增強(qiáng)內(nèi)容的渲染。
隨著寬帶移動(dòng)通信技術(shù)的發(fā)展以及IOS、Android等移動(dòng)智能及智能應(yīng)用的出現(xiàn),曾經(jīng)局限于實(shí)驗(yàn)室的增強(qiáng)現(xiàn)實(shí)技術(shù)開始走進(jìn)大眾視野,一大批以終端定位、圖像識(shí)別為技術(shù)特征的移動(dòng)互聯(lián)網(wǎng)增強(qiáng)現(xiàn)實(shí)應(yīng)用開始涌現(xiàn)。本文介紹了移動(dòng)增強(qiáng)現(xiàn)實(shí)的關(guān)鍵技術(shù),為移動(dòng)增強(qiáng)現(xiàn)實(shí)的實(shí)現(xiàn)和廣泛應(yīng)用提供必要的理論和技術(shù)支撐。
[1]David G L. Distinctive image features from scale-invariant key points[J]. International Journal of Computer Vision, 2004(60): 91-110.
[2]Hebert B, Andreas E, Tirme T. SURF: Speed Up Robust Features[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.
[3]Li F F, Perona P. A Bayesian Hierarchical Model for Learning Natural Scene Categories[J]. Proc. of IEEE Computer Vision and Pattern Recognition, 2005: 24-31.
[4]Andrew D, Reid L, Nicholas M . Mono-SLAM: Real time single camera SLAM[J]. IEEE Transaction on Pattern Analysis and Machine Intelligent, 2007: 1052-1067.
[5]Georg K, David M. Parallel tracking and mapping for small AR workspaces[C]. In Proc. of International Symposium on Mixed and Augmented Reality, 2007: 225-234.
[6]Tamar S, Dro G, Sharon C . A novel perceptual image quality measure for block based image compression[J]. Image Quality and System Performance, 2011, 8(8): 156-175.
[7]Ding S H, Huang F Y, Xie Z F. A Customized Framework to Recompress Massive Internet Images[J]. Journal of Computer Science&Technology, 2012, 27(6): 1129-1139.
[8]Brown M, Hua G, Winder S A. Discriminative learning of local image descriptors[J].IEEE Trans. Pattern Analysis and Machine Intelligence, 201l, 33(l); 43-57.
[9]Chen D. Residual enhanced visual vector as a compact signature for mobile visual search[J]. Signal Processing, 2013, 93(8): 2316-2327.
[10]劉洋,鄭華,李筱楠.基于人工神經(jīng)網(wǎng)絡(luò)的茶葉鑒定專家系統(tǒng)設(shè)計(jì)與研究[J].福建茶葉,2016,08:13-14.
[11]齊會(huì)娟,李德雄,張?jiān)?基于物聯(lián)網(wǎng)的多目標(biāo)物流調(diào)度系統(tǒng)優(yōu)化設(shè)計(jì)[J].物流技術(shù),2015,12:173-175.
[12]齊會(huì)娟,李德雄.計(jì)算機(jī)圖像處理技術(shù)在茶葉感官品質(zhì)檢測中的應(yīng)用研究[J].福建茶葉,2016,05:18-19.
Review of the Key Technology of Mobile Augmented Reality
WEN Hong-nian LIU Yang HAN Duo-duo
(Shijizhuang Institute of Railway Technology Shijizhuang Hebei 050041 China)
The MAR applies the virtual augmented reality information to the real world, which has changed the way users observe the world. The traditional WEB page query mode based on text input in the browser will be changed to the next-generation show mode that the hotspot information captured by a variety of sensors is loaded into the real scene in the screen of the mobile, and which will enhance the user experience greatly.
Mobile Augmented Reality Visual Retrieval Registration Tracking Content rendering
A
1673-1816(2017)01-0071-04
2016-03-19
溫洪念(1985-),女,漢,貴州遵義人,碩士,助教,研究方向計(jì)算機(jī)軟件。
2016年河北省高等院校科學(xué)技術(shù)研究項(xiàng)目:ZC2016109; ZC2016137; ZD2016057
2016河北省科技計(jì)劃自籌經(jīng)費(fèi)項(xiàng)目: 15210149; 15270330
河北省教育廳2016青年基金項(xiàng)目:基于B/S結(jié)構(gòu)的BIM服務(wù)器中間件技術(shù)研究,基金號(hào):QN2016215河北省人力資源和社會(huì)保障課題:JRS-2016-1043